MarkLogic utilise l'apprentissage machine pour résoudre des problèmes de données complexes en s'appuyant sur la nouvelle fonction Embedded Machine Learning qui est au cœur de MarkLogic.

Embedded Machine Learning de MarkLogic vous permet d'obtenir les meilleurs résultats car vos modèles d'apprentissage machine accèdent directement à des données de haute qualité, conservées et gouvernées. Et si vous n'êtes pas un expert, vous pouvez aussi obtenir des résultats. Nous utilisons également cette fonction pour améliorer le fonctionnement de MarkLogic et la conservation des données, mais elle est totalement transparente pour les utilisateurs du hub de données MarkLogic.

Qu'est-ce que l'apprentissage machine ?

L'apprentissage machine peut être considéré comme une reconnaissance de modèles dans les données. Le défi, cependant, réside dans les données volumineuses et complexes qui rendent difficile la détection des relations entre les attributs dans les données sans outils avancés. Un modèle d'apprentissage machine est une représentation mathématique des relations qui vous permettent de :

  • Prédire un état futur selon les modifications que ces caractéristiques pourraient subir. Par exemple, une personne présente un risque élevé d'être atteinte d'un problème de santé en raison de changements non manifestes dans son mode de vie ou son état.
  • Classer les nouvelles données en fonction des modèles historiques. Par exemple, un nouveau client possède des attributs extraits de dossiers de santé sous forme de texte qui le placent dans une certaine catégorie.

Mais avant tout, l'apprentissage machine fournit des données et des connaissances dont le niveau de précision n'était pas possible auparavant.

Les défis de l'apprentissage machine

Manque de qualité et de gouvernance — Vous avez besoin d'une gouvernance adaptée pour faire confiance à vos données non seulement pour un apprentissage machine efficace, mais aussi pour favoriser la confiance dans les résultats de l'apprentissage machine. Vous devez être capable de répondre à des questions telles que : Quelles données devraient être utilisées ? D'où viennent les données et qu'en a-t-on fait ? Est-ce qu'elles contiennent des données personnelles identifiantes ? S'agit-il des mêmes données que la dernière fois ? La fiabilité des données est essentielle car l'apprentissage machine peut être encore plus sensible à la qualité des données puisque vous utilisez les mêmes données pour entraîner et pour exécuter le modèle. Par conséquent, tout problème de qualité des données est amplifié.

Écosystème du Far West — L'écosystème des outils d'IA et de l'apprentissage machine est incroyablement complexe et comme la sécurité et la gouvernance deviennent une priorité, il est difficile de trouver des personnes possédant les compétences nécessaires au développement et à la maintenance des systèmes. Selon un article du New York Times, les experts des données consacrent 80 % de leur temps uniquement au triage des données.

Faible retour sur investissement de l'entreprise — Souvent, l'entreprise ne fait pas confiance aux résultats « boîte noire » des modèles d'apprentissage machine, même lorsqu'ils sont précis. Pour la plupart des entreprises, les investissements en IA ressemblent davantage à des projets scientifiques qu'à une infrastructure de base parce que les entreprises ne comprennent pas les résultats des modèles d'apprentissage machine ou ne leur font pas confiance pour prendre des décisions en fonction. De plus, les experts en données et l'infrastructure matérielle dont ils ont besoin coûtent cher. Des coûts élevés et des résultats médiocres se traduisent par un retour sur investissement globalement faible.

La solution MarkLogic

Nous pensons qu'un hub de données constitue un environnement idéal pour l'apprentissage machine puisque les données peuvent y être sécurisées, gouvernées et conservées. C'est pourquoi nous avons intégré MarkLogic Embedded Machine Learning au cœur de MarkLogic. Les routines d'apprentissage machine peuvent s'exécuter à proximité des données, en parallèle sur un cluster MarkLogic, sous la protection d'un environnement sécurisé.

Principaux avantages

Amélioration des opérations de base de données


Avec Embedded Machine Learning, MarkLogic exécutera les requêtes de manière plus efficace et évoluera de manière autonome en fonction des modèles de charge de travail. Avec une élasticité autonome, par exemple, MarkLogic peut utiliser des modèles de charge de travail d'infrastructure pour ajuster automatiquement les règles qui régissent les données et le rééquilibrage d'index.

Amélioration de la conservation des données


Embedded Machine Learning réduit la complexité et fait progresser l'automatisation des différentes étapes du processus de conservation des données. Par exemple, grâce à la fonction Smart Mastering de MarkLogic, l'apprentissage machine enrichit le processus de gestion basé sur des règles afin que les enregistrements soient maîtrisés avec plus de précision et que les modèles continuent à s'améliorer à mesure que de plus en plus de données sont traitées, le tout avec moins d'intervention humaine.

Amélioration des flux de travail en science des données


Pour les scientifiques des données, il est maintenant plus simple d'effectuer le travail de formation et d'exécution des modèles directement dans MarkLogic, où nous pouvons gérer presque toutes les composantes de l'architecture et du processus. Cela comprend le traitement/la conservation des données et l'ingénierie du modèle pour développer, former, exécuter et déployer le modèle.

Fonctionnement

Embedded Machine Learning de MarkLogic est un kit d'outils d'apprentissage complet qui fonctionne comme une bibliothèque d'exécution installée au cœur même de MarkLogic, dans le noyau de la base de données. Il expose ses fonctions en tant qu'éléments intégrés provenant de JavaScript et XQuery, ce qui signifie que ces fonctions s'exécutent à proximité des données et sont complètement intégrées.

Embedded Machine Learning a été conçu pour conférer des performances maximales non seulement aux processeurs mais aussi aux processeurs graphiques, et s'adapte aux systèmes multi-machine intégrant plusieurs processeurs graphiques. De plus, sa conception fait appel à une technique de compression qui réduit considérablement les coûts de communication, ainsi que les communications inter-nœuds et permet une formation parallèle hautement évolutive sur plusieurs machines.

Embedded Machine Learning prend également en charge le format Open Neural Network Exchange ONNX , une représentation de modèle partagé open source permettant l'interopérabilité du framework et l'optimisation partagée.  ONNX permet aux développeurs de déplacer des modèles entre des frameworks populaires tels que CNTK, MXNet, PyTorch et autres.

Le kit d'outils utilisé pour développer Embedded Machine Learning de MarkLogic a été initialement développé par Microsoft en collaboration avec Facebook et AWS et publié sous le nom de Cognitive Toolkit, ou CNTK. Microsoft a utilisé CNTK pour développer des produits clés comme Skype, HoloLens, Cortana et Bing.

Architecture

Interface du serveur client

La meilleure base de données pour l'apprentissage machine et l'IA

Regardez une présentation des nouveaux algorithmes d'apprentissage machine et des capacités d'accélération des processeurs graphiques de MarkLogic. Apprenez-en davantage sur la conservation des données et découvrez l'implémentation de l'apprentissage machine dans une entreprise.

Ressources connexes

Documentation
Consultez nos documents sur l'apprentissage machine

EN SAVOIR PLUS

Article
Lisez notre annonce sur l'apprentissage machine

En savoir plus

Webinaire
Regardez notre webinaire avec une démo sur Embedded Machine Learning

En savoir plus

Très complet et conçu pour les entreprises

Ce site utilise des cookies.

En continuant votre navigation sur ce site, vous acceptez l'utilisation de cookies en accord avec la Déclaration de confidentialité MarkLogic.