Le rapport Gartner Cloud DBMS considère MarkLogic comme un visionnaire

Aperçu

Toutes les grandes organisations disposent d'importantes quantités de données et celles-ci sont généralement réparties sur de nombreux systèmes disparates. Il ne s'agissait pas d'un choix conscient, mais plutôt d'un ensemble de compromis pragmatiques. Les silos constituent une dette technologique et ne cessent d'augmenter avec l'adoption des applications SaaS (Software as a Service) et d'autres offres cloud, ce qui augmente les frictions entre l'entreprise et l'informatique. L'intégration de ces silos de données est notoirement difficile, et l'utilisation d'un entrepôt de données traditionnel pose des problèmes évidents. C'est pourquoi les services informatiques ont cherché des approches modernes (à la demande pressante de l'entreprise).

Ce comparatif porte sur trois approches modernes de l'intégration des données : les lacs de données, la virtualisation des données (ou fédération) et les hubs de données. Ces trois approches simplifient la consommation en libre-service de données provenant de sources hétérogènes sans perturber les applications existantes. Toutefois, chacune de ces nouvelles approches comporte des compromis et elles ne s'excluent pas mutuellement : de nombreuses organisations continuent à utiliser leur lac de données parallèlement à une architecture centrée sur les hubs de données.

Tableau comparatif

Hub de données MarkLogic Data Lake Virtualisation des données
Ingestion de données
  • Chargement des données brutes en l'état
  • Migration physique des données et persistance dans une base de données
  • Chargement des données brutes en l'état
  • Migration physique des données et stockage dans HDFS ou un magasin d'objets
  • Vues virtuelles des données
  • Aucune donnée n'est déplacée physiquement
Modèle de données
  • Multi-modèle
  • Stockage JSON, XML et RDF natif
  • HDFS est un système de fichiers prenant en charge plusieurs modèles de données
  • Souvent identique aux systèmes fédérés sous-jacents, mais peut également créer de nouvelles vues composites ou couches sémantiques
Recherche et interrogation
  • Recherche en texte intégral, intégrée
  • Indexation complète (mots, structure, etc.)
  • Vues relationnelles sur des données non structurées
  • Variable. Différents outils permettent d'accéder aux données : Hive, Hbase, Impala, Presto, Drill, etc. Ces outils complémentaires tentent d'ajouter des capacités d'interrogation, mais sont généralement limités et complexes à gérer
  • Les requêtes sont optimisées et transmises aux systèmes sous-jacents. Dépend des index définis dans ces systèmes
Fonctionnalités opérationnelles
  • Transactions ACID à grande échelle
  • Traitement des données en temps réel
  • REST, JDBC, ODBC, etc.
  • Aucune transaction ACID, applications transactionnelles non exploitables
  • Autres outils utilisés pour rendre les données opérationnelles
  • Aucune transaction ACID, applications transactionnelles non exploitables
  • Peut fournir une couche d'accès pour la consommation des données via JDBC, ODBC, REST, etc.
Conservation

(harmonisation, enrichissement, maîtrise)

  • Pipelines de données hautement performants à grande échelle
  • Prise en charge d'outils tiers (MuleSoft, Apache NiFi)
  • Interface utilisateur intuitive du hub de données
  • Smart Mastering
  • Conservation agile des données
  • Variable. Certains outils prennent en charge « ELT » sur Hadoop. La plupart des cas d'utilisation impliquent l'utilisation d'un outil ETL avant ou après le transfert des données vers un lac de données
  • Prise en charge de la conservation des données lors de leur restitution ou de leur traitement, mais repose généralement sur des pipelines de données ou des outils ETL
Sécurité
  • Contrôles de sécurité granulaires
  • Contrôle de l'accès basé sur les rôles (RBAC) au niveau du document/de l'élément
  • Rédaction à l'exporation
  • Chiffrement avancé
  • Sécurité des données et gouvernance médiocres (ou du moins difficiles à rendre opérationnelles et nécessitant des outils supplémentaires pour combler les lacunes, comme Apache Atlas, Cloudera Navigator)
  • Contrôles de sécurité requis tant pour la base de données virtuelle que pour la base de données sous-jacente : les deux couches doivent être sécurisées
Évolutivité
  • Évolutivité de l'ordre du pétaoctet
  • Coût plus élevé en raison de l'indexation des frais généraux pour certaines mises en œuvre. De plus, MarkLogic Data Hub Service fournit une mise à l'échelle automatique prévisible et peu coûteuse
  • Évolutivité de l'ordre du pétaoctet
  • Idéal pour un stockage à faible coût
  • Performances similaires aux éléments fédérés les plus lents, et répercussions liées à la charge du système ou aux problèmes rencontrés dans tout élément fédéré
Performance
  • Transactions et analyses hautes performances
  • Matériel dédié, distinct des systèmes sources pour une mise à l'échelle indépendante
  • Analyses hautes performances
  • Performances dépendantes de l'infrastructure sur laquelle le système est exécuté
  • Analyses hautes performances
  • Performances dépendantes à la fois de l'infrastructure sur laquelle la base de données virtuelle est exécutée et des performances de l'infrastructure des systèmes sous-jacents
  • Performances également dépendantes de toutes les connexions réseau
Déploiement
  • Déploiement autogéré dans n'importe quel environnement
  • Et déploiement entièrement géré, sans serveur, avec MarkLogic Data Hub Service
  • Déploiement autogéré dans n'importe quel environnement
  • Très rapides à déployer, car aucune donnée n'a été transférée. Il peut être nécessaire de configurer uniquement une machine virtuelle

Qu'est-ce qu'un lac de données ?

Un lac de données est un référentiel central qui permet de stocker des données à n'importe quelle échelle ou dans n'importe quelle structure. Les lacs de données se sont popularisés avec l'essor de Hadoop, un système de fichiers distribués qui permet de déplacer facilement des données brutes vers un référentiel central où elles peuvent être stockées à faible coût. Dans les lacs de données, les données ne peuvent pas être conservées (enrichies, maîtrisées, harmonisées) ou ne sont pas consultables et elles nécessitent généralement d'autres outils de l'écosystème Hadoop pour analyser ou rendre opérationnelles les données dans un processus en plusieurs étapes. Mais ces lacs ont l'avantage de ne pas nécessiter beaucoup de travail en amont lors du chargement des données.

Les cas d'utilisation des lacs de données incluent le fait de servir de bac à sable analytique, d'entraîner des modèles d'apprentissage machine, d'alimenter des pipelines de préparation de données, ou simplement d'offrir un stockage de données à faible coût.

Il y a quelques années, le marché de Hadoop était disputé par trois acteurs principaux : Cloudera, Hortonworks et MapR. Aujourd'hui, il ne reste plus que Cloudera après sa fusion avec Hortonworks et la vente en catastrophe de MapR.

Pour de nombreuses organisations, les magasins d'objets comme Amazon S3 sont devenus de facto des lacs de données, et soutiennent la transition vers le cloud à partir d'un environnement Hadoop sur site.

Outre Hadoop, il existe de nombreux autres outils connexes dans l'écosystème Apache. Par exemple, Spark et Kafka sont deux outils populaires utilisés pour traiter des données de streaming et faire des analyses dans une architecture de streaming d'événements (ils sont respectivement commercialisés par Databricks et Confluent).

Un examen détaillé de ces outils n'est pas possible dans le cadre de ce comparatif. Mais, en général, ces outils sont complémentaires d'une approche de hub de données pour la plupart des cas d'utilisation. Ils gèrent des données de streaming mais nécessitent néanmoins une base de données. Par exemple, Kafka n'a pas de modèle de données, d'index ou de moyen d'interroger les données. En règle générale, une architecture basée sur les événements et une plate-forme d'analyse qui comporte un hub de données sous-jacent est plus fiable et plus opérationnelle que si elle n'en avait pas.

Qu'est-ce que la virtualisation des données ?

La virtualisation des données consiste à créer des vues virtuelles des données stockées dans les bases de données existantes. Les données physiques ne bougent pas, mais vous pouvez toujours obtenir une vue intégrée des données dans la nouvelle couche de données virtuelles. On parle souvent de fédération de données (ou base de données virtuelle), et les bases de données sous-jacentes sont les éléments fédérés.

Par exemple, vous avezr quelques bases de données Oracle et SAP en cours d'exécution et un service demande à accéder aux données de ces systèmes. Plutôt que de déplacer physiquement les données via ETL et de les conserver dans une autre base de données, les architectes peuvent virtuellement (et rapidement) récupérer et intégrer ces données pour cette équipe ou ce cas d'utilisation particulier.

Avec la virtualisation des données, les requêtes atteignent la base de données sous-jacente. Les nouvelles technologies de virtualisation sont de plus en plus sophistiquées en matière de planification et d'optimisation de l'exécution des requêtes. Elles peuvent utiliser des données mises en cache en mémoire ou utiliser un traitement massivement parallèle (MPP) intégré, et les résultats sont ensuite réunis et mappés pour créer une vue composite des résultats. De nombreuses technologies de virtualisation des données plus récentes peuvent également écrire des données (et pas seulement les lire). Des solutions plus récentes montrent également des progrès en matière de gouvernance des données, en masquant les données pour différents rôles et cas d'utilisation et en utilisant le LDAP pour l'authentification.

La réduction du délai de valorisation est l'un des principaux avantages de la virtualisation des données. Elle nécessite moins de travail et de dépenses avant que vous puissiez commencer à interroger les données, car celles-ci ne sont pas physiquement déplacées, et ainsi perturbent moins votre infrastructure existante.

Autre avantage majeur, la virtualisation des données donne aux utilisateurs la possibilité d'exécuter des requêtes SQL ad hoc sur des sources de données structurées et non structurées. Il s'agit là d'un cas d'utilisation principal pour la virtualisation des données.

Malgré tous ces avantages, quels sont les inconvénients de la virtualisation des données ?

  • Les bases de données virtuelles n'indexent pas les données et ne disposent pas de stockage de données distinct pour stocker les index. Elles s'appuient sur les systèmes sources sous-jacents pour avoir des index, qui sont souvent inadéquats.
  • Les bases de données virtuelles transposent toute requête en une requête différente pour chaque système source et s'exécutent sur tous les systèmes sources. Cela peut engendrer des problèmes de performance sur le réseau et le système sera toujours confronté à des problèmes de capacité réseau.
  • Les bases de données virtuelles ne permettent pas de « conserver » les données, d'en améliorer la qualité ou d'effectuer le suivi de la traçabilité ou de l'historique des données. Elles n'effectuent qu'une harmonisation minimale des données, et seulement lorsque les données sont restituées ou traitées. Il n'y a pas de forme canonique persistante des données pour créer une source unique de vérité et la partager en toute sécurité avec les consommateurs en aval.
  • Les bases de données virtuelles ont généralement des contrôles de sécurité limités (ou du moins plus complexes à mettre en œuvre). Par exemple, elles peuvent uniquement sécuriser les données virtuelles au niveau des tables, et non par enregistrement.
  • Le volume des bases de données virtuelles sera toujours limité au volume des données dans les systèmes sources sous-jacents.

Parmi les entreprises proposant des solutions de virtualisation des données autonomes, citons SAS, Tibco, Denodo et Cambridge Semantics. D'autres fournisseurs tels qu'Oracle, Microsoft, SAP, et Informatica intègrent la virtualisation des données dans leurs produits phares.

Qu'est-ce qu'un hub de données ?

Les hubs de données sont des magasins de données qui agissent comme un point d'intégration au sein d'une architecture de réseau en étoile. Ils déplacent et intègrent physiquement des données multi-structurées et les stockent dans une base de données sous-jacente.

Voici quelques-uns des principaux avantages d'un hub de données

  • Les hubs de données sont alimentés par une base de données multi-modèles sous-jacente (dont les lacs de données et les bases de données virtuelles ne disposent pas), ce qui leur donne la capacité de servir de système de vérité avec toute la sécurité d'entreprise requise, y compris la confidentialité des données (contrôle d'accès), la disponibilité des données (haute disponibilité/reprise après sinistre) et l'intégrité des données (transactions distribuées).
  • Les hubs de données disposent des outils nécessaires pour conserver les données (enrichissement, maîtrise, harmonisation) et ils soutiennent l'harmonisation progressive, dont le résultat est conservé dans la base de données.
  • Les hubs de données prennent en charge des applications opérationnelles et transactionnelles, ce que les lacs de données ne permettent pas. Et, si les bases de données virtuelles peuvent prendre en charge les transactions, la charge est ralentie par les performances des systèmes de bases de données sous-jacents.

Grâce à ces avantages, un hub de données peut agir comme un complément important des lacs de données et de la virtualisation des données en fournissant une couche de données transactionnelle et régie. Nous abordons ce point plus en détail ci-dessous.

Quels sont les meilleurs cas d'utilisation pour un hub de données ?

Voici quelques-uns des signes qui indiquent qu'un hub de données est un bon choix pour votre architecture :

  • Lorsque vous souhaitez intégrer des données multi-modèles : les hubs de données sont efficaces pour intégrer des données multi-structurées et évolutives. Ils sont adaptés si vous souhaitez effectuer le suivi de la provenance de vos données et imposer un modèle de données de sécurité unique et facile à gérer. Ils offrent également des capacités de conservation intégrées pour enrichir, harmoniser et maîtriser les données (y compris la déduplication).
  • Lorsque l'entreprise a besoin d'un service de données rapide : les hubs de données offrent une certaine souplesse en termes de réception des données et de rapidité d'obtention de valeur. Ils sont bien plus que de simples bacs à sable analytiques. Un hub de données rempli de données bien conservées peut commencer à générer de la valeur commerciale avec des services de données en quelques semaines.
  • Lorsque vous avez besoin de vues opérationnelles en temps réel : les hubs de données sont opérationnels et transactionnels, fournissent des vues en temps réel et agissent comme une source unique de vérité. Ils constituent donc un bon choix lorsque votre équipe d'analystes a besoin d'une analyse opérationnelle en temps réel, et non d'un instantané historique.
  • Lorsque vous avez besoin d'une plate-forme stable et d'un point d'intégration fiable : les hubs de données sont soutenus par une base de données. Ils fonctionnent indépendamment des autres systèmes et ne sont donc pas liés à leurs contraintes en termes de réseau ou d'infrastructure. De plus, ils assurent la persistance des données, de hautes performance et la reprise après sinistre, la cohérence transactionnelle, la sécurité de l'entreprise et toutes les autres capacités requises pour agir comme une plate-forme stable.

Nos clients utilisent généralement la plate-forme MarkLogic Data Hub pour des cas d'utilisation tels que la création d'une vue unifiée, l'analyse opérationnelle, la monétisation du contenu, la recherche et le développement, l'IdO industriel, la conformité réglementaire, l'intégration ERP et les migrations de l'ordinateur central.

Quand un lac de données constitue-t-il une solution plus adaptée ?

Les lacs de données sont parfaits pour la diffusion de données en continu, et servent de solides référentiels lorsque les organisations ont besoin d'une option peu coûteuse pour stocker d'importantes quantités de données, structurées ou non. La plupart des lacs de données sont soutenus par HDFS et se connectent facilement à l'écosystème Hadoop au sens large. C'est un bon choix pour les grandes équipes de développement qui souhaitent utiliser des outils Open Source et ont besoin d'un bac à sable analytique à faible coût. De nombreuses organisations utilisent leur lac de données comme « banc d'essai pour la science des données » pour mener des projets d'apprentissage machine dans le cadre desquels les data scientits ont besoin de stocker des données d'entraînement et d'alimenter Jupyter, Spark ou d'autres outils.

Quand la virtualisation des données consitue-t-elle la meilleure option ?

La virtualisation des données est la meilleure option pour certains cas d'utilisation analytique qui n'ont pas besoin de la robustesse d'un hub de données pour l'intégration des données. Elle peut être déployée rapidement et, comme les données physiques ne sont jamais déplacées, elle ne nécessite pas beaucoup de travail pour la mise en place de l'infrastructure au début d'un projet. Une autre utilisation courante de la virtualisation des données consiste pour les équipes chargées des données à exécuter des requêtes SQL ad hoc en plus des sources de données non relationnelles.

Comment un hub de données, un lac de données et la virtualisation des données peuvent coexister ?

Les hubs de données et la virtualisation des données sont deux approches différentes de l'intégration des données et peuvent entrer en concurrence pour le même cas d'utilisation. Nous constatons que les clients qui utilisent un hub de données n'ont généralement pas besoin de mettre également en œuvre la virtualisation des données. Le hub de données offre presque tous les mêmes avantages. Par exemple, de nombreux clients de MarkLogic ont développé des référentiels de métadonnées (ou de contenu) pour virtualiser leurs données stratégiques à l'aide de MarkLogic Data Hub.

Cela dit, il est possible de traiter un hub de données MarkLogic comme une source de données à fédérer, comme toute autre source de données. Par exemple, MarkLogic Data Hub peut être utilisé pour intégrer des données provenant de plusieurs sources et peut être accessible en tant que source de données fédérées à l'aide d'outils comme Spark pour l'entraînement et la notation des modèles d'apprentissage machine.

Les lacs de données sont très complémentaires des hubs de données. Un grand nombre de nos clients ont utilisé MarkLogic Connector for Hadoop pour transférer des données de Hadoop vers MarkLogic Data Hub, ou inversement. Le hub de données se trouve au sommet du lac de données, où les données de haute qualité, conservées, sécurisées, dédupliquées, indexées et interrogeables sont accessibles. De plus, pour gérer des volumes de données extrêmement importants, MarkLogic Data Hub offre une hiérarchisation automatisée des données pour stocker et accéder en toute sécurité aux données d'un lac de données.

Le plus souvent, les clients disposent d'un lac de données existant et sont en train de migrer vers une autre solution, ou ils choisissent de décharger les données peu utilisées dans Hadoop pour bénéficier des avantages d'un stockage à faible coût ou pour soutenir des projets d'apprentissage machine.

En savoir plus

Pour déterminer l'étape suivante de la planification de votre architecture, voici le récapitulatif des options à prendre en compte :

  • Choisissez de développer un nouveau hub de données, avec MarkLogic Data Hub Service, pour votre prochain projet d'intégration de Big Data plutôt que d'avoir recours à un lac de données ou à la virtualisation des données (ou d'essayer de développer un hub de données sur mesure avec de nombreux composants assemblés).
  • Développez un hub de données au-dessus d'un lac de données, en utilisant MarkLogic Data Hub Service comme point d'intégration pour la conservation et la gouvernance des données et le lac de données pour le traitement par lots et la science des données.
  • Consolidez autant de données que possible via l'intégration dans un ou plusieurs hubs de données et exposez-les via la virtualisation des données.

De nombreux clients ont choisi de compléter ou de remplacer leur lac de données ou la virtualisation des données par MarkLogic Data Hub. Vous pouvez par exemple examiner les cas de Northern Trust, AFRL et Chevron.

Inscrivez-vous à notre démo en direct

Découvrez comment MarkLogic accélère l'intégration des données, réduit les coûts et permet de sécuriser le partage de données.

Inscrivez-vous

Ce site utilise des cookies.

En continuant votre navigation sur ce site, vous acceptez l'utilisation de cookies en accord avec la Déclaration de confidentialité MarkLogic.