Hadrien Diesbecq Le 16 mars 2022

Data fabric, data hub, data lake…quelles différences ?

Les confusions sont nombreuses entre les infrastructures de données type data lake et les architectures type data fabric. Il est pourtant fondamental de bien les distinguer et de comprendre leur complémentarité.

Data warehouse, data lake, data hub, data fabric, il est parfois très difficile de s’y retrouver dans cette sémantique autour des solutions de stockage et de traitement des données. Au cours des décennies, des évolutions majeures ont permis de révolutionner la manière d’utiliser la donnée au sein des entreprises, mais des confusions règnent encore, empêchant d’exploiter le plein potentiel de ces solutions.

Il est toujours très important de connaître le type de données que l’on manipule et notamment la manière dont elles sont organisées, cela a une influence sur l’architecture de stockage à privilégier et les algorithmes utilisés pour traiter ces données. On en distingue 3 types :

– Les données structurées (données rigoureusement organisées sous formes de tableaux, avec des lignes et des colonnes : tableurs, annuaires, …)
– Les données semi-structurées (données faiblement organisées avec uniquement des tags ou des séparateurs : tweets organisés par hashtags, fichiers organisés par dossiers, …)
– Les données non structurées (données qui n’ont pas de forme particulière d’organisation : e-mails, images, vidéos, …)

Alors qu’à l’origine, seules les données structurées pouvaient être stockées et traitées, l’explosion du nombre de données et l’utilisation massive qui en est faite aujourd’hui a conduit à développer de nouveaux systèmes capables d’intégrer des données semi-structurées voire non-structurées.

Petit tour d’horizon de ces différentes solutions : de leur fonctionnement, de leurs avantages et limites et en quoi elles se distinguent et sont complémentaires.

‍

1. Les bases de données ou databases
‍

Une base de données est une collection d’informations très structurée. Organisée généralement sous forme de tableau, chaque donnée y est stockée dans une cellule prédéfinie, dont la ligne désigne un objet et dont la colonne correspond à l’attribut de l’objet. Par exemple, dans une base de données commerciale d’une société, chaque ligne indique un prospect et chaque colonne inclut un attribut comme le nom, l’adresse postale, le numéro de téléphone, etc. Utiliser une base de données est donc la manière la plus simple de stocker des données, mais aussi la plus rigide. En effet, d’une part seules des données structurées peuvent venir les alimenter, et d’autre part les champs de données n’ont pas vocation à être modifiés une fois renseignés. Autre particularité, les bases de données servent exclusivement à réaliser des échanges de données. Elles ne sont donc pas conçues pour permettre d’effectuer des tâches d’analyse. Leur traitement des bases de données s’effectue par le biais de systèmes de gestion de bases de données (SGBD) qui utilisent des langages de requête pour manipuler les objets qu’elles contiennent, dont le plus connu et utilisé reste SQL (Structured Query Language).

2. Les entrepôts de données ou datawarehouses
‍

Les entrepôts de données sont des systèmes de stockage plus avancés que les bases de données. Ce sont en réalité des lieux de stockage volumineux connectés à plusieurs bases de données opérationnelles (issues du marketing, des ventes, de l’Entreprise Ressource Platform, du Customer Relationship Management, etc.). Le but des entrepôts de données est donc de centraliser toutes ou partie de ces données afin qu’elles servent de référence pour des outils d’analyse. Par exemple, pour déterminer l’efficacité d’une campagne de prospection, il y aura besoin à la fois des données de vente et des données sur les prospects. Plutôt que d’aller chercher des données directement sur les bases de données correspondantes, ce qui pourrait venir les altérer et complexifierait l’architecture de la solution, un algorithme traitera les données directement dans l’entrepôt de données. Ce dernier est donc un véritable socle de données à la base de l’informatique décisionnelle (ou business intelligence).

Alimenter un entrepôt de données requiert donc de traiter des données issues de sources très diverses. Ce processus générique est appelé ETL pour Extract, Transform & Load. Il s’agit d’extraire des données provenant de différentes bases de données, de les transformer pour qu’elles soient au bon format et sans erreur pour enfin les charger dans l’entrepôt de données. Parmi ces étapes, la partie Transform est cruciale. Il n’est en effet pas envisageable d’utiliser des programmes de business intelligence si les données qui les alimentent ne sont pas de bonne qualité. Il faut donc les standardiser dans un même format, les dédupliquer pour supprimer les redondances ou encore les trier. Même s’il existe des outils qui les prennent en charge, ces fonctions ETL sont réalisées par codage manuel ou en corrigeant et modifiant directement les données sur les tableurs Excel. Outre le fait que ce type de tâche réalisée manuellement est extrêmement chronophage, elle pose également des problèmes de maintenance et de mise à l’échelle lorsque le volume de données augmente. Ainsi, disposer d’un data warehouse implique nécessairement de mettre en place un système de gestion de la qualité des données afin de pouvoir réaliser des analyses fiables.

Enfin, il est à noter, et c’est ce qui en fait sa principale limite, qu’un entrepôt de données ne peut contenir que des données structurées. Toute donnée non structurée ne pourra donc y être stockée.

Comment faire alors pour exploiter ce type de données, qui peut être très abondant dans certaines organisations ? Dans ce cas, un troisième système de stockage doit être implémenté : le data lake.

3. Les lacs de données ou data lakes
‍

Les lacs de données, tout comme les entrepôts de données, sont des espaces de stockage destinés à contenir des volumes très importants de données. Néanmoins, à la différence des data warehouses, les data lakes sont dimensionnés pour pouvoir être alimentés par des données à la fois structurées, semi-structurées et non structurées. Un data lake va donc accueillir majoritairement des données qui n’ont été que très peu transformées et qui peuvent être sous n’importe quel format : vidéo, texte, images, etc. Tout comme les entrepôts de données, les data lakes sont des points d’entrée d’outils d’analyse capables de traiter une grande variété de données. Leur utilité est donc considérable lorsqu’il s’agit de déployer des projets de machine learning. Ces derniers sont en effet adaptés pour ingérer d’importants volumes de données, même non-structurées. Le data lake se veut donc être un lieu de stockage très flexible à partir duquel de nombreux modèles viennent chercher leurs données. Un autre avantage est qu’il peut être déployé on-premise, c’est-à-dire sur les serveurs internes de l’entreprise, ou sur le cloud. Dès lors, le déploiement ainsi que la connexion avec d’autres services cloud d’analyse, de visualisation ou de traitement des données sont grandement facilités.

Cette architecture agile requiert néanmoins des précautions particulière pour être pleinement opérationnelles. Parmi elles :

– La nécessité d’implémenter des outils de recherche de données. Les data lakes peuvent en effet être très denses, avec de nombreuses données très différentes qui se retrouvent mélangées. Il est essentiel de pouvoir s’y retrouver.
‍
– La nécessité de mettre en place un système de gouvernance. Les données qui y sont stockées peuvent provenir de sources diverses (locale, régionale, mondiale) avec des degrés de sensibilité et d’importance stratégique variés (en particulier en ce qui concerne les données clients). Être capable de contrôler leur accès à un niveau de granularité fin est indispensable.
‍
– La nécessité d’intégrer des outils de préparation des données. La particularité des data lakes est que les données qu’ils contiennent sont très disparates. Cela entraîne alors souvent des problèmes de qualité des données : un format erroné, des fautes textuelles, des duplicatas. Cela peut être très problématique lorsque ces données viennent alimenter les algorithmes d’intelligence artificielle. Bien préparer les données issues de lacs de données est donc d’une importance cruciale.

Nous avons donc vu les trois principaux systèmes de stockage que peuvent détenir les entreprises. Plus ou moins élaborés, ils ont tous la particularité de servir de base pour le déploiement de divers outils de traitement de données : préparation, analyse, visualisation, etc. Cependant, ils ne se suffisent pas par eux-mêmes. Il existe en réalité d’autres classes d’infrastructures qui vont permettre de gérer les flux de données qui circulent au sein des organisations.

‍

4. Les hubs de données ou data hubs
‍

Parmi elles, on retrouve les hubs de données. Les data hubs sont des plateformes dont le but est de favoriser le partage et la gouvernance des données. La plus-value du data hub réside donc dans sa capacité à connecter les systèmes de stockage entre eux et avec des applications à visée commerciale (comme des modèles prédictifs de vente). En effet, le problème que rencontrent la plupart des entreprises est que leurs données sont organisées en silos, suivant les principales branches d’activité de l’entreprise (marketing, ventes, RH, logistique, etc.). Chacune disposant de son système de stockage, elles ne permettent de disposer d’une vue globale de l’activité de l’entreprise. Or, pour analyser efficacement leurs données, résoudre des problèmes business concrets ou répondre à des questions précises en provenance de leurs fournisseurs, clients ou partenaires, les entreprises ont besoin que leurs données soient le plus possible reliées entre leurs infrastructures de stockage. Le data hub agit ainsi comme un point central qui assure cette connexion. Les données qui y sont stockées le sont de manière très brèves et il n’est pas directement le support pour des outils d’analyse, contrairement aux data lakes et data warehouses. Il peut néanmoins servir d’interface pour de nombreux utilisateurs pour rechercher, accéder ou traiter leurs données. Enfin, il peut agit comme un organe de gouvernance en contrôlant l’accès à différents types de données suivant le profil de l’usager.

5. Les matrices de données ou data fabrics
‍

Les matrices de données correspondent à la phase la plus aboutie du partage de données au sein des entreprises. Il s’agit d’une architecture de management des données qui se présente sous la forme d’un réseau logique de données structurées. Le fonctionnement d’une data fabric est donc similaire à celui d’un cerveau humain. Ce dernier est un réseau physique qui permet de connecter des informations provenant de différentes aires pour prendre des décisions en temps réel. De manière analogue, une data fabric est un réseau logique qui vient connecter des données entre diverses entités d’entreprises pour des cas d’usage à la fois opérationnels et stratégiques. Les possibilités offertes sont donc beaucoup plus nombreuses que celles que l’on peut trouver au d’autres infrastructures de type data lake. Deux éléments clés distinguent en effet les data fabrics des autres types d’architecture :

– Tous les processus d’ingestion, d’intégration, de préparation et de délivrance des données sont complètement automatisés. L’utilisateur, du data scientist voulant entraîner son modèle au décideur souhaitant connaître les raisons de la baisse de chiffre d’affaire à un niveau très local, a ainsi un accès direct à une donnée fiable et de qualité. Les cas d’usage rendus possibles par les data fabrics sont donc extrêmement variés et complexes : analyses prédictives ajustées en temps réel, assistants intelligent d’aide à la décision, optimisation fine de processus, etc.
‍
– L’utilisation active de métadonnées (informations qui concernent les données elles-mêmes : localisation, propriétaire, date de mise à jour, …) permet d’assurer une gouvernance à un niveau de granularité très élevé. Concrètement, les données traitées au sein du data fabric sont mises à jour en temps réel et leur accès peut être ajusté à l’utilisateur près pour tout un set de données, un fichier spécifique voire même une cellule d’un tableur. De plus, les données sont complètement connectées grâces à des modèles de type graphe, qui désignent des structures faites de noeuds et de liens qui permettent de relier très facilement des éléments distincts.

Les data fabrics ne sont en réalité pas des solutions logicielles à part entière mais davantage des architectures composées de plusieurs outils dont le but est de partager et gouverner beaucoup plus efficacement les données. Elles ne vont donc pas remplacer les autres infrastructures déjà mises en place mais les unifier et les opérationnaliser à plus grande échelle. C’est pour cette raison que l’on parle de design data fabric. Il s’agit de connecter efficacement tout l’écosystème data d’une organisation pour développer des modèles de gestion des données complexes rapidement et à beaucoup plus grande échelle que ce qui est fait aujourd’hui.

Il apparaît ainsi que les systèmes de stockage dont disposent les entreprises sont de plus en plus complexes. Si à l’origine, seuls de petits volumes de données structurées pouvaient être traités dans des bases de données, il est aujourd’hui possible d’exploiter de gros volumes de données sous différents formats dans des entrepôts de données voire des lacs de données. Cependant, le principal problème que rencontrent les organisations est que leurs données sont souvent difficiles à trouver et surtout organisées en silos. C’est pour cette raison que des infrastructures de type data hub sont de plus en plus implémentées. Un point essentiel est que data warehouses, data lakes et data hubs ne sont pas à opposer, ils sont au contraire complémentaires et doivent être mis en interaction pour être pleinement effectifs.

À plus long terme, le design data fabric permettra d’assurer un partage, une gouvernance et une qualité des données de manière optimale, avec une multitude d’applications business à la clé.

Pour y parvenir, il est alors important d’intégrer les bons outils au sein de ces architectures pour délivrer en temps réel une donnée fiable, pertinente et qui a de la valeur. C’est un véritable enjeu stratégique pour devenir pleinement data-driven (lire notre article sur le sujet ici).

‍

‍Chez YZR, nous développons un outil de préparation automatisée des données. Délivré sous la forme d’une interface et d’une API, notre outil peut se connecter à votre data warehouse ou data lake pour améliorer la qualité des données qu’ils contiennent. Il s’inscrit également dans la tendance data fabric, permettant un partage efficace de vos données.
‍

YZR est une plateforme d’intelligence artificielle no-code 100% dédiée à normalisation des données textuelles, qui est l’une des phases les plus importantes de la préparation de vos données. Outil plug&play, il s’adresse aux opérationnels (chefs de produits, acheteurs, etc.) et à tous ceux qui comprennent parfaitement le contexte métier dans lequel s’inscrivent les données. Car nous sommes convaincus que leurs compétences seraient bien mieux utilisées pour exploiter les données plutôt que de perdre beaucoup de temps à les préparer manuellement.

Notre outil SaaS est ainsi spécialement conçu pour résoudre vos problématiques liées à :

– La multiplicité de vos sources de données
– L’absence de conventions de nommage
– La correction manuelle des données
– La gouvernance et le partage des données

Il s’intègre également parfaitement à vos différents outils (Product Information Management, Master Data Management, Data Science – Machine Learning, Business Intelligence), pour vous permettre d’atteindre entre autres :

– Une meilleure connaissance du client
– Des prévisions de vente optimisées
– Une digitalisation accélérée de votre offre.

Autrement dit, avec YZR, vous exploitez le plein potentiel de vos données.

Envie d’en savoir plus ? Vous souhaitez obtenir une démonstration de notre produit ? N’hésitez-pas à nous contacter directement sur notre site ou à l’adresse hadrien@yzr.ai

‍

Pour aller plus loin

Si aujourd’hui, le développement de l’intelligence artificielle et du machine learning offre aux entreprises de nouvelles possibilités pour analyser et modéliser l’énorme quantité de données qu’elles produisent, il n’en reste pas moins qu’elles se heurtent à une difficulté très importante : la mauvaise qualité et l’hétérogénéité des données à la source.

Cela est particulièrement vrai dans les secteurs de la distribution et des produits de grande consommation pour lesquels résoudre le problème de l’hétérogénéité des données produits constitue un levier de croissance majeur.

Pour comprendre pourquoi et en apprendre davantage, n’hésitez pas à télécharger notre livre blanc disponible ici !

‍

Sources :

– Gartner ; Data Hubs, Data Lakes et Data Warehouses : How They Are Different and Why They Are Better Together; Ted Friedman, Nick Heudecker ; 02 juin 2021.
– Gartner ; What Is Data Fabric Design?; Robert Thanaraj, Mark Beyer, Ehtisham Zaidi ; 14 avril 2021.

Contenus liés

IA Ecommerce

Panorama des solutions IA pour le e-commerce en 2024

Découvrir

Ecommerce Étude La data au quotidien Divers

Internet : 30 chiffres clés à connaître en 2024