Retour
Hadrien Diesbecq Le 16 mars 2022

Tout comprendre au design data fabric en 6 points

Une data fabric est une architecture qui vise à optimiser la distribution, le partage et l’exploitation de données par toutes les parties prenantes d’une organisation. 6 questions pour mieux comprendre cette infrastructure et son potentiel.

Aujourd’hui la donnée est partout. Cela est vrai en particulier dans les entreprises où chaque branche organisationnelle – comité exécutif, département des ventes, du marketing, direction financière, des ressources humaines, etc. – doit gérer des quantités toujours plus importantes de données pour résoudre des problématiques aussi stratégiques que la prévision de vente ou la réduction du churn rate (taux de désabonnement). Néanmoins, elles sont confrontées à un problème majeur qui les empêche d’y arriver : l’hétérogénéité des données. Elle concerne à la fois les sources (ERP, CRM, applications, open data, …), les formats (structurées, semi-structurées, non structurées) et les données en tant que telles (elles sont mal formatées et ne décrivent pas bien les objets qu’elles représentent). Dès lors, d’après la société de conseil américaine Gartner, la mauvaise qualité des données coûterait aux entreprises près de 13 millions de dollars (11 millions d’euros) chaque année.

Des solutions ont pourtant été mises en place pour y remédier, à l’instar des outils de master data management qui cherchent à créer une source de vérité unique (single source of truth) pour les données de référence des entreprises. Malgré cela, le nombre de silos de données n’a fait qu’augmenter au sein des organisations et les équipes en charge de ces problématiques ont du mal à s’en défaire.

Mais tout n’est pas perdu et une solution pourrait émerger dans les années à venir pour définitivement résoudre ce problème de partage de la donnée : les data fabrics. Ainsi, selon Gartner, d’ici les trois prochaines années, les solutions d’intelligence artificielle développées au sein des data fabrics vont permettre de réduire les coûts opérationnels de gestion des données de plus de 65% ! Mais des confusions règnent encore sur cette architecture qui pourrait révolutionner la manière de connecter et d’exploiter les données au sein des organisations.

6179ca7ba97b674f79184a27_Data_fabrics_promesse

Nous proposons donc dans cet article 6 questions VRAI ou FAUX pour mieux comprendre le design data fabric et l’énorme potentiel qu’il représente.

 

1) Une data fabric est un outil clé en main délivré par un seul fournisseur de technologie.

FAUX

Une data fabric est une architecture composée de multiples briques technologiques visant à connecter le plus efficacement possible les sources de données et les utilisateurs. Des solutions délivrant des microservices se combinent pour progressivement former cette architecture. Par exemple, des technologies de knowledge graphs visant à connecter de manière très claire les données au sein des organisations seraient alimentés par des solutions IA de metadata management qui collecteraient et mettraient à jour automatiquement les métadonnées de l’entreprise. Il est à noter que ces solutions peuvent tout à la fois être disponibles on-premise, sur le cloud ou en hybride.

2) Il est possible d’adopter le design data fabric sans disposer de toutes les briques technologiques.

VRAI

L’adoption des solutions qui composent une data fabric (intégration, catalogues de données, gestion des métadonnées, préparation des données, orchestration, …) se fait de manière incrémentale suivant les cas d’usage de l’entreprise. Il est donc tout à fait possible de commencer par se doter d’une technologie puis en ajouter au fur et à mesure qu’elles deviennent nécessaires. C’est le principe de la « compossibilité » qui facilite l’adoption des outils et accélère leur opérationnalisation, avec des résultats commerciaux directement mesurables. Cette flexibilité fait ainsi partie intégrante du design data fabric.

3) Pas besoin de s’intéresser aux data fabrics si l’on dispose déjà d’un data warehouse, data lake voire data hub

FAUX

Les data warehouse et data lake sont des systèmes de gestion des données utilisés pour réaliser principalement de l’analyse de données. Les data hubs, quant à eux, sont une solution visant à désiloter au maximum les données (pour mieux comprendre les distinctions entre ces architectures, lire cet article). En revanche, les data fabrics sont beaucoup plus larges. Elles facilitent le partage de données, peuvent gérer tout type de données qu’elles soient transactionnelles ou opérationnelles, permettent l’intégration de données d’applications en provenance de clients, de fournisseurs et de partenaires commerciaux, etc. En fait, les data warehouses, data lakes et data hubs sont des composantes du design data fabric pour former un réseau efficient de données exploitables en temps réel par l’entreprise.

4) Data Fabrics rime avec automatisation

VRAI

Un des points clés des data fabrics est qu’elle se compose d’outils venant automatiser les tâches manuelles de gestion des données très coûteuses en temps et en ressources. Les solutions d’automatisation basées sur l’intelligence artificielle, et en particulier l’apprentissage machine (machine learning) et le traitement du langage naturel (NLP pour natural langage processing), sont donc essentielles au sein des data fabrics. Plusieurs d’entre eux pourront se combiner comme les catalogues de données augmentés, les outils de gestion active des métadonnées, les plateformes de préparation automatique des données, etc. Cette automatisation a pour finalité une accélération forte de l’opérationnalisation de tous les projets des entreprises. Puisque nombre de tâches d’intégration, d’harmonisation et de connection des données seront réalisées très rapidement, les utilisateurs pourront alors se concentrer sur la valeur ajoutée des projets : la compréhension des enjeux business et la prise de décision qui en découle.

5) Le design Data Fabrics est uniquement l’affaire des équipes IT

FAUX

Au contraire, le design data fabric vise à rendre autonome toute personne qui travaille sur les données de l’entreprise. Cela sera rendu possible notamment grâce à une gouvernance des données maîtrisée et granulaire, c’est-à-dire où l’accès à un fichier voire une cellule dans un fichier sera contrôlé pour chaque utilisateur (grâce à des techniques de data masking par exemple). D’autre part, implémenter une data fabrics nécessite de travailler selon les principes DataOps. Il s’agit d’une approche collaborative (inspirée du DevOps qui a fait ses preuves dans le développement de logiciels) qui permet un dialogue permanent entre les équipes IT qui mettent en place des infrastructures de données (data engineers, data stewards, data architects), les équipes opérationnelles qui les exploitent (business analysts, product managers, …) et les clients ou autres parties prenantes à qui sont délivrés les résultats. Ainsi, pour sélectionner les bonnes technologies qui vont venir composer la data fabric, il est très important de bien comprendre les cas d’usage business auxquelles elle va répondre et donc d’impliquer des experts métiers qui vont quotidiennement l’utiliser. Pour ces derniers, les outils no-code, qui ne nécessitent pas de compétence en programmation, sont particulièrement adaptés.

6) Pour adopter le design data fabrics, tout est à recommencer en termes d’organisation

FAUX

S’il est vrai qu’adopter le design data fabrics nécessite un changement culturel, il est aussi conçu pour s’appuyer sur les outils déjà présents au sein des entreprises. Souvent, le principal problème auquel ces dernières font face est qu’elles collectent et exploitent leurs données dans des silos en utilisant uniquement des méthodes traditionnelles d’ETL (Extract – Transform – Load). Les data fabrics prennent le contre-pied de cette approche et visent à connecter l’ensemble des données au sein des organisations et à les délivrer efficacement aux bonnes personnes. Il convient donc de commencer par travailler avec le CDO (Chief Data Officer) ou le CIO (Chief Information Officer) pour bien comprendre le concept de design data fabric, puis de rechercher les briques technologiques nécessaires pour y parvenir et enfin de mettre en place des pratiques DataOps de collaboration entre les équipes business et IT pour les opérationnaliser (voir notre article sur le sujet ici).

6179ca7b6987997829887ff2_Data_fabrics_technologies

Dans le design data fabric, la couche de préparation de données est indispensable. YZR apporte une solution conçue pour les data fabrics grâce à sa plateforme no-code de normalisation et de labellisation de données textuelles.

Pour en savoir plus sur en quoi consiste le processus de normalisation, consultez notre article disponible ici.

Pour obtenir une démonstration de notre produit, n’hésitez pas à nous contacter sur notre site web ou à l’adresse hadrien@yzr.ai.

Sources :

– Gartner ; Sharat Menon, Ehtisham Zaidi, Mark Beyer ; Emerging Technologies: Data Fabric Is the Future of Data Management ; 4 décembre 2020.
– Gartner ; Mark Beyer, Ehtisham Zaidi, Donald Feinberg, Henry Cook, Jacob Orup Lund, Rita Sallam, Robert Thanaraj ; Top Trends in Data and Analytics for 2021: Data Fabric Is the Foundation ; 16 février 2021.
-Gartner ; Ehtisham Zaidi ; Data and Analytics Essentials: Data Fabric ; 13 juillet 2021.

Contenusliés