Retour
Hadrien Diesbecq Le 16 mars 2022

Pourquoi la qualité des données produits est-elle si fondamentale ?

Pourquoi la qualité des données est-elle un levier de croissance majeur pour les entreprises ?

Sébastien Garcin, CEO de YZR, a rencontré Samir Amellal, CDO de La Redoute, pour parler de ce sujet essentiel. Un résumé vidéo est disponible ici.

‍La qualité des données est un prérequis fondamental pour devenir une entreprise data-driven

Comment m’assurer que mes données produits sont fiables ? Comment exploiter pleinement leur potentiel ? Comment les désiloter pour mieux les partager ? Ces questions majeures sont à l’agenda de plus en plus d’entreprises en 2021. Y répondre nécessite néanmoins une transformation organisationnelle qui passe par l’adoption d’une culture data-driven, c’est-à-dire centrée autour de la donnée. De fait, l’émergence du big data, de l’intelligence artificielle et du machine learning a profondément modifié la manière de faire du business ces dernières années. Si jusqu’à présent nos algorithmes servaient surtout à compiler des données et à les afficher, ils sont aujourd’hui capables de bien plus. Analyses marketing, prévisions de vente, optimisation de process : les cas d’usage sont nombreux et permettent aux sociétés de créer de la valeur bien plus rapidement qu’auparavant.

Pourtant, un prérequis à l’utilisation effective de ces modèles d’apprentissage machine n’a toujours pas été complètement adressé : la qualité des données. Pour preuve, actuellement, les data scientists passent près de 80% de leur temps à préparer leurs données. Ils réalisent ce qui est communément appelé du feature engineering. Il s’agit de transformer les données d’entraînement pour qu’elles soient exemptes d’erreurs et sous le même format afin d’alimenter correctement les algorithmes d’analyse. Si ce travail est crucial, il est néanmoins très chronophage et peu valorisant pour ces experts aux compétences techniques précieuses et recherchées.

Dès lors, étant donné l’énorme quantité de données auxquelles ont accès les entreprises, il est impossible de toutes les corriger manuellement. La mauvaise qualité de celles-ci réduit alors la performance des modèles avec un impact direct sur la croissance.

Par ailleurs, de quel type de données parle-t-on ? Il en existe une multitude mais une catégorie en particulier demeure encore sous-exploitée : les données produits.

Dans cet article, nous proposons ainsi d’expliquer :

– Pourquoi la qualité des données, et en particulier des données produits, est un enjeu essentiel pour toute société qui souhaite adopter une culture data-driven.

– Pourquoi les méthodes actuelles ne sont pas pleinement satisfaisantes.

– Ce que nous proposons pour y parvenir.

Les données produits sont des données stratégiques, améliorer leur qualité est le fer de lance de toute organisation.

Il est évident que les données clients sont extrêmement importantes pour n’importe quelle société. Définir précisément sa cible et être capable de la segmenter est à la base de toute stratégie marketing.

Cependant, ces données sont de plus en plus sensibles et difficiles à manipuler. Pour cause, la réglementation en matière de protection des données personnelles à l’instar du RGPD n’a cessé de se durcir ces dernières années. Il est même aujourd’hui devenu complexe d’élaborer un data lake contenant des données clients. Or, à l’heure où les entreprises sont à la recherche de davantage d’agilité au sein de leur organisation et souhaitent être beaucoup plus réactives dans leurs processus décisionnels, cette situation devient très problématique.

En réalité, il existe d’autres types de données également stratégiques. C’est le cas des données logistiques, RH et surtout produits. Ces dernières en particulier sont très simples à traiter et ont une place prépondérante dans de nombreux départements (achat, marketing, …) et verticales (géographie, industrie, …) des entreprises.

Le problème est que leur volume ne cesse de croître d’année en année à tel point qu’il est de moins en moins aisé de les gérer. Par exemple, il y a encore peu de temps, Apple ne disposait que d’une centaine de références produits différentes. Renseigner des fiches produits se faisait alors en quelques heures par un petit nombre de personnes pouvant même se permettre de mener des analyses de vente. En 2021, c’est tout simplement inenvisageable. Les grandes entreprises de retail disposent en effet de pas moins de 500 000 références produits et plus d’un million en prenant en compte leur marketplace.

Cette croissance exponentielle des volumes de données a été très rapide, trop rapide même. Si bien que la définition et la mise en place de référentiels produits uniques et partagés est un sujet qui n’a jamais été pleinement pris en main. On retrouve souvent des bouts de conventions définies par plusieurs types de personnes à des niveaux hiérarchiques divers et sans réelle entente à grande échelle. Cette hétérogénéité conduit alors généralement à une dégradation de la qualité des données (lire notre article détaillé sur le sujet ici). Celles-ci sont en effet saisies manuellement à différents endroits par différentes personnes et peuvent donc contenir des erreurs textuelles, empêchant dans certains cas le déclenchement des ventes. Il est notamment déjà arrivé qu’une marketplace fasse apparaître un pyjama pour un prix de 19 000 € l’unité au lieu de 19 € à cause d’un problème de saisie. Évidemment, aucun achat n’a été enregistré mais pour une série de 100 000 articles, la perte en termes de chiffre d’affaires peut rapidement devenir importante. Par ailleurs, si cette erreur est rapidement identifiable, c’est loin d’être toujours aussi évident. Si ce pyjama avait été proposé à 99 €, le décalage aurait été moins visible, et le service après-vente aurait très vite dû s’occuper de clients mécontents après s’être rendu compte de cette « arnaque ».

En réalité, à l’ère du big data, l’enjeu n’est pas de posséder un grand nombre de données. Avec l’émergence des API et de l’open data, il est désormais assez facile d’en collecter des volumes conséquents. Il arrive ainsi fréquemment que la legacy de certaines entreprises dépasse les 500 To ! Le cœur du sujet réside finalement dans la capacité des organisations à exploiter et à rendre fiable des données provenant des clients, des fournisseurs ou encore des partenaires commerciaux. Il y a un énorme travail à venir sur la qualité de la masse considérable de données qu’elles possèdent. Autrement dit, plus la quantité de données à gérer devient conséquente, plus il est indispensable d’industrialiser leur qualité.

L’intérêt premier pour les entreprises est de pouvoir extraire la valeur de ses données produits ou de performance. Les acteurs de la distribution font de plus en plus face à des fournisseurs puissants qui demandent que celles-ci leur soient partagées gratuitement. Dans le cas où elles sont parfaitement gérées et standardisées, il y a alors possibilité de les monétiser et donc d’engranger davantage de bénéfices.

Ainsi, si jusqu’à présent, ces questions de qualité des données sur les produits étaient considérées comme mineures, elles sont devenues le centre de toutes les préoccupations.

Plusieurs étapes sont néanmoins nécessaires pour les résoudre.‍

1) Améliorer la qualité des données passe tout d’abord par un traçage optimal de celles-ci

Pour une entreprise qui dispose d’une marketplace, le suivi de la performance des ventes est central. Il s’agit de réaliser des analyses statistiques basées sur les achats des clients pour optimiser au mieux l’offre produits. Une des méthodes traditionnelles pour cela consiste à se baser sur les codes EAN attribués à chaque produit. Problème : d’une part les entreprises utilisent à la fois des EAN internes et externes susceptibles de se confondre, et d’autre part ces derniers changent en permanence au cours du cycle de vente. Il arrive ainsi fréquemment que des fournisseurs réattribuent le même code à différents produits ou que des sociétés réutilisent des codes identiques lorsque les produits se renouvellent. Par conséquent, s’il n’y a pas de suivi sur le long-terme de la permanence de ces codes EAN, il y a un risque important que les modèles génèrent des erreurs statistiques.

En pratique, des outils sont développés au sein des entreprises pour reconstituer l’historique des EAN lorsqu’ils changent. Mais ce travail est très fastidieux et pas toujours fiable. Surtout, ce type de solution est rapidement confronté à des problèmes d’échelle, le nombre de codes à traquer grossissant de jour en jour.

60fea72b4496fe9ab0d4a545_EAN

Une solution consiste à se focaliser uniquement sur les descriptifs des produits. Après un travail de standardisation, il est possible de réaliser du matching en considérant que si deux produits ont des descriptifs très similaires alors il y a de fortes chances qu’ils soient identiques. C’est ce que nous proposons chez YZR (voir ci-dessous).

60fea72ab7861b4608eb9d87_Normalisation_donnees_produits

2) Améliorer la qualité des données passe ensuite par la mise en place de garde-fous et d’outils de correction

Les données produits sont traitées tout au long d’une chaîne de production qui implique de nombreux acteurs. Ces intermédiaires, qui sont généralement des personnes physiques, interfèrent alors avec ces données et génèrent des erreurs qui doivent être corrigées. Par exemple, lorsqu’un acteur de e-commerce réalise une vente sur son site, il doit pouvoir gérer la donnée produit à différents niveaux : entrepôt de stockage, partenaires logistiques, point de livraison, site internet pour le suivi de commande et enfin support client. Il apparaît alors essentiel que cette donnée soit synchrone et homogène pour assurer un service optimal.

Pour y parvenir, deux méthodes existent :

Déployer des garde-fous visant à éviter les erreurs humaines, c’est-à-dire imposer des contraintes qui empêchent le personnel de remplir librement les données qu’il souhaite. Cela peut par exemple se traduire par un menu déroulant avec des choix imposés pour remplir une cellule d’un tableur Excel. Cette solution seule n’est cependant pas satisfaisante et peut même parfois s’avérer contre-productive. En tant qu’êtres humains, nous sommes spécialistes pour contourner des obstacles surtout si cela nous permet d’économiser de l’énergie. Si dans le tableur Excel à compléter, les listes déroulantes pour remplir les cellules sont trop longues, qui ne serait pas tenté de choisir systématiquement la première option et de remplir directement les informations dans le champ libre « commentaire » ? Le gain de temps serait considérable ! Mais il se ferait au détriment de la qualité de la donnée…

Développer ou se procurer des solutions de correction de données. Cette fois, l’humain est libre de renseigner la donnée et il est aidé a posteriori par des outils de correction de données. Il les utilise principalement en cas d’erreur de saisie ou, pour une référence produit, d’un descriptif trop laconique ou d’une photo floue. Cette solution est pertinente mais encore faut-il d’une part être capable de repérer où est située la donnée de mauvaise qualité, et d’autre part de disposer des bons outils de data quality avec des employés formés et à l’aise pour les utiliser. Par ailleurs, la plupart du temps, ces logiciels ne corrigent pas directement les données mais effectuent des calculs pour évaluer la probabilité d’erreur. Si un certain seuil est dépassé (par exemple 50%), alors une alerte est déclenchée pour signaler la nécessité d’une correction. Mais cela engendre un autre problème puisqu’il faut pouvoir identifier la bonne personne avec l’expertise suffisante pour pouvoir corriger la donnée. C’est particulièrement vrai dans l’industrie pharmaceutique. Qui, à part une personne spécialiste, saura que « Singulair » et « Montélukast » sont en réalité un seul et même médicament, l’un étant le générique de l’autre ? Un data scientist aura ici toutes les peines à développer un algorithme d’optimisation de la production. Dans de nombreuses autres situations, les data scientists se retrouvent tout autant démunis en ne sachant pas vers qui se tourner pour trouver la bonne information qui leur permettra d’améliorer leurs données. Il est donc important que ces outils de correction soient spécialement conçus pour être utilisables par des personnels métiers, leur vision opérationnelle les rendant pertinents pour ce type de tâche.

60fea72cd4040ce9fd2a10c3_Qualite_donnees_e-commerce

3) Améliorer la qualité des données permet enfin la mise en place d’une organisation data-driven

Les flux de données qui transitent au sein des entreprises sont comparables à la circulation sanguine dans le corps humain. Tout comme le sang fait le lien entre les organes vitaux, la donnée a vocation à circuler rapidement entre les différentes entités d’une organisation. Plus encore, chaque direction doit être en mesure de s’approprier les données qu’elle traite. La branche marketing doit être capable de réaliser des analyses sur ses campagnes promotionnelles, la branche sales doit pouvoir effectuer ses propres prévisions de vente, la branche logistique doit pouvoir optimiser ses bras robotisés de collecte des produits. Tout le monde doit être compétent pour manipuler ses propres données ! En fait, il est particulièrement important que la data science ne constitue pas un département complètement centralisé, tout comme l’IT a pu l’être à une certaine époque, au risque d’alourdir considérablement les processus, de générer des frustrations et surtout de perdre en productivité. Cependant, ce fonctionnement de mise en autonomie de chaque département sur les sujets data repose sur un prérequis : les données qui leur sont confiées doivent être régulées, monitorées et de bonne qualité. En d’autres termes, la confiance dans le travail de chacun ne peut avoir lieu qu’à condition que les données traitées soient suffisamment sûres.

Ainsi, une société peut être considérée comme pleinement data-driven dès lors que sa gestion de la qualité et de la gouvernance (qui permet de savoir qui a l’autorisation de manipuler les données) est centralisée et que toutes les analyses qui en découlent soient distribuées vers les experts métiers. Le fonctionnement est alors optimal : la donnée circule à un niveau de fiabilité identique et vient irriguer toute l’organisation de l’entreprise, assurant le maintient et l’évolution rapide de tous les dispositifs de pilotage de l’activité.

60fea72aebe7ad2940fc4467_Data-driven

Chez YZR, nous proposons LA solution qui permettra à vos experts métiers de normaliser et de labelliser leurs données en un temps record. Étant la base de toute organisation data-driven, la qualité des données est un vecteur de croissance majeur.

YZR est une plateforme d’intelligence artificielle no-code 100% dédiée à normalisation de données textuelles. Sous la forme d’un outil plug&play, elle s’adresse aux opérationnels (chefs de produits, acheteurs, etc.) et à tous ceux qui comprennent parfaitement le contexte métier dans lequel les données sont utilisées. Car nous sommes convaincus que leurs compétences seraient bien mieux utilisées à exploiter les données plutôt qu’à les préparer.

Notre outil de data quality est ainsi spécialement conçu pour résoudre vos problématiques liées à :

– La multiplicité de vos sources de données
– L’absence de conventions de nommage
– La correction manuelle des données
– La gouvernance et le partage des données

Notre solution SaaS s’intègre également parfaitement à vos différents outils (Product Information Management, Master Data Management, Data Science Machine Learning, Business Intelligence), pour vous permettre d’atteindre entre autres :

Une meilleure connaissance client
Des prévisions de vente optimisées
Une digitalisation accélérée de votre offre

Autrement dit, avec YZR, vous exploitez le plein potentiel de vos données.

Envie d’en savoir plus ? Vous souhaitez obtenir une démonstration de notre produit ? N’hésitez pas à nous contacter directement sur notre site ou à l’adresse hadrien@yzr.ai

Pour aller plus loin
Si aujourd’hui, le développement de l’intelligence artificielle et du machine learning offre aux entreprises de nouvelles possibilités pour analyser et modéliser l’énorme quantité de données qu’elles produisent, il n’en reste pas moins qu’elles se heurtent à une difficulté très importante : la mauvaise qualité et l’hétérogénéité des données à la source.

Cela est particulièrement vrai dans les secteurs de la distribution et des produits de grande consommation pour lesquels résoudre le problème de l’hétérogénéité des données produits constitue un levier de croissance majeur.

Contenusliés