Retour
Hadrien Diesbecq Le 16 mars 2022

Fuzzy Matching, la technique délicate de la gestion des données

Qu’est-ce-que le fuzzy matching ?

D’après Gartner, au sein des entreprises, les données en silos entraînent une dégradation de la valeur des projets commerciaux de près de 40%. Une classe d’algorithmes de logique, appelée fuzzy matching (correspondance approximative), a néanmoins le potentiel de résoudre ce problème. Les techniques de fuzzy matching permettent en effet de lier des données en apparence différentes (à cause de fautes d’orthographe, de problèmes de standardisation ou encore d’informations manquantes) mais qui décrivent en réalité le même objet.

Plus précisément, le fuzzy matching permet d’identifier et de faire correspondre deux éléments de texte (caractères, mots ou phrases) qui sont similaires mais pas exactement identiques. Cela s’avère très utile pour dédupliquer des informations comme des adresses postales, afin d’avoir une vision des clients unifiée, ou des descriptifs de produits. Ainsi, si plusieurs descriptifs proviennent de sources variées et diffèrent dans leur forme, le fuzzy matching permet de les faire correspondre.

Regardez l’exemple suivant :

6130881d6cb8d685466d060f_Capture d’écran 2021-08-23 à 10.43.20

Dans l’exemple ci-dessus, contrairement aux apparences, seuls deux produits différents sont listés. En effet, les descriptifs « Channel Chance Parf » et « Coco Channel » désignent le même parfum. Un logiciel de fuzzy matching est alors capable de faire correspondre ces produits aux descriptifs différents.

Comment le fuzzy matching peut-il être utile aux entreprises ?

Les entreprises cherchent aujourd’hui à être toujours plus rapides et efficaces. Plus l’une d’elles est capable de traiter rapidement de gros volumes de données, plus elle pourra croître rapidement. Néanmoins, l’exploitation d’une grande quantité de données se fait parfois au détriment de leur qualité. Il devient alors très complexe et très laborieux de relier des données altérées lors de leur traitement. C’est là que le fuzzy matching peut s’avérer utile, surtout pour des bases de données non gouvernées dans lesquelles les données ne peuvent être identifiées de manière unique, comme les données de produits par exemple.

Plus encore, le fuzzy matching est indispensable pour créer une source de données unique, exploitable ensuite par des outils d’analyse. De plus, il constitue une caractéristique clé des outils de master data management (gestion des données de référence) qui ont pour fonction de permettre la fusion de données provenant de sources diverses tout en maintenant leur précision et en limitant le plus possible leur correction manuelle

Dès lors, l’utilisation d’outils de fuzzy matching par des entreprises est un déterminant majeur de leur capacité à traiter rapidement et sans erreur leurs données. Cela limite donc les risques et constitue même un vecteur de croissance pour elles.

Comment cela fonctionne en pratique ?

Un principe fondamental de la logique traditionnelle est que toute proposition est binaire : elle est soit vraie, soit fausse. Au contraire, la logique « approximative » (fuzzy logic) explicite dans quelle mesure une proposition est correcte.Prenons une société qui souhaite créer une vue unifiée de ses clients (single customer view) ou de ses données de produits. Dans un monde idéal où la qualité des données atteint les 100% (pas de duplicatas, pas d’erreurs de texte, etc.), la fusion de données identiques est très simple à réaliser. Cependant, dans le monde réel, les données sont très souvent à l’état brut, désorganisées et imparfaites. Par exemple, si le client « Jacques Mercier » est écrit « Jcques Merciet » dans plusieurs bases de données, alors un algorithme traditionnel ne fusionnerait pas ces deux descriptifs bien qu’il s’agisse de la même personne. C’est pourquoi, le fuzzy matching est aujourd’hui surtout utilisé pour fusionner des bases de données de texte.
Pour y parvenir, un algorithme de fuzzy matching va employer un ensemble de règles (les fuzzy rules) capables d’identifier de légères variations dans les champs de texte. Ce processus appelé « Fuzzy Name Matching » permet ainsi aux entreprises de disposer de bases de données fiables et uniques.

Peut-on toujours faire confiance au fuzzy matching ?

En fait, utiliser un algorithme de fuzzy matching, c’est comme piloter un avion en mode automatique. Cela ne dispense pas de contrôler la trajectoire ! En effet, dans les descriptifs de produits, la nature des attributs choisis (marque, grammage, label, etc.) et les valeurs qui y sont attribués conditionnent la performance de l’algorithme. Si les attributs sont trop vastes et imprécis, certaines mises en correspondance peuvent être erronées, ce qui va nécessiter un travail de correction manuelle a posteriori d’autant plus conséquent.

Reprenons l’exemple des parfums ci-dessus. Si une entreprise considère que la volumétrie est un critère fondamental de distinction des produits, mais que celle-ci est mal renseignée (100mL indiqué au lieu de 50 mL par exemple), alors les techniques de fuzzy matching vont conduire à des résultats faussés en faisant correspondre des produits différents. Il faut donc spécifier relativement précisément les attributs à différencier, au risque pour l’entreprise de ne pas avoir les résultats attendus.
Le fuzzy matching demeure néanmoins une des techniques les plus efficaces de normalisation de données

Fuzzy Matching

Vous souhaitez utiliser du fuzzy matching ? Avant de vous lancer, lisez attentivement les points suivants :

– En général, cela vaut le coup d’investir un temps raisonnable et une main d’œuvre suffisante pour implémenter un logiciel de fuzzy matching pour un cas d’usage unique.

– Dans ce cas, il est très important de réaliser plusieurs tests itératifs de manière rigoureuses pour vérifier la justesse du logiciel, surtout si le cas d’usage requiert une précision importante. Une fois le logiciel implémenté, tout le processus de reconnaissance et de fusion peut être automatisé. Par exemple, lors de la création d’une vue unifiée des clients, le logiciel de fuzzy matching pourra être employé à intervalles réguliers afin de s’assurer que celle-ci est bien à jour.

– Quasiment tous les algorithmes de fuzzy matching peuvent faire des erreurs. La phase de vérification manuelle est donc toujours très importante. Tout l’enjeu est de parvenir à trouver un équilibre entre le temps passé et la main d’œuvre employée pour corriger ces erreurs, et leur potentiel impact commercial.

– Il faut rester très vigilant lors de l’utilisation d’algorithmes de fuzzy matching pour des données sensibles puisque des erreurs peuvent persister.

– De nombreuses recherches sont publiées mettant au jour de nouvelles méthodes algorithmiques de fuzzy matching toujours plus performantes. Faire de la veille sur ce sujet permet donc de connaître les dernières tendances et de se différencier de ses concurrents.

– Le fuzzy matching permet de réduire drastiquement les coûts lorsqu’il est utilisé pour traiter de gros volumes de données. Dans ce cas, le temps gagné est considérable et les quelques erreurs inévitables n’ont que peu d’importance.

Chez YZR, nous avons développé un outil no-code pour vous permettre de normaliser vos données textuelles de la manière la plus facile et la plus profitable. Notre outil utilise les techniques du fuzzy matching pour nettoyer vos données de sorte à ce qu’elles puissent par la suite être analysées de manière très fiable. Ainsi, notre plateforme, et son interface ergonomique et facile à prendre en main, vous permet de normaliser et d’améliorer la qualité de vos données sans avoir besoin d’aucune connaissance technique.

Vous souhaitez en savoir plus ? N’hésitez pas à nous contacter.

Contenusliés