Ces dernières années ont vu le développement de nombreux sujets autour du big data et depuis l’importance de la donnée n’a fait que grandir. Celle-ci se trouve donc de plus en plus souvent au cœur des environnements clients car elle constitue la clé permettant de mettre en place un grand nombre d’outils, que ce soit pour l’aide à la décision, la performance et le contrôle des processus.
Cependant, comme beaucoup l’ont appris à leurs dépens, toute donnée n’est pas forcément bonne à prendre ou n’est pas toujours fiable. En effet, une mauvaise qualité de la donnée peut mener à l’échec de projets en lien avec celle-ci ou pire. Ou encore, à l’obtention de résultats biaisés par cette mauvaise qualité. C’est pourquoi, la qualité est depuis de nombreuses années un des sujets clé pour l’utilisation de la donnée.
Les différentes « classes d’outils de qualité de la donnée »
Pour contrôler la qualité de la donnée, plusieurs types d’outils sont à notre disposition. Les outils les plus basiques en termes d’analyse de la qualité, mais les plus incontournables car souvent mis en place dans la plupart des entreprises sont les ETL (Extract-Transform-Load). Malheureusement, leurs briques de contrôle de qualité de la donnée se limitent bien souvent à des cas simples sans vérification du contexte de la valeur, par exemple vérifier qu’une valeur n’est pas vide ou bien qu’elle se trouve dans une certaine plage de données. Les ETL permettent donc souvent d’effectuer un premier niveau de contrôle sans permettre à l’utilisateur d’évaluer la qualité de ses données dans son ensemble.
Les outils classiques de détection de la qualité de la donnée vont quant à eux un cran plus loin. En effet ceux-ci sont basés sur une forte connaissance des problèmes les plus récurrents pouvant survenir et sont souvent spécialisés sur ce sujet. Ils offrent par conséquent une meilleure interface de gestion, ainsi qu’une plus grande variété de détections. Par exemple, le contrôle des référentiels clients (adresses postales/numéros de téléphones/adresses e-mail). Ils permettent également à l’utilisateur d’ajouter, en général très simplement, des règles métier qui sont par définition spécifique à chaque entreprise et/ou secteur d’activité. Cela leur permet d’offrir des solutions entièrement packagées très intuitives pour les utilisateurs, tout en étant spécifique aux besoins propres à l’entreprise.
Ces dernières années ont vu l’apparition d’outils de qualité de la donnée utilisant l’Intelligence Artificielle (IA). Ils sont apparus sous forme de modules au sein des outils existants. Mais de nouvelles solutions spécialisées sur ces approches IA ont également vu le jour. L’intérêt de ces nouveaux outils par rapports à ceux mentionnés précédemment se situe dans les approches proposées. Celles-ci permettent souvent d’aller plus loin que les règles métier.
Comment l’IA peut-elle aider la DQ à avancer un cran plus loin ?
Afin de mieux appréhender les différents types de problèmes de qualité pouvant être détectés par des solutions utilisant de l’IA, nous allons présenter ici différents exemples qui sont difficilement identifiables via des approches traditionnelles mais facilement identifiables en utilisant de l’IA.
Comme énoncé plus tôt, une grande partie des problèmes de qualité de données est détectée à l’aide de règles métier. Mais celles-ci ne sont pas toujours en mesure de détecter des cas particuliers complexes. Une approche utilisant de l’IA peut alors être envisagée pour détecter plus facilement ces problèmes. En effet, lorsque l’erreur est connue, en utilisant des approches d’apprentissage supervisé, les nouvelles apparitions du problème peuvent en général être identifiées. Pour rappel, on regroupe sous l’apprentissage supervisé l’ensemble des algorithmes qui se servent de la connaissance passée des données pour prédire le comportement sur de nouvelles données, par exemple prédire la météo à partir des données historiques ou bien identifier si un patient a une maladie ou non à partir de sa prise de sang. Ces approches, peuvent donc apprendre sur les données existantes d’une entreprise (avec les erreurs connues préalablement identifiées) et identifier les facteurs qui font qu’un champ est considéré comme étant en erreur ou non. Puis en utilisant ces facteurs, elles vont être en mesure d’identifier les erreurs de même type dans de nouvelles données.
Par exemple, imaginons que l’entreprise achète de nombreux matériaux et souhaite contrôler ses transactions d’achats. Une approche supervisée pourra identifier que les prix de certains matériaux sont liés et remonter les transactions sur lesquelles les prix sont anormalement faibles ou élevés.
Mais là où l’IA devient vraiment intéressante, c’est pour détecter les problèmes de qualité de données qui ne sont pas encore connus d’une entreprise. En effet, la volumétrie actuelle des données ainsi que leur évolution permanente font qu’il est de plus en plus difficile d’avoir une connaissance exacte de celles-ci et des problèmes pouvant apparaître. Les approches de type non supervisées peuvent alors offrir un bon moyen de détecter de tels problèmes. On regroupe sous l’apprentissage non supervisé l’ensemble des algorithmes qui n’ont pas de connaissance a priori des données mais qui révèlent une structure existante au sein de celles-ci. Cela peut se traduire par l’identification de groupes d’utilisateurs ayant un comportement similaire (par exemple pour du ciblage marketing). Dans le cas qui nous intéresse, ce type d’approche va surtout nous permettre de détecter des valeurs atypiques au sein des données et donc potentiellement à risque d’erreurs.
En utilisant une telle approche, notre entreprise pourra par exemple identifier une combinaison fournisseur/matériaux qui semble incorrecte dans ses transactions en se basant sur le fait que ce fournisseur ne vend jamais le matériau concerné.
Enfin l’IA peut permettre non seulement de détecter des problèmes de données mais aussi de les corriger. Pour cela on peut utiliser des approches d’apprentissage supervisé qui vont apprendre sur les données existantes sans erreurs et prédire une valeur qui correspond mieux à ce qui est habituellement observable au sein des données. Cela permet de soulager les métiers qui n’ont plus à identifier individuellement chaque correction.
Ne vous demandez plus si vos données sont de qualité !
Découvrez notre solution de Data Quality
augmentée par la Data Science et le Machine Learning.
Conclusion
L’analyse de la qualité de la donnée peut être plus ou moins évoluée, de la simple brique d’identification des doublons à l’identification d’erreurs encore inconnues. Quel que soit son niveau de mise en place au sein d’une entreprise, elle constitue un des piliers de nos nouveaux environnements liés à la donnée. À l’heure du big data et de la constante évolution de celle-ci, il paraît donc essentiel d’aller toujours plus loin dans son contrôle et pour cela il ne semble pas possible de se priver d’un outil aussi riche et puissant que l’Intelligence Artificielle.
Anne-Sarah Briand