Si la préparation des données est une étape indispensable du processus d’analyse de celles-ci, elle peut être fastidieuse, chronophage et exiger des compétences particulières. L’explosion récente de l’IA change radicalement la donne en simplifiant les tâches manuelles et répétitives. Cela permet de réduire le cycle de vie des données tout en améliorant leur qualité.
Alexis de Saint Jean, Directeur de l’innovation et du marketing chez Blueway, nous dévoile les interactions entre une intelligence artificielle qui intervient désormais dans la préparation des données, et une préparation des données qui participent elle-même à l’entrainement de l’IA. A l’image d’un ruban de Moebius.
Peux-tu nous dire quels sont les avantages apportés par l’IA dans la préparation des données ?
L’IA permet d’automatiser certaines tâches comme le nettoyage, la transformation et l’intégration des données, qui étaient auparavant effectuées manuellement. Par exemple, elle peut identifier et corriger automatiquement les erreurs de formatage, les valeurs aberrantes et les données manquantes. L’IA peut également automatiser l’intégration de données provenant de sources multiples et hétérogènes, simplifiant la création de jeux de données consolidés pour l’analyse. Cette automatisation ne « sort » néanmoins pas du chapeau, elle s’appuie la plupart du temps sur du langage Pyhton (du code généré donc) et nécessite un environnement dédié pour s’exécuter. Le gros changement, c’est qu’il suffit « dire » ce que l’on veut faire ou laisser l’IA elle-même analyser les données.
Cette automatisation accélère donc considérablement le processus de préparation, permettant d’obtenir des informations exploitables plus rapidement. De cette façon, les data scientists et les analystes peuvent se concentrer sur des tâches plus complexes encore. Ils disposent de plus de temps pour l’exploration des données, l’identification des tendances/patterns dans les données et de test des modèles de ML (machine learnig) à appliquer. L’autre avantage à utiliser une IA générative (type chatGPT) dans les phases de préparation est que le code généré (python) sera réutilisable et industrialisable. Ce qui permet ainsi d’optimiser l’utilisation des ressources humaines et d’améliorer le retour sur investissement des initiatives d’analyse de données.
Les spécialistes de la préparation des données sont-ils les seuls bénéficiaires des apports de l’IA ?
L’IA rend la préparation des données plus facilement accessible aux utilisateurs métiers. Ils peuvent désormais interagir avec les données de manière plus intuitive, grâce au langage naturel (LLM). « English is the new Data Preparation language » (L’anglais est le nouveau langage de préparation des données, mais cela fonctionne aussi en français !). Par exemple, un utilisateur métier peut utiliser une interface en langage naturel pour demander à l’IA de « nettoyer les données d’un client » ou de « calculer les ventes moyennes par région ». Il n’a pas besoin d’avoir recours à une application externe ou de taper lui-même du code Python (ou autre).
De fait, la data préparation couplée à l’IA démocratise l’accès aux données et favorise une culture « data-driven » au sein de l’entreprise. En donnant à un plus grand nombre de collaborateurs la possibilité d’accéder aux données et de les utiliser, l’IA « débloque » un verrou important. Cependant, si le langage naturel simplifie l’interaction avec les données, certaines compétences techniques restent importantes. Il est en effet toujours nécessaire de comprendre les principes fondamentaux de la manipulation des données, de la modélisation et de l’interprétation des résultats. Sans cela, il sera compliqué de concevoir et de mettre en œuvre des processus de préparation des données efficaces et robustes, de choisir les outils appropriés, de valider et d’interpréter les résultats de l’IA. Ainsi, donner la possibilité à tout le monde de préparer des données « ouvre » obligatoirement la porte au risque de faire de mauvaises préparations. Et par la suite de prendre de mauvaises décisions. Mais ce risque est aussi vieux qu’Excel 1.0 !

Démocratiser l’Intelligence Artificielle par la maîtrise de ses données
Quelles sont les limites actuelles de l’IA dans ce contexte ?
Si l’intelligence artificielle offre de nombreux avantages pour la préparation des données, elle soulève également de nouveaux défis. Notamment en ce qui concerne la qualité des données. Il est en effet important de comprendre que l’IA ne peut pas tout compenser. Au contraire, elle peut même amplifier les problèmes existants. En effet, la qualité des données est essentielle pour garantir la fiabilité des modèles de machine learning et des analyses qui en découlent. De sorte qu’un modèle d’IA entraîné sur des données de mauvaise qualité produira des résultats inexacts. Ce qui peut conduire à des décisions erronées et engendrer des conséquences très négatives (voir désastreuses) pour l’organisation. Par exemple, si un modèle de prévision des ventes est entraîné sur des données de ventes incomplètes, il risque de sous-estimer les ventes futures, ce qui peut entraîner des problèmes de gestion des stocks et des pertes de revenu. L’IA peut donc former un cercle vertueux… Ou pas.
Par conséquent, dans un contexte où les décisions basées sur les données ont un impact de plus en plus important, il est nécessaire de mettre en œuvre des processus rigoureux pour assurer la data quality. Ce qui implique de définir des normes de qualité des données claires et mesurables, de mettre en œuvre des outils et des techniques pour détecter et corriger les erreurs. Et ne pas oublier de surveiller en permanence la qualité des données au fil du temps. Pour ce faire, il est important de maintenir un contrôle humain. L’Intelligence artificielle est un outil puissant, certes, mais elle n’est pas infaillible. Elle peut passer à côté d’anomalies importantes qu’elle n’aurait jamais rencontrée (et donc qu’elle ne « connait » pas) ou reproduire des biais présents dans les données d’entraînement. L’expertise humaine est donc indispensable pour s’assurer que les données sont préparées, utilisées de manière appropriée et éthique.
Comment initier la démarche ?
Une approche hybride combinant les capacités de l’IA et l’expertise humaine est certainement la démarche la plus efficace. De cette façon, l’IA est utilisée pour automatiser les tâches routinières et identifier les problèmes potentiels, tandis que les experts humains se concentrent sur les aspects les plus critiques et les plus complexes de la qualité des données. Il est même envisageable de développer un « Trust center », un système où l’IA regroupe toutes ses décisions automatiques et où elle soumet de façon aléatoire certaines de ces décisions à un contrôle humain, à l’image des tests par échantillonnage utilisés sur une chaîne de production.
Mais pour tirer pleinement parti des avantages de l’IA dans ce contexte, il faut intégrer ce processus dans les plateformes de données existantes. Cette intégration permet de créer un flux de travail plus fluide et cohérent, où la préparation des données n’est plus une étape isolée, mais une partie intégrante du processus d’analyse. Ainsi l’intégralité des flux est pilotée par la « transparence » (trust) : à tout moment il est possible de savoir ce qui se passe pour éventuellement reprendre le contrôle.
Idéalement, l’intégration de la préparation des données dans une plateforme unifiée va permettre de rationaliser le flux de travail, de réduire les silos et d’améliorer la collaboration entre les différentes parties prenantes, y compris des Agents IA. Cette approche Data Platform augmentée par ces agents, offre une vue unique et cohérente de toutes les données de l’entreprise, ce qui facilite l’accès aux informations, élimine les redondances et réduit les risques d’incohérences. Une plateforme intégrée favorise ainsi une meilleure compréhension, en fournissant un contexte clair et complet. Elle permet aux utilisateurs de bien appréhender l’origine des données, leur qualité et la manière dont elles ont été transformées.
Quels sont tes conseils pour tirer pleinement avantage de l’IA dans un contexte de préparation des données ?
Une approche idéale dans le domaine de la data préparation pourrait se résumer avec les étapes suivantes :
- Définir un objectif business clair : Pourquoi/ Qui doit faire l’action ?
- Identifier les données de qualité adéquates avec une solution telle que MyDataCatalog : Est-ce qu’il est possible de faire l’action (données de qualité, non sensibles …)
- Préparer les données avec une IA de type LLM : Comment le faire ? Un LLM qui fait tout (data in -> instruction -> data out) ou un LLM qui génère uniquement le code de traitement (exemple data in -> instruction -> code out)
Cette approche doit se dérouler dans un écosystème data où les données sont idéalement centralisées grâce à une data platform. Une plateforme telle que Phoenix est donc essentielle pour cette intégration de l’IA, car elle assure une traçabilité complète des données, de leur identification dans le catalogue jusqu’à leur préparation. Elle peut d’ailleurs exposer les modèles d’IA via son module d’API management, permettant ainsi une gouvernance centralisée. C’est de cette façon que l’IA peut offrir un potentiel immense pour transformer la préparation des données et exploiter pleinement leur valeur. En automatisant les tâches fastidieuses, en améliorant la qualité des données et en rendant leur préparation plus accessible, l’IA apporte de l’agilité, de l’efficacité et de la compétitivité.
Cependant, il est important de garder à l’esprit que l’IA n’est pas une solution miracle. Les organisations doivent adopter une approche stratégique de l’intégration de l’IA dans leur gouvernance des données. Pour cela, ellesdoivent mettre l’accent sur la qualité, le contrôle humain et le développementdes compétences. Sans oublier les différentes réglementations en place (AI act).

Échangez sur le Data Catalog avec un expert Blueway !