Une IA réussie dépend de la gestion des données

Dave Smith

L'intelligence artificielle (IA) est omniprésente de nos jours, que ce soit en réalité ou simplement en tant qu'étiquette médiatisée pour une simple prise de décision basée sur des règles, et cela a conduit à des problèmes intéressants, déclare David Smith, responsable de la technologie GDPR, SAS Royaume-Uni et Irlande .

Le premier d'entre eux est la méfiance, comme l'a noté le nouveau président de la British Science Association Professeur Jim Al-Khalili :« Il existe un réel danger d'une réaction publique contre l'IA, potentiellement similaire à celle que nous avons eue avec les GM [modification génétique] au début du millénaire ». Al-Khalili souligne que pour que l'IA atteigne son plein potentiel, il faut davantage de transparence et d'engagement du public.

Le deuxième problème potentiel est celui du contrôle; si les modèles sont vraiment laissés à courir sans surveillance ni contrôle, alors il y a un risque de mauvaises décisions. Un exemple de ceci pourrait être le « Flash Crash » en 2010 lorsque le marché boursier américain a chuté d'environ 9 % pendant 36 minutes. Bien que les régulateurs aient accusé un seul trader d'usurper le marché, les systèmes de trading algorithmiques étaient au moins en partie responsables de la profondeur du crash.

Exploiter l'IA pour de bon

Cela dit, l'IA a un énorme potentiel pour le bien, qu'il s'agisse de fournir de meilleurs diagnostics de cancer grâce à un dépistage plus efficace des images de tumeurs ou de protéger les espèces menacées en interprétant des images d'empreintes d'animaux dans la nature. Le défi est de s'assurer que ces avantages sont réalisés, et c'est là qu'intervient le cadre FATE (Fairness, Accountability, Transparency and Explainable), qui est conçu pour garantir que l'IA est utilisée de manière appropriée. Je me concentrerai sur les aspects de transparence, là où la gestion des données a le plus d'impact.

L'IA ne peut jamais être aussi bonne que les données qui la nourrissent, et pour créer et utiliser une application d'IA, il faut un certain nombre de phases spécifiques aux données :

Nettoyage de la qualité des données pour garantir que la modélisation n'est pas effectuée sur des données contenant des éléments non pertinents ou incorrects
Transformer, joindre et améliorer les données avant le début du processus de modélisation
Déploiement, qui prend le modèle et l'applique aux données de l'organisation pour orienter la prise de décision

Chacun de ces éléments ajoutera de la valeur mais modifiera également potentiellement les résultats du processus d'IA. Par exemple, si le processus de qualité des données supprime les valeurs aberrantes, les impacts peuvent être très différents. Si la suppression des valeurs aberrantes est appropriée, le résultat sera un modèle qui reflète très bien la majorité des données. D'un autre côté, il peut ignorer une circonstance rare mais critique et rater l'opportunité d'apporter un réel avantage.

Cela a été montré dans la découverte par Dame Jocelyn Bell Burnell de Pulsars, un type d'étoile à neutrons en rotation. Elle examinait des kilomètres de données imprimées à partir d'un radiotélescope et a remarqué un petit signal dans un point de données sur 100 000. Bien que son superviseur lui ait dit qu'il s'agissait d'interférences causées par l'homme, elle a persisté et a prouvé leur existence en recherchant avec succès des signaux similaires ailleurs. Si les valeurs aberrantes avaient été supprimées, elle n'aurait pas fait la découverte.

Le parcours des données

La qualité des données doit également être appliquée pour éviter des décisions embarrassantes. Si Bank of America avaient vérifié la validité de leurs données de nom, ils n'ont peut-être pas envoyé d'offre de carte de crédit à "Lisa Is A Slut McXxxxxx" (son nom est expurgé. Ed.) en 2014. Ils avaient acquis les données de la Golden Key International Honor Society , qui reconnaît la réussite scolaire. Une personne inconnue avait modifié son nom dans le registre des membres.

Le processus se poursuit ensuite par des transformations pour préparer les données à la modélisation; les systèmes sources sont généralement hautement normalisés et contiennent des informations stockées dans plusieurs tableaux, tandis que les scientifiques des données aiment un seul tableau carré à analyser. Ils auront souvent besoin d'ajouter des variables dérivées pour faciliter leur analyse. Ceux-ci sont généralement définis initialement dans un environnement de préparation de données ad-hoc par le data scientist, mais devront être déplacés vers un environnement plus contrôlé à des fins de production.

L'impact de cette étape de transformation des données peut être énorme. Premièrement, il est important de comprendre quelles sources de données sont utilisées dans l'analyse. Cela peut être lié à des préoccupations réglementaires telles que l'utilisation de données personnelles ou simplement pour garantir l'accès à la bonne source de données. Deuxièmement, il est important de comprendre si la transformation a été appropriée et correctement mise en œuvre ; les erreurs de mise en œuvre peuvent être tout aussi dommageables que des données de mauvaise qualité.

Le dernier processus de données qui a un impact direct sur l'IA est le déploiement, garantissant que les données correctes sont introduites dans le modèle et utilisant les résultats pour prendre des décisions qui ont un impact direct sur les performances des organisations. Les modèles ont une durée de vie définie pendant laquelle ils prédisent avec précision le monde réel. Par conséquent, si le déploiement des modèles en production prend trop de temps, ils ne fourniront pas leur pleine valeur.

Un processus de déploiement organisé est également un élément nécessaire pour répondre aux exigences de l'article 22 du RGPD. Cet article interdit l'utilisation du profilage analytique sur les données personnelles à moins que des conditions strictes ne soient respectées (par exemple, un consentement complet). Le déploiement contrôlé permet d'avoir un aperçu des données qui ont été utilisées dans le processus d'IA et des modèles analytiques qui ont été appliqués aux données à un moment donné. Ceci est essentiel pour déterminer si la réglementation a été compromise.

Dans l'ensemble, la gestion des données est fondamentale pour que l'IA puisse atteindre son véritable potentiel. Être capable de comprendre comment le traitement des données est réalisé est un élément crucial du maintien de la transparence, l'un des principaux piliers d'une IA juste, fiable et efficace.

L'auteur de ce blog est David Smith, responsable de la technologie GDPR, SAS Royaume-Uni et Irlande.

Pourquoi le big data et l'analyse des bâtiments ne vont nulle part :1ère partie IIoT, Industrie 4.0 et Fork Truck Free : Part 2

Technologie de l'Internet des objets

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets