Pouvons-nous automatiser la qualité des données pour soutenir l'intelligence artificielle et l'apprentissage automatique ?
Les organisations peuvent-elles automatiser la qualité des données pour améliorer l'IA et le ML ?
Au cours de la dernière décennie, les entreprises ont commencé à saisir et à libérer le potentiel que l'intelligence artificielle (IA) et l'apprentissage automatique (ML) peuvent apporter. Bien qu'elles n'en soient qu'à leurs balbutiements, les entreprises commencent à comprendre l'impact significatif que cette technologie peut avoir, les aidant à prendre de meilleures décisions, plus rapidement et plus efficacement.
Bien sûr, l'IA et le ML ne sont pas une solution miracle pour aider les entreprises à adopter l'innovation. En fait, le succès de ces algorithmes ne dépend que de leurs fondements, en particulier des données de qualité.
Sans cela, les entreprises verront l'objectif même pour lequel elles ont installé l'IA et le ML échouer, avec les conséquences imprévues de mauvaises données causant des dommages irréversibles à l'entreprise, tant en termes d'efficacité que de réputation.
Mais il existe un autre domaine d'exploration qui est mûr pour le développement; à savoir, la qualité des données peut-elle être améliorée et maintenue par l'automatisation et l'apprentissage automatique ?
Le risque de mauvaise qualité des données
Des services de streaming de films aux chatbots, en passant par l'information sur la manière dont les supermarchés organisent leurs rayons et nous guidant à travers les principaux centres de transport, le ML influence nos vies d'une manière inimaginable il y a dix ans.
Mais que se passe-t-il si l'algorithme est configuré pour fonctionner sur la base d'une mauvaise qualité des données ? Les risques à l'avenir pourraient être bien plus graves que de se voir servir un film que vous n'aimez pas.
Si nous commençons à faire confiance à l'apprentissage automatique pour améliorer la découverte et les tests de produits pharmaceutiques, par exemple, que se passerait-il si un médicament était formulé mais qu'il y avait des erreurs dans les données sur les composés chimiques utilisées pour simuler les tests ? Les implications pourraient être graves.
Une application émergente du ML qui pourrait également être affectée par des données de base médiocres est celle des véhicules autonomes. Des cartes et des adresses à la façon dont un véhicule réagit à un cycliste, les données utilisées pour enseigner la machine seront cruciales pour l'adoption par les consommateurs et les régulateurs.
Les algorithmes de ML - ces ensembles de règles et de calculs qui aident à résoudre des problèmes définis - peuvent soit soutenir l'amélioration de la qualité des données, soit être rejetés par des données inexactes si la possibilité de données médiocres n'est pas prise en compte dans leur construction.
Qualité des données automatisée
Comme pour toute transformation numérique, passer d'une gestion manuelle à une gestion automatisée puis « intelligente » de la qualité des données nécessitera un plan à long terme. Experian a identifié quatre étapes concernant la progression de la gestion des données, que nous appelons la courbe de maturité de la gestion des données. Inconscient, réactif, proactif et optimisé et gouverné reflètent les quatre étapes qui couvrent un cycle complet d'une stratégie de qualité des données.
L'évaluation a révélé une progression constante vers le haut de la courbe de maturité, à mesure que les organisations commencent à libérer le potentiel des données qu'elles détiennent et à les prendre plus au sérieux. Le plus intrigant de tous, ceux qui se trouvent au stade Optimisé et Gouverné, pourraient voir les débuts d'un autre niveau, quelque chose qui peut être qualifié d'"intelligentement automatisé".
« Intelligentement automatisé » fait référence à la mise en place de systèmes et de processus pour aider les personnes responsables de la qualité des données à identifier leurs principales préoccupations. Nous devrions tous maintenant examiner régulièrement les mesures de performance clés pour identifier les tendances de la qualité des données, peut-être en examinant les taux d'achèvement globaux des attributs clés ou en surveillant tout problème de synchronisation avec les étapes de réception ou de chargement des données. Mais pour vraiment comprendre la qualité de vos données, nous devons examiner de plus près le contenu.
Par exemple, est-il suffisant de dire que vous avez collecté une date de naissance pour répondre aux exigences de données de tiers dans 99 % des cas, alors qu'une grande partie des dates que vous avez collectées sont dérivées du système et donc pas des dates de naissance réelles ? Cela peut causer de vrais problèmes et les conséquences imprévues peuvent se répercuter sur votre processus de prise de décision.
Les prochaines étapes
La plupart des programmes de qualité des données contiennent déjà un élément d'automatisation et de test et d'apprentissage. La prochaine étape de cette évolution est l'utilisation de l'apprentissage automatique pour reconnaître et répondre automatiquement à différents types de données - "intelligemment automatisé".
Par exemple, un outil de gestion des données qui peut reconnaître des informations standard telles qu'une adresse, un e-mail, un numéro de carte de crédit ou un numéro d'assurance nationale avec peu de formation préalable ou de rédaction de règles avant de prendre des mesures telles que la validation de l'entrée ou le signalement d'un problème de conformité à un gestionnaire.
L'objectif ultime est le ML pour la qualité des données qui s'améliore ensuite au fil du temps. Le nom de l'entreprise en est un bon exemple :Tesco PLC est-il identique à Tesco Stores Ltd ? Qu'en est-il d'une partie du groupe Tesco qui n'a pas le mot "Tesco" dans le nom de l'entreprise ?
Regrouper des entités commerciales peut être aussi simple que de rechercher le nom, ou plus complexe en examinant les détails des comptes de l'entreprise, les adresses des sièges sociaux, les noms des PDG, les adresses Web et d'autres métadonnées pour trouver des associations dans le monde entier.
Ces types d'hypothèses sont les défis commerciaux qu'une stratégie de données solide peut prendre en charge. Cependant, pouvons-nous passer à un endroit où nous pouvons automatiser cet apprentissage et améliorer la qualité de nos données au fil du temps avec moins d'effort manuel, donnant à nos personnes chargées des données plus de temps pour analyser et soutenir l'entreprise ?
C'est le défi pour ML - prendre les règles de base pour la qualité des données, les mettre en œuvre, puis suggérer des améliorations à mesure que les changements réels dans les données deviennent visibles comme des exceptions ou des valeurs aberrantes. C'est un sujet émergent et nous nous attendons à voir beaucoup de développement dans les années à venir.
Votre stratégie de données
Fondamentalement, chaque exemple de ML repose sur des données adaptées à l'objectif - sinon ces données, et par conséquent, les décisions qui sont prises à cause de cela, ne sont pas fiables.
Pour éviter cela, les organisations doivent s'assurer qu'elles disposent d'une stratégie de données robuste. Réfléchissez aux raisons de vous lancer dans le ML ; quels sont les résultats explicables qu'ils veulent atteindre et éviter ?
Ensuite, en procédant à une évaluation initiale de vos données pour vérifier la qualité de ce dont ils disposent déjà, l'organisation peut prendre des mesures et planifier ce dont elle a besoin pour améliorer la qualité globale de ses données.
Pouvoir identifier et tracer les décisions prises via le ML (et tous les processus de prise de décision automatisés) est essentiel pour qu'elles soient adoptées et mises en œuvre avec succès.
La surveillance continue de la qualité des données est également cruciale. En faisant cela, vous serez en mesure d'identifier rapidement les domaines qui nécessitent une attention et d'être rassuré que vous êtes dans la meilleure position possible avec les initiatives de ML actuelles et potentielles.
Ensuite, les organisations seront en mesure que le ML leur permette de gérer plus efficacement la qualité de leurs données, accélérant et améliorant leurs processus de prise de décision.
En allant jusqu'à sa conclusion logique, l'utilisation de l'apprentissage automatique peut nous aider à identifier les problèmes de données qui restent cachés jusqu'à ce qu'ils deviennent un véritable problème. Si nous pouvons former des modèles pour identifier les attributs clés qui peuvent influencer une décision ou un processus en bout de ligne, puis surveiller les fluctuations ou les tendances préoccupantes, nous pouvons même être en mesure de prédire l'impact que ces problèmes de données pourraient avoir sur votre entreprise.
Par exemple, si nous savons que le nombre de chambres dans une propriété a un impact direct sur les décisions dans notre entreprise, et que nous constatons que nous disposons de données incomplètes ou approximatives dans ce domaine à une certaine échelle qui s'aggrave, pourrions-nous prédire, en fonction de l'endroit où savons-nous que les données sont utilisées, des estimations de revenus locatifs, des évaluations d'hypothèques ou des prévisions de consommation de chauffage ?
L'impact de cette préoccupation croissante sur la qualité des données pourrait aider à élaborer une analyse de rentabilisation pour la corriger maintenant plutôt que lorsqu'il s'agit d'un véritable problème.
Système de contrôle d'automatisation
- La chaîne d'approvisionnement et l'apprentissage automatique
- Comment la science des données et l'apprentissage automatique peuvent aider à améliorer la conception de sites Web
- Intelligence artificielle vs apprentissage automatique vs apprentissage en profondeur | La différence
- Comment l'automatisation et l'intelligence artificielle peuvent renforcer la cybersécurité
- AIoT industriel :combiner l'intelligence artificielle et l'IoT pour l'industrie 4.0
- Vidéo :L'impact de l'intelligence artificielle (IA) sur la fabrication et l'usinage
- Avantages et inconvénients de l'intelligence artificielle
- Big Data vs Intelligence Artificielle
- L'intelligence artificielle améliore la santé et la sécurité de la batterie