Libérez la productivité :associez l'automatisation de l'interface utilisateur à l'automatisation basée sur LLM

Récemment, un certain nombre de grandes sociétés d'IA ont lancé de nouvelles fonctionnalités qui exploitent leurs puissants modèles de langage étendus (LLM) fondamentaux pour automatiser rapidement de nombreuses actions que les gens effectuent sur les écrans. Anthropic's Computer Use, Amazon Q Business et le prochain « Operator » OpenAI peuvent rapidement comprendre les écrans, faire fonctionner le logiciel utilisé et émuler les actions souhaitées de l'utilisateur, sans aucun codage ni formation de modèle.

L'automatisation basée sur LLM est une nouvelle façon d'automatiser. Cela diffère considérablement de l’automatisation de l’interface utilisateur, qui s’appuie sur des modèles entraînés et des approches basées sur des règles pour extraire des informations et interagir avec les écrans, les systèmes et les logiciels. L'automatisation basée sur LLM étant beaucoup plus simple à utiliser, certains observateurs du secteur ont suggéré qu'elle pourrait supplanter l'automatisation de l'interface utilisateur.

Nous avons effectué une évaluation approfondie de ces nouvelles technologies et nous sommes enthousiasmés par leur potentiel à étendre l’impact de l’automatisation aux entreprises et aux utilisateurs. En fait, nous intégrons les meilleurs d’entre eux dans notre plateforme. Parce qu’ils permettent à l’IA d’interagir avec les logiciels comme le font les humains, nous pensons qu’ils peuvent véritablement révolutionner les interactions entre les personnes et les écrans. Ils ont le potentiel d’augmenter la productivité personnelle vers de nouveaux sommets et permettent à pratiquement n’importe qui de devenir un développeur citoyen pour automatiser ses tâches fastidieuses et répétitives.

Cependant, l’automatisation basée sur le LLM ne supplantera jamais complètement l’automatisation de l’interface utilisateur dans chaque processus. Par exemple, l’automatisation de l’interface utilisateur constitue un bien meilleur choix pour les processus automatisés à volume élevé et critiques qui impliquent l’accès à plusieurs systèmes et l’utilisation de données sensibles ou propriétaires. Ces types de processus sont nombreux dans les entreprises et sont, en général, mieux gérés par l'automatisation de l'interface utilisateur.

Pour comprendre pourquoi il en est ainsi, examinons rapidement le fonctionnement de chaque approche.

L'automatisation de l'interface utilisateur et l'automatisation basée sur LLM fonctionnent différemment, et c'est important

Les approches basées sur le LLM utilisent généralement un LLM multimodal (compréhension des images, des mots, de l'audio, etc.) pour « lire » un écran et agir. L'approche dépend d'un LLM comprenant les informations à l'écran (données, champs, etc.) hébergées dans le cloud. Le modèle prédit ensuite les actions que l'humain entreprendrait et envoie des instructions pour entreprendre l'action (copier et coller des données, etc.).

À l’inverse, dans l’automatisation de l’interface utilisateur, les robots suivent un ensemble d’instructions pré-développées pour effectuer des tâches définies. Ils peuvent s'exécuter dans l'environnement du client et/ou de l'utilisateur. Les données ne peuvent être interprétées que localement et les robots suivent un ensemble d’instructions claires et déterministes. Les récentes avancées basées sur l'IA ont considérablement amélioré la stabilité et la fiabilité, résolvant ainsi bon nombre des problèmes initiaux de l'automatisation de l'interface utilisateur en matière de fragilité et de casse.

Les avantages évidents de l'automatisation de l'interface utilisateur

Les différences entre ces deux approches font TOUTE la différence lors de l’automatisation de processus multisystèmes complexes, à volume élevé, qui nécessitent une sécurité et une précision élevées. Pour ces types de flux de travail, l’automatisation de l’interface utilisateur est une bien meilleure option. Voici pourquoi :

Exactitude et exhaustivité :les processus critiques à la mission, tels que la commande à l'encaissement, dépendent de l'extraction, du déplacement et de la publication précis des données d'un endroit à un autre, ainsi que de la documentation et des communications entourant ces activités. Dans ce domaine, les approches basées sur le LLM ne peuvent pas égaler les performances de l'automatisation de l'interface utilisateur.

Par exemple, une analyse des données UiPath montre que 96,5 % de toutes les automatisations de nos clients fonctionnent avec succès avec nos approches d’automatisation de l’interface utilisateur. Les données accessibles au public sur l’automatisation basée sur l’IA suggèrent qu’elle est nettement moins fiable. Par exemple, Anthropic a rapporté un taux de précision de 14,9 % dans un test conçu pour évaluer les tentatives des développeurs pour que les modèles utilisent des ordinateurs, soit bien en dessous du niveau de compétence humaine de 70 à 75 %. Même si la précision s'améliorera sûrement avec le temps, il reste encore beaucoup de chemin à parcourir avant d'atteindre la parité avec l'automatisation de l'interface utilisateur.

Il y a aussi d’autres problèmes. Tous les LLM sont sujets aux hallucinations et peuvent prendre des mesures imprévisibles. Par exemple, les chercheurs d'Anthropic ont noté des cas où son LLM a soudainement déraillé – en cliquant sur les mauvais écrans ou en téléchargeant inexplicablement des photos de parcs nationaux. Les robots déterministes de l’automatisation de l’interface utilisateur n’ont tout simplement pas la capacité de devenir aussi voyous.

Ensuite, il y a la question de l’exhaustivité. Une approche qui prend des photos de l'écran visible peut manquer des données dans les listes déroulantes qui s'étendent en dessous des marges. Et cela pourrait négliger des actions de courte durée qui ne se produisaient pas au moment où les photos ont été prises. L'automatisation de l'interface utilisateur ne présente pas ces problèmes.

Sécurité et gouvernance :lorsqu'il s'agit de garantir la confidentialité, de bloquer les incursions malveillantes et de conserver les données propriétaires dans des pare-feu, l'automatisation de l'interface utilisateur est un choix nettement moins risqué. Par exemple, avec l’automatisation de l’interface utilisateur, seules les données nécessaires sont collectées. Contrairement à l’automatisation basée sur LLM, l’automatisation de l’interface utilisateur n’implique aucune extraction globale de captures d’écran pouvant contenir par inadvertance des données sensibles. De plus, les robots logiciels UiPath qui effectuent notre automatisation de l'interface utilisateur peuvent être authentifiés et leur accès aux données sensibles contrôlé. Ce niveau de sécurité n'est actuellement pas disponible avec l'automatisation basée sur LLM.

Pour nous, ce n'est pas l'un ou l'autre, c'est les deux

Si nous regardons vers l’avenir, il est clair que l’essor de l’automatisation basée sur le LLM représente un grand pas en avant pour certains types de processus et d’activités. Le monde est sur le point de réaliser le rêve de mettre une automatisation à la volée, sans code et pilotée par invites entre les mains de pratiquement tous ceux qui utilisent des écrans et des logiciels, ouvrant la voie à une nouvelle ère de productivité et de performances personnelles comme nous n'en avons jamais vu auparavant.

Nous prenons déjà des mesures pour intégrer ces types de fonctionnalités dans UiPath Platform™. En particulier, nous l'intégrerons bientôt dans nos expériences d'utilisateur final, comme Autopilot™ for Everyone, et proposerons également une automatisation basée sur LLM comme option supplémentaire pour les développeurs citoyens et les experts en automatisation.

Nous savons que les entreprises voudront tirer parti de ces nouvelles capacités, mais qu’elles le feront en toute sécurité et avec un contrôle total. C'est pourquoi nous avons étendu les capacités de notre plateforme pour fournir l'orchestration, la gestion et la gouvernance nécessaires dont les entreprises ont besoin, quel que soit le ou les modèles qu'elles adoptent.

Mais même si nous élargissons les fonctionnalités et la prise en charge de l'automatisation basée sur LLM, nous continuons à développer nos capacités d'automatisation de l'interface utilisateur, car l'automatisation de l'interface utilisateur sera la meilleure solution pour un large éventail de processus d'entreprise critiques. Nous continuerons à tirer parti des avancées émergentes de l’IA pour rendre l’automatisation de notre interface utilisateur encore plus intelligente, plus facile à comprendre et à agir sans codage ni formation importants, et plus résiliente. Un excellent exemple :le nouvel agent de guérison UiPath (maintenant en préversion publique), qui peut auto-réparer les automatisations défaillantes.

En bref, UiPath croit en un avenir d'automatisation basée sur le LLM sous toutes ses formes, y compris les approches basées sur l'interface utilisateur et le LLM. Chacun a des atouts uniques; chacun constitue le meilleur choix pour un ensemble particulier d’opportunités d’automatisation. Notre objectif est de rendre les deux disponibles, ainsi que toutes les nouvelles approches d'IA qui émergent, via une plate-forme d'entreprise capable d'orchestrer, de gouverner et de gérer la panoplie complète des options d'automatisation disponibles aujourd'hui et à l'avenir.

Tirer parti de l'automatisation agentique :un guide pour les dirigeants Maximisez le retour sur investissement avec l'automatisation et GenAI :préparez votre entreprise à l'avenir

Système de contrôle d'automatisation

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle