GLTR :une nouvelle méthode pour détecter le langage généré par ordinateur

La nouvelle méthode statistique peut détecter le contenu généré par l'IA.
Cela fonctionne en identifiant les textes trop prévisibles plutôt que de simplement signaler les erreurs dans les textes.

Au cours de la dernière décennie, la communauté du traitement du langage naturel a assisté à la croissance de modèles de langage de plus en plus grands et plus intelligents.

À une époque d'intelligence artificielle et de réseaux de neurones profonds équipés de langage naturel humain, des chercheurs de l'université Harvard et d'IBM Research ont développé une méthode statistique pour détecter le texte généré par ordinateur.

Ils ont construit un outil interactif (accessible au public) pour différencier le langage humain naturel et le texte généré par les machines de la parole humaine. L'objectif est de donner aux gens plus d'informations afin qu'ils puissent prendre une décision éclairée sur ce qui est faux et ce qui est réel.

Les modèles d'intelligence artificielle sont généralement entraînés sur des millions de textes (tirés du Web mondial). Ils prédisent des mots qui se succèdent le plus souvent pour imiter le langage humain. Par exemple, le mot « vous » est statiquement le plus susceptible d'être suivi des mots « étaient », « avoir » et « sont ».

En utilisant cette méthodologie, les chercheurs ont construit un outil qui détecte les textes trop prévisibles [plutôt que de signaler les erreurs dans les textes]. Il permet à l'IA et aux humains de travailler ensemble pour identifier le langage généré par la machine.

Comment ça marche ?

La nouvelle technique – nommée Giant Language Model Test Room (GLTR) – est basée sur un modèle formé sur environ 45 millions de textes de sites Web. Il a accès à l'un des plus grands modèles disponibles publiquement, GPT-2.

Ainsi, il peut observer ce que GPT-2 aurait prédit à chaque position (pour toute entrée textuelle) et fonctionne efficacement contre GPT-2 et de nombreux autres modèles.

GLTR représente un outil d'investigation visuelle pour identifier les textes générés automatiquement. Il montre 3 histogrammes différents agrégeant les informations sur l'ensemble du texte.

Référence :The Harvard Gazette | GitHub

Entrez simplement un paragraphe dans la boîte à outils et il mettra en évidence tous les mots dans quatre couleurs différentes, chacune indiquant la prévisibilité du mot dans le contexte de ce qu'il suit. Le violet signifie que le mot n'est pas prévisible ; rouge, légèrement prévisible; jaune, modérément prévisible; et le vert indique des mots très prévisibles dans le paragraphe.

Voici à quoi ressemble un paragraphe généré par une machine –

Le premier histogramme montre combien de mots de chaque catégorie apparaissent dans le paragraphe. Le second montre le rapport entre les probabilités du mot prédit le plus élevé et le mot suivant. Le troisième histogramme représente la distribution sur les entropies de prédiction.

Bien sûr, l'incertitude sera plus élevée pour les textes écrits par des humains, en particulier pour les articles de recherche et les textes universitaires. Voici à quoi ressemble le résumé d'un document de recherche (sur les galaxies EAGLE) -

Lire :L'intelligence artificielle peut générer de la parole à partir d'une activité neuronale

L'équipe de recherche a également testé son nouvel outil avec un groupe de diplômés en informatique. Les étudiants ont pu détecter 50 % des paragraphes générés par ordinateur, mais à l'aide de cet outil, ils en ont identifié 72 %. Le pourcentage pourrait être encore meilleur avec un peu d'entraînement avec le système.

Les neurones artificiels pourraient être aussi efficaces que le cerveau humain L'IA peut résoudre le Rubik's Cube en quelques secondes, sans aucune connaissance spécifique du domaine

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle