Microsoft réalise une nouvelle percée dans le domaine de l'IA conversationnelle

Microsoft crée de nouveaux records dans le domaine de l'intelligence artificielle conversationnelle.
Ils ont développé une version améliorée de Multi-Task Deep Neural Network pour l'apprentissage des représentations textuelles à travers diverses tâches de compréhension du langage naturel.

Des représentations linguistiques robustes et universelles sont importantes pour obtenir des résultats décents sur diverses tâches de traitement du langage naturel (NLP). L'apprentissage par ensemble est l'une des approches les plus efficaces pour améliorer la généralisation des modèles. Jusqu'à présent, les développeurs l'ont utilisé pour obtenir des résultats de pointe dans une variété de tâches de compréhension du langage naturel (NLU), allant de la compréhension de lecture par machine à la réponse aux questions.

Cependant, de tels modèles d'ensemble contiennent des centaines de modèles de réseaux de neurones profonds (DNN) et sont assez coûteux à mettre en œuvre. Les modèles pré-entraînés, tels que GPT et BERT, sont également très coûteux à déployer. GPT, par exemple, se compose de 48 couches de transformateurs avec 1,5 milliard de paramètres, tandis que BERT a 24 couches de transformateurs avec 344 millions de paramètres.

En 2019, Microsoft a mis au point son propre algorithme de traitement du langage naturel (NLP), nommé Multi-Task DNN. Ils ont maintenant mis à jour cet algorithme pour obtenir des résultats impressionnants.

Extension de la distillation des connaissances

L'équipe de recherche a compressé plusieurs modèles d'ensemble en un seul DNN multi-tâches, en utilisant la distillation des connaissances. Ils ont utilisé le modèle d'ensemble [de manière hors ligne] pour générer des cibles souples pour chaque tâche de l'ensemble de données d'entraînement. Par rapport aux cibles strictes, ils offrent des données plus utiles par échantillon d'entraînement.

Prenons une phrase par exemple, "J'ai eu une bonne conversation avec John hier soir", le sentiment dans cette phrase est peu susceptible d'être négatif. Cependant, la phrase « Nous avons eu une conversation intrigante hier soir » peut être négative ou positive, selon le contexte.

Référence :arXiv:1904.09482 | Blog Microsoft Research

Les chercheurs ont utilisé à la fois les cibles correctes et les cibles souples dans diverses tâches pour former un seul MT-DNN. Ils ont utilisé le framework d'apprentissage en profondeur PyTorch accéléré par cuDNN pour former et tester le nouveau modèle sur les GPU NVIDIA Tesla V100.

Résultats

Ils ont comparé le MT-DNN distillé avec le MT-DNN et le BERT normaux. Les résultats montrent que le MT-DNN distillé surpasse les deux modèles par une marge significative, en termes de score global sur le benchmark General Language Understanding Evaluation (GLUE), qui est utilisé pour tester les performances du système sur un large éventail de phénomènes linguistiques.

score de référence GLUE

Le benchmark comprend 9 tâches NLU, y compris la similitude de texte, l'implication textuelle, l'analyse des sentiments et la réponse aux questions. Les données contiennent plusieurs centaines de paires de phrases tirées de différentes sources, telles que des textes universitaires et encyclopédiques, des actualités et des réseaux sociaux.

Toutes les expériences réalisées dans cette recherche montrent clairement que la représentation du langage apprise par le biais du MT-DNN distillé est plus universelle et robuste que le MT-DNN et le BERT normaux.

Lire :Bosque :le nouveau langage de programmation de Microsoft sans boucles

Dans les années à venir, les chercheurs essaieront de trouver de meilleures façons de combiner des cibles correctes et des cibles douces pour un apprentissage multitâche. Et, plutôt que de compresser un modèle compliqué en un modèle plus simple, ils exploreront de meilleures façons d'utiliser la distillation des connaissances pour améliorer les performances du modèle, quelle que soit sa complexité.

L'entraînement d'un grand réseau de neurones peut émettre 284 000 kilo de CO2 La nouvelle IA de Google peut créer une vidéo avec uniquement les images de début et de fin

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle