Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Manufacturing Technology >> Technologie industrielle

Microsoft réalise une nouvelle percée dans le domaine de l'IA conversationnelle

Des représentations linguistiques robustes et universelles sont importantes pour obtenir des résultats décents sur diverses tâches de traitement du langage naturel (NLP). L'apprentissage par ensemble est l'une des approches les plus efficaces pour améliorer la généralisation des modèles. Jusqu'à présent, les développeurs l'ont utilisé pour obtenir des résultats de pointe dans une variété de tâches de compréhension du langage naturel (NLU), allant de la compréhension de lecture par machine à la réponse aux questions.

Cependant, de tels modèles d'ensemble contiennent des centaines de modèles de réseaux de neurones profonds (DNN) et sont assez coûteux à mettre en œuvre. Les modèles pré-entraînés, tels que GPT et BERT, sont également très coûteux à déployer. GPT, par exemple, se compose de 48 couches de transformateurs avec 1,5 milliard de paramètres, tandis que BERT a 24 couches de transformateurs avec 344 millions de paramètres.

En 2019, Microsoft a mis au point son propre algorithme de traitement du langage naturel (NLP), nommé Multi-Task DNN. Ils ont maintenant mis à jour cet algorithme pour obtenir des résultats impressionnants.

Extension de la distillation des connaissances

L'équipe de recherche a compressé plusieurs modèles d'ensemble en un seul DNN multi-tâches, en utilisant la distillation des connaissances. Ils ont utilisé le modèle d'ensemble [de manière hors ligne] pour générer des cibles souples pour chaque tâche de l'ensemble de données d'entraînement. Par rapport aux cibles strictes, ils offrent des données plus utiles par échantillon d'entraînement.

Prenons une phrase par exemple, "J'ai eu une bonne conversation avec John hier soir", le sentiment dans cette phrase est peu susceptible d'être négatif. Cependant, la phrase « Nous avons eu une conversation intrigante hier soir » peut être négative ou positive, selon le contexte.

Référence :arXiv:1904.09482 | Blog Microsoft Research 

Les chercheurs ont utilisé à la fois les cibles correctes et les cibles souples dans diverses tâches pour former un seul MT-DNN. Ils ont utilisé le framework d'apprentissage en profondeur PyTorch accéléré par cuDNN pour former et tester le nouveau modèle sur les GPU NVIDIA Tesla V100.

Résultats

Ils ont comparé le MT-DNN distillé avec le MT-DNN et le BERT normaux. Les résultats montrent que le MT-DNN distillé surpasse les deux modèles par une marge significative, en termes de score global sur le benchmark General Language Understanding Evaluation (GLUE), qui est utilisé pour tester les performances du système sur un large éventail de phénomènes linguistiques.

score de référence GLUE 

Le benchmark comprend 9 tâches NLU, y compris la similitude de texte, l'implication textuelle, l'analyse des sentiments et la réponse aux questions. Les données contiennent plusieurs centaines de paires de phrases tirées de différentes sources, telles que des textes universitaires et encyclopédiques, des actualités et des réseaux sociaux.

Toutes les expériences réalisées dans cette recherche montrent clairement que la représentation du langage apprise par le biais du MT-DNN distillé est plus universelle et robuste que le MT-DNN et le BERT normaux.

Lire :Bosque :le nouveau langage de programmation de Microsoft sans boucles

Dans les années à venir, les chercheurs essaieront de trouver de meilleures façons de combiner des cibles correctes et des cibles douces pour un apprentissage multitâche. Et, plutôt que de compresser un modèle compliqué en un modèle plus simple, ils exploreront de meilleures façons d'utiliser la distillation des connaissances pour améliorer les performances du modèle, quelle que soit sa complexité.


Technologie industrielle

  1. L'émergence d'une nouvelle espèce informatique :le professionnel hybride IT/OT
  2. Le bureau est-il fermé ? Microsoft annonce un nouvel incubateur de recherche sur l'IA
  3. GLTR :une nouvelle méthode pour détecter le langage généré par ordinateur
  4. Microsoft crée le plus grand modèle de génération de langage avec 17 milliards de paramètres
  5. Bosque :le nouveau langage de programmation de Microsoft sans boucles
  6. 9 nouveaux langages de programmation à apprendre en 2021
  7. Dans la logistique mondiale, l'orchestration est la nouvelle visibilité
  8. Impact des nouveaux comportements d'achat en ligne
  9. 5G, IoT et les nouveaux défis de la Supply-Chain