Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Manufacturing Technology >> Technologie industrielle

Microsoft crée le plus grand modèle de génération de langage avec 17 milliards de paramètres

Les modèles de langage d'apprentissage en profondeur à grande échelle (comme GPT-2 et BERT), avec des milliards de paramètres formés sur tout le texte disponible sur Internet, ont amélioré diverses tâches de traitement du langage naturel (NLP), telles que la compréhension de documents, les agents conversationnels et les questions. répondre.

Il a été observé que les modèles plus grands avec des données de pré-entraînement plus diversifiées et plus complètes fonctionnent mieux, même avec moins d'échantillons d'entraînement. Ainsi, il est plus efficace de former un modèle centralisé massif et de partager ses fonctionnalités sur différentes tâches au lieu de former un nouveau modèle pour chaque tâche individuellement.

Suivant cette tendance, les chercheurs de Microsoft ont introduit Turing Natural Language Generation (T-NLG), le plus grand modèle au monde avec 17 milliards de paramètres. Il surpasse les modèles de pointe existants sur différents référentiels de modélisation de langage.

T-NLG peut générer des mots pour compléter des phrases inachevées, des résumés de documents d'entrée et des réponses directes aux questions. Contrairement à d'autres systèmes NLP qui reposent sur l'extraction de contenu à partir de documents pour créer un résumé ou répondre à des questions, le nouveau modèle génératif répond aussi précisément, directement et couramment que les humains peuvent le faire dans différentes situations.

Au lieu de copier le passage, T-NLG répond directement à la question avec une phrase complète.

Formation T-NLG

Étant donné qu'un GPU (même avec 32 Go de mémoire) ne peut pas traiter des milliards de paramètres, vous devez paralléliser le modèle lui-même ou le diviser en tranches pour l'entraîner sur plusieurs GPU.

Dans cette étude, les chercheurs ont tiré parti de la configuration matérielle NVIDIA DGX-2 (pour accélérer la communication entre les GPU) et du tensor slicing (pour casser le modèle sur 4 GPU NVIDIA V100). À l'aide de la bibliothèque DeepSpeed ​​et de l'optimiseur Zero, ils ont pu entraîner T-NLG très efficacement avec moins de GPU.

Performance par rapport aux tâches standard 

Ils ont ensuite comparé les performances du T-NLG pré-entraîné à d'autres modèles de langage de transformateur puissants sur deux tâches standard :la précision de la prédiction du mot suivant LAMBADA (plus c'est mieux) et la perplexité Wikitext-103 (plus c'est mieux). Dans les deux cas, T-NLG a mieux performé.

Référence :Microsoft | GitHub 

Performance dans la réponse aux questions 

Pour tester des qualités telles que l'exactitude grammaticale et l'exactitude factuelle, les chercheurs ont demandé l'aide d'annotateurs humains. Ils ont comparé le nouveau modèle avec le modèle LSTM (similaire à CopyNet).

Performance en synthèse active 

T-NLG peut rédiger des résumés abstraits de type humain pour une variété de documents texte (y compris des documents Word, des articles de blog, des e-mails, des présentations PowerPoint et même des feuilles Excel), mais à quel point c'est bon par rapport aux autres modèles NLP existants.

Pour rendre le nouveau modèle plus polyvalent afin qu'il puisse résumer toutes sortes de textes, les chercheurs l'ont formé sur des ensembles de données de résumé accessibles au public. Ils l'ont ensuite comparé à un autre grand modèle de langage basé sur un transformateur nommé PEGASUS et à sa version précédente. Cette fois, ils ont rapporté le score ROUGE - un ensemble de mesures utilisées pour évaluer la synthèse automatique dans le traitement du langage naturel.

Applications

Microsoft a réalisé une percée dans l'intelligence artificielle conversationnelle. Dans les années à venir, ils intégreront T-NLG dans la suite Microsoft Office, ce qui non seulement fera gagner du temps aux utilisateurs en résumant les e-mails et les documents, mais offrira également une aide à la rédaction et répondra aux questions que les lecteurs peuvent poser sur le contenu.

Lire : Microsoft crée un stockage de données ADN entièrement automatisé

De plus, les résultats ouvrent la voie à des assistants numériques et des chatbots plus précis et plus fluides, aidant les entreprises dans la gestion des ventes et de la relation client.


Technologie industrielle

  1. Que dois-je faire avec les données ? !
  2. Microsoft réalise une nouvelle percée dans le domaine de l'IA conversationnelle
  3. Commencer par la fin (cybersécurité) en tête
  4. Plateformes de réseau numérique :le modèle de maturité en cinq étapes
  5. Optimiser la chaîne d'approvisionnement de la santé avec un WMS
  6. Protéger la chaîne d'approvisionnement mondiale avec des données sans frontières
  7. Naviguer dans la crise des capacités avec les systèmes de maintenance numériques
  8. Préparer l'entreprise avec les technologies des acheteurs numériques
  9. Comment tirer le meilleur parti de mon investissement dans la génération de prospects ?