Facebook développe une IA capable de copier la voix de n'importe qui avec une précision sans précédent

Le nouveau modèle d'apprentissage en profondeur nommé MelNet peut produire une intonation humaine avec une précision incroyable.
Une fois entraîné, il peut régénérer la voix de n'importe qui en quelques secondes.
Les chercheurs démontrent avec quelle précision il peut cloner la voix de Bill Gates.

Il y a eu d'énormes progrès dans les techniques d'apprentissage automatique ces dernières années. Ces techniques ont très bien fonctionné pour reconnaître des objets, des visages et générer des images réalistes.

Cependant, en ce qui concerne l'audio, l'intelligence artificielle est une déception. Même les meilleurs systèmes de synthèse vocale manquent des fonctionnalités de base, telles que les changements d'intonation. Avez-vous entendu la voix générée par la machine de Stephen Hawking ? Parfois, il devient vraiment difficile de comprendre ses phrases.

Aujourd'hui, les scientifiques de Facebook AI Research ont développé une méthode pour surmonter les limites des systèmes de synthèse vocale existants. Ils ont construit un modèle génératif - nommé MelNet - qui peut produire une intonation humaine avec une précision étonnante. En fait, il peut parler couramment avec la voix de n'importe qui.

En quoi MelNet est-il différent de la voix artificielle existante ?

La plupart des algorithmes d'apprentissage en profondeur sont entraînés sur de grandes bases de données audio pour régénérer des modèles de parole réels. Le principal problème avec cette méthodologie est le type de données. En règle générale, ces algorithmes sont entraînés sur des enregistrements de formes d'onde audio, qui ont des structures complexes à des échelles de temps considérablement variables.

Ces enregistrements représentent la façon dont l'amplitude du son varie avec le temps :une seconde d'audio contient des dizaines de milliers de pas de temps. De telles formes d'onde reflètent des modèles particuliers à un certain nombre d'échelles différentes.

Les modèles génératifs existants de formes d'onde (tels que SampleRNN et WaveNet) ne peuvent se propager qu'en une fraction de seconde. Par conséquent, ils ne peuvent pas capturer la structure de haut niveau qui émerge à l'échelle de plusieurs secondes.

MelNet, d'autre part, utilise des spectrogrammes (au lieu de formes d'onde audio) pour former des réseaux d'apprentissage en profondeur. Les spectrogrammes sont des représentations temps-fréquence 2D qui montrent l'ensemble du spectre des fréquences audio et leur variation dans le temps.

Schémas de spectrogramme et de forme d'onde du même contenu audio de 4 secondes

Alors que les formes d'onde du domaine temporel 1D capturent le changement dans le temps d'une variable (amplitude), les spectrogrammes capturent le changement sur différentes fréquences. Ainsi, les informations audio sont plus denses dans les spectrogrammes.

Cela permet à MelNet de produire des échantillons de parole et de musique inconditionnels avec cohérence sur plusieurs secondes. Il est également capable de générer de la parole conditionnelle et de synthétiser du texte à la parole, entièrement de bout en bout.

Référence :arXiv:1906.01083 | GitHub

Pour réduire la perte d'informations et limiter le lissage excessif, ils ont respectivement modélisé des spectrogrammes haute résolution et utilisé un modèle autorégressif hautement expressif.

Les résultats sont impressionnants

Les chercheurs ont formé MelNet sur de nombreuses conférences de Ted, et il a ensuite été capable de régénérer la voix du locuteur en disant des phrases aléatoires en quelques secondes. Vous trouverez ci-dessous deux exemples de MelNet utilisant la voix de Bill Gates pour prononcer des phrases aléatoires.

https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

"Le Porto est un vin fort avec un goût fumé."

https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

« Nous fronçons les sourcils lorsque les événements prennent une mauvaise tournure ».

D'autres exemples sont disponibles sur GitHub.

Bien que MelNet crée des clips audio remarquablement réalistes, il ne peut pas générer de phrases ou de paragraphes plus longs. Néanmoins, le système pourrait améliorer l'interaction ordinateur-humain.

De nombreuses conversations sur le service client impliquent des phrases courtes. MelNet peut être utilisé pour automatiser de telles interactions ou remplacer le système vocal automatisé actuel pour améliorer l'expérience de l'appelant.

Lire :Facebook AI convertit la musique d'un style à un autre

Sur une note négative, la technologie soulève le spectre d'une nouvelle ère de faux contenu audio. Et comme d'autres avancées de l'intelligence artificielle, elle soulève plus de questions éthiques qu'elle n'apporte de réponses.

La nouvelle peau électronique peut avoir un sens du toucher semblable à celui d'un humain Les scientifiques développent une nouvelle méthode pour rendre les écrans plus lumineux et plus efficaces

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle