L'IA de Facebook transforme la musique dans tous les genres et instruments
- L'équipe de recherche sur l'IA de Facebook crée un réseau universel de traduction musicale.
- Il reproduit l'audio qu'il entend et le lit dans différents styles, genres et instruments.
- Il peut traiter des sources musicales inaudibles, comme des applaudissements ou des sifflets, et produire un son de haute qualité.
En ce qui concerne la musique, les humains ont toujours fait preuve de créativité en reproduisant des chansons et en les transformant en diverses autres formes en les applaudissant, en les sifflant ou en les jouant sur différents instruments.
Bien que la musique soit l'un des premiers domaines à être numérisée et traitée par des machines informatiques et des algorithmes, l'intelligence artificielle d'aujourd'hui est encore bien inférieure aux humains pour imiter les audios.
L’équipe de recherche de Facebook AI a désormais développé un réseau universel de traduction musicale capable de convertir la musique d’une forme à une autre. Il reproduit la musique qu'il entend et la joue dans différents styles, genres et instruments.
Comment ont-ils fait ?
Ce système d'IA est basé sur 2 dernières technologies
- Synthèse audio de haute qualité à l'aide de modèles auto-régressifs
- Transformation entre domaines de manière non supervisée
Les modèles auto-régressifs sont formés en tant que décodeurs et peuvent produire des audios réalistes et de haute qualité. La 2ème technologie se charge de rendre les choses plus pratiques, puisque la gestion des problèmes d'apprentissage dans des environnements supervisés nécessiterait un vaste ensemble de données de nombreux instruments de musique.
Les chercheurs ont développé et appliqué un encodeur universel à chaque entrée. Cela a supprimé le fardeau de la formation de l'ensemble du réseau et a permis la conversion de domaines musicaux inédits vers tout autre domaine rencontré.
Architecture réseau | La confusion de domaine est appliquée uniquement pendant la formation
Ils ont formé un encodeur universel [via un réseau de confusion de domaine] tout en garantissant que les données spécifiques au domaine ne sont pas codées. L’encodeur universel ne mémorise pas les données d’entrée, mais les code de manière sémantique. Pour ce faire, les chercheurs ont déformé le signal d'entrée (format audio) par modulation de hauteur locale aléatoire.
Référence : arXiv:1805.07848
Étant donné que le réseau est formé comme un encodeur automatique de débruitage, il est capable de récupérer la forme non déformée du signal d'entrée d'origine. Le système apprend progressivement à projeter des signaux d'entrée hors domaine vers le domaine de sortie approprié.
Les chercheurs ont formé leur réseau sur 6 types de domaines de la musique classique, comprenant des milliers d'échantillons de ces domaines. Ils ont exécuté le cadre d'apprentissage profond PyTorch accéléré par cuDNN sur 8 GPU NVIDIA Tesla V100. Il leur a fallu 8 jours pour former complètement le réseau.
Résultats
L'IA n'est pas aussi performante que celle des musiciens professionnels, mais plusieurs fois, les auditeurs ont du mal à distinguer lequel est l'audio original et lequel est généré artificiellement.
Le système peut traiter efficacement les sources musicales inaudibles, comme les applaudissements ou les sifflements, et produire un son de qualité supérieure. On peut intégrer de nouveaux instruments de musique sans avoir à recycler l'ensemble du réseau.
Lire :Arrêt des robots IA de Facebook – Que s'est-il réellement passé ?
Selon les développeurs, leur travail pourrait ouvrir de nouvelles portes à d’autres tâches complexes, comme la composition et la transcription automatiques de musique. De plus, on peut rendre les décodeurs plus « créatifs » en diminuant la taille de l'espace latent, ce qui leur permet de générer des sorties naturelles passionnantes dans le sens où l'association avec l'audio original est perdue.
Technologie industrielle
- Qu'est-ce qu'un tour ? ses pièces, opérations, types avec PDF
- Aluminium vs PCB standard
- 4 exemples de la façon dont l'IoT transforme la chaîne d'approvisionnement électronique
- Devriez-vous utiliser la CNC pour le prototypage rapide ? Apprenez 4 avantages et 2 inconvénients
- Types de transistors :un guide complet
- Démystifier :le véhicule à hydrogène et l'économie de carburant
- Qu'est-ce qu'APQP ?
- Applications du polyuréthane dans le forage pétrolier et gazier :amélioration des performances et de la durabilité
- Industrie 4.0 :Comment les PME profitent de la surveillance des données dans le cloud