La nouvelle IA de Google identifie les voix individuelles dans des environnements bondés

Google développe une nouvelle IA capable de se concentrer sur une voix particulière dans une zone très fréquentée.
Il utilise une combinaison de signaux visuels et auditifs pour séparer les voix.
La technologie a également le potentiel de fournir un meilleur système de sous-titrage vidéo pour les intervenants qui se chevauchent, grâce au prétraitement de la reconnaissance vocale.

Les humains sont exceptionnellement doués pour capter une voix particulière dans une zone bondée, coupant ainsi tous les autres sons. Cela reste toutefois un défi de taille pour les machines. Ils ne sont toujours pas efficaces pour séparer la parole individuelle lorsque deux personnes ou plus parlent, ou en présence de bruit de fond.

Google a désormais développé un modèle audiovisuel basé sur l'apprentissage profond qui peut se concentrer sur un seul signal audio issu d'un mélange de voix et de bruit de fond. L'IA peut analyser la vidéo et améliorer les voix de certaines personnes tout en supprimant tous les autres sons.

Il ne nécessite aucun format audio ou vidéo spécial ; il fonctionne sur tous les formats vidéo courants avec une seule piste audio. L'utilisateur peut sélectionner un visage particulier dans une vidéo qu'il souhaite écouter, ou laisser l'algorithme le faire en fonction du contexte.

La technologie utilise une combinaison de signaux visuels et auditifs d’une vidéo pour séparer les voix. Les algorithmes peuvent identifier quelle personne parle actuellement en fonction des mouvements de sa bouche. Ces signaux visuels améliorent considérablement la qualité de la séparation de la parole dans les discours mixtes et associent les pistes sonores aux locuteurs visibles.

Comment est-il fabriqué ?

Les ingénieurs ont collecté une énorme quantité de vidéos YouTube de qualité d’émissions-débats et de conférences pour produire des échantillons de formation. Ensuite, ils ont filtré 2 000 heures de clips de ces vidéos. La vidéo filtrée avec une voix claire – sans bruit du public, ni musique mixée ni interférence de fond.

Ensuite, ils ont utilisé ce contenu pour créer une combinaison de vidéos de visages avec la parole associée et le bruit de fond provenant de différentes sources. Ils ont formé un réseau neuronal convolutif multi-flux pour séparer les voix des locuteurs individuels de la vidéo à voix mixtes.

La représentation spectrogramme de la bande sonore et les vignettes des visages des locuteurs dans chaque image (extraites de la vidéo) sont insérées dans le réseau neuronal. Le réseau apprend progressivement (période de formation) à encoder les signaux auditifs et visuels et à les fusionner pour créer un contenu audiovisuel unique.

Entre-temps, le réseau apprend également à fournir des masques temps-fréquence pour les locuteurs individuels. Ensuite, il multiplie les spectrogrammes d'entrée bruyants en masques, afin de produire un discours clair, tout en éliminant les interférences et le bruit.

Détails de mise en œuvre

Le réseau est implémenté sur TensorFlow (cadre d'apprentissage automatique open source) et ses opérations sont utilisées pour effectuer des transformations de forme d'onde et de Fourier à court terme. Toutes les couches de réseau, à l'exclusion de la couche de masque, sont suivies par des activations d'unités linéaires rectifiées.

La normalisation par lots est effectuée pour toutes les couches convolutives. Pour ce faire, ils ont utilisé un lot de 6 échantillons et se sont entraînés pour 5 millions de lots (étapes). Les fichiers audio sont rééchantillonnés à 16 KHz et le son stéréo est transformé en mono pour calculer la transformée de Fourier à court terme.

Référence : arXiv:1804.03619 | Recherche Google

Toutes les intégrations de visages sont rééchantillonnées à 25 images par seconde avant l'entraînement, ce qui a abouti à un flux visuel d'entrée de 75 intégrations de visages. Ils ont utilisé des vecteurs nuls lorsque des images manquantes étaient rencontrées dans un échantillon spécifique.

Applications

La technologie pourrait avoir d’innombrables applications, de la reconnaissance audio dans les vidéos à l’amélioration de la parole, en particulier lorsque plusieurs personnes parlent. Cela élargirait les types de microphones pouvant être utilisés dans divers environnements audio. Mais pour l’instant, YouTube et Hangouts semblent être deux points de départ faciles. À terme, il pourrait être appliqué aux écouteurs à amplification vocale et aux lunettes Google.

Lire :Google développe une IA vocale impossible à distinguer des humains | Tacotron 2

En outre, la technique a le potentiel de fournir un meilleur système de sous-titrage vidéo pour les locuteurs qui se chevauchent, grâce au prétraitement de la reconnaissance vocale. Cette fonctionnalité permettrait aux personnes sourdes de participer plus facilement à des téléconférences et de visionner des films.

Les nombres aléatoires générés par le quantique établissent une nouvelle norme de précision La technique PRISM dépasse les limites de diffraction de la lumière pour l'imagerie de cellules vivantes dans l'espace et le temps

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle