Microsoft dévoile AttnGAN :une IA qui transforme les descriptions textuelles en images photoréalistes

AttnGAN de Microsoft peut générer des images haute fidélité à partir de texte brut et de légendes.
Le système utilise une architecture à deux modèles :un générateur qui crée l'image et un discriminateur qui évalue son réalisme.
Il ajoute des détails contextuellement pertinents au-delà de l'invite, démontrant ainsi une couche "d'imagination" interne.
Les futures applications potentielles incluent la production d'animations entièrement automatisée guidée par des scripts.

Alors que les efforts précédents ont amélioré la synthèse texte-image, AttnGAN de Microsoft fait progresser le domaine en générant des images photoréalistes à partir d'invites textuelles concises, en exploitant une vaste bibliothèque d'images étiquetées.

Développé par Microsoft Research, AttnGAN analyse les mots individuels dans une invite pour guider la construction d'images. Selon l'équipe, cette approche offre une qualité d'image environ trois fois supérieure à celle des modèles de pointe précédents.

Le processus créatif du robot

Imaginez qu'on vous demande de dessiner un oiseau bleu avec des ailes rouges et un bec court. Vous commenceriez par un aperçu, puis rempliriez les couleurs et les détails. AttnGAN suit la même logique, analysant chaque mot pour construire une image détaillée et cohérente.

Le robot peut restituer n'importe quel sujet, des gadgets à la faune, et ajoute souvent des éléments d'arrière-plan contextuellement appropriés qui n'ont pas été explicitement mentionnés, démontrant ainsi sa capacité à créer des détails « imaginés ».

Les images sont synthétisées pixel par pixel à partir de zéro, permettant au modèle de créer des scènes qui n'existent peut-être pas dans la réalité. Cette tâche générative est intrinsèquement plus complexe que le simple étiquetage d'une photo existante.

Comment AttnGAN génère des images

Générateur : Crée des images basées sur la description textuelle.
Discriminateur : Évalue l'authenticité de l'image générée par rapport à la description.

Les deux modèles sont entraînés conjointement, ce qui permet au générateur d'apprendre des retours du discriminateur et d'atteindre une fidélité progressivement plus élevée.

La formation impliquait des milliers d'ensembles de données de légendes de photos appariées, apprenant à AttnGAN à mapper des mots spécifiques à des modèles visuels. Par exemple, le mot « éléphant » incite le modèle à produire une image correspondant à l'apparence typique d'un éléphant.

Le système divise les phrases complexes en mots individuels, en alignant chaque mot sur une région de l'image. Pendant la formation, il apprend également le « bon sens artificiel » pour combler les détails manquants, garantissant ainsi une composition réaliste.

Microsoft dévoile AttnGAN :une IA qui transforme les descriptions textuelles en images photoréalistes

Dans cet exemple, l’invite mentionnait uniquement un oiseau. AttnGAN a intelligemment placé l'oiseau sur une branche, un contexte commun du monde réel tiré de ses données d'entraînement. Cela démontre la capacité du modèle à appliquer des connaissances contextuelles.

arXiv:1711.10485 – Document de recherche Microsoft détaillant AttnGAN.

Lorsqu'on lui a demandé de représenter un bus à impériale flottant sur un lac, le modèle a produit une scène floue mais clairement mixte, soulignant sa lutte pour réconcilier les éléments contradictoires dans l'invite.

Performances et cas d'utilisation

AttnGAN dépasse les références précédentes, réalisant une amélioration de 170,25 % par rapport au score de création de l'ensemble de données COCO et un gain de 14,14 % par rapport à l'ensemble de données CUB.

Les applications potentielles incluent des assistants de croquis pour les architectes d'intérieur, le raffinement de photos à commande vocale et, avec un développement ultérieur, la production d'animations entièrement automatisée à partir de scénarios.

Autres générateurs d'art IA

Microsoft n'est pas le seul à fusionner l'art et l'IA. DeepDream de Google a créé des images psychédéliques présentées en 2016, tandis que son IA a produit des synthèses musicales et vocales telles que Tacotron2. Facebook et Nvidia ont également publié des modèles génératifs pour les voitures, les navires, les animaux et même des avatars synthétiques de célébrités.

Découvrez l'IA vocale humaine de Google Tacotron2 .

La percée de la propulsion électrique accélère les nanorobots 100 000 fois plus rapidement La Russie approuve une centrale nucléaire flottante de 70 MW pour alimenter Tchoukotka

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle