La nouvelle IA de Google peut créer une vidéo avec uniquement les images de début et de fin

Le nouveau réseau de neurones convolutifs 3D peut remplir les séquences entre les images de début et de fin.
Il utilise un générateur de représentation latente pour produire une variété de séquences vidéo.

Les progrès récents dans les architectures de réseaux de neurones artificiels et les réseaux antagonistes génératifs ont stimulé le développement de méthodes de synthèse d'images/vidéos. La plupart des recherches existantes portent sur deux opérations :la génération vidéo inconditionnelle et la prédiction vidéo. Les deux consistent à générer/prédire de nouvelles vidéos plausibles en utilisant un nombre limité d'images passées.

Récemment, une équipe de recherche de Google s'est penchée sur le problème de la création de séquences vidéo diverses et plausibles, alors qu'il n'y a que deux images (une image de début et une image de fin) disponibles. Le processus, appelé intermédiaire, est généralement effectué en entraînant/exécutant des réseaux de neurones récurrents, en utilisant soit des unités récurrentes fermées, soit une mémoire à long-court terme.

Cependant, dans cette étude, les chercheurs ont montré que ce problème (entre-deux) peut être résolu via un réseau de neurones convolutifs 3D. Un avantage majeur de cette méthode est la simplicité. Comme il n'utilise aucun élément récurrent, les chemins de gradient plus courts peuvent permettre des réseaux plus profonds et un entraînement plus stable.

Modèle entièrement convolutif

Dans un réseau convolutif, il est assez facile de faire respecter la cohérence temporelle avec les trames de début et de fin (fournies en entrée). Le modèle a 3 composants clés -

Un encodeur d'image convolutif 2D pour mapper les images clés d'entrée à un espace latent.
Un générateur de représentation latente convolutive 3D pour incorporer les données des trames d'entrée avec une résolution temporelle progressivement croissante.
Un générateur vidéo pour décoder la représentation latente en images vidéo.

Référence :arXiv:1905.10240 | NVIDIA

L'équipe a essayé de créer la vidéo directement à partir des représentations codées des images de début et de fin, mais les résultats n'étaient pas à la hauteur. C'est pourquoi ils ont conçu le générateur de représentations latentes, qui fusionne de manière stochastique les représentations d'images clés et augmente régulièrement la résolution temporelle de la vidéo finale.

Tests

L'équipe a testé son modèle sur divers ensembles de données accessibles au public, notamment UCF101 Action Recognition, BAIR et KTH Action Database.

Exemples de cadres créés par le nouveau modèle | Avec l'aimable autorisation des chercheurs

Les résultats finaux :chaque échantillon de l'ensemble de données contenait un total de 16 images, dont 14 ont été générées par des réseaux de neurones convolutifs. Le modèle a été exécuté plus d'une centaine de fois pour chaque paire d'images clés, et l'ensemble du processus a été répété 10 fois pour chaque variante de modèle.

Lire :La nouvelle IA convertit les vidéos en noir et blanc en couleurs en temps réel

Dans tous les cas, le modèle a pu créer des séquences vidéo réalistes, étant donné que les images clés sont distantes d'environ 1/2 seconde les unes des autres. De plus, les chercheurs ont montré qu'il est possible de créer une variété de séquences, en modifiant simplement le vecteur de bruit d'entrée qui pilote le processus génératif. Cette nouvelle méthode peut fournir une perspective alternative précieuse pour les études futures sur la création vidéo.

Microsoft réalise une nouvelle percée dans le domaine de l'IA conversationnelle Plus résistant que l'acier, le bois high-tech le plus récent pourrait refroidir les bâtiments

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle