Google AI réalise le suivi des objets grâce à la colorisation vidéo – une approche auto-supervisée

Un nouveau réseau convolutif apprend à copier les couleurs d'une image de référence vers les images suivantes.
Ce faisant, il peut suivre différents objets et détecter les occultations.
Il peut également suivre les poses humaines.

Apprendre aux machines à suivre des objets dans une vidéo est l’une des tâches les plus difficiles en vision par ordinateur, principalement parce qu’elle nécessite un énorme ensemble de données de formation étiquetées pour le suivi. Bien sûr, enregistrer et étiqueter tout ce qui se passe sur Terre ne serait pas pratique.

C’est pourquoi il est nécessaire de créer un système qui apprend à suivre sans supervision humaine, plutôt que d’utiliser une énorme quantité de clips bruts et sans étiquette. Pourquoi est-ce si important, avez-vous demandé ? Eh bien, le suivi d'objets dans des vidéos pourrait être utile pour de nombreuses applications, telles que l'interaction d'objets, la reconnaissance d'activité, la stylisation vidéo et bien plus encore.

Aujourd'hui, des chercheurs de Google ont développé un réseau convolutionnel qui apprend à copier les couleurs à partir d'un seul cadre de référence. Au lieu d'essayer d'estimer les couleurs directement à partir d'une image en niveaux de gris, le modèle est contraint d'utiliser les couleurs de la première image de référence de la vidéo.

Afin de copier les bonnes couleurs, le réseau doit apprendre à pointer en interne vers la bonne région. Ce nouveau modèle peut suivre différents objets et suivre les occlusions sans avoir à être entraîné sur de grands ensembles de données étiquetés.

Vidéos de recolorisation

Pour développer ce système d'intelligence artificielle, les chercheurs ont exploité la cohérence temporelle des couleurs, qui offre d'énormes données de formation pour enseigner au réseau convolutif le suivi de parties spécifiques de la vidéo. Il existe des cas exceptionnels où la couleur n’est pas cohérente dans le temps, par exemple lors de l’allumage instantané des lumières. Cependant, en général les couleurs restent stables dans le temps.

Couleurs prédites à partir d'une référence d'image unique colorisée | Crédit : Google

Tout d'abord, la vidéo est décolorée, puis le réseau effectue des étapes de colorisation car une scène peut contenir différents objets de la même couleur. En faisant cela, la machine peut apprendre à suivre des régions ou des objets particuliers.

Formation

Les chercheurs ont utilisé l’ensemble de données Kinetics (contient un demi-million de clips vidéo illustrant les activités quotidiennes) pour entraîner leur modèle. Ils ont converti toutes les images vidéo, à l'exception de la première, en niveaux de gris et ont entraîné le réseau à estimer les bonnes couleurs dans les images suivantes.

Pour copier les couleurs originales d’une seule image, le réseau convolutif a appris à pointer en interne vers les bonnes couleurs. Cela a obligé le réseau à suivre un mécanisme explicite, qui peut être utilisé pour le suivi des objets.

Le réseau suit les objets sans surveillance | Crédit : Google

Bien que le modèle ne soit pas formé sur des identités solides, il apprend à suivre n'importe quel objet ou partie visuelle de la vidéo en utilisant une seule (première) image. Il peut suivre un seul point ou une entité décrite dans la vidéo.

Référence : arXiv:1806.09594 | Blog Google sur l'IA

Pour suivre les objets à partir de la colorisation de la vidéo, les chercheurs n'ont apporté qu'un seul changement :propager des étiquettes représentant les régions cibles, plutôt que de propager les couleurs dans tout le clip.

Suivi des poses

Suivi des mouvements du squelette humain | Crédit : Google

Le réseau est également capable de suivre les poses humaines :il nécessite un cadre initial étiqueté avec des points clés et fait le reste du travail. Cependant, prédire les points clés dans les images suivantes n'est pas aussi simple qu'il y paraît, car vous devez disposer d'une localisation précise de chaque point clé lorsque les personnes dans la vidéo subissent une déformation.

Les chercheurs ont démontré la fonctionnalité de suivi des poses du réseau sur l'ensemble de données JHMDB (un ensemble de données entièrement annotées sur les poses et les actions humaines) où ils ont suivi un squelette articulaire humain.

Le réseau obtient des performances similaires à celles du flux optique, ce qui indique qu'il pourrait apprendre certaines caractéristiques de mouvement. Il apprend à suivre suffisamment bien les poses humaines et les segments vidéo pour surpasser légèrement les dernières techniques basées sur le flux optique.

Lire :L'IA de Google peut créer de courts clips vidéo à partir de deux images fixes

Le modèle n’est pas encore parfait. Dans certaines expériences, il n'a pas réussi à coloriser les vidéos et à suivre les segments. Par conséquent, les chercheurs prévoient d'améliorer encore le processus de colorisation vidéo, ce qui pourrait à terme se traduire par un suivi auto-supervisé amélioré.

L'IA détecte les maladies, y compris les cancers, à partir de la respiration humaine L'IA pilote le rendu des cheveux 3D en temps réel avec 30 000 mèches

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle