L'IA en temps réel colorise instantanément les vidéos en noir et blanc avec une précision inégalée
- Un nouvel algorithme de deep learning permet aux monteurs de coloriser rapidement une vidéo entière en colorisant une image de la scène.
- Cette méthode est très précise, efficace et jusqu'à 50 fois plus rapide que les méthodes précédentes.
Les vidéos contiennent de nombreuses données redondantes entre les images et la colorisation manuelle de chaque image en noir et blanc prend beaucoup de temps. Ces types de redondances ont été largement étudiés dans le domaine de l'encodage et de la compression vidéo, mais moins explorés dans le traitement vidéo avancé comme la colorisation d'un clip.
Il existe de nombreux algorithmes (comme le modèle CNN bilatéral, le filtrage guidé par similarité, la déformation basée sur le flux optique) qui traitent les relations locales entre des images consécutives pour propager les données. Ils utilisent soit le mouvement apparent, soit des fonctionnalités prédéfinies au niveau des pixels pour modéliser les similitudes entre les images et les pixels.
Cependant, ces algorithmes présentent plusieurs limites :par exemple, ils ne peuvent pas exprimer les relations de haut niveau entre les images et ne peuvent pas refléter avec précision la structure de l’image. Pour surmonter ces limitations, les chercheurs de NVIDIA ont développé un nouvel algorithme basé sur une méthode d'apprentissage profond qui permet aux monteurs de coloriser rapidement un clip entier en colorisant une seule image de la scène.
Comment ça marche ?
Pour apprendre explicitement la similarité de haut niveau entre des images consécutives, les chercheurs ont développé un réseau de propagation temporelle qui consiste en un composant de propagation permettant de transférer les caractéristiques (comme la couleur) d'une image à une autre. Pour ce faire, il utilise une matrice de transformation linéaire pilotée par un réseau neuronal convolutif (CNN).
CNN décide quelles couleurs doivent être transférées du cadre colorisé et les remplit dans les cadres noir et blanc restants. En quoi cette technique est-elle différente des autres, avez-vous demandé ? Eh bien, une meilleure colorisation peut être obtenue grâce à une approche interactive dans laquelle l'éditeur annote une partie d'une image, aboutissant à un produit fini.
Pour la propagation de l'apprentissage dans le domaine temporel, les chercheurs ont appliqué 2 règles. Premièrement, la propagation entre les trames doit être inversible. Deuxièmement, l'élément cible doit être préservé tout au long du processus.
Ils ont montré que la technique proposée ne nécessite aucune méthode de segmentation basée sur l'image pour obtenir des résultats décents comparables aux méthodologies de pointe existantes.
Référence : arXiv:1804.08758 | NVIDIA
Pour entraîner ce réseau, les chercheurs ont utilisé les GPU NVIDIA Titan XP. Il est formé sur des centaines de clips provenant de plusieurs ensembles de données pour une plage dynamique élevée, des couleurs et une propagation de masque. Le réseau est configuré sur l'ensemble de données ACT contenant 7 260 séquences vidéo contenant environ 600 000 images.
Avantages de la technique proposée
- Haute précision : La nouvelle méthode permet d'obtenir une qualité vidéo bien meilleure que les travaux précédents.
- Haute efficacité : Il s'exécute en temps réel, ce qui est jusqu'à 50 fois plus rapide que les méthodes précédentes. Il améliore encore l'efficacité en traitant toutes les images vidéo en parallèle.
Lire :Nvidia AI peut convertir des vidéos à 30 ips en 240 ips
La technique actuelle offre un moyen simple de propager des données dans le temps dans des clips. Dans les années à venir, les chercheurs tenteront de comprendre comment intégrer des indices visuels de haut niveau tels que le traçage, la sémantique et la segmentation, pour la propagation temporelle.
Technologie industrielle
- Comment organiser un événement de jour de fabrication virtuelle
- Résistance à couche de carbone :un guide complet sur ses bases
- Le contenu que les acheteurs B2B industriels veulent vraiment voir
- Qu'est-ce que la réinitialisation de Brown Out dans les microcontrôleurs ? Comment éviter les fausses mises hors tension
- Répulsif à ultrasons pour chien :éloigner les chiens
- Filtres passe-bas
- Les solutions d'entrepôt de Camcode aident à définir les emplacements de stockage
- Simplification de la logique avec Karnaugh Maps
- Maîtriser le suivi des ventes :7 stratégies éprouvées pour maintenir l'engagement des prospects