Fabrication industrielle
Internet des objets industriel | Matériaux industriels | Entretien et réparation d'équipement | Programmation industrielle |
home  MfgRobots >> Fabrication industrielle >  >> Manufacturing Technology >> Technologie industrielle

L'IA génère des images d'un repas fini à partir d'une recette textuelle simple

Générer des images à partir d'une courte description visuelle est une tâche difficile et a de nombreuses applications en vision par ordinateur. Des études récentes ont prouvé que les réseaux antagonistes génératifs (GAN) peuvent synthétiser efficacement des images réalistes de haute qualité avec une faible résolution et une faible variabilité.

Une contribution récente apportée par une équipe de recherche de l'Université de Tel Aviv, en Israël, peut aider à accélérer la recherche dans ce domaine. Ils ont construit un modèle basé sur l'apprentissage en profondeur qui peut créer automatiquement des images à partir d'une description textuelle.

En particulier, ils ont démontré leur système générant des images d'un repas fini à partir d'une simple recette écrite. Pour ce faire, le système utilise une combinaison de GAN empilé de pointe et d'intégrations intermodales d'apprentissage pour les recettes de cuisine et les images d'aliments.

Réseaux accusatoires génératifs conditionnels

Fondamentalement, les GAN sont constitués de deux modèles (générateur et discriminateur) qui sont entraînés à se concurrencer. Le générateur est conçu pour synthétiser des images similaires à la distribution de données d'origine, tandis que le travail du discriminateur consiste à différencier les images d'origine et synthétiques.

Dans ce travail, les chercheurs ont utilisé des GAN conditionnels dans lesquels le générateur et le discriminateur sont obligés de considérer une condition spécifique. Ils ont proposé deux types de techniques d'intégration :la régularisation sémantique et non sémantique. Ces techniques sont composées de trois étapes :

  1. Incorporation initiale des ingrédients et instructions de cuisson.
  2. Intégration neuronale combinée de l'ensemble de la recette.
  3. Intégration d'une perte de régularisation sémantique à l'aide d'un objectif de classification de haut niveau.

Le GAN conditionnel est formé sur 52 000 recettes textuelles et leurs images correspondantes. Il est formé à l'aide de GPU NVIDIA TITAN X avec la bibliothèque CUDA Deep Neural Network. Une fois entraîné, le système a construit des images de ce à quoi la recette pourrait ressembler à partir d'une longue description (qui ne contenait aucune information visuelle).

Référence : arXiv:1901.02404 | Université de Tel-Aviv

Évaluation humaine

Le réseau prend une recette en entrée et crée une image (à partir de zéro) qui reflète au mieux la description textuelle de la nourriture. Ce qui est vraiment impressionnant ici, c'est que le système n'a pas accès au titre de la recette - sinon, le travail deviendrait trop facile - et le texte de la recette est assez long. Cela rend la tâche difficile, même pour les humains.

Avec l'aimable autorisation des chercheurs

Pour mieux évaluer les images synthétisées, l'équipe a demandé à 30 personnes de juger les images les plus attrayantes sur une échelle de 1 à 5. Elles ont présenté 10 paires correspondantes d'images résultantes (choisies au hasard) générées par chaque technique d'intégration.

Les résultats ont montré que la méthode de régularisation non sémantique surpasse la régularisation sémantique en produisant des images plus vives avec des détails photoréalistes. En fait, certaines personnes ont eu beaucoup de mal à différencier les images réelles des images synthétiques.

Lire :L'IA peut générer des millions de combinaisons artistiques pour des résultats photoréalistes

De plus, les deux techniques d'intégration ont réussi à produire des images d'aliments « de type bouillie » (comme de la salade, des soupes et du riz), mais ont du mal à créer des images d'aliments ayant une forme distinctive (comme du poulet, des hamburgers et des boissons).


Technologie industrielle

  1. Un circuit très simple
  2. Un ordinateur très simple
  3. Ampli-op simple
  4. Résonance de série simple
  5. Premières images 3D de fissures microscopiques dans les alliages
  6. Une nouvelle machine génère de l'électricité à partir d'une boule de neige
  7. Acquérir un logiciel de GMAO simple
  8. Un guide simple pour l'analyse comparative de la maintenance
  9. Une bibliothèque simple basée sur REST pour utiliser des variables dans PLCnext AXC F 2152 PLC de Python