L'évolution de la vision 3D

La vision 3D est au cœur de l'automatisation moderne qui améliore les processus industriels d'innombrables façons et nous facilite la vie. Il nous aide à trier les produits, à inspecter les objets dans les applications de contrôle qualité et à y trouver des défauts, et également à accomplir les tâches les plus variées plus rapidement et plus efficacement que les humains ne pourraient jamais le faire. Les robots guidés par la vision sont couramment utilisés pour effectuer des tâches dangereuses et manipuler des objets lourds, ils augmentent donc également la sécurité et éliminent le risque de blessures.

Les technologies de détection 3D ont parcouru un long chemin pour offrir tous ces avantages dont nous pouvons profiter aujourd'hui - et elles vont encore de l'avant. De la première photographie à l'imagerie numérique, de la 2D à la 3D, et de la numérisation 3D d'objets statiques à la capture de scènes dynamiques. Quelle est la prochaine étape ?

Avec Tomas Kovacovsky, co-fondateur et CTO du groupe Photoneo, nous avons parcouru l'histoire de la vision industrielle 3D jusqu'aux dernières avancées qui dominent les tendances d'aujourd'hui telles que l'Industrie 4.0. Jetons-y un bref coup d'œil.

La photographie et les premières technologies de capture d'images

Depuis les tout débuts de la photographie, les gens ont été fascinés par la possibilité de capturer et d'enregistrer des événements. La première photo photo connue a été prise quelque part entre 1826 et 1827 par l'inventeur français Joseph Nicéphore Niépce. Alors que son procédé photographique nécessitait au moins huit heures sinon plusieurs jours d'exposition à l'appareil photo, son associé Louis Daguerre a développé le premier procédé photographique annoncé publiquement (connu sous le nom de daguerréotype) qui ne prenait que quelques minutes d'exposition. L'invention a été présentée au public en 1839 – une année généralement considérée comme la naissance de la photographie pratique.

Pendant longtemps, la photographie n'a servi que de support pour enregistrer des événements. Parce que le traitement de l'image prenait assez de temps, la technologie analogique n'était pas idéale pour être utilisée pour la vision artificielle ou les tâches de prise de décision.

En 1969, William Boyle et George E. Smith des Laboratoires Americal Bell a inventé le Capteur CCD (dispositif à couplage de charge) pour l'enregistrement d'images , qui a marqué une étape importante dans le développement de l'imagerie numérique. Un capteur CCD capture des images en convertissant les photons en électrons, c'est-à-dire qu'il prend la lumière et la traduit en données numériques. Bien que les CCD ne puissent pas rivaliser avec le film standard pour la capture d'images à l'époque, ils ont commencé à être utilisés pour certaines applications et le bal a commencé.

De la 2D à la 3D

La détection 2D a lancé l'ère de l'automatisation et c'était l'approche prédominante dans l'automatisation du secteur industriel pendant longtemps. La vision 2D est utilisée dans certaines applications simples encore aujourd'hui, notamment :

Reconnaissance optique de caractères (OCR) :lecture de textes dactylographiés, manuscrits ou imprimés ; lecture de codes-barres
Contrôle de la qualité :souvent utilisé en combinaison avec un éclairage spécial pour garantir que les qualités optiques de l'objet numérisé restent les mêmes
Compter
Préparation des articles dans des conditions bien définies

Cependant, la principale limitation des technologies 2D est qu'elles ne peuvent pas reconnaître les formes d'objets ou mesurer la distance dans la dimension Z.

Les applications 2D nécessitent de bonnes conditions bien définies avec un éclairage supplémentaire, ce qui limite également les applications telles que le prélèvement de bacs. Cette tâche robotique peut être effectuée avec un système de vision 2D, mais elle est généralement problématique en raison de la position aléatoire des objets dans un bac et d'une grande quantité d'informations dans la scène que les systèmes de vision 2D ne peuvent pas gérer.

Les gens ont reconnu le besoin d'informations 3D pour pouvoir automatiser des tâches plus complexes. Ils ont compris que les humains pouvaient voir leur environnement dans une vue 3D et dire la distance des objets parce qu'ils avaient deux yeux - une vision stéréoscopique.

Dans les années 1960, Larry Roberts , qui est accepté commele père de la vision par ordinateur , décrit comment dériver des informations géométriques 3D à partir de photographies 2D de dessins au trait et comment un ordinateur pourrait créer un modèle 3D à partir d'une seule photographie 2D.

Dans les années 1970, un cours "Machine Vision" a été lancé au laboratoire d'intelligence artificielle du MIT pour s'attaquer aux tâches de vision artificielle de bas niveau. Ici, David Marr a développé une approche unique de la compréhension de la scène grâce à la vision par ordinateur, où il a traité la vision comme un système de traitement de l'information. Son approche a commencé par une esquisse 2D, sur laquelle l'ordinateur s'est appuyé pour obtenir une image 3D finale.

La recherche en vision artificielle s'est intensifiée dans les années 1980 et a fait émerger de nouvelles théories et concepts. Celles-ci ont donné naissance à un certain nombre de technologies de vision industrielle 3D distinctes, qui ont été progressivement adoptées dans les environnements industriels et de fabrication pour automatiser le plus large éventail de processus.

Premières technologies de vision 3D

L'effort d'imiter la vision stéréoscopique humaine a abouti au développement de l'une des premières technologies de détection 3D - stéréo passive . Cette méthode de triangulation observe une scène à partir de deux points de vue et calcule le triangle caméra – objet scanné – caméra , à la recherche de corrélations entre les deux images. Sur la base de la disparité entre les images, il calcule la distance (profondeur) de l'objet numérisé. Cependant, cette approche repose sur la recherche de détails identiques dans les images, de sorte qu'elle ne fonctionne pas bien avec des murs blancs ou des scènes sans motifs. La fiabilité de la stéréo passive est faible et la sortie 3D a généralement un bruit élevé et nécessite beaucoup de puissance de calcul.

Pour compenser cet inconvénient, les chercheurs ont commencé à expérimenter la projection de motifs lumineux sur la scène pour créer une texture artificielle sur la surface et identifier plus facilement les correspondances dans la scène. Cette méthode est appelée stéréo active . Bien que cette méthode soit plus fiable que la stéréo passive, la qualité de la reconstruction est souvent compromise par des exigences strictes en matière de temps de traitement, ce qui la rend insuffisante pour de nombreuses applications.

L'une des méthodes les plus anciennes et toujours très populaire pour acquérir des informations 3D est la profilométrie laser . Cette technique projette une bande étroite de lumière (ou un point) sur une surface 3D, ce qui produit une ligne d'éclairage qui apparaît déformée sous un angle autre que celui du projecteur. Cet écart code les informations de profondeur. Les scanners linéaires capturent un profil de profondeur à la fois en succession rapide, pour lesquels ils nécessitent que l'objet scanné ou la caméra se déplacent constamment. La profilométrie laser a été l'une des premières méthodes de numérisation 3D à être adoptée pour un usage industriel et elle est toujours très populaire dans les applications métrologiques, par exemple.

Une autre méthode inventée en projetant des motifs de lumière structurée sur une scène est la lumière structurée . L'un des travaux les plus cités sur l'utilisation de la lumière structurée avec des codes binaires pour la restauration numérique était The Digital Michelangelo Project dirigé par Marc Levoy et son équipe à l'Université de Stanford. Le projet a débuté en 1998 pour numériser les statues de Michel-Ange à l'aide d'un projecteur et d'un capteur de caméra. Les données de balayage laser du David de Michel-Ange ont ensuite été utilisées pour la restauration de la statue qui a débuté en 2002. Bien que la méthode utilisée dans ce projet n'ait pas été assez rapide pour être utilisée dans des applications en temps réel, elle a fourni une très grande précision nécessaire à la numérisation de divers artefacts et objets. Grâce à cela, la technologie a trouvé sa niche dans les applications métrologiques et d'autres tâches de robotique et de vision industrielle nécessitant une grande précision de numérisation.

Peu à peu, la technologie de la lumière structurée s'est étendue au-delà de la métrologie et a pénétré toutes sortes d'applications en ligne à l'aide de robots guidés par la vision. L'avantage des scanners 3D à lumière structurée est qu'ils ne nécessitent aucun mouvement. Parce qu'ils peuvent faire un instantané de toute la zone de numérisation et qu'il n'est pas nécessaire de faire le tour de l'objet entier avec le scanner, ils sont plus rapides que les appareils basés sur la profilométrie laser et ne nécessitent pas autant de post-traitement des données.

Des scènes statiques à des scènes dynamiques

La capture de mouvement est beaucoup plus difficile que la numérisation 3D de scènes statiques et disqualifie les méthodes qui nécessitent des temps d'acquisition plus longs.

Parce que la stéréo passive est une méthode passive qui n'utilise aucun éclairage supplémentaire, elle pourrait être utilisée pour capturer des scènes dynamiques mais seulement si certaines conditions étaient remplies. Pourtant, les résultats ne seraient pas bons.

Profilométrie laser n'est pas une méthode beaucoup plus efficace que la stéréo passive à cet égard. Parce qu'il capture un profil à la fois, pour faire un instantané complet de la scène, la caméra ou la scène doit bouger. Cependant, la technologie ne peut pas capturer un événement dynamique. Afin de reconstruire la profondeur d'un seul profil, il faut capturer une image de numérisation à zone étroite, sa taille limitant la fréquence d'images et par conséquent également la vitesse de numérisation.

Lumière structurée Les systèmes, d'autre part, projettent plusieurs motifs lumineux sur la scène dans une séquence, l'un après l'autre. Pour cela, la scène doit être statique. Si l'objet numérisé ou la caméra bouge, le code est cassé et le nuage de points 3D sera déformé.

La nécessité de faire une reconstruction 3D d'objets dynamiques a conduit au développement du Time-of-Flight (ToF) systèmes. Semblable à la technologie de lumière structurée, ToF est une méthode active qui envoie des signaux lumineux à la scène, puis interprète les signaux avec la caméra et son logiciel. Contrairement à la lumière structurée, ToF structure la lumière dans le temps et non dans l'espace. Il fonctionne sur le principe de la mesure du temps pendant lequel un signal lumineux émis par la source lumineuse frappe l'objet scanné et revient vers le capteur.

Les premiers systèmes ToF avaient une qualité plutôt médiocre. Les grands acteurs dans ce domaine comprenaient des sociétés telles que Canesta, 3DV Systems ou Microsoft (qui a ensuite acquis les deux sociétés). L'un des premiers projets bien connus était la ZCam - une caméra Time-of-Flight développée par 3DV et achetée plus tard par Microsoft pour être utilisée pour l'acquisition d'informations 3D et l'interaction avec des objets virtuels dans la console de jeu vidéo Xbox de Microsoft. /P>

En 2010, Microsoft a lancé son système de capteur Kinect pour Xbox, une caméra à détection de mouvement basée sur la technologie PrimeSense. La technologie PrimeSense utilisait un motif structuré pour encoder certains pixels (pas tous) et obtenir des informations 3D. Bien que la méthode ne puisse pas fournir une haute résolution et des contours détaillés sur les bords des objets numérisés, elle a été largement adoptée car sa vitesse de traitement était plutôt rapide et la technologie était également très abordable. Il a été principalement utilisé dans le domaine universitaire, mais il est difficile de le trouver également dans l'environnement industriel pour le prélèvement robotisé et d'autres tâches.

Contrairement à Kinect 1, Kinect 2 était basé sur la technologie ToF. Les progrès de ToF ont fait que la méthode est devenue de plus en plus populaire et largement adoptée - elle pouvait fournir une qualité supérieure à la technologie PrimeSense, mais la résolution des scans 3D de scènes dynamiques n'était toujours pas suffisante.

Les systèmes ToF d'aujourd'hui sont très populaires dans les applications de vision 3D grâce à leur vitesse de balayage rapide et leur acquisition presque en temps réel. Cependant, leur résolution reste un problème et ils ont également du mal à supporter des niveaux de bruit plus élevés.

En 2013, Photoneo a eu une idée révolutionnaire sur la façon de capturer des objets en mouvement rapide pour obtenir des informations 3D en haute résolution et avec une précision inférieure au millimètre.

La technologie brevetée de Lumière Structurée Parallèle est basé sur un capteur CMOS propriétaire spécial doté d'un obturateur multi-tap avec un motif de pixels en mosaïque, qui change fondamentalement la façon dont une image peut être prise.

Cette nouvelle approche d'instantané utilise une lumière structurée mais échange le rôle de la caméra et du projecteur :alors que les systèmes d'éclairage structuré émettent plusieurs motifs à partir du projecteur dans une séquence, la technologie Parallel Structured Light envoie un balayage laser très simple, sans motif, à travers la scène. et construit les motifs de l'autre côté - dans le capteur CMOS. Tout cela se produit en une seule fois et permet la construction de plusieurs images virtuelles dans une fenêtre d'exposition. Le résultat est une image 3D haute résolution et haute précision de scènes en mouvement sans artefacts de mouvement.

Une scène dynamique capturée par la technologie Parallel Structured Light .

La technologie Parallel Structured Light est implémentée dans la caméra 3D MotionCam-3D de Photoneo. Le développement de la caméra et sa mise sur le marché ont marqué une étape importante dans l'histoire de la vision industrielle en redéfinissant la robotique guidée par la vision et en élargissant les possibilités d'automatisation à un degré sans précédent. L'approche novatrice a été récompensée par de nombreux prix, dont le Vision Award 2018 , Prix platine des innovateurs en conception de systèmes de vision 2019 , les meilleures innovations d'inVision 2019 , Prix IERA 2020 , Robotics Business Review's RBR50 Robotics Innovation Awards 2021 , les meilleures innovations d'inVision 2021 , et SupplyTech Breakthrough Award 2022 .

Scan 3D en mouvement et en couleur

En 2022, Photoneo a étendu les capacités de la MotionCam-3D en l'équipant d'une unité couleur pour la capture de données couleur. MotionCam-3D Color est considérée comme la prochaine solution miracle en matière de vision industrielle, car elle permet enfin la création en temps réel de nuages de points 3D colorés de scènes en mouvement dans une qualité parfaite. Grâce à la combinaison unique de géométrie 3D, de mouvement et de couleur, la caméra ouvre la porte à des applications d'IA exigeantes et à des tâches robotiques qui reposent non seulement sur des informations de profondeur, mais également sur des données de couleur.

Création en temps réel d'un nuage de points 3D coloré d'une scène en mouvement à l'aide de MotionCam-3D Color .

Domaines d'application rendus possibles par les innovations en vision industrielle

Les possibilités offertes par les dernières innovations en vision industrielle 3D nous permettent d'automatiser des tâches jusqu'alors irréalisables. Ces applications peuvent être trouvées dans la fabrication, la logistique, l'automobile, l'épicerie, l'agriculture, la médecine et d'autres secteurs et comprennent :

Manipulation robotisée d'objets en mouvement constant ou aléatoire
Prélèvement sur tapis roulants et convoyeurs aériens
Manipulation œil-main
Création de modèles 3D pour l'inspection et le contrôle qualité
Nettoyage et peinture de gros objets
Opérations de maintenance en VR/AR
Tri et récolte en agriculture
Et bien d'autres

Qu'est-ce qui s'en vient ?

La vision artificielle continue de se développer pour apporter de nouvelles avancées avec de nouvelles possibilités. La direction des innovations est toujours influencée par les demandes du marché, les attentes des clients, la concurrence et d'autres facteurs.

Nous pouvons nous attendre à ce que la tendance au déploiement de l'IA dans tous les domaines de la vision industrielle se poursuive définitivement dans le but d'éliminer le développement d'algorithmes sur mesure. Nous pouvons voir un énorme potentiel dans le domaine de l'intelligence artificielle (IA) et de sa combinaison avec la technologie Parallel Structured Light. D'une part, l'IA dépend de bonnes données. D'autre part, la nouvelle technologie de vision industrielle peut fournir une grande quantité de données 3D réelles de haute qualité. La combinaison de ces deux approches peut transformer la robotique intelligente et ouvrir une nouvelle sphère de possibilités.

Une autre direction prometteuse pour les développements futurs est l'informatique de pointe. Les fabricants devraient poursuivre leurs efforts pour intégrer l'IA directement dans les capteurs et les spécialiser dans un but défini (par exemple, le comptage de personnes, le dimensionnement ou la détection automatisée de caractéristiques d'objet définies), ce qui facilite le déploiement pour les intégrateurs et minimise le besoin de composants supplémentaires. De nouvelles solutions matérielles capables de capturer des scènes en mouvement combinées à des algorithmes d'IA avancés étendront les champs d'application toujours plus larges, même dans des domaines plus difficiles tels que la robotique collaborative ou l'automatisation complète de la logistique.

Marché de la vision industrielle 3D aux États-Unis :entretien avec Dave Sexton de North Coast Technical Comment les robots peuvent-ils aider les entreprises à répondre à une demande accrue ?

Système de contrôle d'automatisation

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle