SonicSense :permettre aux robots d'écouter comme des humains pour une interaction plus intelligente

Une nouvelle recherche de l'Université Duke détaille un système baptisé SonicSense qui permet aux robots d'interagir avec leur environnement d'une manière auparavant limitée aux humains.

"Aujourd'hui, les robots s'appuient principalement sur la vision pour interpréter le monde", a expliqué l'auteur principal Jiaxun Liu, doctorant en première année. étudiant dans le laboratoire de Boyuan Chen, professeur de génie mécanique et de science des matériaux à Duke. "Nous voulions créer une solution capable de fonctionner avec des objets complexes et divers trouvés quotidiennement, donnant aux robots une capacité beaucoup plus riche à "ressentir" et à comprendre le monde. "

SonicSense comporte une main robotique à quatre doigts, chacun équipé d'un microphone de contact intégré au bout du doigt. Ces capteurs détectent et enregistrent les vibrations générées lorsque le robot tape, saisit ou secoue un objet. Et comme les microphones sont en contact avec l'objet, cela permet au robot d'éliminer les bruits ambiants.

Sur la base des interactions et des signaux détectés, SonicSense extrait les caractéristiques de fréquence et utilise ses connaissances antérieures, associées aux progrès récents de l'IA, pour déterminer de quel matériau l'objet est constitué et sa forme 3D. S’il s’agit d’un objet que le système n’a jamais vu auparavant, il faudra peut-être 20 interactions différentes pour que le système parvienne à une conclusion. Mais s'il s'agit d'un objet déjà présent dans sa base de données, il peut l'identifier correctement en seulement quatre heures.

Voici un Tech Briefs exclusif entretien, édité pour plus de longueur et de clarté, avec Chen.

Notes techniques : Quel a été le plus grand défi technique auquel vous avez été confronté lors du développement de SonicSense ?

Chen :Je pense que la première est qu'il n'y a pas vraiment eu d'études approfondies sur l'utilisation des vibrations acoustiques pour la perception des robots. La plupart des travaux antérieurs ont été effectués avec un seul doigt ou ont été très préliminaires. Mais confier cela à une véritable main robotique et être capable d'interagir avec une variété d'objets possibles n'est pas une tâche facile.

Notes techniques :Comment est né ce projet ? Quel a été le catalyseur de votre travail ?

Chen :C'est une histoire très intéressante. La première partie de mon travail s’appelait boombox, c’était pendant COVID. Je pensais que je voulais travailler sur les robots et la vision. Donc, je m'intéressais déjà il y a quelques années à introduire les vibrations acoustiques dans la détection, car nous utilisons beaucoup les vibrations sonores acoustiques.

En neurosciences, la peau humaine possède des neurones vibrants. Alors, j'ai lu ces choses et j'ai réfléchi à la manière dont nous pourrions apporter cela aux robots. Mais pendant la COVID, je n’avais pas accès aux robots. J'ai fait mon doctorat. à Columbia, je vivais donc dans un petit dortoir à New York, mais je voulais vraiment faire cette recherche. Un jour, j'ai eu une idée au hasard :« Que puis-je faire sans robots pour montrer que cela est utile ?

J'avais une poubelle à jouets dans ma chambre. En y jetant des objets au hasard, je me suis rendu compte :« Hé, je dois aller récupérer cet objet, mais je ne sais pas où il se trouve. Quel objet ai-je lancé ?’ C’était une question de recherche parfaite.

J'ai commencé avec trois caisses en bois différentes, de formes différentes, et je les ai jetées à la poubelle. J'ai formé un système d'IA qui prédisait la forme de l'objet que je lançais et où l'objet finissait après que je l'ai lancé parce que je ne pouvais pas le voir. Voilà donc le projet.

L’idée était essentiellement d’avoir quatre microphones de contact. Vous les fixez autour de la paroi de la poubelle. Vous enregistrez uniquement les vibrations acoustiques des quatre canaux de microphones. J'ai utilisé des microphones utilisés pour capter le son d'une guitare. Je les ai collés sur le bac, et j'ai entraîné un système allant du son à la prédiction de cette opération 3D. Et ce fut le début de ce projet.

Et bien sûr, j’ai voulu faire ça pour les robots. C'est à peu près le berceau de SonicSense.

Notes techniques :Pouvez-vous expliquer en termes simples comment cela fonctionne ?

Chen :C'est un système matériel et logiciel intégré. La partie matérielle est dotée d'une pince robotisée à quatre doigts, et chacun des bouts des doigts est doté d'un microphone de contact intégré. Ce microphone de contact ne détecte pas ce que nous disons, mais il détecte les vibrations du contact physique.

Le côté logiciel permet essentiellement au robot d'exporter de manière autonome des environnements en tapotant simplement ou en saisissant un objet avec un conteneur et en le secouant. Le logiciel collectera ensemble les signaux des quatre microphones de contact et les signaux du moteur.

Nous formons un réseau d’intelligence artificielle pour prédire des choses comme « Combien de dés avez-vous dans un conteneur ? » Combien de bords ce dé a-t-il ? Quelle quantité de liquide as-tu dans cette bouteille d’eau ? Quelle quantité versez-vous dans un autre récipient ?'

Notes techniques :Quelles sont vos prochaines étapes ?

Chen :Nous examinons quelques nouvelles idées en termes, tout d'abord, des autres modalités de détection qui sont nécessaires pour que nous puissions atteindre une dextérité de manipulation au niveau humain. Mais encore plus pour un contenu plus large concernant la robotique, pas seulement pour la manipulation. Mais aussi pour la locomotion, la navigation et tout. Y a-t-il d’autres modalités de détection dont nous avons besoin ? Ainsi, explorer de nouvelles modalités qui peuvent permettre aux robots ou leur donner des capacités que même les humains ou les animaux n'ont pas est une direction.

Une autre direction que nous envisageons concerne les autres modalités que nous avons déjà dans les robots. Par exemple, la vision – et comment fusionner toutes les modalités pour avoir une compréhension cohérente du monde au lieu d’une seule perspective ? Ainsi, rassembler de nombreuses modalités de détection et apprendre une compréhension unifiée.

Une troisième direction que nous envisageons consiste à intégrer cela aux véritables vecteurs humains de capacité de manipulation – la conception actuelle est en grande partie un prototype. Nous voulons y parvenir en adaptant à la fois la morphologie et la capacité de détection de la main à une échelle beaucoup plus grande. Cela signifie placer de nombreux capteurs sur une main beaucoup plus humaine et mettre réellement en valeur la capacité de manipulation adroite. Pour l'instant, nous ne faisons que percevoir des objets, mais nous voulons pouvoir manipuler des objets avec des capacités beaucoup plus avancées.

Transcription

00:00:00 nous avons introduit Sonic sense, un cadre matériel et logiciel intégré pour permettre la détection des vibrations acoustiques pour la perception des objets par un robot riche. Des travaux récents ont exploité la détection des vibrations acoustiques pour les matériaux d'objets et la prédiction de position de classification par catégorie, estimant la quantité et le flux de matériau granulaire et effectuant collectivement un raisonnement spatial d'objet pour

00:00:23 reconstruction visuelle, cependant les travaux antérieurs se sont concentrés sur un petit nombre d'objets primitifs avec des paramètres de composition homogène de matériaux contraints pour la collecte de données et les tests avec un seul doigt. Il n'est donc pas clair si la détection des vibrations acoustiques peut être utile pour la perception d'objets dans des conditions bruyantes et moins contrôlées.

00:00:44 présente Sonic Sense, une conception holistique des avancées matérielles et algorithmiques pour la perception des objets grâce à une détection améliorée des vibrations acoustiques. Notre main de robot a quatre doigts. Un microphone à contact électrique est intégré à l'intérieur de chaque doigt et autour du contrepoids est monté sur la surface extérieure de la coque pour augmenter l'élan du mouvement du doigt. Notre conception mécanique intuitive

00:01:07 permet une gamme de mouvements interactifs Primitives pour la perception des objets, y compris les mouvements de tapotement, de préhension et de secousses. Le microphone de contact intégré est capable de collecter les vibrations acoustiques à haute fréquence créées par le contact entre les objets ou les interactions entre les objets et les mains. Notre robot peut déduire la géométrie et l'état d'inventaire de divers objets à l'intérieur d'un conteneur à partir de

00:01:31 leurs signatures de vibrations acoustiques uniques lors des interactions, nous dérivons 12 caractéristiques interprétables basées sur des méthodes traditionnelles de traitement du signal acoustique pour aider à distinguer ces différentes signatures de vibrations acoustiques. Nous avons effectué une réduction de dimensionnalité non linéaire non supervisée avec tne sur ce vecteur de caractéristiques à 12 dimensions en secouant le conteneur que notre robot peut

00:01:54 réussit à distinguer différents nombres de dés ou de dés de formes différentes à l'intérieur du récipient lorsque nous versons de l'eau à l'intérieur de la bouteille tenue par notre robot. Nous pouvons détecter les différences subtiles dans les signatures acoustiques en fonction des différentes quantités d'eau existantes à l'intérieur de la bouteille. Notre robot peut également détecter différentes quantités d'eau à l'intérieur de la bouteille lorsqu'il la secoue davantage

00:02:15 tâches de perception d'objets difficiles, nous avons développé un ensemble de données avec 83 objets divers du monde réel. Nos objets couvrent neuf catégories de matériaux et une variété de géométries allant des primitives simples aux formes complexes, contrairement aux travaux précédents qui utilisent des humains pour tenir manuellement la main du robot pour interagir avec des objets ou concevoir des poses d'interaction fixes et des forces pour la relecture. Nous en tirons un simple mais efficace

00:02:40 Politique d'interaction basée sur des heuristiques pour collecter de manière autonome la réponse aux vibrations acoustiques des objets. Notre politique fonctionne bien pour tous nos objets du monde réel couvrant des tailles et des géométries variables. Nous avons formé un modèle de classification des matériaux qui prend en compte le spectrogramme Mel de notre signal de vibration acoustique collecté à partir du bruit d'impact et apprend à prédire le

00:03:02 étiquette matérielle, le réseau prend la forme de trois couches de réseau neuronal convolutif suivies de deux couches MLP. Le résultat initial de notre méthode conduit à un score F1 de 0,523. Cependant, nous avons observé que les matériaux des objets sont relativement uniformes et lisses autour des régions locales. Sur la base de cette hypothèse, nous pouvons affiner notre prédiction de manière itérative, notre F1 moyenne finale

Le score de 00:03:25 atteint 0,763. Notre modèle de construction Shape Recon prend les points de contact clairsemés et bruyants pour générer une forme 3D dense et complète de l'objet. Nous empilons deux couches pointues pour coder l'entrée, puis introduisons la caractéristique globale Vector dans un réseau de décodeurs avec des couches entièrement connectées pour produire le nuage de points final. Nos résultats ont obtenu une moyenne de z. Z

00:03:50 Z 876 M champion du score de distance, la prédiction sur les objets aux formes primitives a généralement des performances presque parfaites. De plus, notre méthode présente la capacité de reconstruire des objets aux formes complexes uniquement par le biais d'espars et d'estimations de points de contact bruyants lorsqu'un objet a interagi avec le robot avec ses réponses de vibrations acoustiques que nous visons à

00:04:13 demandons à notre robot de réidentifier l'objet grâce à un ensemble de 15 nouvelles interactions de tapotement. Nous saisissons 15 à la fois la collection de spectrogrammes Mel et leurs points de contact associés au réseau pour prédire l'étiquette de cet objet parmi 82 objets de notre ensemble de données. Notre robot peut réidentifier le même objet avec plus de 92 % de précision. Notre robot a une forte résistance à l'environnement

00:04:37 bruits et se concentre uniquement sur les signaux de vibration par contact physique, cela garantit des données de détection fiables et de haute qualité dans des conditions environnementales difficiles. Notre main de robot entière coûte 215 $ avec les composants disponibles dans le commerce et l'impression 3D. Nos résultats expérimentaux démontrent la polyvalence et l'efficacité de notre conception sur les variétés de perception d'objets

00:05:01 tâches comprenant l'estimation de l'état de l'inventaire des objets solides et liquides dans la classification des matériaux des conteneurs, la reconstruction de la forme 3D et la réidentification des objets, dans l'ensemble, notre méthode présente des contributions uniques à la perception tactile avec des vibrations acoustiques et ouvre de nouvelles opportunités pour les futures conceptions de robots afin de construire un ensemble plus robuste

00:05:23 modèle perceptuel polyvalent et holistique du monde

Le robot de table compact révolutionne la prestation de thérapies physiques Les propulseurs électriques développés par la NASA permettent aux satellites commerciaux de maintenir leur orbite et de prolonger la durée de vie de leur mission

Capteur

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets