L'IA peut désormais naviguer dans des environnements inconnus sans carte

Des chercheurs de Facebook AI développent un nouvel algorithme d'apprentissage par renforcement nommé DD-PPO.
Il peut naviguer dans des environnements complexes en utilisant uniquement des données de boussole, une caméra RVB-D et un GPS.

Développer des machines intelligentes qui interagissent intelligemment avec le monde physique est un objectif à long terme de la communauté de l'IA. Le défi majeur est d'apprendre à ces machines à naviguer efficacement dans des environnements complexes et inconnus sans utiliser de carte.

Habituellement, les cartes du monde réel deviennent obsolètes en quelques mois, à mesure que les bâtiments et les structures changent et que les objets sont déplacés. C'est pourquoi il est tout à fait nécessaire de développer une IA pour le monde physique qui peut naviguer sans carte.

En gardant ces choses à l'esprit, les chercheurs de Facebook AI ont développé un nouvel algorithme d'apprentissage par renforcement (RL) qui résout efficacement la tâche de navigation point-objectif en utilisant uniquement les données de la boussole, la caméra RVB-D et le GPS. Cet algorithme à grande échelle est nommé DD-PPO (optimisation de politique proximale décentralisée distribuée).

La nouvelle architecture distribuée RL s'adapte bien

De nos jours, les systèmes basés sur l'apprentissage automatique sont capables de surpasser les experts humains dans divers jeux complexes. Mais comme ces systèmes reposent sur un volume massif d'échantillons d'apprentissage, il est tout à fait impossible de les construire sans parallélisation distribuée à grande échelle.

L'architecture d'apprentissage par renforcement distribué actuelle - comprend des milliers de travailleurs (CPU) et un serveur à paramètre unique - ne s'adapte pas bien. C'est pourquoi les chercheurs ont proposé une technique d'apprentissage par renforcement distribué et synchrone.

DD-PPO fonctionne sur plusieurs machines et n'a pas de serveur de paramètres. Chaque travailleur (CPU) alterne entre la collecte d'expérience dans un environnement simulé accéléré par GPU et gourmand en ressources et l'optimisation du modèle. Dans un état de communication explicite, tous les travailleurs synchronisent leurs mises à jour avec le modèle. En d'autres termes, la distribution est synchrone.

Tous les agents simulent un agent effectuant une navigation point-objectif, puis optimisent le modèle et synchronisent leurs mises à jour | Voici comment les données sont partagées pendant l'entraînement avec DD-PPO

En utilisant cette approche, DD-PPO a présenté une mise à l'échelle presque linéaire :il a pu atteindre une accélération de 107 fois sur 128 GPU sur une implémentation en série.

Référence :arXiv:1911.00357 | IA Facebook

Navigation point-but presque parfaite

Dans la navigation point-objectif, un agent est placé à une position/orientation initiale aléatoire dans un environnement inconnu et chargé de naviguer vers les coordonnées cibles sans utiliser de carte. Il ne peut utiliser qu'une boussole, un GPS et un appareil photo RVB ou RVB-D.

Les chercheurs ont tiré parti de la fonction de mise à l'échelle de DD-PPO pour former l'agent à 2,5 milliards d'étapes, ce qui équivaut à 80 ans d'expérience humaine. Au lieu de mois, la formation a été réalisée en moins de trois jours avec 64 GPU.

Les résultats ont montré que 90 % des performances de pointe ont été obtenues dans les 100 premiers millions d'étapes avec moins de ressources de calcul (8 GPU). Avec des milliards d'étapes d'expérience, l'agent obtient un taux de réussite de 99,9%. En revanche, les systèmes précédents ont atteint un taux de réussite de 92 %.

L'agent fait marche arrière après avoir choisi le mauvais chemin pour atteindre sa position cible | Avec l'aimable autorisation des chercheurs

Applications

Ces agents d'IA peuvent aider les gens dans le monde physique. Par exemple, ils pourraient montrer des informations pertinentes aux utilisateurs portant des lunettes de réalité augmentée, les robots peuvent récupérer des objets d'un bureau à l'étage et les systèmes alimentés par l'IA peuvent aider les personnes malvoyantes.

Les modèles construits dans cette étude peuvent fonctionner dans des environnements habituels, comme à l'intérieur de laboratoires et d'immeubles de bureaux, où des points de données supplémentaires (cartes et données GPS) ne sont pas disponibles.

Lire :Facebook développe une IA capable de copier la voix de n'importe qui avec une précision sans précédent

Bien que le modèle surpasse les réseaux de neurones convolutifs pré-entraînés ImageNet et puisse servir de ressource universelle, il reste encore beaucoup à faire pour développer des systèmes qui apprennent à naviguer dans des environnements complexes. Les chercheurs explorent actuellement de nouvelles approches pour implémenter la navigation par point-objectif RVB uniquement.

Le nouvel algorithme fusionne en toute transparence deux signaux audio L'objet qui tourne le plus rapidement au monde tourne à 300 milliards de tr/min

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle