Le modèle autonome résout un problème de circulation difficile :les rues étroites

Supposons que deux véhicules se dirigent droit l'un vers l'autre dans une rue à sens unique.

Si vous êtes au volant dans ce genre de scénario de conduite serré et difficile, vous pouvez négocier avec les parties à proximité. Vous pouvez vous garer sur le côté de la route, puis faire signe au conducteur qui vous précède de traverser la voie étroite. Grâce à l'interaction, vous pouvez trouver des manœuvres qui gardent tout le monde en sécurité et vers leur destination.

Une voiture autonome a un défi plus difficile et doit d'une manière ou d'une autre comprendre les conducteurs à proximité et leur volonté de jouer gentiment.

Un nouvel algorithme en cours de développement peut guider un véhicule autonome dans la circulation dense d'une rue étroite et bondée.

L'algorithme, construit par des chercheurs du centre de recherche sur les véhicules autonomes Argo AI de l'Université Carnegie Mellon , prend ses décisions en modélisant différents niveaux de coopération du conducteur :la probabilité qu'un conducteur s'arrête pour laisser passer un autre conducteur.

Avec "Multi-Agent Reinforcement Learning", ou MARL, l'équipe, dirigée par le chercheur Christoph Killing, a obtenu des véhicules autonomes pour présenter des comportements de type humain, y compris la conduite défensive et l'interprétation du comportement d'autres agents - en simulation, jusqu'à présent.

L'algorithme n'a pas été utilisé sur un véhicule dans le monde réel, mais les résultats sont prometteurs, grâce au système basé sur les récompenses du modèle.

"Nous encourageons les interactions en gardant à l'esprit la sécurité", a déclaré Killing, ancien chercheur invité à l'Institut de robotique de l'École d'informatique et fait maintenant partie du laboratoire de systèmes aériens autonomes de l'Université technique de Munich.

Dans un court Q&A avec Tech Briefs Ci-dessous, Christoph explique plus en détail comment le modèle incitatif de son équipe gère les situations de circulation difficiles, où il n'y a pas de règles de circulation officielles.

Fiches techniques : Diriez-vous que votre modèle est plus coopératif ou agressif lorsque vous relevez un défi qui nécessite un peu des deux ?

Christoph tuant : Comme dans tout scénario de conduite, les véhicules autonomes doivent privilégier la sécurité et respecter toutes les règles de circulation. Cependant — et c'est la beauté et l'enjeu du scénario envisagé — il n'existe pas de règles de circulation coordonnées dans ce type de scénario (contrairement aux carrefours à 4 arrêts, par exemple). Deux véhicules de priorité égale doivent négocier essentiellement qui passe en premier et qui attend.

Si les deux véhicules sont uniquement axés sur la sécurité, ils s'arrêteront tous les deux. Le principal défi auquel nous avons été confrontés dans notre recherche était le suivant :comment faire en sorte qu'un véhicule s'arrête et reparte ? Ne pas faire s'arrêter les deux véhicules, ne pas faire partir les deux véhicules, lorsque chacun prend ses propres décisions sans aucune instance de coordination.

Nous encourageons les interactions avec la sécurité à l'esprit ; s'écraser à grande vitesse est pire que temporiser, mais les temporisations entraînent également une petite pénalité pour inciter les agents à apprendre à interagir et à se croiser.

Fiches techniques :Quels sont les principaux paramètres utilisés par votre modèle pour exécuter le lecteur ? Sur quels critères l'algorithme fonde-t-il ses décisions ?

Christoph tuant :Notre algorithme perçoit ce qui serait disponible sur une voiture réelle. Nous avons des mesures de distance et de vitesse relative autour de l'avant de la voiture (voir Fig. 2 dans le rapport ici ). Notamment, par rapport aux travaux connexes, nous n'utilisons pas une vue d'ensemble sur le scénario mais une perspective égocentrique. Cela rend les choses un peu plus délicates puisque nous avons maintenant des angles morts. Cette observation est complétée par d'autres paramètres, tels que la coopération mentionnée ci-dessus pour indiquer à l'agent son comportement agressif, mais également l'angle de braquage actuel et la position de l'accélérateur (que vous connaissez également lorsque vous conduisez vous-même dans ce scénario).

Fiches techniques :Qu'est-ce qui est encore difficile pour l'algorithme ?

Christoph tuant :Il y a deux défis principaux :les appariements trop agressifs et les appariements trop passifs. (Comparez les visualisations ici .) Notamment, nos politiques sont capables de négocier le scénario la plupart du temps. Pourtant, les passagers humains pourraient être assez mécontents de voir leurs voitures effectuer certaines des manœuvres présentées ici .

Fiches techniques :Que fait l'algorithme lorsqu'il est clair qu'un conducteur adverse est un « mauvais » conducteur agressif ? Ou un chauffeur trop "coopératif" ?

Christoph tuant :Nous testons nos politiques de conduite en attribuant une valeur de coopération à chaque véhicule, lui indiquant à quel point il doit se comporter de manière agressive. Chacun ne connaît que sa propre coopération, pas celle de la voiture adverse. Ces valeurs de coopération se traduisent par des comportements de conduite assez simples :un conducteur non coopératif ne s'intéresse qu'à sa propre progression. Un conducteur très coopératif ne se soucie pas de savoir quel véhicule progresse en premier, tant que quelqu'un y va. Ces valeurs sont fixes tout au long de l'interaction.

(Nous n'envisageons pas de "perdre son sang-froid". Je ne vais pas approfondir ici, mais restons-en à "pour des raisons mathématiques".)

Fiches techniques :Une partie du modèle nécessite-t-elle une sorte de "lecture" du conducteur adverse ?

Christoph tuant :Un mot sur la « lecture » :En robotique, on distingue l'état du monde (c'est-à-dire la planète Terre telle qu'elle est en ce moment) et une observation. Nos véhicules n'ont pas de module de mémoire. Alors, comment gérons-nous les choses que nous ne voyons pas en ce moment ?

Plus de voitures autonomes dans les fiches techniques

Un système d'avertissement pour les voitures autonomes apprend des pannes.

Un logiciel de l'Université technique de Munich maintient les véhicules autonomes sur un chemin sûr.

Disons, par exemple, que vous êtes sur un appel Zoom avec quelqu'un. Vous percevez une observation partielle de la planète Terre pour ainsi dire. L'autre partie prend une tasse de café hors du champ de vision de sa caméra, prend une gorgée et la repose hors du champ de vision de sa caméra. Si vous ne prenez en considération que la toute dernière observation que vous avez faite après que la tasse a été posée et qu'on vous demande ce qu'ils boivent, vous ne savez tout simplement pas (car il n'y a pas de mémoire). Pourtant, si vous empilez (nous appelons cela "concaténer") plusieurs observations au cours des dernières secondes, vous pouvez en déduire quelque chose sur l'état du monde lorsque vous voyez alors la tasse se déplacer sur plusieurs images. En fonction de la rapidité avec laquelle ils le déplacent, vous pourriez même être en mesure de dire quelque chose sur leur humeur.

De même, dans notre scénario, chaque voiture ne connaît que l'autre agent, en fonction de ce qu'il peut observer depuis l'espace d'observation (illustré à la Fig 2. dans l'article ). Les états internes (la valeur de coopération de l'autre voiture, par exemple) sont inconnus. Nous concaténons plusieurs de ces observations partielles de chaque véhicule pour leur permettre de se forger une opinion implicite sur le degré de coopération de l'autre véhicule. Nous ne le faisons pas manuellement, mais le Deep Neural Network, l'intelligence artificielle, absorbe la tâche. Ce réseau de neurones doit également apprendre la réponse à votre question, à savoir quoi faire après avoir remarqué une certaine agressivité ou un comportement trop coopératif.

Fiches techniques :Comment le modèle note-t-il un comportement "agressif" ou "coopératif" et réagit-il en conséquence ?

Christoph tuant :Un agent trop agressif pourrait, par exemple, se contenter de passer directement dans ce goulot d'étranglement du scénario, forçant essentiellement l'autre agent à attendre. Un agent trop coopératif, dès que l'ampleur du goulot d'étranglement est perceptible par ses capteurs, ralentirait et attendrait. Ici, notre politique est formée pour sélectionner immédiatement l'action complémentaire :détecter un ralentissement et partir, ou vice versa.

Fiches techniques :Quelle est la suite de cette recherche ?

Christoph tuant :Plein de choses :Trois points majeurs :Tout d'abord, le travail actuel est véhicule autonome face au véhicule autonome uniquement. Nous devrons étendre cela à un véhicule autonome confronté à un humain et voir dans quelle mesure nous coopérons avec ceux-ci. Deuxièmement, dans notre travail, les véhicules ne peuvent qu'avancer, nous n'autorisons pas la marche arrière. Cependant, cela pourrait aider à se remettre de situations où nous sommes bloqués. Troisièmement, notre travail n'est actuellement que de la simulation. Le transférer vers une solution du monde réel est une étape majeure que nous devons franchir à un moment donné.

Qu'en pensez-vous ? Partagez vos questions et commentaires ci-dessous.

Voici une idée :Prothèses auditives Comment contenir l'emballement thermique

Capteur

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets