Le MIT réussit à doter les robots de la même perception spatiale que les humains
Dernière mise à jour : 2 nov. 2020

Le MIT réussit à doter les robots de la même perception spatiale que les humains © Toyota Research Institute
Les chercheurs du Massachusetts Institute of Technology (MIT) ont mis au point une représentation de la perception spatiale par les robots calquée sur celle des humains. L'objectif est de simplifier l'exécution des tâches domestiques complexes, comme aller dans la cuisine, ouvrir le réfrigérateur et ramener une boisson.
Ces travaux ont été publiés le 15 juillet sur le blog de l'institut de recherche américain et doivent être présentés cette semaine l'événement virtuel "Robotics : Science and Systemes". Ils ont été financés en partie par le Laboratoire de recherche de l'Armée, le Bureau de la recherche navale et le Laboratoire Lincoln du MIT.
Générer une carte 3D rapidement
Le modèle mis au point a été baptisé "3D Dynamic Scene Graphs". Il permet à un robot de générer rapidement une carte en 3D de son environnement qui inclut les objets, leur classification (chaise, table, porte…), les personnes, les pièces, les murs et toutes les autres structures que le robot est susceptible de rencontrer dans son environnement. Le modèle permet également à la machine d'extraire des informations pertinentes de la carte 3D, d'interroger la localisation des objets et des pièces, ou le mouvement des personnes sur son chemin. "Cette représentation compressée de l'environnement est utile car elle permet à notre robot de prendre rapidement des décisions et de planifier sa trajectoire", explique Luca Carlone, professeur adjoint d'aéronautique et d'astronautique au MIT.
Les scientifiques sont partis de l'idée suivante : pour que les robots domestiques puissent être vraiment utiles aux humains, ils doivent savoir se mouvoir dans un environnement comme une personne pourrait le faire. "Pour prendre n'importe quelle décision dans le monde, vous devez avoir un modèle mental de l'environnement qui vous entoure", explique Luca Carlone. C'est quelque chose de tellement facile pour les humains. Mais pour les robots, c'est un problème extrêmement compliqué car il s'agit de transformer les valeurs des pixels qu'ils voient à travers une caméra, en une compréhension du monde."
Le recours à une bibliothèque open source
L'élément clé du modèle est Kimera, une bibliothèque open source. Cet outil a été précédemment développé par les chercheurs du MIT pour construire simultanément un modèle géométrique 3D d'un environnement, tout en encodant la probabilité qu'un objet soit, par exemple, une chaise par rapport à un bureau. "Comme la créature mythique qui est un mélange de différents animaux, nous voulions que Kimera soit un mélange de cartographie et de compréhension sémantique en 3D", indique Luca Carlone.
Concrètement, Kimera compile des flux d'images provenant de la caméra d'un robot et des mesures provenant de capteurs embarqués pour estimer la trajectoire du robot et pour reconstruire la scène sous forme de maillage 3D, le tout en temps réel. Pour générer ce maillage, Kimera utilise un réseau de neurones existant entraîné sur des millions d'images du monde réel pour prédire l'étiquette de chaque pixel, puis projette ces étiquettes en 3D en utilisant la technique de calcul d'images de synthèse 3D raycasting.
La mise au point d'algorithmes pour accélérer les calculs
Mais si un robot devait se fier uniquement à ce maillage pour naviguer dans son environnement, ce serait une tâche longue et coûteuse en termes de calcul. Les chercheurs se sont donc inspirés de Kimera et ont mis au point des algorithmes pour construire des graphes de scène en 3D (scene graph) à partir du maillage sémantique 3D initial de la bibliothèque. Les graphes de scène sont des modèles graphiques informatiques généralement utilisés dans les moteurs de jeux vidéo pour représenter des environnements en 3D.
L'équipe a testé son nouveau modèle dans un simulateur de réalité virtuelle, développé en collaboration avec le laboratoire Lincoln du MIT, qui simule un robot naviguant dans un environnement de bureau dynamique rempli de personnes en mouvement.
Ce modèle est particulièrement adapté aux robots domestiques mais également aux machines travaillant des usines à côté des humains ou pour rechercher des survivants sur un site accidenté.
Source : Alice Vitard pour Usine digitale