Deep active localization
Thèse ou mémoire
2019-08 (octroi du grade: 2019-10-30)
Directeur·trice·s de recherche
Cycle d'études
MaîtriseProgramme
InformatiqueMots-clés
Résumé·s
Des progrès considérables ont été réalisés en robotique mobile au cours des dernières décennies et ces robots sont maintenant capables d’effectuer des tâches qu’on croyait au- paravant impossibles. Un facteur critique qui a permis aux robots d’accomplir ces diverses tâches difficiles est leur capacité à déterminer où ils se trouvent dans un environnement donné (localisation). On parvient à une automatisation plus poussée en laissant le robot choisir ses propres actions au lieu de faire appel à un téléopérateur humain. Cependant, la détermination précise de la pose (position + orientation) du robot et l’adaptation de cette capacité à des environnements plus vastes constituent depuis longtemps un défi dans le do- maine de la robotique mobile. Les approches traditionnelles à cette tâche de " localisation active " utilisent un critère théorique de l’information pour la sélection des actions ainsi que des modèles perceptuels faits à la main.
Avec une augmentation constante des capacités de calcul disponibles au cours des trois dernières décennies, l’algorithme back-propagation a trouvé son utilisation dans des réseaux neuronaux beaucoup plus profonds et dans de nombreuses applications. En l’absence de données labellisées, le paradigme de l’apprentissage par le renforcement (RL) a récemment connu beaucoup de succès en ce qu’il apprend en interagissant avec l’environnement. Cepen- dant, il n’est pas pratique pour un algorithme RL d’apprendre raisonnablement bien à partir de l’expérience limitée du monde réel. C’est pourquoi il est courant d’entraîner l’agent dans un simulateur puis de transférer efficacement l’apprentissage dans de vrais robots.
Dans cette thèse, nous proposons une méthode différentiable de bout en bout afin d’ap- prendre à choisir des mesures informatives pour la localisation de robots, qui peut être entraînée entièrement en simulation et ensuite transférée sur le robot réel sans aucun ajus- tement. Pour ce faire, on s’appuie sur les progrès récents de l’apprentissage profond et des paradigmes d’apprentissage de renforcement, combinés aux techniques de randomisation des domaine. Le système est composé de deux modules d’apprentissage : un réseau neuronal convolutionnel pour la perception, et un module de planification utilisant l’apprentissage profond par renforcement. Nous utilisons une approche multi-échelles dans le modèle per- ceptuel puisque la sélection d’action à l’aide de l’apprentissage par renforcement nécessite une précision de la position inférieure à la précision nécessaire au contrôle du robot. Nous démontrons que le système résultant surpasse les approches traditionnelles, en termes de perception et de planification. Nous démontrons également la robustesse de notre approche vis-à-vis différentes configurations de cartes et d’autres facteurs de nuisance par l’utilisa- tion de la randomisation de domaine au cours de l’entraînement. Le code a été publié : https://github.com/montrealrobotics/dal et est compatible avec le framework OpenAI gym, ainsi qu’avec le simulateur Gazebo. Mobile robots have made significant advances in recent decades and are now able to perform tasks that were once thought to be impossible. One critical factor that has enabled robots to perform these various challenging tasks is their ability to determine where they are located in a given environment (localization). Further automation is achieved by letting the robot choose its own actions instead of a human teleoperating it. However, determining its pose (position + orientation) precisely and scaling this capability to larger environments has been a long-standing challenge in the field of mobile robotics. Traditional approaches to this task of active localization use an information-theoretic criterion for action selection and hand-crafted perceptual models.
With a steady rise in available computation in the last three decades, the back-propagation algorithm found its use in much deeper neural networks and in numerous applications. When labelled data is not available, the paradigm of reinforcement learning (RL) is used, where it learns by interacting with the environment. However, it is impractical for most RL algorithms to learn reasonably well from just the limited real world experience. Hence, it is common practice to train the RL based models in a simulator and efficiently transfer (without any significant loss of performance) these trained models into real robots.
In this thesis, we propose an end-to-end differentiable method for learning to take in- formative actions for robot localization that is trainable entirely in simulation and then transferable onto real robot hardware with zero refinement. This is achieved by leveraging recent advancements in deep learning and reinforcement learning combined with domain randomization techniques. The system is composed of two learned modules: a convolu- tional neural network for perception, and a deep reinforcement learned planning module. We leverage a multi-scale approach in the perceptual model since the accuracy needed to take actions using reinforcement learning is much less than the accuracy needed for robot control. We demonstrate that the resulting system outperforms traditional approaches for either perception or planning. We also demonstrate our approach’s robustness to different map configurations and other nuisance parameters through the use of domain randomization in training. The code has been released: https://github.com/montrealrobotics/dal and is compatible with the OpenAI gym framework, as well as the Gazebo simulator.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.