Deep active localization

Gottipati, Vijaya Sai Krishna

dc.contributor.advisor	Paull, Liam
dc.contributor.author	Gottipati, Vijaya Sai Krishna
dc.date.accessioned	2019-11-19T19:10:12Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2019-11-19T19:10:12Z
dc.date.issued	2019-10-30
dc.date.submitted	2019-08
dc.identifier.uri	http://hdl.handle.net/1866/22526
dc.subject	Localization	fr
dc.subject	Deep Learning	fr
dc.subject	Reinforcement Learning	fr
dc.subject	Active Localization	fr
dc.subject	Robotics	fr
dc.subject	Localisation	fr
dc.subject	Apprentissage profond	fr
dc.subject	Apprentissage par renforcement	fr
dc.subject	Localisation active	fr
dc.subject	Robotique	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Deep active localization	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Des progrès considérables ont été réalisés en robotique mobile au cours des dernières décennies et ces robots sont maintenant capables d’effectuer des tâches qu’on croyait au- paravant impossibles. Un facteur critique qui a permis aux robots d’accomplir ces diverses tâches difficiles est leur capacité à déterminer où ils se trouvent dans un environnement donné (localisation). On parvient à une automatisation plus poussée en laissant le robot choisir ses propres actions au lieu de faire appel à un téléopérateur humain. Cependant, la détermination précise de la pose (position + orientation) du robot et l’adaptation de cette capacité à des environnements plus vastes constituent depuis longtemps un défi dans le do- maine de la robotique mobile. Les approches traditionnelles à cette tâche de " localisation active " utilisent un critère théorique de l’information pour la sélection des actions ainsi que des modèles perceptuels faits à la main. Avec une augmentation constante des capacités de calcul disponibles au cours des trois dernières décennies, l’algorithme back-propagation a trouvé son utilisation dans des réseaux neuronaux beaucoup plus profonds et dans de nombreuses applications. En l’absence de données labellisées, le paradigme de l’apprentissage par le renforcement (RL) a récemment connu beaucoup de succès en ce qu’il apprend en interagissant avec l’environnement. Cepen- dant, il n’est pas pratique pour un algorithme RL d’apprendre raisonnablement bien à partir de l’expérience limitée du monde réel. C’est pourquoi il est courant d’entraîner l’agent dans un simulateur puis de transférer efficacement l’apprentissage dans de vrais robots. Dans cette thèse, nous proposons une méthode différentiable de bout en bout afin d’ap- prendre à choisir des mesures informatives pour la localisation de robots, qui peut être entraînée entièrement en simulation et ensuite transférée sur le robot réel sans aucun ajus- tement. Pour ce faire, on s’appuie sur les progrès récents de l’apprentissage profond et des paradigmes d’apprentissage de renforcement, combinés aux techniques de randomisation des domaine. Le système est composé de deux modules d’apprentissage : un réseau neuronal convolutionnel pour la perception, et un module de planification utilisant l’apprentissage profond par renforcement. Nous utilisons une approche multi-échelles dans le modèle per- ceptuel puisque la sélection d’action à l’aide de l’apprentissage par renforcement nécessite une précision de la position inférieure à la précision nécessaire au contrôle du robot. Nous démontrons que le système résultant surpasse les approches traditionnelles, en termes de perception et de planification. Nous démontrons également la robustesse de notre approche vis-à-vis différentes configurations de cartes et d’autres facteurs de nuisance par l’utilisa- tion de la randomisation de domaine au cours de l’entraînement. Le code a été publié : https://github.com/montrealrobotics/dal et est compatible avec le framework OpenAI gym, ainsi qu’avec le simulateur Gazebo.	fr
dcterms.abstract	Mobile robots have made significant advances in recent decades and are now able to perform tasks that were once thought to be impossible. One critical factor that has enabled robots to perform these various challenging tasks is their ability to determine where they are located in a given environment (localization). Further automation is achieved by letting the robot choose its own actions instead of a human teleoperating it. However, determining its pose (position + orientation) precisely and scaling this capability to larger environments has been a long-standing challenge in the field of mobile robotics. Traditional approaches to this task of active localization use an information-theoretic criterion for action selection and hand-crafted perceptual models. With a steady rise in available computation in the last three decades, the back-propagation algorithm found its use in much deeper neural networks and in numerous applications. When labelled data is not available, the paradigm of reinforcement learning (RL) is used, where it learns by interacting with the environment. However, it is impractical for most RL algorithms to learn reasonably well from just the limited real world experience. Hence, it is common practice to train the RL based models in a simulator and efficiently transfer (without any significant loss of performance) these trained models into real robots. In this thesis, we propose an end-to-end differentiable method for learning to take in- formative actions for robot localization that is trainable entirely in simulation and then transferable onto real robot hardware with zero refinement. This is achieved by leveraging recent advancements in deep learning and reinforcement learning combined with domain randomization techniques. The system is composed of two learned modules: a convolu- tional neural network for perception, and a deep reinforcement learned planning module. We leverage a multi-scale approach in the perceptual model since the accuracy needed to take actions using reinforcement learning is much less than the accuracy needed for robot control. We demonstrate that the resulting system outperforms traditional approaches for either perception or planning. We also demonstrate our approach’s robustness to different map configurations and other nuisance parameters through the use of domain randomization in training. The code has been released: https://github.com/montrealrobotics/dal and is compatible with the OpenAI gym framework, as well as the Gazebo simulator.	fr
dcterms.language	eng	fr
UdeM.ORCIDAuteurThese	0000-0003-0251-1851	fr

Files in this item

Name:: Vijaya_Sai_Krishna_Gottipati_2 ...
Size:: 7.483Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24306]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1178]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.