Learning competitive ensemble of information-constrained primitives

Sodhani, Shagun

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Sodhani, Shagun
dc.date.accessioned	2019-11-19T19:24:53Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2019-11-19T19:24:53Z
dc.date.issued	2019-10-30
dc.date.submitted	2019-07
dc.identifier.uri	http://hdl.handle.net/1866/22537
dc.subject	Reinforcement Learning	fr
dc.subject	Hierarchical Reinforcement Learning	fr
dc.subject	Information Bottleneck	fr
dc.subject	Compositionality	fr
dc.subject	Modular network	fr
dc.subject	Apprentissage par renforcement	fr
dc.subject	Apprentissage par renforcement hiérarchique	fr
dc.subject	Goulot d'étranglement de l'information	fr
dc.subject	Compositionnalité	fr
dc.subject	Réseaux modulaires	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Learning competitive ensemble of information-constrained primitives	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Nous voulons développer des algorithmes d'apprentissage par renforcement qui permettent à l'agent apprenant d'obtenir une décomposition structurée de son comportement. L’apprentissage par renforcement hiérarchique fournit un mécanisme permettant de le faire en modularisant explicitement la politique en deux composants: un ensemble de sous-politiques de bas niveau (ou primitives) et une politique principale de haut niveau permettant de coordonner les primitives. Alors que les primitives ne doivent se spécialiser que dans une partie de l'espace d'états, la stratégie principale doit se spécialiser dans tout l'espace d'états, car elle décide du moment d'activer les primitives. Cela introduit un ``goulot d'étranglement'' dans lequel le succès de l'agent dépend du succès de la stratégie principale, ce qui en fait un point d'échec unique. Nous proposons de supprimer cette limitation en utilisant un nouveau mécanisme selon lequel les sous-politiques peuvent décider elles-mêmes dans quelle partie de l'état elles souhaitent agir. Cette prise de décision décentralisée supprime la nécessité d’une politique principale paramétrée. Nous utilisons ce mécanisme pour former une politique composée d'un ensemble de primitives, mais ne nécessitant pas de stratégie principale pour choisir entre les primitives. Nous démontrons de manière expérimentale que cette architecture de politique améliore les politiques à la fois plates et hiérarchiques en termes de généralisation. Ce travail a été soumis à la conférence NeurIPS 2019 sous la forme d’un document intitulé Apprentissage d’un ensemble concurrentiel de primitives à contraintes d’informations. Dans le premier chapitre, j'introduis des informations de base sur l’apprentissage par renforcement, l’apprentissage par renforcement hiérarchique, les goulots d’étranglement d’information, la compositionnalité et les réseaux de modules neuronaux, et explique en quoi le travail proposé au chapitre deux est lié à ces idées. Le chapitre deux décrit l’idée de former un ensemble de primitives. Je conclus ma thèse en discutant de quelques axes de recherche futurs pour les travaux décrits au chapitre deux.	fr
dcterms.abstract	We want to develop reinforcement learning algorithms that enable the learning agent to obtain a structured decomposition of its behavior. Hierarchical Reinforcement Learning provides a mechanism for doing this by explicitly modularising the policy into two components --- a set of low-level sub-policies (or primitives) and a high-level master policy to coordinate between the primitives. While the primitives have to specialize to only a part of the state space, the master policy has to specialize to the entire state space as it decides when to activate which primitives. This introduces a ``bottleneck'' where the success of the agent depends on the success of the master policy, thereby making it a single point of failure. We propose to do away with this limitation by using a new mechanism where the sub-policies can decide for themselves in which part of the state they want to act. This decentralized decision making does away with the need for a parameterized master policy. We use this mechanism to train a policy that is composed of an ensemble of primitives but one that does not require a master policy to choose between the primitives. We experimentally demonstrate that this policy architecture improves over both flat and hierarchical policies in the terms of generalization. This work is under review at the NeurIPS 2019 Conference as a paper titled Learning Competitive Ensemble of Information-Constrained Primitives. In Chapter One, I provide a background to Reinforcement Learning, Hierarchical Reinforcement Learning, Information Bottleneck, Compositionality, and Neural Module Networks and discuss how the proposed work in Chapter Two relates to these ideas. Chapter Two describes the idea of training an ensemble of primitives. I conclude the thesis by discussing some future research directions for the work described in Chapter Two.	fr
dcterms.language	eng	fr

Files in this item

Name:: Sodhani_Shagun_2019_memoire.pdf
Size:: 2.898Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24446]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1182]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.