Lifelong learning of concepts in CRAFT
Thèse ou mémoire
2020-08 (octroi du grade: 2020-12-16)
Auteur·e·s
Directeur·trice·s de recherche
Cycle d'études
MaîtriseProgramme
InformatiqueMots-clés
- Skill Segmentation
- Demonstration Segmentation
- Concept Learning
- Planning
- Hierarchical Reinforcement Learning
- Reinforcement Learning
- Segmentation des compétences
- Segmentation de démonstration
- Apprentissage conceptuel
- Planification
- Apprentissage par renforcement hiérarchique
- Apprentissage par renforcement
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Résumé·s
La planification à des niveaux d’abstraction plus élevés est essentielle lorsqu’il s’agit de
résoudre des tâches à long horizon avec des complexités hiérarchiques. Pour planifier avec
succès à un niveau d’abstraction donné, un agent doit comprendre le fonctionnement de
l’environnement à ce niveau particulier. Cette compréhension peut être implicite en termes de
politiques, de fonctions de valeur et de modèles, ou elle peut être définie explicitement. Dans
ce travail, nous introduisons les concepts comme un moyen de représenter et d’accumuler
explicitement des informations sur l’environnement.
Les concepts sont définis en termes de transition d’état et des conditions requises pour
que cette transition ait lieu. La simplicité de cette définition offre flexibilité et contrôle
sur le processus d’apprentissage. Étant donné que les concepts sont de nature hautement
interprétable, il est facile d’encoder les connaissances antérieures et d’intervenir au cours
du processus d’apprentissage si nécessaire. Cette définition facilite également le transfert
de concepts entre différents domaines. Les concepts, à un niveau d’abstraction donné, sont
intimement liés aux compétences, ou actions temporellement abstraites. Toutes les transitions
d’état suffisamment importantes pour être représentées par un concept se produisent après
l’exécution réussie d’une compétence. En exploitant cette relation, nous introduisons un
cadre qui facilite l’apprentissage tout au long de la vie et le raffinement des concepts à
différents niveaux d’abstraction. Le cadre comporte trois volets:
Le sytème 1 segmente un flux d’expérience (par exemple une démonstration) en
une séquence de compétences. Cette segmentation peut se faire à différents niveaux
d’abstraction.
Le sytème 2 analyse ces segments pour affiner et mettre à niveau son ensemble de
concepts, lorsqu’applicable.
Le sytème 3 utilise les concepts disponibles pour générer un graphe de dépendance de
sous-tâches. Ce graphe peut être utilisé pour planifier à différents niveaux d’abstraction.
Nous démontrons l’applicabilité de ce cadre dans l’environnement hiérarchique 2D CRAFT. Nous effectuons des expériences pour explorer comment les concepts peuvent être appris
de différents flux d’expérience et comment la qualité de la base de concepts affecte l’optimalité
du plan général. Dans les tâches avec des dépendances de sous-tâches complexes, où
la plupart des algorithmes ne parviennent pas à se généraliser ou prennent un temps impraticable
à converger, nous démontrons que les concepts peuvent être utilisés pour simplifier
considérablement la planification. Ce cadre peut également être utilisé pour comprendre
l’intention d’une démonstration donnée en termes de concepts. Cela permet à l’agent de
répliquer facilement la démonstration dans différents environnements. Nous montrons que
cette méthode d’imitation est beaucoup plus robuste aux changements de configuration de
l’environnement que les méthodes traditionnelles. Dans notre formulation du problème, nous
faisons deux hypothèses: 1) que nous avons accès à un ensemble de compétences suffisamment
exhaustif, et 2) que notre agent a accès à des environnements de pratique, qui peuvent
être utilisés pour affiner les concepts en cas de besoin. L’objectif de ce travail est d’explorer
l’aspect pratique des concepts d’apprentissage comme moyen d’améliorer la compréhension
de l’environnement. Dans l’ensemble, nous démontrons que les concepts d’apprentissage Planning at higher levels of abstraction is critical when it comes to solving long horizon tasks with hierarchical complexities. To plan successfully at a given level of abstraction, an agent must have an understanding of how the environment functions at that particular level. This understanding may be implicit in terms of policies, value functions, and world models, or it can be defined explicitly. In this work, we introduce concepts as a means to explicitly represent and accumulate information about the environment. Concepts are defined in terms of a state transition and the conditions required for that transition to take place. The simplicity of this definition offers flexibility and control over the learning process. Since concepts are highly interpretable in nature, it is easy to encode prior knowledge and intervene during the learning process if necessary. This definition also makes it relatively straightforward to transfer concepts across different domains wherever applicable. Concepts, at a given level of abstraction, are intricately linked to skills, or temporally abstracted actions. All the state transitions significant enough to be represented by a concept occur only after the successful execution of a skill. Exploiting this relationship, we introduce a framework that aids in lifelong learning and refining of concepts across different levels of abstraction. The framework has three components: - System 1 segments a stream of experience (e.g. a demonstration) into a sequence of skills. This segmentation can be done at different levels of abstraction. - System 2 analyses these segments to refine and upgrade its set of concepts, whenever applicable. - System 3 utilises the available concepts to generate a sub-task dependency graph. This graph can be used for planning at different levels of abstraction We demonstrate the applicability of this framework in the 2D hierarchical environment CRAFT. We perform experiments to explore how concepts can be learned from different streams of experience, and how the quality of the concept base affects the optimality of the overall plan. In tasks with complex sub-task dependencies, where most algorithms fail to generalise or take an impractical amount of time to converge, we demonstrate that concepts can be used to significantly simplify planning. This framework can also be used to understand the intention of a given demonstration in terms of concepts. This makes it easy for the agent to replicate a demonstration in different environments. We show that this method of imitation is much more robust to changes in the environment configurations than traditional methods. In our problem formulation, we make two assumptions: 1) that we have access to a sufficiently exhaustive set of skills, and 2) that our agent has access to practice environments, which can be used to refine concepts when needed. The objective behind this work is to explore the practicality of learning concepts as a means to improve one’s understanding about the environment. Overall, we demonstrate that learning concepts can be a light-weight yet efficient way to increase the capability of a system.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.