Show item record

dc.contributor.advisorBengio, Yoshua
dc.contributor.advisorFrejinger, Emma
dc.contributor.authorLarocque, Stéphanie
dc.date.accessioned2021-01-22T14:30:29Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2021-01-22T14:30:29Z
dc.date.issued2020-12-16
dc.date.submitted2020-05
dc.identifier.urihttp://hdl.handle.net/1866/24323
dc.subjectIntelligence artificiellefr
dc.subjectApprentissage automatiquefr
dc.subjectApprentissage actiffr
dc.subjectApprentissage par renforcementfr
dc.subjectMéta-apprentissagefr
dc.subjectRecherche opérationnellefr
dc.subjectArtificial intelligencefr
dc.subjectMachine Learningfr
dc.subjectActive Learningfr
dc.subjectReinforcement Learningfr
dc.subjectMetalearningfr
dc.subjectOperational Researchfr
dc.subject.otherApplied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)fr
dc.titleMéta-enseignement : génération active d’exemples par apprentissage par renforcementfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractLe problème d’intérêt est un problème d’optimisation discrète dont on tente d’approximer les solutions des instances particulières à l’aide de réseaux de neurones. Un obstacle à résoudre ce problème par apprentissage automatique réside dans le coût d’étiquettage élevé (et variable) des différentes instances, rendant coûteuse et difficile la génération d’un ensemble de données étiquettées. On propose une architecture d’apprentissage actif, qu’on nomme architecture de méta-enseignement, dans le but de pallier à ce problème. On montre comment on combine plusieurs modèles afin de résoudre ce problème d’apprentissage actif, formulé comme un problème de méta-apprentissage, en utilisant un agent d’apprentissage par renforcement pour la génération active d’exemples. Ainsi, on utilise des concepts de plusieurs domaines de l’apprentissage automatique dont des notions d’apprentissage supervisé, d’apprentissage actif, d’apprentissage par renforcement, ainsi que des réseaux récurrents. Dans ce travail exploratoire, on évalue notre méthodologie sur un problème simple, soit celui de classifier des mains de poker en 10 classes pré-établies. On teste notre architecture sur ce problème jouet dans le but de simplifier l’analyse. Malheureusement, l’avantage d’utiliser l’architecture de génération active n’est pas significatif. On expose ensuite plusieurs pistes de réflexion sur certaines observations à approfondir dans de futurs travaux, comme la définition de la fonction de récompense. Dans de futurs projets, il serait également intéressant d’utiliser un problème plus similaire au problème d’optimisation initial qui comporterait, entre autres, des coûts d’étiquettage variables.fr
dcterms.abstractThe motivating application behind this architecture is a discrete optimisation problem whose solution we aim to predict using neural networks. A main challenge of solving this problem by machine learning lies in the high (and variable) labelling cost associated to the various instances, which leads to an expensive and difficult dataset generation. We propose an active learning architecture, called meta-teaching, to address this problem. We show how we combine several models to solve the active learning problem, formulated as a metalearning problem, by using a reinforcement learning agent to actively generate new instances. Therefore, we use concepts from various areas of machine learning, including supervised learning, active learning, reinforcement learning and recurrent networks. In this exploratory work, we evaluate our method on a simpler problem, which is to classify poker hands in 10 predefined classes. We test our architecture on this toy dataset in order to simplify the analysis. Unfortunately, we do not achieve a significant advantage using our active generation architecture on this dataset. We outline avenues for further reflections, including the definition of the reward function. In future projects, using a more similar problem to our problem of interest having, among others, a variable labelling cost, would be interesting.fr
dcterms.languagefrafr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.