Méta-enseignement : génération active d’exemples par apprentissage par renforcement

Larocque, Stéphanie

CONGÉ DES FÊTES 2024 : Veuillez noter qu'il n'y aura pas de suivi des dépôts des thèses, mémoires et travaux étudiants après le 23 décembre 2024. Retour aux délais réguliers dès le 6 janvier 2025. ------------- ❄⛄❄ ------------- HOLIDAY BREAK 2024: Please note that there will be no follow-up on thesis, dissertations and student papers submissions after December 23, 2024. Regular deadlines will resume on January 6, 2025.

Show item record

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.advisor	Frejinger, Emma
dc.contributor.author	Larocque, Stéphanie
dc.date.accessioned	2021-01-22T14:30:29Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2021-01-22T14:30:29Z
dc.date.issued	2020-12-16
dc.date.submitted	2020-05
dc.identifier.uri	http://hdl.handle.net/1866/24323
dc.subject	Intelligence artificielle	fr
dc.subject	Apprentissage automatique	fr
dc.subject	Apprentissage actif	fr
dc.subject	Apprentissage par renforcement	fr
dc.subject	Méta-apprentissage	fr
dc.subject	Recherche opérationnelle	fr
dc.subject	Artificial intelligence	fr
dc.subject	Machine Learning	fr
dc.subject	Active Learning	fr
dc.subject	Reinforcement Learning	fr
dc.subject	Metalearning	fr
dc.subject	Operational Research	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Méta-enseignement : génération active d’exemples par apprentissage par renforcement	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Le problème d’intérêt est un problème d’optimisation discrète dont on tente d’approximer les solutions des instances particulières à l’aide de réseaux de neurones. Un obstacle à résoudre ce problème par apprentissage automatique réside dans le coût d’étiquettage élevé (et variable) des différentes instances, rendant coûteuse et difficile la génération d’un ensemble de données étiquettées. On propose une architecture d’apprentissage actif, qu’on nomme architecture de méta-enseignement, dans le but de pallier à ce problème. On montre comment on combine plusieurs modèles afin de résoudre ce problème d’apprentissage actif, formulé comme un problème de méta-apprentissage, en utilisant un agent d’apprentissage par renforcement pour la génération active d’exemples. Ainsi, on utilise des concepts de plusieurs domaines de l’apprentissage automatique dont des notions d’apprentissage supervisé, d’apprentissage actif, d’apprentissage par renforcement, ainsi que des réseaux récurrents. Dans ce travail exploratoire, on évalue notre méthodologie sur un problème simple, soit celui de classifier des mains de poker en 10 classes pré-établies. On teste notre architecture sur ce problème jouet dans le but de simplifier l’analyse. Malheureusement, l’avantage d’utiliser l’architecture de génération active n’est pas significatif. On expose ensuite plusieurs pistes de réflexion sur certaines observations à approfondir dans de futurs travaux, comme la définition de la fonction de récompense. Dans de futurs projets, il serait également intéressant d’utiliser un problème plus similaire au problème d’optimisation initial qui comporterait, entre autres, des coûts d’étiquettage variables.	fr
dcterms.abstract	The motivating application behind this architecture is a discrete optimisation problem whose solution we aim to predict using neural networks. A main challenge of solving this problem by machine learning lies in the high (and variable) labelling cost associated to the various instances, which leads to an expensive and difficult dataset generation. We propose an active learning architecture, called meta-teaching, to address this problem. We show how we combine several models to solve the active learning problem, formulated as a metalearning problem, by using a reinforcement learning agent to actively generate new instances. Therefore, we use concepts from various areas of machine learning, including supervised learning, active learning, reinforcement learning and recurrent networks. In this exploratory work, we evaluate our method on a simpler problem, which is to classify poker hands in 10 predefined classes. We test our architecture on this toy dataset in order to simplify the analysis. Unfortunately, we do not achieve a significant advantage using our active generation architecture on this dataset. We outline avenues for further reflections, including the definition of the reward function. In future projects, using a more similar problem to our problem of interest having, among others, a variable labelling cost, would be interesting.	fr
dcterms.language	fra	fr

Files in this item

Name:: Larocque_Stephanie_2020_memoire.pdf
Size:: 3.030Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.