Search

Now showing items 1-8 of 8

Real-Time Reinforcement Learning

Ramstedt, Simon (2020-03-25)

Les processus de décision markovien (MDP), le cadre mathématiques sous-jacent à la plupart des algorithmes de l'apprentissage par renforcement (RL) est souvent utilisé d'une manière qui suppose, à tort, que l'état de ...

Self-supervision for data interpretability in image classification and sample efficiency in reinforcement learning

Rajkumar, Nitarshan (2021-10-21)

L'apprentissage auto-surveillé (AAS), c'est-à-dire l'apprentissage de connaissances en exploitant la structure intrinsèque présente dans un ensemble de données non étiquettées, a beaucoup fait progresser l'apprentissage ...

Deep learning and reinforcement learning methods for grounded goal-oriented dialogue

de Vries, Harm (2020-06-04)

Les systèmes de dialogues sont à même de révolutionner l'interaction entre l'homme et la machine. Pour autant, les efforts pour concevoir des agents conversationnels se sont souvent révélés infructueux, et ceux, malgré les ...

No Press Diplomacy

Paquette, Philip (2019-10-30)

Ce mémoire présente un article sur un agent pouvant jouer à la version "No-Press" (sans messages) du jeu de société Diplomacy. Diplomacy est un jeu de négociation à 7 joueurs où chacun des joueurs essaie de conquérir la ...

Distributed conditional computation

Léonard, Nicholas (2015-04-30)

L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution ...

Large state spaces and self-supervision in reinforcement learning

Touati, Ahmed (2022-03-16)

L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme ...

Metaheuristics for vehicle routing problems : new methods and performance analysis

Guillen Reyes, Fernando Obed (2024-03-27)

Cette thèse s’intéresse au problème classique de tournées de véhicules avec contraintes de capacité (CVRP pour Capacitated Vehicle Routing Problem) ainsi qu’une variante beaucoup plus complexe, soit le problème de tournées ...

Fear prediction for training robust RL agents

Gauthier, Charlie (2023-05-03)

Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à propos du monde qui les entourent de façon ...