Search
Now showing items 1-8 of 8
Real-Time Reinforcement Learning
(2020-03-25)
Les processus de décision markovien (MDP), le cadre mathématiques sous-jacent à la plupart des algorithmes de l'apprentissage par renforcement (RL) est souvent utilisé d'une manière qui suppose, à tort, que l'état de ...
Self-supervision for data interpretability in image classification and sample efficiency in reinforcement learning
(2021-10-21)
L'apprentissage auto-surveillé (AAS), c'est-à-dire l'apprentissage de connaissances en exploitant la structure intrinsèque présente dans un ensemble de données non étiquettées, a beaucoup fait progresser l'apprentissage ...
Deep learning and reinforcement learning methods for grounded goal-oriented dialogue
(2020-06-04)
Les systèmes de dialogues sont à même de révolutionner l'interaction entre l'homme et la machine. Pour autant, les efforts pour concevoir des agents conversationnels se sont souvent révélés infructueux, et ceux, malgré les ...
No Press Diplomacy
(2019-10-30)
Ce mémoire présente un article sur un agent pouvant jouer à la version "No-Press" (sans messages) du jeu de société Diplomacy. Diplomacy est un jeu de négociation à 7 joueurs où chacun des joueurs essaie de conquérir la ...
Distributed conditional computation
(2015-04-30)
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué.
On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution ...
Large state spaces and self-supervision in reinforcement learning
(2022-03-16)
L'apprentissage par renforcement (RL) est un paradigme d'apprentissage orienté agent qui s'intéresse à l'apprentissage en interagissant avec un environnement incertain. Combiné à des réseaux de neurones profonds comme ...
Metaheuristics for vehicle routing problems : new methods and performance analysis
(2024-03-27)
Cette thèse s’intéresse au problème classique de tournées de véhicules avec contraintes
de capacité (CVRP pour Capacitated Vehicle Routing Problem) ainsi qu’une variante
beaucoup plus complexe, soit le problème de tournées ...
Fear prediction for training robust RL agents
(2023-05-03)
Les algorithmes d’apprentissage par renforcement conditionné par les buts apprennent à
accomplir des tâches en interagissant avec leur environnement. Ce faisant, ils apprennent à
propos du monde qui les entourent de façon ...