Search
Now showing items 1-6 of 6
Beyond the horizon : improved long-range sequence modeling, from dynamical systems to language
(2024-02-21)
Cette thèse est ancrée dans deux aspirations principales: (i) l'extension des longueurs de séquence pour une fidélité de prédiction supérieure pendant les phases d'entraînement et de test, et (ii) l'amélioration de ...
On choice models in the context of MDPs
(2023-12-20)
Cette thèse se penche sur les modèles de choix, des distributions sur des ensembles d'alternatives. Les modèles de choix sur les processus décisionnels de Markov (MDP) peuvent décomposer de très grands espaces alternatifs ...
Sample efficient reinforcement learning for biological sequence design
(2023-11-01)
L’apprentissage par renforcement profond a mené à de nombreux résultats prometteurs dans
l’apprentissage des jeux vidéo à partir de pixels, dans la robotique pour l’apprentissage de
compétences généralisables et dans les ...
Stabilizing Q-Learning for continuous control
(2023-05-29)
L'apprentissage profond par renforcement a produit des décideurs qui jouent aux échecs, au Go, au Shogi, à Atari et à Starcraft avec une capacité surhumaine. Cependant, ces algorithmes ont du mal à naviguer et à contrôler ...
Model-based hyperparameter optimization
(2023-05-29)
The primary goal of this work is to propose a methodology for discovering hyperparameters.
Hyperparameters aid systems in convergence when well-tuned and handcrafted. However,
to this end, poorly chosen hyperparameters ...
Accelerated algorithms for temporal difference learning methods
(2023-06-19)
L'idée centrale de cette thèse est de comprendre la notion d'accélération dans les algorithmes d'approximation stochastique. Plus précisément, nous tentons de répondre à la question suivante : Comment l'accélération ...