Search

Now showing items 1-6 of 6

Beyond the horizon : improved long-range sequence modeling, from dynamical systems to language

Fathi, Mahan (2024-02-21)

Cette thèse est ancrée dans deux aspirations principales: (i) l'extension des longueurs de séquence pour une fidélité de prédiction supérieure pendant les phases d'entraînement et de test, et (ii) l'amélioration de ...

On choice models in the context of MDPs

Mohammadpour, Sobhan (2023-12-20)

Cette thèse se penche sur les modèles de choix, des distributions sur des ensembles d'alternatives. Les modèles de choix sur les processus décisionnels de Markov (MDP) peuvent décomposer de très grands espaces alternatifs ...

Sample efficient reinforcement learning for biological sequence design

Nouri, Padideh (2023-11-01)

L’apprentissage par renforcement profond a mené à de nombreux résultats prometteurs dans l’apprentissage des jeux vidéo à partir de pixels, dans la robotique pour l’apprentissage de compétences généralisables et dans les ...

Stabilizing Q-Learning for continuous control

Hui, David Yu-Tung (2023-05-29)

L'apprentissage profond par renforcement a produit des décideurs qui jouent aux échecs, au Go, au Shogi, à Atari et à Starcraft avec une capacité surhumaine. Cependant, ces algorithmes ont du mal à naviguer et à contrôler ...

Model-based hyperparameter optimization

Crouther, Paul (2023-05-29)

The primary goal of this work is to propose a methodology for discovering hyperparameters. Hyperparameters aid systems in convergence when well-tuned and handcrafted. However, to this end, poorly chosen hyperparameters ...

Accelerated algorithms for temporal difference learning methods

Rankawat, Anushree (2023-06-19)

L'idée centrale de cette thèse est de comprendre la notion d'accélération dans les algorithmes d'approximation stochastique. Plus précisément, nous tentons de répondre à la question suivante : Comment l'accélération ...