Search

Now showing items 21-24 of 24

Differentiable best response shaping

Aghajohari, Milad (2023-11-01)

Cette thèse est structurée en quatre sections. La première constitue une introduction au problème de la formation d'agents coopératifs non exploitables dans les jeux à somme non nulle. La deuxième section, soit le premier ...

On iterated learning for task-oriented dialogue

Singhal, Soumye (2022-03-16)

Dans le traitement de langue et des système de dialogue, il est courant de pré-entraîner des modèles de langue sur corpus humain avant de les affiner par le biais d'un simulateur et de résolution de tâches. Malheuresement, ...

Stabilizing Q-Learning for continuous control

Hui, David Yu-Tung (2023-05-29)

L'apprentissage profond par renforcement a produit des décideurs qui jouent aux échecs, au Go, au Shogi, à Atari et à Starcraft avec une capacité surhumaine. Cependant, ces algorithmes ont du mal à naviguer et à contrôler ...

Controllable music performance synthesis via hierarchical modelling

Wu, Yusong (2023-02-22)

L’expression musicale requiert le contrôle sur quelles notes sont jouées ainsi que comment elles se jouent. Les synthétiseurs audios conventionnels offrent des contrôles expressifs détaillés, cependant au détriment du ...