Search
Now showing items 21-24 of 24
Differentiable best response shaping
(2023-11-01)
Cette thèse est structurée en quatre sections. La première constitue une introduction au problème de la formation d'agents coopératifs non exploitables dans les jeux à somme non nulle. La deuxième section, soit le premier ...
On iterated learning for task-oriented dialogue
(2022-03-16)
Dans le traitement de langue et des système de dialogue, il est courant de pré-entraîner des modèles de langue sur corpus humain avant de les affiner par le biais d'un simulateur et de résolution de tâches. Malheuresement, ...
Stabilizing Q-Learning for continuous control
(2023-05-29)
L'apprentissage profond par renforcement a produit des décideurs qui jouent aux échecs, au Go, au Shogi, à Atari et à Starcraft avec une capacité surhumaine. Cependant, ces algorithmes ont du mal à naviguer et à contrôler ...
Controllable music performance synthesis via hierarchical modelling
(2023-02-22)
L’expression musicale requiert le contrôle sur quelles notes sont jouées ainsi que comment elles se jouent.
Les synthétiseurs audios conventionnels offrent des contrôles expressifs détaillés, cependant au détriment du ...