Beyond the status quo in deep reinforcement learning

Agarwal, Rishabh

dc.contributor.advisor	Courville, Aaron
dc.contributor.advisor	Bellemare, Marc
dc.contributor.author	Agarwal, Rishabh
dc.date.accessioned	2024-06-18T17:52:53Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2024-06-18T17:52:53Z
dc.date.issued	2024-05-22
dc.date.submitted	2024-05
dc.identifier.uri	http://hdl.handle.net/1866/33388
dc.subject	Apprentissage par renforcement profond	fr
dc.subject	RL profond	fr
dc.subject	Évaluation	fr
dc.subject	Réutilisation du calcul	fr
dc.subject	RL réincarné	fr
dc.subject	RL hors ligne	fr
dc.subject	Régularisation implicite	fr
dc.subject	Deep reinforcement learning	fr
dc.subject	Deep RL	fr
dc.subject	Reusing computation	fr
dc.subject	Reincarnating RL	fr
dc.subject	Offline RL	fr
dc.subject	Implicit regularization	fr
dc.subject.other	Artificial intelligence / Intelligence artificielle (UMI : 0800)	fr
dc.title	Beyond the status quo in deep reinforcement learning	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Doctorat / Doctoral	fr
etd.degree.name	Ph. D.	fr
dcterms.abstract	L’apprentissage par renforcement profond (RL) a connu d’énormes progrès ces dernières années, mais il est encore difficile d’appliquer le RL aux problèmes de prise de décision du monde réel. Cette thèse identifie trois défis clés avec la façon dont nous faisons la recherche RL elle-même qui entravent les progrès de la recherche RL. — Évaluation et comparaison peu fiables des algorithmes RL ; les méthodes d’évaluation actuelles conduisent souvent à des résultats peu fiables. — Manque d’informations préalables dans la recherche RL ; Les algorithmes RL sont souvent formés à partir de zéro, ce qui peut nécessiter de grandes quantités de données ou de ressources informatiques. — Manque de compréhension de la façon dont les réseaux de neurones profonds interagissent avec RL, ce qui rend difficile le développement de méthodes évolutives de RL. Pour relever ces défis susmentionnés, cette thèse apporte les contributions suivantes : — Une méthodologie plus rigoureuse pour évaluer les algorithmes RL. — Un flux de travail de recherche alternatif qui se concentre sur la réutilisation des progrès existants sur une tâche. — Identification d’un phénomène de perte de capacité implicite avec un entraînement RL hors ligne prolongé. Dans l’ensemble, cette thèse remet en question le statu quo dans le RL profond et montre comment cela peut conduire à des algorithmes de RL plus efficaces, fiables et mieux applicables dans le monde réel.	fr
dcterms.abstract	Deep reinforcement learning (RL) has seen tremendous progress in recent years, but it is still difficult to apply RL to real-world decision-making problems. This thesis identifies three key challenges with how we do RL research itself that hinder the progress of RL research. — Unreliable evaluation and comparison of RL algorithms; current evaluation methods often lead to unreliable results. — Lack of prior information in RL research; RL algorithms are often trained from scratch, which can require large amounts of data or computational resources. — Lack of understanding of how deep neural networks interact with RL, making it hard to develop scalable RL methods. To tackle these aforementioned challenges, this thesis makes the following contributions: — A more rigorous methodology for evaluating RL algorithms. — An alternative research workflow that focuses on reusing existing progress on a task. — Identifying an implicit capacity loss phenomenon with prolonged offline RL training. Overall, this thesis challenges the status quo in deep reinforcement learning and shows that doing so can make RL more efficient, reliable and improve its real-world applicability	fr
dcterms.language	eng	fr

Fichier·s constituant ce document

Nom:: Agarwal_Rishabh_2024_these.pdf
Taille:: 18.51Mo
Format:: PDF
Description:: Thèse

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [24363]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1179]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.