Afficher la notice

dc.contributor.advisorBacon, Pierre-Luc
dc.contributor.authorRankawat, Anushree
dc.date.accessioned2023-08-03T18:24:56Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2023-08-03T18:24:56Z
dc.date.issued2023-06-19
dc.date.submitted2022-12
dc.identifier.urihttp://hdl.handle.net/1866/28496
dc.subjectTemporal difference learningfr
dc.subjectStochastic Approximationfr
dc.subjectAccelerated methodsfr
dc.subjectMomentum methodsfr
dc.subjectReinforcement learningfr
dc.subjectApproximate Dynamic Programmingfr
dc.subjectFunction approximationfr
dc.subjectConservation lawsfr
dc.subjectConvergence ratesfr
dc.subjectMachine learningfr
dc.subjectMéthodes des différences temporellesfr
dc.subjectApproximation Stochastiquefr
dc.subjectMéthodes accéléréesfr
dc.subjectMéthodes de quantité de mouvementfr
dc.subjectApprentissage par renforcementfr
dc.subjectProgrammation dynamique approchéefr
dc.subjectLois de conservationfr
dc.subjectTaux de convergencefr
dc.subjectApprentissage automatiquefr
dc.subject.otherArtificial intelligence / Intelligence artificielle (UMI : 0800)fr
dc.titleAccelerated algorithms for temporal difference learning methodsfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractL'idée centrale de cette thèse est de comprendre la notion d'accélération dans les algorithmes d'approximation stochastique. Plus précisément, nous tentons de répondre à la question suivante : Comment l'accélération apparaît-elle naturellement dans les algorithmes d'approximation stochastique ? Nous adoptons une approche de systèmes dynamiques et proposons de nouvelles méthodes accélérées pour l'apprentissage par différence temporelle (TD) avec approximation de fonction linéaire : Polyak TD(0) et Nesterov TD(0). Contrairement aux travaux antérieurs, nos méthodes ne reposent pas sur une conception des méthodes de TD comme des méthodes de descente de gradient. Nous étudions l'interaction entre l'accélération, la stabilité et la convergence des méthodes accélérées proposées en temps continu. Pour établir la convergence du système dynamique sous-jacent, nous analysons les modèles en temps continu des méthodes d'approximation stochastique accélérées proposées en dérivant la loi de conservation dans un système de coordonnées dilaté. Nous montrons que le système dynamique sous-jacent des algorithmes proposés converge à un rythme accéléré. Ce cadre nous fournit également des recommandations pour le choix des paramètres d'amortissement afin d'obtenir ce comportement convergent. Enfin, nous discrétisons ces ODE convergentes en utilisant deux schémas de discrétisation différents, Euler explicite et Euler symplectique, et nous analysons leurs performances sur de petites tâches de prédiction linéaire.fr
dcterms.abstractThe central idea of this thesis is to understand the notion of acceleration in stochastic approximation algorithms. Specifically, we attempt to answer the question: How does acceleration naturally show up in SA algorithms? We adopt a dynamical systems approach and propose new accelerated methods for temporal difference (TD) learning with linear function approximation: Polyak TD(0) and Nesterov TD(0). In contrast to earlier works, our methods do not rely on viewing TD methods as gradient descent methods. We study the interplay between acceleration, stability, and convergence of the proposed accelerated methods in continuous time. To establish the convergence of the underlying dynamical system, we analyze continuous-time models of the proposed accelerated stochastic approximation methods by deriving the conservation law in a dilated coordinate system. We show that the underlying dynamical system of our proposed algorithms converges at an accelerated rate. This framework also provides us recommendations for the choice of the damping parameters to obtain this convergent behavior. Finally, we discretize these convergent ODEs using two different discretization schemes, explicit Euler, and symplectic Euler, and analyze their performance on small, linear prediction tasks.fr
dcterms.languageengfr
UdeM.ORCIDAuteurThese0000-0001-9973-0027fr


Fichier·s constituant ce document

Vignette

Ce document figure dans la ou les collections suivantes

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.