Adaptive learning of tensor network structures

Hashemizadehaghda, Seyed Meraj

dc.contributor.advisor	Rabusseau, Guillaume
dc.contributor.author	Hashemizadehaghda, Seyed Meraj
dc.date.accessioned	2023-05-15T15:17:14Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2023-05-15T15:17:14Z
dc.date.issued	2023-02-22
dc.date.submitted	2022-10
dc.identifier.uri	http://hdl.handle.net/1866/27944
dc.subject	Tensor network	fr
dc.subject	Tensor decomposition	fr
dc.subject	Machine learning	fr
dc.subject	Réseau de tenseur	fr
dc.subject	Décomposition de tenseur	fr
dc.subject	Apprentissage automatique	fr
dc.subject.other	Artificial intelligence / Intelligence artificielle (UMI : 0800)	fr
dc.title	Adaptive learning of tensor network structures	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Les réseaux tensoriels offrent un cadre puissant pour représenter efficacement des objets de très haute dimension. Les réseaux tensoriels ont récemment montré leur potentiel pour les applications d’apprentissage automatique et offrent une vue unifiée des modèles de décomposition tensorielle courants tels que Tucker, tensor train (TT) et tensor ring (TR). Cependant, l’identification de la meilleure structure de réseau tensoriel à partir de données pour une tâche donnée est un défi. Dans cette thèse, nous nous appuyons sur le formalisme des réseaux tensoriels pour développer un algorithme adaptatif générique et efficace pour apprendre conjointement la structure et les paramètres d’un réseau de tenseurs à partir de données. Notre méthode est basée sur une approche simple de type gloutonne, partant d’un tenseur de rang un et identifiant successivement les bords du réseau tensoriel les plus prometteurs pour de petits incréments de rang. Notre algorithme peut identifier de manière adaptative des structures avec un petit nombre de paramètres qui optimisent efficacement toute fonction objective différentiable. Des expériences sur des tâches de décomposition de tenseurs, de complétion de tenseurs et de compression de modèles démontrent l’efficacité de l’algorithme proposé. En particulier, notre méthode surpasse l’état de l’art basée sur des algorithmes évolutionnaires introduit dans [26] pour la décomposition tensorielle d’images (tout en étant plusieurs ordres de grandeur plus rapide) et trouve des structures efficaces pour compresser les réseaux neuronaux en surpassant les approches populaires basées sur le format TT [30].	fr
dcterms.abstract	Tensor Networks (TN) offer a powerful framework to efficiently represent very high-dimensional objects. TN have recently shown their potential for machine learning applications and offer a unifying view of common tensor decomposition models such as Tucker, tensor train (TT) and tensor ring (TR). However, identifying the best tensor network structure from data for a given task is challenging. In this thesis, we leverage the TN formalism to develop a generic and efficient adaptive algorithm to jointly learn the structure and the parameters of a TN from data. Our method is based on a simple greedy approach starting from a rank one tensor and successively identifying the most promising tensor network edges for small rank increments. Our algorithm can adaptively identify TN structures with small number of parameters that effectively optimize any differentiable objective function. Experiments on tensor decomposition, tensor completion and model compression tasks demonstrate the effectiveness of the proposed algorithm. In particular, our method outperforms the state-of-the- art evolutionary topology search introduced in [26] for tensor decomposition of images (while being orders of magnitude faster) and finds efficient structures to compress neural networks outperforming popular TT based approaches [30].	fr
dcterms.language	eng	fr

Fichier·s constituant ce document

Nom:: Hashemizadehaghda_Seyed_Meraj_ ...
Taille:: 3.650Mo
Format:: PDF
Description:: Mémoire

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [24419]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1182]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.