Empirical study and multi-task learning exploration for neural sequence labeling models

Lu, Peng

dc.contributor.advisor	Langlais, Philippe
dc.contributor.author	Lu, Peng
dc.date.accessioned	2019-11-19T19:13:10Z
dc.date.available	MONTHS_WITHHELD:12	fr
dc.date.available	2019-11-19T19:13:10Z
dc.date.issued	2019-10-30
dc.date.submitted	2019-04
dc.identifier.uri	http://hdl.handle.net/1866/22530
dc.subject	Deep learning	fr
dc.subject	Sequence labeling	fr
dc.subject	Neural network	fr
dc.subject	Apprentissage automatique	fr
dc.subject	Réseaux de neurones	fr
dc.subject	l'étiquetage de séquence	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Empirical study and multi-task learning exploration for neural sequence labeling models	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Sciences de l'information	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Les modèles de réseau de neuronaux ont attiré une attention considérable pour l'étiquetage de séquence. Comparés aux modèles traditionnels, les modèles neuronaux offrent de meilleures performances avec moins ou pas d'ingénierie de traits caractéristiques. Cependant, en raison de la sensibilité du cadre expérimental, il est toujours difficile de reproduire et de comparer l’efficacité de différents modèles dans des conditions identiques. Et même si ces modèles peuvent être appliqués à différentes tâches d’étiquetage de séquence, telles que la reconnaissance d’entités nommées (NER), la segmentation de texte et l'étiquetage morphosyntaxique (POS), les travaux antérieurs ne donnent pas de meilleures performances quand ils sont placés dans un processus d'apprentissage multitâche (MTL) que d'apprendre chaque tâche individuellement. Nous étudions les principaux facteurs d’influence sur la performance des systèmes d’étiquetage de séquences neuronaux en réimplémentant douze modèles d’étiquetage des séquences, qui incluent la plupart de systèmes état de l’art, en effectuant une comparaison systématique sur trois tâches (NER, segmentation de texte et POS). Grâce à la comparaison et à l'analyse empirique, nous obtenons plusieurs conclusions pratiques dans chacune des tâches. Ensuite, nous essayons de construire un système capable d’apprendre trois tâches d'étiquetage séquentiel et d’améliorer la précision de chaque tâche. Nous proposons donc un réseau de mémoire partagée, Shared Cell Long-Short Term Memory network (SC-LSTM), pour l’étiquetage multi-tâche de séquences et comparons notre modèle avec deux modèles partagés d'étiquetage. En détenant un ensemble de paramètres partagés, l'état de la cellule de notre modèle SC-LSTM peut être supervisé à partir de trois tâches, tandis qu’ il comporte un composant indépendant spécifique à la tâche pour apprendre les informations privées de chaque tâche. Les résultats expérimentaux sur trois ensembles de données d'étiquetage de séquence de référence montrent l'efficacité de notre modèle SC-LSTM pour les tâches de NER, de segmentation de texte (text chunking) et l'étiquetage morphosyntaxique (POS tagging).	fr
dcterms.abstract	Neural-based models have attracted considerable attention for automatic sequence labeling. Compared to the traditional models, neural-based models achieve better performance with less or no hand-craft feature engineering. Due to the sensitivity of the experimental setting, it is always hard to reproduce and compare the effectiveness of different models in an identical condition. Moreover, even these models can be applied on different sequence labeling tasks, like Name Entity Recognition (NER), Text Chunking, and Part of Speech tagging (POS), previous works fail to give better performance under a multi-task learning (MTL) setting than when learning each task individually. We study the main factors affecting the performance of neural sequence labeling systems, by re-implementing sequence labeling models based on different neural architectures, which include most of the state-of-the-art methods, and run a systematic model comparison on three benchmarks (NER, Chunking, and POS tagging). Through the empirical comparison and analysis, we get several practical conclusions in such sequence labeling tasks. Then we attempt to build a system that can learn three sequential tagging tasks at the same time improve the accuracy of each task. We propose a Shared Cell Long-Short Term Memory network (SC-LSTM) for multi-task sequence labeling and compare our model with two shared-encoder sequential tagging models. By holding a set of shared parameters, the cell state of our SC-LSTM can get supervision from three tasks, while our SC-LSTM model has independent task-specific components to learn private information of each task. Experimental results on three benchmark sequence labeling datasets demonstrate the effectiveness of our SC-LSTM for NER, text chunking, and POS tagging tasks.	fr
dcterms.language	eng	fr

Files in this item

Name:: Lu_Peng_2019_memoire.pdf
Size:: 1.809Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24323]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1178]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.