Personal information prediction from written texts

Bibi, Khalil

dc.contributor.advisor	Aïmeur, Esma
dc.contributor.advisor	Langlais, Philippe
dc.contributor.author	Bibi, Khalil
dc.date.accessioned	2021-01-22T13:24:10Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2021-01-22T13:24:10Z
dc.date.issued	2020-06-04
dc.date.submitted	2020-03
dc.identifier.uri	http://hdl.handle.net/1866/24308
dc.subject	Authorship attribution	fr
dc.subject	natural language processing	fr
dc.subject	machine learning	fr
dc.subject	deep learning	fr
dc.subject	privacy	fr
dc.subject	Détection de la paternité textuelle	fr
dc.subject	Traitement automatique des langues naturelles	fr
dc.subject	Apprentissage machine	fr
dc.subject	Apprentissage profond	fr
dc.subject	Vie privée	fr
dc.subject.other	Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)	fr
dc.title	Personal information prediction from written texts	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	La détection de la paternité textuelle est un domaine de recherche qui existe depuis les années 1960. Il consiste à prédire l’auteur d’un texte en se basant sur d’autres textes dont les auteurs sont connus. Pour faire cela, plusieurs traits sur le style d’écriture et le contenu sont extraits. Pour ce mémoire, deux sous-problèmes de détection de la paternité textuelle ont été traités : la prédiction du genre et de l’âge de l’auteur. Des données collectées de blogs en ligne ont été utilisées pour faire cela. Dans ce travail, plusieurs traits (features) textuels ont été comparé en utilisant des méthodes d’apprentissage automatique. De même, des méthodes d’apprentissage profond ont été appliqués. Pour la tâche de classification du genre, les meilleurs résultats ont été obtenus en appliquant un système de vote majoritaire sur la prédiction d’autres modèles. Pour la classification d’âge, les meilleurs résultats ont été obtenu en utilisant un classificateur entrainé sur TF-IDF.	fr
dcterms.abstract	Authorship Attribution (AA) is a field of research that exists since the 60s. It consists of identifying the author of a certain text based on texts with known authors. This is done by extracting features about the writing style and the content of the text. In this master thesis, two sub problems of AA were treated: gender and age classification using a corpus collected from online blogs. In this work, several features were compared using several feature-based algorithms. As well as deep learning methods. For the gender classification task, the best results are the ones obtained by a majority vote system over the outputs of several classifiers. For the age classification task, the best result was obtained using classifier trained over TFIDF.	fr
dcterms.language	eng	fr

Fichier·s constituant ce document

Nom:: Bibi_Khalil_2020_memoire.pdf
Taille:: 1.098Mo
Format:: PDF
Description:: Mémoire

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [24493]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1189]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.