Show item record

dc.contributor.advisorAïmeur, Esma
dc.contributor.advisorLanglais, Philippe
dc.contributor.authorBibi, Khalil
dc.date.accessioned2021-01-22T13:24:10Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2021-01-22T13:24:10Z
dc.date.issued2020-06-04
dc.date.submitted2020-03
dc.identifier.urihttp://hdl.handle.net/1866/24308
dc.subjectAuthorship attributionfr
dc.subjectnatural language processingfr
dc.subjectmachine learningfr
dc.subjectdeep learningfr
dc.subjectprivacyfr
dc.subjectDétection de la paternité textuellefr
dc.subjectTraitement automatique des langues naturellesfr
dc.subjectApprentissage machinefr
dc.subjectApprentissage profondfr
dc.subjectVie privéefr
dc.subject.otherApplied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)fr
dc.titlePersonal information prediction from written textsfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractLa détection de la paternité textuelle est un domaine de recherche qui existe depuis les années 1960. Il consiste à prédire l’auteur d’un texte en se basant sur d’autres textes dont les auteurs sont connus. Pour faire cela, plusieurs traits sur le style d’écriture et le contenu sont extraits. Pour ce mémoire, deux sous-problèmes de détection de la paternité textuelle ont été traités : la prédiction du genre et de l’âge de l’auteur. Des données collectées de blogs en ligne ont été utilisées pour faire cela. Dans ce travail, plusieurs traits (features) textuels ont été comparé en utilisant des méthodes d’apprentissage automatique. De même, des méthodes d’apprentissage profond ont été appliqués. Pour la tâche de classification du genre, les meilleurs résultats ont été obtenus en appliquant un système de vote majoritaire sur la prédiction d’autres modèles. Pour la classification d’âge, les meilleurs résultats ont été obtenu en utilisant un classificateur entrainé sur TF-IDF.fr
dcterms.abstractAuthorship Attribution (AA) is a field of research that exists since the 60s. It consists of identifying the author of a certain text based on texts with known authors. This is done by extracting features about the writing style and the content of the text. In this master thesis, two sub problems of AA were treated: gender and age classification using a corpus collected from online blogs. In this work, several features were compared using several feature-based algorithms. As well as deep learning methods. For the gender classification task, the best results are the ones obtained by a majority vote system over the outputs of several classifiers. For the age classification task, the best result was obtained using classifier trained over TFIDF.fr
dcterms.languageengfr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.