Génération de données synthétiques pour l'adaptation hors-domaine non-supervisée en réponse aux questions : méthodes basées sur des règles contre réseaux de neurones
dc.contributor.advisor | Langlais, Philippe | |
dc.contributor.author | Duran, Juan Felipe | |
dc.date.accessioned | 2024-04-30T17:47:36Z | |
dc.date.available | NO_RESTRICTION | fr |
dc.date.available | 2024-04-30T17:47:36Z | |
dc.date.issued | 2024-03-27 | |
dc.date.submitted | 2024-02 | |
dc.identifier.uri | http://hdl.handle.net/1866/33039 | |
dc.subject | Intelligence Artificielle | fr |
dc.subject | Adaptation de domaine | fr |
dc.subject | Génération automatique de questions | fr |
dc.subject | Génération automatique de réponses | fr |
dc.subject | Méthodes basées sur des réseaux de neurones | fr |
dc.subject | Méthodes basées sur des règles | fr |
dc.subject | Apprentissage profond | fr |
dc.subject | Apprentissage non supervisé | fr |
dc.subject | Automatic question generation | fr |
dc.subject | Automatic answer generation | fr |
dc.subject | Methods based on neural networks | fr |
dc.subject | Rule-based methods | fr |
dc.subject | Deep learning | fr |
dc.subject | Unsupervised learning | fr |
dc.subject | Domain adaptation | fr |
dc.subject | TALN (Traitement Automatique des Langues Naturelles) | fr |
dc.subject | NLP (Natural Language Processing) | fr |
dc.subject | Artificial intelligence | fr |
dc.subject.other | Artificial intelligence / Intelligence artificielle (UMI : 0800) | fr |
dc.title | Génération de données synthétiques pour l'adaptation hors-domaine non-supervisée en réponse aux questions : méthodes basées sur des règles contre réseaux de neurones | fr |
dc.type | Thèse ou mémoire / Thesis or Dissertation | |
etd.degree.discipline | Informatique | fr |
etd.degree.grantor | Université de Montréal | fr |
etd.degree.level | Maîtrise / Master's | fr |
etd.degree.name | M. Sc. | fr |
dcterms.abstract | Les modèles de réponse aux questions ont montré des résultats impressionnants sur plusieurs ensembles de données et tâches de réponse aux questions. Cependant, lorsqu'ils sont testés sur des ensembles de données hors domaine, la performance diminue. Afin de contourner l'annotation manuelle des données d'entraînement du nouveau domaine, des paires de questions-réponses peuvent être générées synthétiquement à partir de données non annotées. Dans ce travail, nous nous intéressons à la génération de données synthétiques et nous testons différentes méthodes de traitement du langage naturel pour les deux étapes de création d'ensembles de données : génération de questions et génération de réponses. Nous utilisons les ensembles de données générés pour entraîner les modèles UnifiedQA et Bert-QA et nous les testons sur SCIQ, un ensemble de données hors domaine sur la physique, la chimie et la biologie pour la tâche de question-réponse à choix multiples, ainsi que sur HotpotQA, TriviaQA, NatQ et SearchQA, quatre ensembles de données hors domaine pour la tâche de question-réponse. Cette procédure nous permet d'évaluer et de comparer les méthodes basées sur des règles avec les méthodes de réseaux neuronaux. Nous montrons que les méthodes basées sur des règles produisent des résultats supérieurs pour la tâche de question-réponse à choix multiple, mais que les méthodes de réseaux neuronaux produisent généralement des meilleurs résultats pour la tâche de question-réponse. Par contre, nous observons aussi qu'occasionnellement, les méthodes basées sur des règles peuvent compléter les méthodes de réseaux neuronaux et produire des résultats compétitifs lorsqu'on entraîne Bert-QA avec les bases de données synthétiques provenant des deux méthodes. | fr |
dcterms.abstract | Question Answering models have shown impressive results in several question answering datasets and tasks. However, when tested on out-of-domain datasets, the performance decreases. In order to circumvent manually annotating training data from the new domain, question-answer pairs can be generated synthetically from unnanotated data. In this work, we are interested in the generation of synthetic data and we test different Natural Language Processing methods for the two steps of dataset creation: question/answer generation. We use the generated datasets to train QA models UnifiedQA and Bert-QA and we test it on SCIQ, an out-of-domain dataset about physics, chemistry, and biology for MCQA, and on HotpotQA, TriviaQA, NatQ and SearchQA, four out-of-domain datasets for QA. This procedure allows us to evaluate and compare rule-based methods with neural network methods. We show that rule-based methods yield superior results for the multiple-choice question-answering task, but neural network methods generally produce better results for the question-answering task. However, we also observe that occasionally, rule-based methods can complement neural network methods and produce competitive results when training Bert-QA with synthetic databases derived from both methods. | fr |
dcterms.language | fra | fr |
Files in this item
This item appears in the following Collection(s)
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.