Génération de données : de l’anonymisation à la construction de populations synthétiques

Jutras-Dubé, Pascal

dc.contributor.advisor	Bastin, Fabian
dc.contributor.advisor	Morales, Manuel
dc.contributor.author	Jutras-Dubé, Pascal
dc.date.accessioned	2023-05-15T15:18:52Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2023-05-15T15:18:52Z
dc.date.issued	2023-02-22
dc.date.submitted	2022-11
dc.identifier.uri	http://hdl.handle.net/1866/27945
dc.subject	Génération de données	fr
dc.subject	Copules	fr
dc.subject	Synthèse de population	fr
dc.subject	Confidentialité	fr
dc.subject	Data Generation	fr
dc.subject	Copulas	fr
dc.subject	Population Synthesis	fr
dc.subject	Privacy	fr
dc.subject.other	Transportation / Transport (UMI : 0709)	fr
dc.title	Génération de données : de l’anonymisation à la construction de populations synthétiques	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Les coûts élevés de collecte de données ne rendent souvent possible que l’échantillonnage d’un sous-ensemble de la population d’intérêt. Il arrive également que les données collectées renferment des renseignements personnels et sensibles au sujet des individus qui y figurent de sorte qu’elles sont protégées par des lois ou des pratiques strictes de sécurité et gouvernance de données. Dans les deux cas, l’accès aux données est restreint. Nos travaux considèrent deux angles de recheche sous lesquels on peut se servir de la génération de données fictives pour concevoir des modèles d’analyse où les données véritables sont inaccessibles. Sous le premier angle, la génératon de données fictives se substitue aux données du recensement. Elle prend la forme d’une synthèse de population constituée d’individus décrits par leurs attributs aux niveaux individuel et du ménage. Nous proposons les copules comme nouvelle approche pour modéliser une population d’intérêt dont seules les distributions marginales sont connues lorsque nous possédons un échantillon d’une autre population qui partage des caractéristiques de dépendances interdimensionnelles similaires. Nous comparons les copules à l’ajustement proportionnel itératif, technologie répandue dans le domaine de la synthèse de population, mais aussi aux approches d’apprentissage automatique modernes comme les réseaux bayésiens, les auto-encodeurs variationnels et les réseaux antagonistes génératifs lorsque la tâche consiste à générer des populations du Maryland dont les données sont issues du recensement américain. Nos expériences montrent que les copules surpassent l’ajustement proportionnel itératif à modéliser les relations interdimensionnelles et que les distributions marginales des données qu’elles génèrent correspondent mieux à celles de la population d’intèrêt que celles des données générées par les méthodes d’apprentissage automatique. Le second angle considère la génération de données qui préservent la confidentialité. Comme la désensibilisation des données est en relation inverse avec son utilité, nous étudions en quelles mesures le k-anonymat et la modélisation générative fournissent des données utiles relativement aux données sensibles qu’elles remplacent. Nous constatons qu’il est effectivement possible d’employer ces définitions de confidentialité pour publier des données utiles, mais la question de comparer leurs garanties de confidentialité demeure ouverte.	fr
dcterms.abstract	The high costs of data collection can restrict sampling so that only a subset of the data is available. The data collected may also contain personal and sensitive information such that it is protected by laws or strict data security and governance practices. In both cases, access to the data is restricted. Our work considers two research angles under which one can use the generation of synthetic data to design analysis models where the real data is inaccessible. In the first project, a synthetically generated population made up of individuals described by their attributes at the individual and household levels replaces census data. We propose copulas as a new approach to model a population of interest whose only marginal distributions are known when we have a sample from another population that shares similar interdimensional dependencies. We compare copulas to iterative proportional fitting, a technology developed in the field of population synthesis, but also to modern machine learning approaches such as Bayesian networks, variational autoencoders, and generative adversarial networks when the task is to generate populations of Maryland. Our experiments demonstrated that the copulas outperform iterative proportional fitting in modeling interdimensional relationships and that the marginal distributions of the data they generated match those of the population of interest better than those of the data generated by the machine learning methods. The second project consists of generating data that preserves privacy. As data privacy is inversely related to its usefulness, we study to what extent k-anonymity and generative modeling provide useful data relative to the sensitive data they replace. We find that it is indeed possible to use these privacy definitions to publish useful data, but the question of comparing their privacy guarantees remains open.	fr
dcterms.language	fra	fr

Files in this item

Name:: Jutras_Dube_Pascal_2022_memoire.pdf
Size:: 1.516Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24340]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1178]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.