Traitement des données scRNA-seq issues de la technologie Drop-Seq : application à l’étude des réseaux transcriptionnels dans le cancer du sein
Thesis or Dissertation
Abstract(s)
Les technologies récentes de séquençage de l’ARN de cellules uniques (scRNA-seq, pour single cell
RNA-seq) ont permis de quantifier le niveau d’expression des gènes au niveau de la cellules, alors que les
technologies standards de séquençage de l’ARN (RNA-seq, ou bulk RNA-seq) ne permettaient de
quantifier que l’expression moyenne des gènes dans un échantillon de cellules. Cette résolution supérieure
a permis des avancées majeures dans le domaine de la recherche biomédicale, mais a également posé de
nouveaux défis, notamment computationnels.
Les données qui découlent des technologies de scRNA-seq sont en effet complexes et plus bruitées
que les données de bulk RNA-seq. En outre, les technologies sont nombreuses et leur nombre explose,
nécessitant chacune un prétraitement plus ou moins différent. De plus en plus de méthodes sont ainsi
développées, mais il n’existe pas encore de norme établie (gold standard) pour le prétraitement et l’analyse
de ces données.
Le laboratoire du Dr. Mader a récemment fait l’acquisition de la technologie Drop-Seq (une
technologie haut débit de scRNA-seq), nécessitant une expertise nouvelle pour le traitement des données
qui en découlent. Dans ce mémoire, différentes étapes du prétraitement des données issues de la
technologie Drop-Seq sont donc passées en revue et le fonctionnement de certains outils dédiés à cet effet
est étudié, permettant d’établir des lignes directrices pour de futures expériences au sein du laboratoire du
Dr. Mader.
Cette étude est menée sur les premiers jeux de données générés avec la technologie Drop-Seq du
laboratoire, issus de lignées cellulaires du cancer du sein. Les méthodes d’analyses, moins spécifiques à
la technologie, ne sont pas étudiées dans ce mémoire, mais une analyse exploratoire des jeux de données
du laboratoire pose les bases pour une analyse plus poussée. Recent single cell RNA sequencing technologies (scRNA-seq) have enabled the quantification of
gene expression levels at the cellular level, while standard RNA sequencing technologies (RNA-seq, or
bulk RNA-seq) have only been able to quantify the average gene expression in a sample of cells. This
higher resolution has allowed major advances in biomedical research, but has also raised new challenges,
in particular computational ones.
The data derived from scRNA-seq technologies are indeed complex and noisier than bulk RNA-seq
data. In addition, the number of scRNA-seq technologies is exploding, each of them requiring a rather
different pre-processing. More and more methods are thus being developed, but there is still no gold
standard for the preprocessing and analysis of these data.
Dr. Mader’s laboratory has recently invested in the Drop-Seq technology (a high-throughput scRNAseq
technology), requiring new expertise for the processing of the resulting data. In this thesis, different
steps for the pre-processing of Drop-Seq data are reviewed and the behavior of some of the dedicated tools
are studied, allowing to establish guidelines for future experiments in Dr. Mader’s laboratory.
This study is conducted on the first data sets generated with the Drop-Seq technology of the
laboratory, derived from breast cancer cell lines. Analytical methods, less specific to the technology, are
not investigated in this thesis, but an exploratory analysis of the lab’s datasets lays the foundation for
further analysis.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.