Show item record

dc.contributor.advisorPerreault, Claude
dc.contributor.advisorLemieux, Sébastien
dc.contributor.authorTrofimov, Assya
dc.date.accessioned2018-06-08T14:24:41Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2018-06-08T14:24:41Z
dc.date.issued2018-03-12
dc.date.submitted2017-08
dc.identifier.urihttp://hdl.handle.net/1866/20417
dc.subjectApprentissage machinefr
dc.subjectRéduction de dimensionnalitéfr
dc.subjectTranscriptomefr
dc.subjectRNA-Seqfr
dc.subjectMachine learningfr
dc.subjectArtificial neural networksfr
dc.subjectDimensionnality reductionfr
dc.subject.otherBiology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)fr
dc.titleÉtude des signatures géniques dans un contexte d’expériences de RNA- Seqfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineBio-informatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractLe principal intérêt des expériences de séquençage d’ARN (RNA-Seq) est qu’elles consti- tuent une vue d’ensemble sur les procédés géniques intrinsèques de la cellule. L’état malade différe de l’état sain de par son usage génique et de nombreux efforts ont été canalisés dans les dernières années en bioinformatique, pour affiner ces signatures gé- niques, notamment dans la classification de leucémies et le typage de cancers du sein. Tous ces modèles voient, cependant, leur performance détériorée par un grand nombre de dimensions d’entrée et la plupart des auteurs choisissent d’imposer un seuil d’exclusion de gènes. J’ai voulu déterminer la nature d’une signature génique et sa taille optimale, en nombre de gènes. Pour déterminer la taille d’une signature génique j’ai appliqué des algorithmes de co-partitionnements à un sous-ensemble de données transcriptomiques afin d’en extraire la signature génique. Mes résultats indiquent que la signature génique ne peut être extraite en entier et l’utilisation de seuils d’exclusions de gènes est le prin- cipal problème. J’ai exploré une méthode d’extraction de la signature génique avec un réseau de neurones artificiels (ANN) en calculant le plus petit ajustement en expression génique nécessaire pour passer d’un phénotype à un autre. La signature génique extraite indique que presque la totalité des gènes sont affectés pour un phénotype donné. Consé- quemment, il est inapproprié de considérer des méthodes avec seuil d’exclusion de gènes et je propose que les signatures géniques sont des phénomènes omnigéniques. Afin de pallier à l’inconvénient dû à la nécessité d’inclure tous les gènes dans l’analyse, j’ai élaboré une méthode d’apprentissage machine par ANN qui gère simultanément deux espaces : l’espace des gènes et l’espace des échantillons. Les coordonnées des gènes et des échantillons dans leur espaces respectifs sont arrangés de manière à ce qu’ils pré- disent l’expression génique. Ma contribution est donc un modèle qui apprend de manière simultanée les interactions entre les gènes et les interactions entre les échantillons. Ma méthode permet également d’inclure dans l’analyse de jeux de données partiellement manquantes, faisant le lien vers l’intégration de données et l’analyses d’échantillons de séquençage de cellule unique (scRNA-Seq).fr
dcterms.abstractThe main appeal of RNA sequencing experiments is that they offer a general view of all cell’s intrinsic genetic processes. Diseased state differs from healthy by it’s gene usage and many efforts have been channeled in bioinformatics these last few years to purify these gene signatures, in particular in the classification of leukemia and breast cancer subtyping. However, these models see their performance hindered by a large size of input dimensions and most authors chose to impose a threshold of gene exclusion. I wanted to determine what is a gene signature and how many genes it truly contains. To determine it’s size, I applied co-clustering algorithms to a subset of transcriptomic data, to extract it’s gene signature. My results indicate that the gene signature cannot be extracted entirely and the use of exclusion thresholds is the main problem. I then explored a gene signature extraction method using an artificial neural net (ANN), by calculating the smallest adjustment in gene expression necessary to go from one phe- notypic class to another. The extracted gene signature indicated that almost all genes are affected for the given phenotype. Consequently, it seems inappropriate to consider threshold-based methods and I, therefore, propose that gene signatures are omnigenic phenomena. To level the disadvantage of having to include all genes in gene expres- sion analyses, I designed a ANN method that simultaneously manages two spaces: the gene and the sample space. The coordinates for genes and samples in their respective space are arranged to predict the gene expression. My contribution is a model that learns simultaneously about genes and samples. My method allows the analysis of datasets with missing data, making the integration of heterogenous data integration as well as the analysis of single-cell RNA-Seq experiments.fr
dcterms.languagefrafr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.