Show item record

dc.contributor.advisorLemieux, Sébastien
dc.contributor.authorZumer, Jeremie
dc.date.accessioned2024-07-22T12:50:58Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2024-07-22T12:50:58Z
dc.date.issued2024-06-19
dc.date.submitted2023-09
dc.identifier.urihttp://hdl.handle.net/1866/33618
dc.subjectApprentissage profondfr
dc.subjectApprentissage automatiquefr
dc.subjectPeptidefr
dc.subjectProtéomiquefr
dc.subjectDeep learningfr
dc.subjectMachine learningfr
dc.subjectProteomicsfr
dc.subject.otherBioinformatics / Bioinformatique (UMI : 0715)fr
dc.titleDeep learning algorithms for database-driven peptide searchfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelDoctorat / Doctoralfr
etd.degree.namePh. D.fr
dcterms.abstractModern proteomics – the large-scale analysis of proteins (Graves and Haystead, 2002) – relies heavily on the analysis of complex raw experimental, time series-like data. In a typical shotgun mass spectrometry workflow where the goal is to identify proteins in solution, a complex protein mixture is prepared, digested, fractionated for example by mass range, ionized and injected into a mass spectrometer, resulting in a so-called mass spectrum which, in tandem mass spectrometry, achieves obtain amino acid-resolution signals for the detected peptides. The spectrum must be cleaned up to become suitable for further analysis, then the peaks defined by the m/z to intensity values in the spectrum can be matched to some expected peak sequence from a set of candidate peptides (which are often simply in silico digests from the source specie’s proteome), which is the process of peptide identification proper. In this work, we select and solve some current limitations in the computational side of peptide identification research. We first introduce a new, research-oriented search engine. A major question at the boundary of current proteomics research is the integration and viability of new deep learning-driven algorithms for identification. Very little work has been done on this topic so far, with Prosit (Gessulat et al., 2019) being the only such software to see integration in an existing search engine, as far as we are aware (although rescoring algorithms like Percolator (Käll et al., 2007), which typically use more classical machine learning algorithms, have been in routine use for a while by now, they are merely applied as a postprocessing step and not integrated in the engine per se). To investigate this, we develop and present a new deep learning algorithm that performs peptide length prediction from a spectrum (a first, as far as we are aware). We compute metrics based on this prediction that we use during rescoring, and demonstrate consistently improved peptide identifications. Moreover, we propose a new full spectrum prediction algorithm (in line with PredFull (Liu et al., 2020) rather than Prosit) and a novel, random forest-based rescoring algorithm and paradigm, which we integrate within our search engine. Altogether, the deep learning tools we propose show an increase of over 20% in peptide identification rates at a 1% false discovery rate (FDR) threshold. These results provide strong evidence that deep learning-based tools proposed for proteomics can greatly improve peptide identifications.fr
dcterms.abstractLa protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead, 2002) - dépend fortement de l’analyse de données expérimentales de série chronologique complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré, fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des peptides proprement dit. Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques au côté informatique de la recherche sur l’identification des peptides. Nous introduisons d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) , qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème, nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme résultant pour démontrer des identifications de peptides constamment améliorées après intégration dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de 5 spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur que nous proposons démontrent une amélioration de plus de 20% des taux d’identification de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique peuvent en effet largement améliorer les identifications.fr
dcterms.languageengfr
UdeM.ORCIDAuteurThese0000-0002-8991-7223fr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.