Sélection automatisée d'informations crédibles sur la santé en ligne
Thesis or Dissertation
2024-01 (degree granted: 2024-03-28)
Author(s)
Advisor(s)
Level
Master'sDiscipline
Sciences cliniquesAbstract(s)
Introduction : Le contenu en ligne est une source significative et primordiale pour les utilisateurs à la recherche d'informations liées à la santé. Pour éviter la désinformation, il est crucial d'automatiser l'évaluation de la fiabilité des sources et de vérification de la véracité des informations.
Objectif : Cette étude visait à d’automatiser l'identification de la qualité des sources de santé en ligne. Pour cela, deux éléments complémentaires de qualité ont été automatisés : (1) L'évaluation de la fiabilité des sources d’information liée à la santé, en tenant compte des critères de la HONcode, et (2) L’appréciation de la véracité des informations, avec la base de données PubMed comme source de vérité.
Méthodes : Dans cette étude, nous avons analysé 538 pages Web en englais provenant de 43 sites Web. Dans la première phase d’évaluation de la fiabilité des sources, nous avons classé les critères HONcode en deux niveaux : le "niveau pages Web" (autorité, complémentarité, justifiabilité, et attribution) et le "niveau sites Web" (confidentialité, transparence, divulgation financière et politique publicitaire). Pour le niveau pages Web, nous avons annoté 200 pages manuellement et appliqué trois modèles d’apprentissage machine (ML) : Forêt aléatoire (RF), machines à vecteurs de support (SVM) et le transformateur BERT. Pour le niveau sites Web, nous avons identifié des sacs de mots et utilisé un modèle basé sur des règles. Dans la deuxième phase de l’appréciation de la véracité des informations, les contenus des pages Web ont été catégorisées en trois catégories de contenu (séméiologie, épidémiologie et gestion) avec BERT. Enfin, l’automatisation de l’extraction des requêtes PubMed basée sur les termes MeSH a permis d’extraire et de comparer automatiquement les 20 articles les plus pertinents avec le contenu des pages Web.
Résultats : Pour le niveau page Web, le modèle BERT a obtenu une meilleure aire sous la courbe (AUC) de 96 %, 98 % et 100 % pour les phrases neutres, la justifiabilité et l'attribution respectivement. SVM a présenté une meilleure performance pour la classification de la complémentarité (AUC de 98 %). Enfin, SVM et BERT ont obtenu une AUC de 98 % pour le critère d'autorité. Pour le niveau sites Web, le modèle basé sur des règles a récupéré les pages Web avec une précision de 97 % pour la confidentialité, 82 % pour la transparence, 51 % pour la divulgation financière et la politique publicitaire. Finalement, pour l’appréciation de la véracité des informations, en moyenne, 23 % des phrases ont été automatiquement vérifiées par le modèle pour chaque page Web.
Conclusion : Cette étude souligne l'importance des modèles transformateurs et l'emploi de PubMed comme référence essentielle pour accomplir les deux tâches cruciales dans l'identification de sources d'information fiables en ligne : l’évaluation de la fiabilité des sources et vérifier la véracité des contenus. Finalement, notre recherche pourrait servir à améliorer le développement d’une approche d’évaluation automatique de la crédibilité des sites Web sur la santé. Introduction: Online content is a significant and primary source for many users seeking healthrelated information. To prevent misinformation, it's crucial to automate the assessment of
reliability of sources and fact-checking of information.
Objective: This study aimed to automate the identification of the credibility of online information
sources. For this, two complementary quality elements were automated: (1) The reliability
assessment of health-related information, considering the HONcode criteria, and (2) The factchecking of the information, using PubMed articles as a source of truth.
Methods: In this study, we analyzed 538 English webpages from 43 websites. In the first phase of
credibility assessment of the information, we classified the HONcode criteria into two levels: the
“web page level” (authority, complementarity, justifiability, and attribution) and the “website
level” (confidentiality, transparency, financial disclosure, and advertising policy). For the web
page level, we manually annotated 200 pages and applied three machine learning (ML) models:
Random Forest (RF), Support Vector Machines (SVM) and the BERT Transformer. For those at
website level criteria, we identified the bags of words and used a rule-based model. In a second
phase of fact-checking, the contents of the web pages were categorized into three themes
(semiology, epidemiology, and management) with BERT. Finally, for automating the factchecking of information, the automation of PubMed queries extraction using MeSH terms made it
possible to automatically extract and compare the 20 most relevant articles with the content of the
web pages.
Results: For the web page level the BERT model obtained the best area under the curve (AUC) of
96%, 98% and 100% for neutral sentences, justifiability and attribution respectively. SVM showed
a better performance for complementarity classification (AUC of 98%). Finally, SVM and BERT
obtained an AUC of 98% for the authority criterion. For the websites level, the rules-based model
retrieved web pages with an accuracy of 97% for privacy, 82% for transparency, 51% for financial
disclosure and advertising policy. Finally, for fact-checking, on average, 23% of sentences were
automatically checked by the model for each web page.
Conclusion: This study emphasized the significance of Transformers and leveraging PubMed as
a key reference for two critical tasks: assessing source reliability and verifying information
accuracy. Ultimately, our research stands poised to significantly advance the creation of an
automated system for evaluating the credibility of health websites.
Collections
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.