Enhancing factuality and coverage in summarization via referencing key extracted content
Thesis or Dissertation
Abstract(s)
Les résumés abstraits de dialogues permettent aux gens de comprendre rapidement les
aspects clés des conversations dont la synthèse nécessiterait autrement des efforts considérables.
Malgré les progrès considérables réalisés par les grands modèles de langage
(LLM), même les modèles les plus puissants souffrent encore d’hallucinations lorsqu’ils
génèrent des résumés abstraits et ne parviennent pas à couvrir des aspects importants
du contenu sous-jacent. En outre, la vérification humaine de la factualité d’un résumé
abstrait peut nécessiter un effort considérable. L’un des moyens de minimiser la charge
cognitive liée à la vérification de la qualité d’un résumé consiste à faire en sorte que
le résumé cite des phrases dans le contenu original. Cependant, il est rare que les ensembles
de données de résumés abstraits citent des passages de texte du contenu original.
Même les meilleurs LLM ont du mal à effectuer un résumé basé sur des citations.
Pour résoudre ce problème, nous créons l’ensemble de données Tweetsumm++,
composé de résumés abstraits soutenus par des citations de dialogues entre clients et
entreprises sur Twitter. Nous examinons également une méthode d’entraînement et de
formulation de problèmes multitâches qui apprend à effectuer conjointement un résumé
extractif et un résumé abstractif faisant référence au contenu extrait. Dans notre configuration,
le modèle est également chargé d’étiqueter les phrases clés dans des catégories
telles que ISSUE, RESOLUTION,WORKAROUND et autres, qui représentent les principaux
éléments clés d’un dialogue. Nous explorons l’impact de la mise au point d’un
LLM Mixtral open-source pour effectuer un résumé abstractif basé sur des citations et
une catégorisation des phrases clés. En outre, étant donné que l’acquisition d’étiquettes
pour un tel ensemble de données est coûteuse, nous explorons une nouvelle méthode
d’auto-étiquetage basée sur le feedback de l’IA qui bénéficie du format de résumé basé
sur les citations et peut améliorer les modèles en ce qui concerne la qualité des citations. Abstractive summaries of dialogues allow people to quickly understand key aspects
of conversations that might otherwise take considerable effort to synthesize. Despite the
tremendous progress made by large language models (LLMs), even the most powerful
models still suffer from hallucinations when generating abstractive summaries and fail
to cover important aspects of the underlying content. Furthermore, human verification
of the factuality of an abstractive summary can entail significant effort. One way to
minimize the cognitive load of quality checking an abstractive summary is to have the
summary cite sentences within the original content. However, it is uncommon for abstractive
summarization datasets to cite passages of text from the original content. Even
the best LLMs struggle to perform citation-backed summarization. To address this issue,
we create the Tweetsumm++ dataset composed of citation-backed abstractive summaries
of dialogues between customers and companies on Twitter. We also examine a multi-task
problem formulation and training method that learns to jointly perform extractive, and
abstractive summarization which reference the extracted content. In our setup, the model
is also tasked with tagging key sentences into categories such as ISSUE, RESOLUTION,
WORKAROUND, and others that represent the main key elements of a dialogue. We explore
the impact of fine-tuning an open-source Mixtral LLM to perform citation-backed
abstractive summarization and key sentence categorization. Further, since acquiring labels
for such a dataset is costly, we explore a novel self-labeling method based on AI
feedback that benefits from the citation-based summarization format and can improve
models with respect to citation quality.
Related research dataset(s)
https://huggingface.co/datasets/gebelangsn/tweetsumpp/This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.