Détection de tableaux dans des documents : une étude de TableBank
Thèse ou mémoire
2023-04 (octroi du grade: 2014-01-31)
Auteur·e·s
Directeur·trice·s de recherche
Cycle d'études
MaîtriseProgramme
InformatiqueRésumé·s
L’extraction d’information dans des documents est une nécessité, particulièrement dans
notre ère actuelle où il est commun d’employer un téléphone portable pour photographier
des documents ou des factures. On trouve aussi une utilisation répandue de documents
PDF qui nécessite de traiter une imposante quantité de documents digitaux. Par leur
nature, les données des documents PDF sont complexes à extraire, nécessitant d’être
analysés comme des images. Dans cette recherche, on se concentre sur une information
particulière à prélever: des tableaux. En effet, les tableaux retrouvés dans les docu-
ments représentent une entité significative, car ils contiennent des informations décisives.
L’utilisation de modèles neuronaux pour performer des extractions automatiques permet
considérablement d’économiser du temps et des efforts.
Dans ce mémoire, on définit les métriques, les modèles et les ensembles de données
utilisés pour la tâche de détection de tableaux. On se concentre notamment sur l’étude
des ensembles de données TableBank et PubLayNet, en soulignant les problèmes d’an-
notations présents dans l’ensemble TableBank. On relève que différentes combinaisons
d’ensembles d’entraînement avec TableBank et PubLayNet semblent améliorer les perfor-
mances du modèle Faster R-CNN, ainsi que des méthodes d’augmentations de données.
On compare aussi le modèle de Faster R-CNN avec le modèle CascadeTabNet pour la
détection de tableaux où ce premier demeure supérieur.
D’autre part, on soulève un enjeu qui est peu discuté dans la tâche de détection
d’objets, soit qu’il existe une trop grande quantité de métriques. Cette problématique
rend la comparaison de modèles ardue. On génère ainsi les résultats de modèles selon
plusieurs métriques afin de démontrer qu’elles conduisent généralement vers différents
modèles gagnants, soit le modèle ayant les meilleures performances. On recommande
aussi les métriques les plus pertinentes à observer pour la détection de tableaux, c’est-à-
dire APmedium/APmedium, Pascal AP85 ou COCO AP85 et la métrique de TableBank. Extracting information from documents is a necessity, especially in today’s age where
it is common to use a cell phone to photograph documents or invoices. There is also
the widespread use of PDF documents that requires processing a large amount of digital
documents. Due to their nature, the data in PDF documents are complex to retrieve,
needing to be analyzed as images. In this research, we focus on a particular information to
be extracted: tables. Indeed, the tables found in documents represent a significant entity,
as they contain decisive information. The use of neural networks to perform automatic
retrieval saves time and effort.
In this research, the metrics, models and datasets used for the table detection task are
defined. In particular, we focus on the study of the TableBank and PubLayNet datasets,
highlighting the problems of annotations present in the TableBank set. We point out that
different combinations of training sets using TableBank and PubLayNet appear to improve
the performance of the Faster R-CNN model, as well as data augmentation methods. We
also compare the Faster R-CNN model with the CascadeTabNet model for table detection
where the former remains superior.
In addition, we raise an issue that is not often discussed in the object detection task,
namely that there are too many metrics. This problem makes model comparison difficult.
We therefore generate results from models with several metrics in order to demonstrate
the influence of these metrics in defining the best performing model. We also recommend
the most relevant metrics to observe for table detection, APmedium/APmedium, Pascal
AP85 or COCO AP85 and the TableBank metric.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.