Using Ancillary Text to Index Web-based Multimedia Objects

Da Sylva, Lyne; Turner, James

dc.contributor.author	Da Sylva, Lyne
dc.contributor.author	Turner, James
dc.date.accessioned	2013-05-28T19:34:15Z
dc.date.available	2013-05-28T19:34:15Z
dc.date.issued	2006-06
dc.identifier.uri	http://hdl.handle.net/1866/9618
dc.description.sponsorship	Réseau de recherche pour la gestion du contenu culturel numérique. (Responsable du réseau: Djemel Ziou, Université de Sherbrooke) (CoRIMedia). Subvention du Fonds des réseaux de recherche sur les nouveaux médias (Ministère du Patrimoine canadien)	fr
dc.subject	indexation automatique	fr
dc.subject	contenu culturel canadien sur le Web	fr
dc.subject	péritexte	fr
dc.subject	indexation automatique d'éléments non textuels	fr
dc.title	Using Ancillary Text to Index Web-based Multimedia Objects	fr
dc.type	Article	fr
dc.contributor.affiliation	Université de Montréal. Faculté des arts et des sciences. École de bibliothéconomie et des sciences de l'information	fr
dcterms.abstract	PériCulture est le nom d'un projet de recherche à l'Université de Montréal qui fait partie d'un projet plus vaste basé à l'Université de Sherbrooke. Ce dernier visait à former un réseau de recherche pour la gestion du contenu culturel numérique canadien. L'objectif général de la recherche de PériCulture était d'étudier les méthodes d'indexation de contenus culturels non textuels sur le Web, plus spécifiquement des images. Les résultats de la recherche présentés ici s'appuient sur des travaux précédents en indexation d'images et en indexation automatique (de texte), par l'étude des propriétés du texte associé à des images dans un environnement réseau. Le but était de comprendre la façon dont le texte associé à des images sur des pages Web (appelé péritexte) peut être exploité pour indexer les images correspondantes. Nous avons étudié cette question dans le contexte de pages Web sélectionnées, c'est à dire : des pages de contenu culturel canadien contenant des objets multimédia auxquels était associé du texte (plus que simplement les noms de fichiers et les légendes) et qui étaient bilingues (anglais et français). Nous avons identifié les mots-clés utiles à l'indexation situés à proximité de l'objet décrit. Les termes d'indexation potentiels ont été identifiés dans diverses balises HTML et dans le texte intégral (chacun étant considéré comme une source différente de péritexte). Notre étude a révélé qu'un grand nombre de termes d'indexation utiles sont disponibles dans le péritexte de nombreux sites Web ayant un contenu culturel, et ce péritexte de différentes sources a une utilité variable dans la recherche d’information. Nos résultats suggèrent que ces termes peuvent être exploités de différentes manières dans les systèmes de recherche d’information pour améliorer les résultats de recherche.	fr
dcterms.language	eng	fr
UdeM.VersionRioxx	Version acceptée / Accepted Manuscript
oaire.citationTitle	Literary and linguistic computing
oaire.citationVolume	21
oaire.citationIssue	2
oaire.citationStartPage	219
oaire.citationEndPage	228

Fichier·s constituant ce document

Nom:: DaSylvaTurner-postprint.pdf
Taille:: 58.57Ko
Format:: PDF
Description:: PDF d'une prépublication produite par les auteurs de l'article publié dans la revue Literary and Linguistic Computing après une évaluation par les pairs

Ce document figure dans la ou les collections suivantes

Faculté des arts et des sciences – École de bibliothéconomie et des sciences de l'information - Travaux et publications [232]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.