Show item record

dc.contributor.advisorNie, Jian-Yun
dc.contributor.authorCapo-Chichi, Grâce Prudencia
dc.date.accessioned2012-09-24T15:27:38Z
dc.date.availableNO_RESTRICTIONen
dc.date.available2012-09-24T15:27:38Z
dc.date.issued2012-09-04
dc.date.submitted2012-04
dc.identifier.urihttp://hdl.handle.net/1866/8589
dc.subjectRelation d’affaireen
dc.subjectBusiness relationen
dc.subjectClassification superviséeen
dc.subjectSupervised classificationen
dc.subjectSélection de caractéristiquesen
dc.subjectFeature selectionen
dc.subjectUnbalanced dataen
dc.subjectDéséquilibre de classesen
dc.subject.otherApplied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)en
dc.titleApprentissage automatique pour la détection de relations d'affaireen
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiqueen
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sen
etd.degree.nameM. Sc.en
dcterms.abstractLes documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire.en
dcterms.abstractDocuments published by companies such as press releases, contain a wealth of information on various business activities. This is a valuable source for business intelligence analysis; but automatic tools are needed to exploit such large volume data. The work described in this thesis is part of a research project on business intelligence, namely we aim at the detection of business relationships between companies described in press releases. In this thesis, we consider business relation detection as a problem of classification. However, the existing classification methods do not allow us to obtain a satisfactory performance. This is mainly due to two problems: the representation of text using all the content words, which do not necessarily a business relationship; and the imbalance between classes. To address the first problem, we propose representations based on words that are between or close to the names of companies involved (which we call pivot words) in order to focus on words having a higher chance to describe a relation. For the second problem, we propose a two-stage classification. This method is more effective than the traditional resampling methods. We tested our approach on a collection of press releases in the automotive industry. Our experiments show that both proposed approaches can improve the classification performance. They perform much better than the traditional feature selection methods and the resampling method. This work shows the feasibility of automatic detection of business relations. The result of this detection could be used in an analysis of business intelligence.en
dcterms.languagefraen


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.