Apprentissage automatique pour la détection de relations d'affaire

Capo-Chichi, Grâce Prudencia

dc.contributor.advisor	Nie, Jian-Yun
dc.contributor.author	Capo-Chichi, Grâce Prudencia
dc.date.accessioned	2012-09-24T15:27:38Z
dc.date.available	NO_RESTRICTION	en
dc.date.available	2012-09-24T15:27:38Z
dc.date.issued	2012-09-04
dc.date.submitted	2012-04
dc.identifier.uri	http://hdl.handle.net/1866/8589
dc.subject	Relation d’affaire	en
dc.subject	Business relation	en
dc.subject	Classification supervisée	en
dc.subject	Supervised classification	en
dc.subject	Sélection de caractéristiques	en
dc.subject	Feature selection	en
dc.subject	Unbalanced data	en
dc.subject	Déséquilibre de classes	en
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	en
dc.title	Apprentissage automatique pour la détection de relations d'affaire	en
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	en
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	en
etd.degree.name	M. Sc.	en
dcterms.abstract	Les documents publiés par des entreprises, tels les communiqués de presse, contiennent une foule d’informations sur diverses activités des entreprises. C’est une source précieuse pour des analyses en intelligence d’affaire. Cependant, il est nécessaire de développer des outils pour permettre d’exploiter cette source automatiquement, étant donné son grand volume. Ce mémoire décrit un travail qui s’inscrit dans un volet d’intelligence d’affaire, à savoir la détection de relations d’affaire entre les entreprises décrites dans des communiqués de presse. Dans ce mémoire, nous proposons une approche basée sur la classification. Les méthodes de classifications existantes ne nous permettent pas d’obtenir une performance satisfaisante. Ceci est notamment dû à deux problèmes : la représentation du texte par tous les mots, qui n’aide pas nécessairement à spécifier une relation d’affaire, et le déséquilibre entre les classes. Pour traiter le premier problème, nous proposons une approche de représentation basée sur des mots pivots c’est-à-dire les noms d’entreprises concernées, afin de mieux cerner des mots susceptibles de les décrire. Pour le deuxième problème, nous proposons une classification à deux étapes. Cette méthode s’avère plus appropriée que les méthodes traditionnelles de ré-échantillonnage. Nous avons testé nos approches sur une collection de communiqués de presse dans le domaine automobile. Nos expérimentations montrent que les approches proposées peuvent améliorer la performance de classification. Notamment, la représentation du document basée sur les mots pivots nous permet de mieux centrer sur les mots utiles pour la détection de relations d’affaire. La classification en deux étapes apporte une solution efficace au problème de déséquilibre entre les classes. Ce travail montre que la détection automatique des relations d’affaire est une tâche faisable. Le résultat de cette détection pourrait être utilisé dans une analyse d’intelligence d’affaire.	en
dcterms.abstract	Documents published by companies such as press releases, contain a wealth of information on various business activities. This is a valuable source for business intelligence analysis; but automatic tools are needed to exploit such large volume data. The work described in this thesis is part of a research project on business intelligence, namely we aim at the detection of business relationships between companies described in press releases. In this thesis, we consider business relation detection as a problem of classification. However, the existing classification methods do not allow us to obtain a satisfactory performance. This is mainly due to two problems: the representation of text using all the content words, which do not necessarily a business relationship; and the imbalance between classes. To address the first problem, we propose representations based on words that are between or close to the names of companies involved (which we call pivot words) in order to focus on words having a higher chance to describe a relation. For the second problem, we propose a two-stage classification. This method is more effective than the traditional resampling methods. We tested our approach on a collection of press releases in the automotive industry. Our experiments show that both proposed approaches can improve the classification performance. They perform much better than the traditional feature selection methods and the resampling method. This work shows the feasibility of automatic detection of business relations. The result of this detection could be used in an analysis of business intelligence.	en
dcterms.language	fra	en

Files in this item

Name:: Capo-chichi_Grace_2012_memoire.pdf
Size:: 784.7Kb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [23730]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1153]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.