Résumé·s
La classification et le regroupement des données fonctionnelles longitudinales ont fait
beaucoup de progrès dans les dernières années. Plusieurs méthodes ont été proposées et
ont démontré des résultats prometteurs. Pour ce mémoire, on a comparé le comportement
des algorithmes de partitionnement sur un ensemble de données décrivant les trajectoires
de voitures dans une intersection de Montréal. La motivation est qu’il est coûteux et long
de faire la classification manuellement et on démontre dans cet ouvrage qu’il est possible
d’obtenir des prédictions adéquates avec les différents algorithmes.
Parmi les méthodes utilisées, la méthode distclust utilise l’approche des K-moyennes avec
une notion de distance entre les courbes fonctionnelles. On utilise aussi une classification
par mélange de densité gaussienne, mclust. Ces deux approches n’étant pas conçues uniquement pour le problème de classification fonctionnelle, on a donc également appliqué des
méthodes fonctionnelles spécifiques au problème : fitfclust, funmbclust, funclust et funHDDC.
On démontre que les résultats du partitionnement et de la prédiction obtenus par ces
approches sont comparables à ceux obtenus par ceux basés sur la distance. Les méthodes
fonctionnelles sont préférables, car elles permettent d’utiliser des critères de sélection objectifs
comme le AIC et le BIC. On peut donc éviter d’utiliser une partition préétablie pour valider
la qualité des algorithmes, et ainsi laisser les données parler d’elles-mêmes. Finalement, on
obtient des estimations détaillées de la structure fonctionnelle des courbes, comme sur l’impact de la réduction de données avec une analyse en composantes principales fonctionnelles
multivariées.
The study of the clustering of functional data has made a lot of progress in the last couple of years. Multiple methods have been proposed and the respective analysis has shown their eÿciency with some benchmark studies. The objective of this Master’s thesis is to compare those clustering algorithms with datasets from traÿc at an intersection of Montreal. The idea behind this is that the manual classification of these data sets is time-consuming. We show that it is possible to obtain adequate clustering and prediction results with several algorithms.
One of the methods that we discussed is distclust : a distance-based algorithm that uses a K-means approach. We will also use a Gaussian mixture density clustering method known as mclust. Although those two techniques are quite e˙ective, they are multi-purpose clustering methods, therefore not tailored to the functional case. With that in mind, we apply four functional clustering methods : fitfclust, funmbclust, funclust, and funHDDC.
Our results show that there is no loss in the quality of the clustering between the afore-mentioned functional methods and the multi-purpose ones. We prefer to use the functional ones because they provide a detailed estimation of the functional structure of the trajectory curves. One notable detail is the impact of a dimension reduction done with multivari-ate functional principal components analysis. Furthermore, we can use objective selection criteria such as the AIC and the BIC, and avoid using cluster quality indices that use a pre-existing classification of the data.