Régression logistique bayésienne : comparaison de densités a priori
Thesis or Dissertation
Abstract(s)
La régression logistique est un modèle de régression linéaire généralisée
(GLM) utilisé pour des variables à expliquer binaires. Le modèle cherche à
estimer la probabilité de succès de cette variable par la linéarisation de variables
explicatives. Lorsque l’objectif est d’estimer le plus précisément l’impact
de différents incitatifs d’une campagne marketing (coefficients de la régression
logistique), l’identification de la méthode d’estimation la plus précise
est recherchée. Nous comparons, avec la méthode MCMC d’échantillonnage
par tranche, différentes densités a priori spécifiées selon différents types de
densités, paramètres de centralité et paramètres d’échelle. Ces comparaisons
sont appliquées sur des échantillons de différentes tailles et générées par différentes
probabilités de succès. L’estimateur du maximum de vraisemblance, la
méthode de Gelman et celle de Genkin viennent compléter le comparatif. Nos
résultats démontrent que trois méthodes d’estimations obtiennent des estimations
qui sont globalement plus précises pour les coefficients de la régression
logistique : la méthode MCMC d’échantillonnage par tranche avec une densité
a priori normale centrée en 0 de variance 3,125, la méthode MCMC d’échantillonnage
par tranche avec une densité Student à 3 degrés de liberté aussi centrée
en 0 de variance 3,125 ainsi que la méthode de Gelman avec une densité
Cauchy centrée en 0 de paramètre d’échelle 2,5. Logistic regression is a model of generalized linear regression (GLM) used
to explain binary variables. The model seeks to estimate the probability of success
of this variable by the linearization of explanatory variables. When the
goal is to estimate more accurately the impact of various incentives from a
marketing campaign (coefficients of the logistic regression), the identification
of the choice of the optimum prior density is sought. In our simulations, using
the MCMC method of slice sampling, we compare different prior densities specified
by different types of density, location and scale parameters. These comparisons
are applied to samples of different sizes generated with different probabilities
of success. The maximum likelihood estimate, Gelman’s method and
Genkin’s method complement the comparative. Our simulations demonstrate
that the MCMC method with a normal prior density centered at 0 with variance
of 3,125, the MCMC method with a Student prior density with 3 degrees
of freedom centered at 0 with variance of 3,125 and Gelman’s method with a
Cauchy density centered at 0 with scale parameter of 2,5 get estimates that are
globally the most accurate of the coefficients of the logistic regression.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.