V. Analyse multivariée

Définition : on parle d’analyse multivariée lorsqu’on prend en compte d’autres facteurs pour étudier l’association entre une variable à expliquer et une variable explicative, qui sera ajustée (et non pas brute).

A. Modèle de régression

  • Définition : modèle statistique qui permet d’estimer ou de prédire l’association entre une ou plusieurs variables explicatives sur une variable dite à expliquer.
  • Anglais : regression model
  • Ex : l’association entre l’âge, le sexe et le niveau d’éducation et la prévalence d’une maladie.

 

On distingue différentes catégories :

  • En fonction de la nature de la variable expliquée :
    • Quantitative : régression linéaire
    • Qualitative : régression logistique
    • Censurée : modèle de Cox
  • En fonction du nombre de variables :
    • Simple/univariée : 1 seule variable explicative
    • Multiple/multivariée : > 1 variable explicative

 

Il est important de définir ce qu’est un modèle :

  • Définition : représentation simplifiée d’un phénomène ou d’un processus dans un but explicatif ou descriptif.
  • Synonyme : régression

B. Régression linéaire

  • Définition : modèle de régression qui permet d’étudier la liaison entre des variables quantitatives (1 variable expliquée par rapport à ≤ 1 variables explicatives) dans lequel on fait l’hypothèse que la fonction qui relie ces variables est linéaire (aX +b).
  • Anglais : linear regression, linear model
  • Synonyme : modèle linéaire

1. Simple

Dans le cadre d’un modèle de régression linéaire simple (1 seule variable explicative), on peut représenter graphiquement la droite de régression à partir du nuage de points (appelée aussi « droite des moindres carrés »).

droite regression

 

En gros, on essaie d’obtenir une droite qui résume au mieux l’ensemble des points.

On veut que la somme de la différence entre la valeur observée et la valeur prédite par la droite soit la plus petite possible.

Droite de régression linéaire

Cette différence pouvant être < 0 ou > 0, en fonction si la valeur observée est supérieure à la valeur prédite, on va mettre cette différence au carré pour supprimer un potentiel signe négatif.

C’est pourquoi on l’appelle « la droite des moindres carrés » : c’est la droite qui va permettre d’obtenir des différences au carré les plus petites.

Cette droite sera définie par fonction : Y = aX + b

X : variable expliquée

Y : variable explicative

a : coefficient directeur

b : ordonnée à l’origine

2. Multiple

Pour le modèle de régression linéaire multiple, on va étudier la liaison entre une variable expliquée avec plusieurs variables explicatives.

 

La fonction s’écrira Y = aW + bX + cZ + d …

Y : variable expliquée

W, X, Z … : variables explicatives

a, b, c … : coefficient directeur de chaque droite

d : constante

 

Il n’existe pas de représentation graphique.

C. Régression logistique

  • Définition : modèle de régression prédictif qui permet d’étudier la liaison entre 1 variable qualitative binaire expliquée et ≥ 1 variables quantitatives ou qualitatives explicatives.
    • Anglais : logistic regression, logistic model
    • Synonyme : modèle logistique

 

On l’utilise surtout pour :

  • Identifier des facteurs de risques liés à une maladie.
  • Rechercher des causes de décès/survie de patients.

1. Simple

Si on représente graphiquement les 2 variables, on ne peut pas approximer le nuage de points par une droite de régression, il n’y a pas de liaison évidente.

  • Abscisse : X, variable explicative qualitative ou quantitative. Ex : facteur de risque, âge.
  • Ordonnée : Y, variable expliquée qui doit être binaire. Ex : malade.

logistique linéaire

En revanche, si on réarrange les variables, une liaison apparaît sous forme de S.

  • Abscisse : variable découpée en classes. Ex : âge.
  • Ordonnée : p, probabilité de succès par classe. Ex : probabilité d’être malade par classe.

logistique p

Cette forme est connue et si on relie les points entre eux, on observe une fonction continue ressemblant à un S : la fonction logistique (définie par la formule Y = 1 / (1 + e^(-X) et non pas Y = aX + b )

Ainsi, la régression ne sera pas linéaire mais logistique. logistique S

Grâce à la fonction Logit, on peut transformer cette courbe logistique en droite.

Logit(p) = Ln p/(1p) = a + Xib

  • p : probabilité de succès par classe. Ex : proportion de malade par classe.
  • Xi : variable explicative. Ex : facteur de risque, âge.

Après avoir extrait le b de la formule, on peut calculer l’odds ratio correspondant à la variable étudiée.

2. Multiple

Cette méthode est souvent utilisée dans les études car elle permet d’étudier s’il existe une relation entre une maladie et plusieurs facteurs. Elle permet notamment de remplacer la stratification.

En cours de rédaction…

D. Modèle de Cox

En cours de rédaction…