I. Les bases de l’analyse statistique

La démarche d’une analyse statistique d’un article peut être résumé par ce diagramme :

demarche analyse stat

A. Probabilité et statistique

1. Variable aléatoire

Une variable aléatoire correspond à l’ensemble des résultats possible d’une expérience aléatoire. En gros c’est “quelque chose dont il est impossible de prévoir le résultat en avance”

Ex : la variable aléatoire « sexe » pourra prendre pour valeur « homme » ou « femme », la variable aléatoire « poids » pourra prendre pour valeur tout nombre entier > 0

 

On distingue quelques grandes catégories de variables aléatoires :

  • Toute grandeur physique qui peut être mesurée. Ex : taille, poids, dosage…
  • Tout ce qui peut être chronométré. Ex : durée d’une consultation, délais d’apparition d’un événement…
  • Tout ce qui peut être compté. Ex : nombre d’escarre, nombre de récidive…
  • Toute proportion (pourcentage) résultant d’un comptage d’individus. Ex : taux de mortalité, taux de patient en ALD…
  • Tout critère qualitatif qui peut être hiérarchisé. Ex : petit, moyen, grand …

2. Loi normale

La loi normale est une loi continue dont la densité de probabilité est définie par :

formule normale

Voilà qui nous fait une belle jambe !

Pour info, la densité de probabilité correspond à la probabilité d’observer un événement donné. Par ex: si on regarde la taille de la population française et que sa distribution suit une loi normale, cette fonction nous permettra de prédire la proportion de sujets ayant une taille précise.

En regardant d’un peu plus près l’équation, on remarque cette fonction f(x) dépend de 2 variables : s et µ (on en reparlera juste après).

Mais regardons sa représentation graphique :

667px-Gauss_reduite

Et là, miracle ! On reconnaît cette forme. On l’appelle la courbe de Gauss ou la courbe en cloche.

 

Mais à quoi ça sert ?

Le miracle de la nature veut que lorsqu’on réalise une expérience aléatoire, la probabilité d’obtenir une certaine valeur suit une loi de probabilité normale.

gauss taillePar exemple : si on mesure la taille de toute la population française, on va se rendre compte que la distribution de probabilité (probabilité de faire une certaine taille) ressemble à une courbe de Gauss.

Ainsi, on observe que la plupart de la population mesure entre 160 et 180 cm, à peu près 170 cm en moyenne. On peut approximer que la distribution de la taille dans la population française suit une loi normale.

On pourra approximer la distribution par une fonction f(x) ayant comme paramètres :

  • µ : appelé moyenne, c’est un indice de position.
  • : appelé l’écart type, c’est un indice de dispersion.

 

Dans l’exemple suivant, on observe différentes courbes de Gauss en faisant varier les paramètres :

Normal_Distribution_PDF

Il est important de comprendre rapidement le principe de la courbe de Gauss et de la loi normale. On s’en servira plus tard, lorsqu’on voudra réaliser des tests statistiques.

Pour information, je vous mets aussi la représentation graphique de sa fonction de répartition :

Normal_Distribution_CDF

La fonction de répartition correspond à la distribution des probabilités cumulées. Elle permet de déterminer la probabilité d’observer un intervalle de probabilité.

En reprenant l’exemple de la taille, cette fonction nous permettra de prédire la proportion de sujets ayant taille comprise entre 2 valeurs ou une taille inférieur à un seuil. 

3. L’estimation

On ne recueille des données que dans un échantillon d’une population. Techniquement, on ne peut pas récupérer les données dans une population entière.

A partir de ces données, on va définir certaines variables dont la distribution sera une estimation de la distribution de la variable dans la population entière.

 

Estimer correspond à mesurer une variable aléatoire et la définir selon 3 paramètres :

  • Position : ordre de grandeur
  • Dispersion : variabilité
  • Liaison : force de liaison avec une autre variable
  • (Intervalle de confiance : intervalle dans lequel la mesure a une certaine probabilité de se trouver. Elle se calcule à partir de la position et la dispersion.)

B. Les catégories de variables

La connaissance des principaux types de variables est indispensable pour faire des analyses statistiques.

Variables aléatoire : entité qui peut prendre toutes les valeurs d’un ensemble de définition donné, dont la valeur est soumise au hasard.

  • Qualitative (catégorielle) : grandeurs non numériques
    • Ordonnée : elles s’expriment en classes qui peuvent être ordonnées selon une échelle de valeurs. Ex : score de gravité léger, moyen, sévère.
    • Nominales : variables dont les classes ne peuvent être hiérarchisées. Ex : groupe sanguin.
      • Cas particulier : binaire : variable ne pouvant prendre que 2 résultats possibles. Ex : sexe.
  • Quantitative : on peut faire la somme ou la différence de plusieurs résultats.
    • Discrète (discontinue) : variable qui ne peut prendre qu’une suite discontinue (finie ou infinie) de valeurs, donnant un faible nombre de résultats. Ex : Nombre de rechutes d’une maladie par an, parité.
    • Continue : variable peut prendre toutes les valeurs d’un intervalle fini ou infini. Ex : poids.
  • Censurée : variable évoluant avec le temps dont la mesure peut manquer au moment de l’analyse. On les retrouve surtout dans les analyses de survie concernant les « exclus-vivants » et les « perdus de vue » dont on ne connaît pas l’état au moment de la mesure.

 

Exercice Prescrire : B.A.-BA n°1 : “Prévalence, incidence, risque absolu”

C. Les analyse univariées et multivariées

NB : Lorsque l’on cherche à quantifier l’association brute entre une variable à expliquer (réponse) et une variable explicative (facteur), sans prendre en compte d’autres facteurs, on parle d’analyse univariée (comprenant l’analyse bivariée expliquée plus tard).

Lorsqu’on prend en compte d’autres facteurs pour étudier l’association qui sera ajustée (et non pas brut), on parle d’analyse multivariée.

1. Univariée ou bivariée :

Définition : On réalise une analyse uni/bivariée lorsqu’on cherche à quantifier l’association brute entre une variable à expliquer (réponse) et une variable explicative (facteur), sans prendre en compte d’autres facteurs.

a. Mesures de position

Définition : indice donnant l’ordre de grandeur d’une variable.

Synonyme : indice de localisation

  • Moyenne : moyenne arithmétique, somme des valeurs divisée par le nombre d’observations.
  • Médiane : valeur qui permet de séparer l’ensemble des valeurs en 2.
  • Quartile, décile, percentile : valeurs qui partagent les données en 4, 10 ou 100 groupes égaux.
  • Mode : valeur de donnée la plus fréquente dans l’échantillon.
  • Fréquence relative : fréquence d’une valeur ou d’un intervalle de classe observé dans un ensemble de données et calculé en divisant la fréquence par le nombre d’observations.

b. Mesures de dispersion

  • Variance : moyenne des carrés des écarts à la moyenne de chaque valeur mesurée. Elle résume l’ensemble des écarts entre la moyenne et les valeurs mesurées.
  • Ecart-type : racine carré de la variance. Dans les articles, les auteurs indiquent l’écart-type plutôt que la variance.
  • Coefficient de variation : mesure relative de la dispersion autour de la moyenne, permettant de comparer le degré de variation d’un échantillon à un autre, même si les moyennes sont différentes.
  • Extrême : valeurs maximales et minimales observées.
  • Etendue : différence entre les 2 valeurs extrêmes.
  • Intervalle interquartile : différence entre le 1er et 3ème
  • Intervalle semi-interquartile : moitié de l’intervalle interquartile, il est utilisé pour les variables ordonnées ou lorsque que la distribution est asymétrique.

 

Quel indice utiliser ?

On regarde la distribution de la variable.

  • Soit elle est normale : on peut ainsi estimer sa distribution par des paramètres à savoir la moyenne et la variance (et l’écart-type).
  • Soit elle est non normale ou asymétrique : on estime sa distribution par les quartiles (dont la médiane) et l’étendue.
  • Dans le cas de variable censurée : une durée de survie est considérée comme une variable quantitative continue. En théorie, on pourrait en extraire les paramètres de position et de dispersion habituelle. Néanmoins, le caractère généralement asymétrique des distributions de survie incite à utiliser des paramètres plus robustes tels que la médiane et quartile plutôt que la moyenne et l’écart type.

c. Mesures de liaison : dépendance et concordance

J’ai tenté de résumer les principales mesures de liaison en fonction de la nature des variables.

Elles seront traitées en détails dans le chapitre suivant “Analyse bivariée”

Univariée Multivariée
Variable Dépendance Dépendance monotone Concordance
1 qualitative + 1 qualitative : RR et OR +1 qualitative : Spearman +1 qualitative : Kappa

+ 1 qualitative si binaires : Sp, Sn, VPP, VPN, RV, ROC

Si binaire + quanti : régression linéaire
1 quantitative +1 quantitative : Pearson +1 quantitative : coefficient intraclasse + quanti : régression logistique
Censurée +1 qualitative binaire : HR
  • Paramètre de dépendance : 2 variables sont dépendantes si une mesure issue de la première donne a priori une information sur la mesure à venir de la seconde. Ce paramètre va dépendre du type de variable :
    • 2 variables quantitatives :
      • il n’existe aucun paramètre.
    • 2 variables qualitatives :
      • Coefficient φ
      • Cas particulier des variables binaires :
      • Censurée (1 variable censurée + 1 variable qualitative binaire) :

 

  • Paramètre de dépendance monotone : 2 variables sont dépendantes de façon monotone quand la 2ème est d’autant plus élevée que la 1ère l’est. Ex : poids et taille.
    • 2 variables quantitatives :
      • Coefficient de corrélation de Pearson (r)
      • Pourcentage de variance partagée (r2)
    • 2 variables qualitatives :
      • Coefficient de corrélation des rangs de Spearman (rs)

 

d. Intervalle de confiance

En cours de rédaction

2. Multivariée

Définition : on parle d’analyse multivariée lorsqu’on prend en compte d’autres facteurs pour étudier l’association entre une variable à expliquer et une variable explicative, qui sera ajustée (et non pas brut).

 

Les principales méthodes sont les suivantes :

  • Modélisation linéaire :
    • Régression linéaire simple : 1 variable quanti vs 1 quanti
    • Régression linéaire multiple : 1 variable quanti vs >1 quanti
    • ANOVA (Analyse de variance) : > 2 quanti normales vs 1 quali
    • ANCOVA (Analyse de covariance) : idem ANOVA avec au moins 1 quanti continue
  • Modélisation non linéaire (logistique…)
  • Analyse de données multidimensionnelles :
    • ACP (Analyses en Composantes Principales) : variables quanti
    • AFC (Analyse Factorielle des Correspondances) : variables quali
    • ACM (Analyse des Correspondances Multiples) : variables quali