I. Les bases de l’analyse statistique
A. Probabilité et statistique
1. Variable aléatoire
Une variable aléatoire correspond à l’ensemble des résultats possible d’une expérience aléatoire. En gros c’est “quelque chose dont il est impossible de prévoir le résultat en avance”
Ex : la variable aléatoire « sexe » pourra prendre pour valeur « homme » ou « femme », la variable aléatoire « poids » pourra prendre pour valeur tout nombre entier > 0
On distingue quelques grandes catégories de variables aléatoires :
- Toute grandeur physique qui peut être mesurée. Ex : taille, poids, dosage…
- Tout ce qui peut être chronométré. Ex : durée d’une consultation, délais d’apparition d’un événement…
- Tout ce qui peut être compté. Ex : nombre d’escarre, nombre de récidive…
- Toute proportion (pourcentage) résultant d’un comptage d’individus. Ex : taux de mortalité, taux de patient en ALD…
- Tout critère qualitatif qui peut être hiérarchisé. Ex : petit, moyen, grand …
2. Loi normale
La loi normale est une loi continue dont la densité de probabilité est définie par :
Voilà qui nous fait une belle jambe !
Pour info, la densité de probabilité correspond à la probabilité d’observer un événement donné. Par ex: si on regarde la taille de la population française et que sa distribution suit une loi normale, cette fonction nous permettra de prédire la proportion de sujets ayant une taille précise.
En regardant d’un peu plus près l’équation, on remarque cette fonction f(x) dépend de 2 variables : s et µ (on en reparlera juste après).
Mais regardons sa représentation graphique :
Et là, miracle ! On reconnaît cette forme. On l’appelle la courbe de Gauss ou la courbe en cloche.
Mais à quoi ça sert ?
Le miracle de la nature veut que lorsqu’on réalise une expérience aléatoire, la probabilité d’obtenir une certaine valeur suit une loi de probabilité normale.
Par exemple : si on mesure la taille de toute la population française, on va se rendre compte que la distribution de probabilité (probabilité de faire une certaine taille) ressemble à une courbe de Gauss.
Ainsi, on observe que la plupart de la population mesure entre 160 et 180 cm, à peu près 170 cm en moyenne. On peut approximer que la distribution de la taille dans la population française suit une loi normale.
On pourra approximer la distribution par une fonction f(x) ayant comme paramètres :
- µ : appelé moyenne, c’est un indice de position.
- s : appelé l’écart type, c’est un indice de dispersion.
Dans l’exemple suivant, on observe différentes courbes de Gauss en faisant varier les paramètres :
Il est important de comprendre rapidement le principe de la courbe de Gauss et de la loi normale. On s’en servira plus tard, lorsqu’on voudra réaliser des tests statistiques.
Pour information, je vous mets aussi la représentation graphique de sa fonction de répartition :
La fonction de répartition correspond à la distribution des probabilités cumulées. Elle permet de déterminer la probabilité d’observer un intervalle de probabilité.
En reprenant l’exemple de la taille, cette fonction nous permettra de prédire la proportion de sujets ayant taille comprise entre 2 valeurs ou une taille inférieur à un seuil.
3. L’estimation
On ne recueille des données que dans un échantillon d’une population. Techniquement, on ne peut pas récupérer les données dans une population entière.
A partir de ces données, on va définir certaines variables dont la distribution sera une estimation de la distribution de la variable dans la population entière.
Estimer correspond à mesurer une variable aléatoire et la définir selon 3 paramètres :
- Position : ordre de grandeur
- Dispersion : variabilité
- Liaison : force de liaison avec une autre variable
- (Intervalle de confiance : intervalle dans lequel la mesure a une certaine probabilité de se trouver. Elle se calcule à partir de la position et la dispersion.)
B. Les catégories de variables
La connaissance des principaux types de variables est indispensable pour faire des analyses statistiques.
Variables aléatoire : entité qui peut prendre toutes les valeurs d’un ensemble de définition donné, dont la valeur est soumise au hasard.
- Qualitative (catégorielle) : grandeurs non numériques
- Ordonnée : elles s’expriment en classes qui peuvent être ordonnées selon une échelle de valeurs. Ex : score de gravité léger, moyen, sévère.
- Nominales : variables dont les classes ne peuvent être hiérarchisées. Ex : groupe sanguin.
- Cas particulier : binaire : variable ne pouvant prendre que 2 résultats possibles. Ex : sexe.
- Quantitative : on peut faire la somme ou la différence de plusieurs résultats.
- Discrète (discontinue) : variable qui ne peut prendre qu’une suite discontinue (finie ou infinie) de valeurs, donnant un faible nombre de résultats. Ex : Nombre de rechutes d’une maladie par an, parité.
- Continue : variable peut prendre toutes les valeurs d’un intervalle fini ou infini. Ex : poids.
- Censurée : variable évoluant avec le temps dont la mesure peut manquer au moment de l’analyse. On les retrouve surtout dans les analyses de survie concernant les « exclus-vivants » et les « perdus de vue » dont on ne connaît pas l’état au moment de la mesure.
Exercice Prescrire : B.A.-BA n°1 : « Prévalence, incidence, risque absolu »
C. Les analyses descriptives, univariées et multivariées
On distingue plusieurs type d’analyse pour décrire les données :
- les analyses descriptives visent à décrire un ensemble de données à l’aide d’un indice de position (ex : moyenne) et de dispersion (ex : variance)
- les analyses univariées et multivariées cherchent à quantifier l’association brute entre une variable à expliquer (réponse) et une variable explicative (facteur).
- Soit on ne prend pas en compte d’autres facteurs, on parle d’analyse univariée.
- Soit on prend en compte d’autres facteurs pour étudier l’association qui sera ajustée (et non pas brut), on parle d’analyse multivariée.
1. Descriptive
a. Mesures de position
Définition : indice donnant l’ordre de grandeur d’une variable.
Synonyme : indice de localisation
- Moyenne : moyenne arithmétique, somme des valeurs divisée par le nombre d’observations.
- Médiane : valeur qui permet de séparer l’ensemble des valeurs en 2.
- Quartile, décile, percentile : valeurs qui partagent les données en 4, 10 ou 100 groupes égaux.
- Mode : valeur de donnée la plus fréquente dans l’échantillon.
- Fréquence relative : fréquence d’une valeur ou d’un intervalle de classe observé dans un ensemble de données et calculé en divisant la fréquence par le nombre d’observations.
b. Mesures de dispersion
- Variance : moyenne des carrés des écarts à la moyenne de chaque valeur mesurée. Elle résume l’ensemble des écarts entre la moyenne et les valeurs mesurées.
- Ecart-type : racine carré de la variance. Dans les articles, les auteurs indiquent l’écart-type plutôt que la variance.
- Coefficient de variation : mesure relative de la dispersion autour de la moyenne, permettant de comparer le degré de variation d’un échantillon à un autre, même si les moyennes sont différentes.
- Extrême : valeurs maximales et minimales observées.
- Etendue : différence entre les 2 valeurs extrêmes.
- Intervalle interquartile : différence entre le 1er et 3ème
- Intervalle semi-interquartile : moitié de l’intervalle interquartile, il est utilisé pour les variables ordonnées ou lorsque que la distribution est asymétrique.
Quel indice utiliser ?
On regarde la distribution de la variable.
- Soit elle est normale : on peut ainsi estimer sa distribution par des paramètres à savoir la moyenne et la variance (et l’écart-type).
- Soit elle est non normale ou asymétrique : on estime sa distribution par les quartiles (dont la médiane) et l’étendue.
- Dans le cas de variable censurée : une durée de survie est considérée comme une variable quantitative continue. En théorie, on pourrait en extraire les paramètres de position et de dispersion habituelle. Néanmoins, le caractère généralement asymétrique des distributions de survie incite à utiliser des paramètres plus robustes tels que la médiane et quartile plutôt que la moyenne et l’écart type.
d. Intervalle de confiance
En cours de rédaction
2. Univariée
Les analyses univariées cherchent à quantifier l’association brute entre une variable à expliquer (réponse) et une variable explicative (facteur), sans prendre en compte d’autre facteur.
a. Principaux tests statistique pour comparer 2 variables :
Le choix du test statistique sera fonction du type de variable :
- Si on compare 2 variable qualitatives : test du Chi2 ou de Fisher
- Si on compare 1 variable quantitative et 1 qualitative :
- Soit on a 2 groupes : test de Student ou de Mann-Whitney
- Soit on a > 2 groupes : ANOVA (analyse de covariance) ou test de Kruskal-Wallis
b. Mesures de liaison entre 2 variables : dépendance et concordance
J’ai tenté de résumer les principales mesures de liaison en fonction de la nature des variables.
Elles seront traitées en détails dans le chapitre suivant « Analyse bivariée »
Univariée | Multivariée | |||
Variable | Dépendance | Dépendance monotone | Concordance | |
1 qualitative | + 1 qualitative : RR et OR | +1 qualitative : Spearman | +1 qualitative : Kappa
+ 1 qualitative si binaires : Sp, Sn, VPP, VPN, RV, ROC |
Si binaire + quanti : régression linéaire |
1 quantitative | +1 quantitative : Pearson | +1 quantitative : coefficient intraclasse | + quanti : régression logistique | |
Censurée | +1 qualitative binaire : HR |
- Paramètre de dépendance : 2 variables sont dépendantes si une mesure issue de la première donne a priori une information sur la mesure à venir de la seconde. Ce paramètre va dépendre du type de variable :
- 2 variables quantitatives :
- il n’existe aucun paramètre.
- 2 variables qualitatives :
- Coefficient φ
- Cas particulier des variables binaires :
- Risque relatif (RR)
- Odds ratio (OR)
- Censurée (1 variable censurée + 1 variable qualitative binaire) :
- Rapport instantané des risques (HR, Hazard Ratio)
- 2 variables quantitatives :
- Paramètre de dépendance monotone : 2 variables sont dépendantes de façon monotone quand la 2ème est d’autant plus élevée que la 1ère l’est. Ex : poids et taille.
- Paramètre de concordance : 2 variables sont en concordance si elles aboutissent aux mêmes mesures. Ex : la glycémie mesurée par 2 glucomètre différents.
- 2 variables quantitatives :
- Coefficient de corrélation intraclasse (ρ)
- 2 variables qualitatives :
- Coefficient kappa (κ)
- Cas particulier des variables binaires :
- 2 variables quantitatives :
3. Multivariée
Les analyses multivariées cherchent à quantifier l’association entre une variable à expliquer (réponse) et une variable explicative (facteur), en l’ajustant en fonction d’autres facteurs.
Les principales méthodes sont les suivantes :
- Modélisation linéaire :
- Régression linéaire simple : 1 variable quanti vs 1 quanti
- Régression linéaire multiple : 1 variable quanti vs >1 quanti
- ANOVA (Analyse de variance) : > 2 quanti normales vs 1 quali
- ANCOVA (Analyse de covariance) : idem ANOVA avec au moins 1 quanti continue
- Modélisation non linéaire (logistique…)
- Analyse de données multidimensionnelles :
- ACP (Analyses en Composantes Principales) : variables quanti
- AFC (Analyse Factorielle des Correspondances) : variables quali
- ACM (Analyse des Correspondances Multiples) : variables quali
Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.