II. Les bases des tests statistiques

Les tests d’hypothèse permettent d’aider à la validation d’hypothèses.

Ils permettent de réduire la subjectivité, en rendant les choix plus objectifs et plus transparent pour pouvoir les critiquer.

 

L’exemple caractéristique des tests statistiques est rencontrée lors des essais thérapeutiques.

Imaginons une étude dans laquelle on cherche à évaluer l’efficacité de la kinésithérapie dans la lombalgie aiguë commune. On va répartir 200 sujets aléatoirement dans 2 groupes : le groupe A qui bénéficie d’une prise en charge par un kinésithérapeute et le groupe B qui n’aura pas de prise en charge par un kinésithérapeute.

Après 2 semaines, on évalue le taux de guérison.

On pose l’hypothèse que le taux de guérison sera plus élevé dans le groupe A que le groupe B.

 

On va supposer 4 situations distinctes donnant des résultats différents :

  • 1er cas : 80 sujets ont guéri dans chaque groupe.
    • Il n’y a pas de différence d’efficacité.
  • 2ème cas : 79 sujets ont guéri dans le groupe B et 81 sujets ont guéri dans le groupe A.
    • Il existe une petite différence en faveur de la kinésithérapie. Mais cette différence est-elle significative ? Cette différence est-elle due au hasard ?
  • 3ème cas : 90 sujets ont guéri dans le groupe A et seulement 5 sujets ont guéri dans le groupe B.
    • Il semble que la kinésithérapie soit efficace, difficile d’affirmer que cette différence est due seulement au hasard tellement l’écart est important.
  • 4ème cas : 83 sujets ont guéri dans le groupe A et 77 patients ont guéri dans le groupe B.
    • Comment l’interpréter ? Cette différence est-elle significative ? Comment le savoir objectivement ?

 

Le principe des tests statistiques revient à systématiser rapidement le raisonnement qu’on a eu dans cet exemple. Dans une démarche de raisonnement scientifique, on va passer par plusieurs étapes.

 

D’un point de vue pratique, les principales étapes sont :

  1. Construire les hypothèses H0 et H1
  2. Déterminer les risques d’erreur alpha, beta
  3. Déterminer la situation du test : unilatéral ou bilatéral
  4. Choisir le test adapté : chaque test a ses conditions d’application
  5. Calculer le « p » grâce au test et l’interpréter

 

D’un point de vue mathématique, les principales étapes sont :

  1. Formuler une hypothèse.
    • Hypothèse nulle H0, la kinésithérapie est inefficace.
    • Hypothèse alternative, la kinésithérapie est efficace ou délétère.
  1. En déduire ce qu’on devrait observer si l’hypothèse était vraie.
    • Si H0 est vraie, alors la kinésithérapie est inefficace, le taux de guérison sera identique dans les 2 groupes.
    • Si H1 est vraie, alors la kinésithérapie est efficace ou délétère, le taux de guérison sera différent entre les 2 groupes.
  1. Vérifier si les observations sont conformes ou contradictoire à ce que l’on attend.
    • On calcul le taux de guérison dans chaque groupe.
  1. On en conclue si on accepte ou rejette l’hypothèse initiale.
    • On accepte ou rejette H0, on admet ou réfute que la kinésithérapie est inefficace.

A. Construire l’hypothèse nulle et l’hypothèse alternative

Le test statistique est utile lorsqu’il faut trancher entre 2 hypothèses :

  • H: hypothèse nulle, elle correspond à une situation de statu quo.
  • H: hypothèse alternative, elle correspond à l’hypothèse qu’on veut démontrer.

En reprenant notre exemple,

H0 : pA = pB , le taux de guérison est identique dans les 2 groupes, qu’ils aient bénéficié de la kinésithérapie ou pas.

H1 : pA pB , le taux de guérison sera différent entre les 2 groupes , on ne présuppose pas de l’efficacité ou de la nocivité de la kinésithérapie.

 

Lorsque l’on va décider si H0 est vraie ou H0 est fausse, on peut faire :

  • La bonne décision :
    • On suppose qu’H0 est fausse et en réalité H0 est fausse : c’est le la puissance.
    • On suppose qu’H0 est vraie et en réalité H0 est vraie.
  • La mauvaise décision :
    • On suppose qu’H0 est fausse alors qu’en réalité H0 est vraie : c’est le risque α.
    • On suppose qu’H0 est vraie alors qu’en réalité H0 est fausse : c’est le risque β.

B. Déterminer les risques d’erreur

Après avoir posé nos hypothèses, on va accepter un risque d’erreur. En statistique, on n’est jamais sûr à 100%, on accepte toujours un risque de se tromper.

Abréviation Synonyme Valeur par défaut (%) Définition
Risque alpha α Risque de 1ère espèce 5 Probabilité de conclure à une différence alors qu’il n’y en a pas
Risque Beta β Risque de 2ème espèce 5 – 20 Probabilité de ne pas conclure à une différence alors qu’il y en a
Puissance P P = 1 – β

= [80 – 95 %]

Probabilité à conclure à une différence alors qu’il y en a

1. Risque de 1ère espèce

Ce risque alpha est fixé a priori lorsqu’on construit les tests statistiques. Par convention, on le fixe à 5% bien que cette valeur arbitraire soit discutable.

Ainsi, on a 5% de risque de rejeter H0 si elle est vraie.

Ex : on suppose que la kinésithérapie est efficace alors qu’elle ne l’est pas. Cette erreur peut avoir des conséquences importantes.

 

Attention (subtilité) : le risque alpha ne correspond pas au risque de rejeter H0 alors qu’elle était vraie, ni le risque de rejeter H0 par erreur.

En effet, on ne peut pas connaître le véritable risque de rejeter H0 par erreur parce qu’il dépend de la probabilité que H0 soit vraie (qui est inconnu). Heureusement, cette erreur d’interprétation n’a pas de conséquence : la probabilité que H0 soit vraie est ≤ 1, donc le risque de rejeter par erreur est < au risque alpha.

2. Risque de 2ème espèce

On ne veut rejeter H0 que si H0 est fausse. Aussi prévu a priori, ce risque correspond au risque de ne pas rejeter H0 si H0 est fausse.

Ex : on suppose que la kinésithérapie n’est pas efficace alors qu’elle l’est. C’est moindre grave que le risque alpha car au pire des cas on dit que ce n’est pas efficace.

3. Puissance

La puissance est la probabilité de rejeter H0 si elle est fausse, elle correspond à (1 – β). En gros, c’est la probabilité de voir qu’il y a une différence quand il y a effectivement une différence.

Ex : c’est la probabilité de dire que la kinésithérapie est efficace alors qu’elle est vraiment efficace.

 

Autant vous dire que c’est la chose la plus importante ! Il va essayer par 3 principaux moyens d’obtenir la puissance la plus élevée possible :

  • Augmenter l’effectif : en augmentant la taille de l’échantillon, on augmente la précision de nos résultats (en diminuant l’intervalle de fluctuation).
    • Ex : au lieu de sélectionner 100 sujets dans chaque groupe, on en sélectionne 1000.
  • Limiter la variance : on souhaite que la variance des facteurs non étudiés soit proche chez les différents sujets, on souhaite que les sujets se ressemblent sauf sur les facteurs étudiés.
    • Ex : les sujets sont répartis de manière aléatoire dans les 2 groupes, garantissant une répartition équilibrée des facteurs non étudiés (âge, sexe, poids…) dans les 2 groupes.
  • Maximiser la chance d’obtenir une différence : on va étudier le facteur dans les conditions optimales pour obtenir l’effet le plus important possible.
    • Ex : les sujets du groupe intervention bénéficieront d’une prise en charge intensive de kinésithérapie.

C. Déterminer la situation du test : unilatéral ou bilatéral

Si H0 correspond à une égalité, H1 ne correspond pas forcément à une inégalité de type pA ≠ pB.

pA ≠ pB signifie que le traitement A est supérieur au traitement B ou le traitement B est supérieur au traitement A

Dans certains cas, il n’y a pas d’intérêt à montrer que A < B ou A > B, on veut juste montrer que A > B.

Ex : un laboratoire veut mettre sur le marché un nouveau médicament B pour traiter la lombalgie chronique. Le médicament de référence A est efficace mais il est cher et entraîne de nombreux effets secondaires diminuant son observance. Le laboratoire n’a pas d’intérêt à montrer que le médicament B est plus efficace que A car il sait qu’il est déjà très efficace. Il veut monter que son nouveau médicament est au moins aussi efficace mais qu’il a l’avantage de coûter moins cher et d’avoir moins d’effets secondaires.

On veut étudier le taux de guérison à 1 mois. On pose :

H0 : pA = pB , les 2 traitements ont la même efficacité.

H1 : pA < pB , le traitement de référence A est inférieur au nouveau traitement B.

 

Quel intérêt ?

La nouvelle hypothèse alternative H1 : pA < pB (unilatérale) étant incluse dans l’ancienne H1 : pA ≠ pB (pA < pB ou pA > pB). On a moins de risque de se tromper et d’accepter H1 alors que H0 est vraie, ayant pour conséquence de diminuer « p » (divisé par 2).

En diminuant le « p », cela permet d’augmenter la puissance de l’étude pour un même nombre de sujets !

 

En conclusion, on distingue 2 type de tests :

  • Test unilatéral : test statistique pour lequel on prend comme hypothèse alternative l’existence d’une différence dont le sens est connu.
    • H1 : pA < pB
    • Ou H1 : pA > pB
    • Augmente la puissance
  • Test bilatérale : test statistique pour lequel on prend, comme hypothèse alternative, l’existence d’une différence, dans un sens ou l’autre.
    • pA ≠ pB (pA < pB ou pA > pB).

 

Comment le retrouver dans un article ?

La caractère unilatéral ou bilatéral d’un test doit toujours être défini a priori dans la partie « analyse statistique » et doit être justifié.

 

Attention, erreur fréquente : dans une étude de non infériorité utilisant un test unilatéral, un résultat non significatif ne permet pas d’affirmer qu’il n’y a pas de différence entre les 2 traitements et qu’ils sont donc équivalents. Il permet juste de dire que l’étude ne permet pas de mettre en évidence une supériorité du nouveau traitement par rapport au traitement de référence.

D. Choisir le test adapté

Tableau récapitulatif

Télécharger (PDF, 1007KB)

Une multitude de tests statistiques existent. Chaque test a ses propres conditions d’application.

Afin de déterminer le test adapté, on a besoin d’identifier certains critères :

  • Nature des variables
  • Nombre de groupes
  • Appariement ou indépendance des groupes
  • Taille
  • Normalité de la distribution

 

Si vous ne voulez pas apprendre un logiciel statistique, le site BiostatTGV permet de faire la plupart des tests statistiques de manière simple et intuitive. Allez jeter un coup d’œil, vous ne le regretterez pas !

1. Nature des variables

Comme vu précédemment, il existe plusieurs catégories de variables :

  • Variable quantitative : on compare la moyenne ou la variance
  • Variable qualitative (nominale ou ordinale) : on compare des pourcentages
  • Variable censurée : on compare la survie via une analyse de survie

2. Nombre de groupes

Il faut distinguer les tests comparant :

  • 2 groupes
  • > 2 groupes

3. Appariement ou indépendance ?

2 groupes sont dits appariés lorsque chaque individu inclus dans un groupe correspondra à un sujet semblable (sur l’âge, le sexe, le poids…) dans l’autre groupe.

Cette méthode permet d’améliorer la puissance de l’étude en diminuant la variance d’un paramètre étudié (on diminue la variance parasite des autres paramètres).

Ex : on fait une mesure à 2 reprises sur un même sujet (avant et après un traitement). En choisissant le même sujet, on diminue la variabilité inter-individuelle et on augmente la puissance.

 

Cette méthode est très utilisée dans les études cas-témoins : pour chaque cas (malade) on va lui choisir un témoin (non malade) semblable sur certains critères (âge, sexe…). Elle est particulièrement intéressante dans ce type d’étude car la puissance est faible due au faible nombre de sujets (maladie rare).

Si les sujets sont appariés, on utilisera une catégorie particulière de tests (très proches des tests pour les groupes non appariés).

Ex : t Student pour données appariées

4. Taille

Le nombre d’observations seuil est différent en fonction de la nature des variables :

  • Qualitative
    • < 5 : petit échantillon, on choisira souvent un test exact de Fisher.
    • > 5 : on choisira souvent un test du Chi-2.
  • Quantitative :
    • < 30 : petit échantillon, on utilisera souvent le test de Mann-Withney.
    • > 30 : grands échantillons, on utilisera souvent le test t de Student en faisant la supposition qu’à partir de 30 échantillons tirés au sort, la distribution suivra une loi normale.

5. Normalité de la distribution

La distribution du paramètre mesuré a son importance. On distingue 2 situations :

  • La distribution de la variable ressemble à une distribution connue, on peut ainsi caractériser sa distribution par des paramètres spécifiques estimés sur l’échantillon. En pratique, on regarde si la distribution de la variable suit une loi normale et peut être approximée par les paramètres caractérisant une loi normale, à savoir la moyenne et la variance.
    • On effectuera un test paramétrique.
  • La distribution de la variable ne ressemble pas à une distribution normale, on ne pourra pas caractériser cette distribution par des paramètres.
    • On effectuera un test non paramétrique.

 

Pourquoi faut-il privilégier un test paramétrique ?

Les tests paramétriques sont un peu plus puissants que les tests non paramétriques.

En revanche, ils ne peuvent être utilisés que dans des conditions de normalité alors que les tests non paramétriques sont plus robustes et peuvent s’appliquer indépendamment de la distribution et de la taille de l’échantillon.

 

NB : la loi des grands nombres

Vous remarquerez que lorsqu’on observe > 30 valeurs d’une variable quantitative, on parle de grand échantillon et qu’on considère que cette variable a une distribution normale.

En effet, la loi des grands nombres indique que lorsqu’on fait un tirage aléatoire dans une série de grande taille, plus on augmente la taille de l’échantillon, plus les caractéristiques statistiques du tirage (l’échantillon) se rapprochent des caractéristiques statistiques de la population.

Or lorsqu’on mesure la caractéristique d’une population entière, on se rend compte que la distribution de cette variable mesurée suit une loi normale (la nature est bien faite). Ainsi, lorsqu’on mesure cette même caractéristique dans un échantillon d’au moins 30 sujets, la distribution de cette variable va suivre la même loi que la population, c’est à dire une loi normale, pratique 😉

 

Comment savoir si la distribution de la variable est normale ?

Le caractère normale de la distribution aura une influence sur le choix du test statistique. Il existe plusieurs méthodes pour déterminer si la distribution est normale.

  • 1ère méthode graphique : l’histogramme

C’est la 1ère chose à faire, on regarde à l’œil nu si la distribution suit une loi normale « en forme de cloche » ou de « courbe de Gauss ».

histogramme normal

Histogramme normalisé

  • 2ème méthode graphique : le diagramme Quantile-Quantile

Définition : outil graphique permettant d’évaluer la pertinence de l’ajustement d’une distribution d’une variable à une distribution théorique (ici la distribution normale).

Le nom « quantile » vient du fait qu’on compare certains quantiles de la population observée avec certains quantiles de la population théorique.

Anglais : Q-Q plot

Synonyme : diagramme Q-Q

QQ plot

Q-Q plot

  • Méthode statistique : test de Shapiro-Wilk

On pose les hypothèses :

H0 : la distribution de la variable est normale.

H1 : la distribution n’est pas normale.

Si p < alpha, on rejette H0, on conclue que la distribution ne suit pas une loi normale.

NB : on peut utiliser aussi le test de Kolmogorov-Smirnov qui test si la distribution de la variable suit une loi donnée connue par sa fonction de répartition continue.

  • Limites : ces 3 méthodes ont leurs limites, il faut les interpréter avec précaution :
    • La méthode statistique permet de trancher mais avec les risques d’erreur inhérent à tout test statistique. Ainsi, si p > alpha, on ne rejette pas H0 mais on ne peut pas l’accepter pour autant. C’est d’autant plus vrai que l’échantillon est faible car la puissance le sera aussi.
    • Les méthodes graphiques ne permettent pas de trancher de manier objective sur la normalité de la distribution. On regarde à l’œil nu si la distribution suit à peu près une loi normale, on décide de manière subjective.

6. Tableau des tests statistiques

Je vous propose un tableau récapitulatif fait par mes soins. Il est bien sûr critiquable mais il permettra d’avoir une vision d’ensemble. N’hésitez pas à regarder le tableau de BiostatTGV qui est beaucoup plus juste, il propose notamment un algorithme pour vous aider à choisir le meilleur test pour vos données.

Rmq :

  • Utiliser les logiciels de statistique reconnus (SAS, SPSS ; Stata, EPI Info…)
  • Les tests peu courants doivent être justifié (référence bibliographique)
Variable à expliquer
qualitative quantitative
nominale ordinale
2 groupes > 2 groupes
Variable explicative Qualitative 2 groupes Indépendant > 5 : Chi2

< 5 : Test exact de Fisher

> 5 : Chi2 > 30 ou normale : t de Student

< 30 : Test de Mann-Whitney-Wilcoxon

Appariée > 5 : Chi2 de Mac Nemar

< 5 : Test exact de Fisher

Test de rangs signés de Wilcoxon > 30 ou normale : t de Student apparié

< 30 : Test de rangs signés de Wilcoxon

> 2 groupes Indépendant Chi2 Chi2 Test de Kruskal-Wallis ANOVA (Analyse de variance)

Test de Kruskal-Wallis

Apparié Test de Friedman
quantitative Régression logistique Test de corrélation de Spearman

(Tau de Kendall)

Régression linéaire

Test de corrélation de Pearson

 

censurée Test du logrank

Légende :

< 5, > 5, < 30 et > 30 correspondent au nombre d’échantillons tirés au sort

E. Calcul du « p » et interprétation

Après avoir posé les hypothèses H0 et H1 posées ainsi que les risque alpha et beta, les données sont collectées. Lors de l’analyse statistique, on va retenir 1 des 2 hypothèses : soit on accepte H0, soit en rejette H0. Pour nous aider dans ce choix, on va calculer un paramètre désigné par la lettre « p ».

  • Définition : probabilité d’observer des résultats au moins aussi en désaccord avec H0 que ceux qui ont été obtenus.
  • Anglais : p-value
  • Synonyme : petit p

Ex : on reprend le 4ème cas, 83 sujets ont guéri dans le groupe « kiné » et 77 patients ont guéri dans le groupe « pas de kiné » au bout de 2 semaines.

On suppose que H0 est vraie, c’est à dire que le taux de guérison est identique entre les 2 groupes. Si refait plusieurs études identiques, le taux de guérison sera presque toujours voisin dans les 2 groupes étant donné que H0 est vraie. Cependant, parfois, à cause du hasard du tirage au sort, le taux de guérison peut être très différent entre les 2 groupes.

Ainsi, le « p » correspond à la fréquence d’observation d’une différence ≥ à celle réalisée dans l’essai réalisé (ici, 83 – 77 = 6%), en partant du principe que la prise en charge est identique.

« p » quantifie le désaccord observé entre l’expérience réalisée et l’hypothèse nulle.

 

En pratique, une fois le « p » calculé :

  • Si p ≤ alpha, H1 est acceptée
  • Si p > alpha, H0 est acceptée

1. L’usage abusif du « p »

Tab – Interprétations erronées du p

le p n’est pas le p est
p n’est pas la probabilité de l’hypothèse nulle p est la probabilité d’obtenir le résultat observé si l’hypothèse nulle est vraie

 

p n’est pas la probabilité d’absence de différence p est la probabilité d’observer une différence au moins aussi importante si en réalité il n’y a pas de différence
p n’est pas la probabilité que le traitement n’ait pas d’effet p est la probabilité d’obtenir le résultat qui a été observé si le traitement est en réalité inefficace
p<0.05% ne signifie pas qu’il y a moins de 5% de chance que le traitement soit sans effet Il y a moins de 5% d’observer le résultat obtenu si le traitement est sans effet
p n’est pas Pr(H0) ou 1-Pr(H1)

 

p n’est pas la probabilité de l’hypothèse nulle

p = Pr(résultat/H0)

 

p est la probabilité conditionnelle du résultat sous l’hypothèse nulle

(PS : je ne me rappelle plus de quel polycopié de LCA est issu ce tableau)

2. Pourquoi 5% ?

La valeur de 5% est communément admise bien qu’elle ne repose sur aucune justification précise. Néanmoins, cette probabilité est à adapter au problème posé.

Par exemple, si on veut faire la preuve définitive de l’efficacité d’un vaccin lors d’un essai de grande envergure, on va poser des conditions strictes, à savoir un p < 1 % (voir plus faible).

En revanche, si on fait un essai sur une maladie rare, sans traitement curatif, et que l’on cherche à avoir une idée (plus ou moins objective) de son efficacité, on pourra choisir un p < 10 %

3. Multiplicité des tests

En augmentant le nombre de tests statistiques, on augmente le risque de trouver à tort une différence statistique. Le risque alpha fixé a priori à 5 % va augmenter avec le nombre de tests statistiques, on appelle cela le risque d’inflation du risque alpha.

En effet, si on a 5 % de chance de se tromper et qu’on fait 20 tests, il y aura au moins 1 test qui conclura à une différence (rejet H0) alors qu’il n’y en a pas (H0 vraie).

 

Le tableau suivant met en évidence l’augmentation du risque alpha global en fonction du nombre de tests :

Nombre de test (seuil alpha = 5 %) Risque global d’erreur
1 5 %
2 10%
10 40%
50 92%
k 1 – 0,95^k

Ce risque peut être corrigé via la correction de Bonferroni en baissant le risque alpha initial en fonction du nombre de tests prévus.

On peut calculer ce risque corrigé par la formule alpha’ = alpha/n avec n : nombre de tests.

Le tableau suivant donne les valeurs du risque alpha corrigé :

K Bonferroni (%)
1 5,00
2 2,50
3 1,57
4 1,25
5 1,00
10 0,50
20 0,25

Avantage :

  • Corrige le risque d’inflation du risque alpha
  • Limite le risque de data dredging (« triturage de données » en français), cette technique statistique consiste à faire de tests statistiques sur de nombreuses variables et ne publier que celles statistiquement significatives au sens de la valeur du « p » (on parle de p-hacking).

 

Limite : diminue la puissance

 

Quand y penser ?

  • Analyse intermédiaire : analyse réalisée avant la fin de l’étude
  • Multiplicité des critères de jugement
  • Analyse en sous groupe
  • Essai avec > 2 groupes (doses multiples, stratifications…)
  • Parfois pour la comparaison de caractéristique des populations (tableau 1)

F. Corrélation n’est pas causalité

L’observation d’une corrélation statistiquement significative entre 2 variables ne justifie pas d’un lien de causalité.

Dans le chapitre sur les essais étiologiques, afin d’établir un lien de causalité entre un facteur et un événement, il faut respecter un certain nombre de critères (Bradford-Hill).

 

L’exemple le plus connu est issu d’un article du NEJM , où les auteurs analysé la corrélation entre la consommation de chocolat et le développement des fonctions cognitives mesuré par le nombre de prix Nobel par pays.

Le graphique est assez parlant :

chocolate-consumption-and-nobel-prize

La corrélation entre la consommation de chocolat et le nombre de prix Nobel est très significative avec r = 0,791 et p<0,0001.

Vous pouvez regarder cette vidéo “les statistiques expliquées à mon chat” illustrant ce cas :

Un 2ème exemple est celui de la corrélation entre la part de marché d’Internet Explorer et le nombre de meurtres aux Etats-Unis d’Amérique.

murder internet


IV. Autres type d’analyse

A. Analyse de survie

(Le modèle de Cox/ Test du Log-rank)

  • Définition : analyse temporelle du délai de survenue d’un critère principal binaire (décès, récidive…). On suppose que le risque de décès soit constant tout au long de l’étude

 

  • Analyse :
    • Descriptive : Courbe de Kaplan-Meier. (à t0, on doit retrouver la population en intention de traiter)
    • Univariée : Test du Log-Rank (comparaison des surfaces sous les courbes)
    • Multivariée : Modèle de Cox (ajustement sur les facteurs de confusion)

B. Analyse qualitative

En cours de rédaction…

C. Analyse décisionnelle

En cours de rédaction…

D. Analyse macro économique

En cours de rédaction…