III. Elaboration de l’échantillon/population

Exercices

Prescrire : "Caractéristiques de la population étudiée"

Exercice N°1 – À la recherche du critère pertinent… pour les patients
Exercice N°4 – Distinguer évaluation de l’efficacité et évaluation de l’utilité
Exercice N°9 – Ne pas confondre observer et expérimenter
Exercice N°15 – Oeufs brouillés
Exercice N°20 – Ça dépend du contexte
Exercice N°23 – Savoir être subjectif
Exercice N°26 – Primum non nocere
Exercice N°27 – Lire un RCP
Exercice N°30 – Peut mieux faire
Exercice N°34 – Rapports de vraisemblance
Exercice N°39 – Baisser le filet pour mieux jouer ?
Exercice N°42 – Ne pas se tromper de casting
Exercice N°44 – Les petites zones d’ombre font les gros doutes
Exercice N°45 – Ne pas prendre des vessies pour des lanternes

Echantillonnage : processus de sélection d’objets ou d’individus à étudier, à partir d’une population plus importante. Le sous-ensemble d’objets ou d’individus constitue l’échantillon .

Echantillon : sous-ensemble de la population étudiée. Le choix des unités qui constituent le sous-ensemble peut être effectué par différentes méthodes (échantillonnage). On utilise des échantillons parce qu’une étude approfondie de toute la population serait impossible, trop longue et trop chère pour le niveau de précision exigé .

Ainsi, à partir d’une population source, on va sélectionner un échantillon de sujets respectant différents critères.

A. Le principe de la fluctuation d’échantillonnage

Si l’on effectue plusieurs échantillonnages de même taille sur une même population, on obtiendra en général des fréquences légèrement différentes pour un caractère donné. Ce phénomène s’appelle fluctuation d’échantillonnage. Ces valeurs se situent dans un intervalle appelé Intervalle de fluctuation, souvent fixé à 95%.
Ces fluctuations diminuent lorsque la taille de l’échantillon augmente.
Pour les matheux, cet intervalle est déterminé grâce au théorème central limite qui établit la convergence en loi de la somme d’une suite de variables aléatoires vers la loi normale. Intuitivement, ce résultat affirme que toute somme de variables aléatoires indépendantes et identiquement distribuées tend vers une variable aléatoire gaussienne.
Le test statistique permet de déterminer si les résultats observés sont attribuables aux seules fluctuations d’échantillonnage ou s’ils sont réels.

Ex : Quand on entend comme résultat d’un sondage :

Il y a actuellement 52 % de gens qui voteraient pour M. X au deuxième tour d’une élection (sondage effectué auprès de 948 personnes),

il faut comprendre : Il y a 95 % de chance pour que l’intervalle [49 % ; 55 %] contienne le pourcentage de gens prêts à voter pour M. X au deuxième tour de cette élection. Pour un sondage auprès de 1000 personnes, l’intervalle est déterminé à plus ou moins 3 points.

B. Modalités de sélection des sujets

Exercices

Cliquez pour afficher

Exercice N°1 – À la recherche du critère pertinent… pour les patients
Exercice N°4 – Distinguer évaluation de l’efficacité et évaluation de l’utilité
Exercice N°9 – Ne pas confondre observer et expérimenter
Exercice N°11 – Critère intermédiaire versus effets indésirables
Exercice N°15 – Oeufs brouillés
Exercice N°20 – Ça dépend du contexte
Exercice N°23 – Savoir être subjectif
Exercice N°26 – Primum non nocere
Exercice N°30 – Peut mieux faire
Exercice N°39 – Baisser le filet pour mieux jouer ?
Exercice n°40 – Un million en quatre semaines
Exercice N°42 – Ne pas se tromper de casting
Exercice N°44 – Les petites zones d’ombre font les gros doutes
Exercice N°45 – Ne pas prendre des vessies pour des lanternes

Pour effectuer l’échantillonnage, on va se poser quelques questions sur les caractéristiques de la population qu’on cherche à sélectionner :

Caractéristiques :
- Qui : malade, sains, volontaire…
- Où :
  - Type de structure : Ville/hôpital/CHU
  - Nombre de centres : mono/multicentrique
  - Pays, système de santé.
- Quand : date de début et de fin
- Comment : liste électorale, publicité…
- Méthode d’échantillonnage
- Qualité du sélectionneur : personnel médical, paramédical, laboratoire…

Critères d’inclusion : ensemble de critères qui définissent de façon précise les caractéristiques des sujets qui peuvent entrer dans une étude :
- Sociodémographique : âge, sexe, ethnie…
- Géographique : origine, habitat, hospitalisation…
- Pathologie : stade, forme clinique, traitement…
- Comorbidité, FdR…

Critères d’exclusion (ou de non inclusion) : ensemble des critères faisant que les sujets ne peuvent pas être inclus dans une étude ou un essai. Ils appartiennent à 3 classes :
- Raison de prudence: prévention d’événements indésirables
  - Contre indication à l’intervention. Ex : opération chirurgicale.
  - Contre indication à une exploration nécessaire au critère de jugement. Ex : biopsie, fibroscopie.
- Difficulté potentielle d’évaluation des critères de jugement à cause d’un facteur de confusion :
  - Traitement interférant. Ex : AVK
  - Maladie intercurrente. Ex : insuffisance rénale aiguë
- Difficulté potentielle de suivi augmentant le risque de perdus de vue
  - Pathologie associée prioritaire sur les soins. Ex : cancer vs pathologie bénigne.
  - Motivation insuffisante
  - Mauvais observance ou risque d’abandon. Ex : toxicomanie, trouble psychiatrique

C. Méthodes d’échantillonnage

Aléatoire (probabiliste) :

Simple (élémentaire) : on tire au sort, successivement, « n » sujets à partir de la base d’un sondage. Chaque sujet a la même chance d’être inclus dans l’échantillon.
- Méthode : on numérote tous les sujets, on utilise une table de nombres aléatoire (informatique ou pas), on sélectionne le sujet correspondant au nombre tiré.
- Avantage : simple, méthode de référence, échantillon représentatif car probabilité de sélection identique.
- Inconvénient : risque de biais car échantillonnage « sans remise ». Plus on tire de sujets, moins il en restera dans la base donc plus la probabilité d’être tiré au sort augmente. Ce biais devient négligeable sur une grande population ou si on fait une remise.
- Ex : application avec Excel
  - Première colonne : identifie avec un nombre chaque individu de la liste de référence.
  - Deuxième colonne : =alea()
  - Recopier les deux colonnes en valeur à la même place.
  - Trier les deux colonnes en fonction de l’ordre croissant (ou décroissant) de la deuxième colonne.
  - Retenir les n premiers individus dans la colonne 1
Systématique (par intervalle): il existe un intervalle, un écart entre chaque sujet (classement de la population dans un ordre non numérique).
- Méthode :
  - Numéroter de 1 à N les sujets dans la base de sondage (N : taille totale de la population). Ex : Vous avez N = 400 sujets dans votre base.
  - Déterminer l’intervalle d’échantillonnage K (pas de sondage) en divisant le nombre de sujets (N) par la taille de l’échantillon. Ex : On choisit 100 sujets sur la base de 400 donc K = 400/100 = 4.
  - Choisir le 1^er sujet à inclure dans l’échantillon (nombre entre 1 et K). Ex : on choisit d’inclure à partir du 2^ème sujet, ce sera le 1^er sujet de notre échantillon.
  - On inclus chaque K^ème sujet après le premier sujet inclus. Ex : On a choisi le 2^ème puis le 6^ème, puis 10^ème…
- Avantage :
  - Facile à sélectionner : 1 seul individu est choisi au hasard (le 1^er)
  - Précis : répartition de l’échantillon sur l’ensemble de la population
- Inconvénient : risque de biais si les sujets sont répartis dans un ordre non aléatoire dans la population ou si une caractéristique revient à la même périodicité.
  - Ex : les noms à particule (« de ») correspondent à une certaine classe sociale.
Stratifiée : on divise la population en groupes homogènes (strates), qui sont mutuellement exclusifs, puis on sélectionne à partir de chaque strate des échantillons indépendants. On peut utiliser n’importe quelle méthode d’échantillonnage pour sélectionner l’échantillon dans chaque strate.
- Avantage :
  - Il nous assure d’obtenir une taille d’échantillon suffisante pour réaliser des analyses en sous-groupe dans chaque strate.
  - Peu probable de choisir un échantillon inadapté car on s’assure de la présence proportionnelle des sous-groupes de la population.
- Inconvénient :
  - Il faut connaître la liste de la population
  - Il faut connaître comment la population se répartit dans certaines strates.
- Ex : On sépare la population en fonction du BMI : normal, surpoids, obésité. On va ensuite sélectionner nos échantillons dans chaque strate.
En grappe : on divise la population en sous-groupes (ou grappes), puis on sélectionne aléatoirement des groupes de sujets plutôt que les sujets eux-mêmes.
- Avantage :
  - Limite l’échantillon à des groupes permettant de diminuer les coûts (déplacement, suivi, supervision).
  - Pas besoin de liste globale de la population, la liste des groupes suffit.
- Inconvénient :
  - Perte de précision des résultats car les sujets ont tendance à se ressembler dans un sous-groupe.
  - Pas de contrôle de la taille finale de l’échantillon.
A plusieurs degrés (partitionné): ressemble à l’échantillonnage par grappe sauf qu’ici on prélève un échantillon à partir de la grappe. On a au moins 2 degrés car le 1^er correspond à la grappe et le 2^ème à la sous unité.
- Avantage :
  - Réduit les coûts et pas besoin de disposer de la liste complète.
  - Permet de contrôler la taille de l’échantillon, notamment par stratification.
- Inconvénient : perte de précision.
  - Ex : Niveau 1 : ville, niveau 2 : établissement de santé, niveau 3 : médecin.

Empirique (non probabiliste) :

Cette méthode ne nécessite pas de base de sondage. Peu fiable, elle n’inclut pas le concept de probabilité égale d’être inclus parmi les sujets de la population.

Avantage :
- Pas besoin de base de sondage
- Facile et peu onéreuse
Inconvénient :
- Beaucoup de non réponse (perte de représentativité)
- Nombreux biais
Intérêt : pour les études exploratoires, lorsqu’on ne peut pas utiliser de méthode probabiliste.
Méthodes :
- A l’aveuglette (ou de commodité). Ex : dégustation de vin.
- Volontaire. Ex : expérience médicale.
- Au jugé. Sélection des sujets en fonction de l’idée qu’on se fait de la population, afin d’obtenir des groupes ciblés.
- Par quotas (dirigé, par choix raisonné). Surtout utilisé pour les enquêtes d’opinion ou les études de marché, les enquêteurs inclus les sujets en s’assurant d’avoir respecté certains quotas. Ex : âge, sexe, niveau socio-économique…

Cas particulier : l’appariement dans les études cas-témoins

Afin de limiter, a priori, de potentiels facteurs de confusion, on peut apparier les cas et les témoins :

Définition : méthode consistant à sélectionner des paires de sujet (cas + témoin) qui sont comparables sur certains facteurs (souvent l’âge et le sexe).
Méthode :
- Equilibré : 1 cas pour 1 témoin, le plus souvent
- Déséquilibré : 1 cas pour 2…4 témoins
Intérêt :
- Diminue le nombre de potentiels facteurs de confusions
- Si déséquilibré : augmente la puissance en diminuant la fluctuation d’échantillonnage
Limite :
- Le nombre de facteurs d’appariement est limité
- Le nombre de témoins par cas est limité (à 3 voir 4) car le gain de puissance perd son intérêt au-delà.

D. Déterminer la taille de l’échantillon : le NSN

Avant d’inclure les sujets dans l’étude, il faut estimer le nombre de sujets nécessaires (NSN) pour avoir la puissance (déterminée a priori) suffisante afin de répondre à l’objectif de l’étude (et rejeter l’hypothèse nulle H0). On veut savoir combien de sujets doivent être inclus dans chaque bras.

Si vous ne comprenez rien à tous ces symboles et ces notions statistiques, reportez vous au chapitre sur les tests statistiques.

1. Quelles données sont nécessaires ?

Pouvoir séparateur entre 2 groupe : la puissance P
- La puissance d’un test statistique correspond à la capacité à montrer un effet lorsqu’il existe.
- Généralement ≥ 80 %
Pour un effet donné :
- C’est la différence minimale d’intérêt entre les 2 groupes (critère de jugement principal). Son choix est important, difficile et dépendant du problème étudié. C’est souvent une caractéristique clinique ou biologique. Elle est donnée par la littérature ou une étude préliminaire.
- Cet effet est différent en fonction du type d’étude :
  - Pour une comparaison de moyennes, on a besoin de :
    - La différence Δ entre les moyennes des 2 groupes
    - La variance estimée s²: c’est la variabilité de l’ensemble du critère de jugement principal
  - Pour une comparaison de pourcentages :
    - Pourcentages de succès dans chaque groupe étudié.
  - Pour une étude cas témoin ou en cross-over:
    - L’Odds-Ration minimal détectable
    - La proportion attendue de témoins exposés
    - Le nombre de témoins par cas
Avec un risque d’erreur fixé α et la nature du test
- Le risque α est le risque de conclure à une différence alors qu’il n’y en a pas
- La nature du test correspond à son caractère unilatéral ou bilatéral

NB : le nombre de sujet final tient aussi compte du nombre de perdus de vue attendu, max 5-10%

2. Comment le calculer ?

Le plus simple est de passer par BiostatTGV ou par un logiciel statistique.

Le site internet permet de calculer le NSN gratuitement pour comparer :

2 moyennes
2 proportions
les études cas-témoins
les études en cross over

Le calcul du NSN dépend de 2 formules en fonction de ce qu’on compare 2 moyennes ou 2 pourcentages .

Calcul du NSN pour comparer de 2 variables qualitatives (pourcentage) ou 2 quantitatives (moyenne)

Pour déterminer z :
- Si α = 5 % ; z_α/2= 1.96 (loi Normale) si bilatéral, sinon z_α en unilatéral
- Si β = 20 % ; = -0.842 (loi Normale)

Ces valeurs sont valables à condition que la variable suive une distribution normale ou que le nombre de sujet soit > 30 (approximation d’une loi normale)

Ainsi le NSN augmente si :
- α et β sont petit
- Δ est grand
- σ ou s² est grand

	Abréviation	Synonyme	Valeur par défaut (%)	Définition
Risque alpha	α	Risque de 1ère espèce	5	Probabilité de conclure à une différence alors qu’il n’y en a pas
Risque Beta	β	Risque de 2ème espèce	5 – 20	Probabilité de ne pas conclure à une différence alors qu’il y en a
Puissance	P		P = 1 – β = [80 – 95 %]	Probabilité à conclure à une différence alors qu’il y en a

IV. Les critères de jugement

Définition : variable observée et/ou mesurée dont l’interprétation va permettre de répondre à la question posée dans l’objectif.

Il peut être primaire ou secondaire, en fonction s’il permet de répondre à l’objectif principal ou aux objectifs secondaires

En anglais : primary/secondary endpoint, main endpoint

Critères de qualité

Simple
Précis
Objectif
Consensuel
Validé de préférence par des publications (définitions internationales)
Reproductible
Pertinent cliniquement
Adapté à la question donnée
Unique
Défini a priori dans le protocole et ne changeant pas au cours de l’étude
Modalités de mesure:
- par du personnel qualifié et formé
- en double aveugle (par 2 évaluateurs indépendants)
- centralisée
- validé par un comité d’adjudication indépendant (comité d’experts cliniques dans le domaine médical concerné dont le but est d’harmoniser et de standardiser l’évaluation des critères de jugement)
- à un moment d’intérêt précis
- Standardisé

Pertinence

Les critères de jugement doivent être pertinent cliniquement.

Les principaux critères pertinents sont :

Mortalité
Evènement clinique (AVC, IDM, infection) ou morbidité
Douleur
Qualité de vie
Incapacité ou handicap

On l’oppose aux critères intermédiaires :

Définition : critère reflétant d’un mécanisme biologique, radiologique, physiopathologique ou pharmacologique. Il n’est pas directement lié à l’objectif du traitement.

Synonyme : critère de substitution

Anglais : surrogate

Subjectivité et objectivité du CdJ

Un critère de jugement est dit objectif si son évaluation est incontestable, et si son interprétation sera identique en fonction de la personne qui l’évalue.

Il s’agit principalement de la mortalité toute cause et de critères biologiques.

Différents critères

Critère clinique: permet le reflet direct de l’objectif du traitement étudié
- Ex : mortalité…

Critère intermédiaire:
- Inconvénient :
  - Moins pertinent (Ex : HbA1c pour complications du diabète…)
  - Pas toujours corrélés avec la mortalité ou l’événement clinique (ex : troponine élevée dans l’IDM mais aussi dans la myocardite)
- Intérêt :
  - Utilisé à la place d’un critère clinique lorsque ce dernier n’est pas utilisable.
- Conditions d’utilisation :
  - Relation avec le CdJP établie et indiscutable
  - Fiable, reproductible
  - Sensible, spécifique
  - Défini a priori

Critère composite :
- Déf : combinaison de plusieurs critères en un seul.
- Avantages :
  - Augmente le nombre d’évènements et donc la puissance statistique
  - Correspond à la situation clinique réelle (ex: IDM, revascularisation…)
  - Permet de prendre en compte l’ensemble des événements importants (notamment lorsqu’on évalue le bénéfice-risque)
  - Permet de regrouper des facteurs d’efficacité et de tolérance
  - Donne une vision globale
- Inconvénients
  - Regroupe des évènements de gravité différente (ex: TVP et EP), rendant difficile l’interprétation.
  - Sous–estime la gravité d’une suite d’évènement (ex: TVP puis EP)
  - Difficile à interpréter, si le résultat est significatif sur le critère composite, cela ne signifie pas que chaque sous-critère est significatif.
- Vérifier qu’il est cliniquement pertinent
  - Regarder si la gravité des sous-critères est globalement comparable
  - Si « décès » inclus, il faut des complications graves (mais ça reste valable)

Critère « décès toute cause » :
- Déf : sous-type de critère composite incluant les décès, peu importe l’étiologie.
- Avantages : toujours préférable à décès « spécifique » car
  - évite le biais de classement car difficulté à diagnostiquer une cause précise de décès
  - prend en compte les décès non spécifiques mais liés au traitement (ex: accident de la voie publique à cause de la somnolence)
  - ne diminue pas la probabilité de montrer une différence car randomisation
  - Critère « dur »

Gold standard:
- Déf : test diagnostique qu’on utilise comme référence (même si aucun test n’est parfait). Dans une démarche diagnostique, c’est l’examen que l’on considère comme donnant la meilleure certitude diagnostique.
- Critères de qualité :
  - méthode de référence en l’absence d’examen diagnostic de référence.
  - Il est évalué en aveugle du résultat du test étudié et vice versa
  - Il n’inclut pas le test étudié. Le test ne doit pas influencer le gold standard.

En recherche qualitative

En cours de rédaction…

Administratif :