I. Les bases de l’analyse statistique

A. Probabilité et statistique

1. Variable aléatoire

Une variable aléatoire correspond à l’ensemble des résultats possible d’une expérience aléatoire. En gros c’est “quelque chose dont il est impossible de prévoir le résultat en avance”

Ex : la variable aléatoire « sexe » pourra prendre pour valeur « homme » ou « femme », la variable aléatoire « poids » pourra prendre pour valeur tout nombre entier > 0

 

On distingue quelques grandes catégories de variables aléatoires :

  • Toute grandeur physique qui peut être mesurée. Ex : taille, poids, dosage…
  • Tout ce qui peut être chronométré. Ex : durée d’une consultation, délais d’apparition d’un événement…
  • Tout ce qui peut être compté. Ex : nombre d’escarre, nombre de récidive…
  • Toute proportion (pourcentage) résultant d’un comptage d’individus. Ex : taux de mortalité, taux de patient en ALD…
  • Tout critère qualitatif qui peut être hiérarchisé. Ex : petit, moyen, grand …

2. Loi normale

La loi normale est une loi continue dont la densité de probabilité est définie par :

formule normale

Voilà qui nous fait une belle jambe !

Pour info, la densité de probabilité correspond à la probabilité d’observer un événement donné. Par ex: si on regarde la taille de la population française et que sa distribution suit une loi normale, cette fonction nous permettra de prédire la proportion de sujets ayant une taille précise.

En regardant d’un peu plus près l’équation, on remarque cette fonction f(x) dépend de 2 variables : s et µ (on en reparlera juste après).

Mais regardons sa représentation graphique :

667px-Gauss_reduite

Et là, miracle ! On reconnaît cette forme. On l’appelle la courbe de Gauss ou la courbe en cloche.

 

Mais à quoi ça sert ?

Le miracle de la nature veut que lorsqu’on réalise une expérience aléatoire, la probabilité d’obtenir une certaine valeur suit une loi de probabilité normale.

gauss taillePar exemple : si on mesure la taille de toute la population française, on va se rendre compte que la distribution de probabilité (probabilité de faire une certaine taille) ressemble à une courbe de Gauss.

Ainsi, on observe que la plupart de la population mesure entre 160 et 180 cm, à peu près 170 cm en moyenne. On peut approximer que la distribution de la taille dans la population française suit une loi normale.

On pourra approximer la distribution par une fonction f(x) ayant comme paramètres :

  • µ : appelé moyenne, c’est un indice de position.
  • : appelé l’écart type, c’est un indice de dispersion.

 

Dans l’exemple suivant, on observe différentes courbes de Gauss en faisant varier les paramètres :

Normal_Distribution_PDF

Il est important de comprendre rapidement le principe de la courbe de Gauss et de la loi normale. On s’en servira plus tard, lorsqu’on voudra réaliser des tests statistiques.

Pour information, je vous mets aussi la représentation graphique de sa fonction de répartition :

Normal_Distribution_CDF

La fonction de répartition correspond à la distribution des probabilités cumulées. Elle permet de déterminer la probabilité d’observer un intervalle de probabilité.

En reprenant l’exemple de la taille, cette fonction nous permettra de prédire la proportion de sujets ayant taille comprise entre 2 valeurs ou une taille inférieur à un seuil. 

3. L’estimation

On ne recueille des données que dans un échantillon d’une population. Techniquement, on ne peut pas récupérer les données dans une population entière.

A partir de ces données, on va définir certaines variables dont la distribution sera une estimation de la distribution de la variable dans la population entière.

 

Estimer correspond à mesurer une variable aléatoire et la définir selon 3 paramètres :

  • Position : ordre de grandeur
  • Dispersion : variabilité
  • Liaison : force de liaison avec une autre variable
  • (Intervalle de confiance : intervalle dans lequel la mesure a une certaine probabilité de se trouver. Elle se calcule à partir de la position et la dispersion.)

B. Les catégories de variables

La connaissance des principaux types de variables est indispensable pour faire des analyses statistiques.

Variables aléatoire : entité qui peut prendre toutes les valeurs d’un ensemble de définition donné, dont la valeur est soumise au hasard.

  • Qualitative (catégorielle) : grandeurs non numériques
    • Ordonnée : elles s’expriment en classes qui peuvent être ordonnées selon une échelle de valeurs. Ex : score de gravité léger, moyen, sévère.
    • Nominales : variables dont les classes ne peuvent être hiérarchisées. Ex : groupe sanguin.
      • Cas particulier : binaire : variable ne pouvant prendre que 2 résultats possibles. Ex : sexe.
  • Quantitative : on peut faire la somme ou la différence de plusieurs résultats.
    • Discrète (discontinue) : variable qui ne peut prendre qu’une suite discontinue (finie ou infinie) de valeurs, donnant un faible nombre de résultats. Ex : Nombre de rechutes d’une maladie par an, parité.
    • Continue : variable peut prendre toutes les valeurs d’un intervalle fini ou infini. Ex : poids.
  • Censurée : variable évoluant avec le temps dont la mesure peut manquer au moment de l’analyse. On les retrouve surtout dans les analyses de survie concernant les « exclus-vivants » et les « perdus de vue » dont on ne connaît pas l’état au moment de la mesure.

 

Exercice Prescrire : B.A.-BA n°1 : « Prévalence, incidence, risque absolu »

C. Les analyses descriptives, univariées et multivariées

On distingue plusieurs type d’analyse pour décrire les données :

  • les analyses descriptives visent à décrire un ensemble de données à l’aide d’un indice de position (ex : moyenne) et de dispersion (ex : variance)
  • les analyses univariées et multivariées cherchent à quantifier l’association brute entre une variable à expliquer (réponse) et une variable explicative (facteur).
    • Soit on ne prend pas en compte d’autres facteurs, on parle d’analyse univariée.
    • Soit on prend en compte d’autres facteurs pour étudier l’association qui sera ajustée (et non pas brut), on parle d’analyse multivariée.

1. Descriptive

a. Mesures de position

Définition : indice donnant l’ordre de grandeur d’une variable.

Synonyme : indice de localisation

  • Moyenne : moyenne arithmétique, somme des valeurs divisée par le nombre d’observations.
  • Médiane : valeur qui permet de séparer l’ensemble des valeurs en 2.
  • Quartile, décile, percentile : valeurs qui partagent les données en 4, 10 ou 100 groupes égaux.
  • Mode : valeur de donnée la plus fréquente dans l’échantillon.
  • Fréquence relative : fréquence d’une valeur ou d’un intervalle de classe observé dans un ensemble de données et calculé en divisant la fréquence par le nombre d’observations.

b. Mesures de dispersion

  • Variance : moyenne des carrés des écarts à la moyenne de chaque valeur mesurée. Elle résume l’ensemble des écarts entre la moyenne et les valeurs mesurées.
  • Ecart-type : racine carré de la variance. Dans les articles, les auteurs indiquent l’écart-type plutôt que la variance.
  • Coefficient de variation : mesure relative de la dispersion autour de la moyenne, permettant de comparer le degré de variation d’un échantillon à un autre, même si les moyennes sont différentes.
  • Extrême : valeurs maximales et minimales observées.
  • Etendue : différence entre les 2 valeurs extrêmes.
  • Intervalle interquartile : différence entre le 1er et 3ème
  • Intervalle semi-interquartile : moitié de l’intervalle interquartile, il est utilisé pour les variables ordonnées ou lorsque que la distribution est asymétrique.

 

Quel indice utiliser ?

On regarde la distribution de la variable.

  • Soit elle est normale : on peut ainsi estimer sa distribution par des paramètres à savoir la moyenne et la variance (et l’écart-type).
  • Soit elle est non normale ou asymétrique : on estime sa distribution par les quartiles (dont la médiane) et l’étendue.
  • Dans le cas de variable censurée : une durée de survie est considérée comme une variable quantitative continue. En théorie, on pourrait en extraire les paramètres de position et de dispersion habituelle. Néanmoins, le caractère généralement asymétrique des distributions de survie incite à utiliser des paramètres plus robustes tels que la médiane et quartile plutôt que la moyenne et l’écart type.

d. Intervalle de confiance

En cours de rédaction

2. Univariée

Les analyses univariées cherchent à quantifier l’association brute entre une variable à expliquer (réponse) et une variable explicative (facteur), sans prendre en compte d’autre facteur.

a. Principaux tests statistique pour comparer 2 variables :

Le choix du test statistique sera fonction du type de variable :

  • Si on compare 2 variable qualitatives : test du Chi2 ou de Fisher
  • Si on compare 1 variable quantitative et 1 qualitative :
    • Soit on a 2 groupes : test de Student ou de Mann-Whitney
    • Soit on a > 2 groupes : ANOVA (analyse de covariance) ou test de Kruskal-Wallis

b. Mesures de liaison entre 2 variables : dépendance et concordance

J’ai tenté de résumer les principales mesures de liaison en fonction de la nature des variables.

Elles seront traitées en détails dans le chapitre suivant « Analyse bivariée »

Univariée Multivariée
Variable Dépendance Dépendance monotone Concordance
1 qualitative + 1 qualitative : RR et OR +1 qualitative : Spearman +1 qualitative : Kappa

+ 1 qualitative si binaires : Sp, Sn, VPP, VPN, RV, ROC

Si binaire + quanti : régression linéaire
1 quantitative +1 quantitative : Pearson +1 quantitative : coefficient intraclasse + quanti : régression logistique
Censurée +1 qualitative binaire : HR
  • Paramètre de dépendance : 2 variables sont dépendantes si une mesure issue de la première donne a priori une information sur la mesure à venir de la seconde. Ce paramètre va dépendre du type de variable :
    • 2 variables quantitatives :
      • il n’existe aucun paramètre.
    • 2 variables qualitatives :
      • Coefficient φ
      • Cas particulier des variables binaires :
      • Censurée (1 variable censurée + 1 variable qualitative binaire) :

 

  • Paramètre de dépendance monotone : 2 variables sont dépendantes de façon monotone quand la 2ème est d’autant plus élevée que la 1ère l’est. Ex : poids et taille.
    • 2 variables quantitatives :
      • Coefficient de corrélation de Pearson (r)
      • Pourcentage de variance partagée (r2)
    • 2 variables qualitatives :
      • Coefficient de corrélation des rangs de Spearman (rs)

 

3. Multivariée

Les analyses multivariées cherchent à quantifier l’association entre une variable à expliquer (réponse) et une variable explicative (facteur), en l’ajustant en fonction d’autres facteurs.

Les principales méthodes sont les suivantes :

  • Modélisation linéaire :
    • Régression linéaire simple : 1 variable quanti vs 1 quanti
    • Régression linéaire multiple : 1 variable quanti vs >1 quanti
    • ANOVA (Analyse de variance) : > 2 quanti normales vs 1 quali
    • ANCOVA (Analyse de covariance) : idem ANOVA avec au moins 1 quanti continue
  • Modélisation non linéaire (logistique…)
  • Analyse de données multidimensionnelles :
    • ACP (Analyses en Composantes Principales) : variables quanti
    • AFC (Analyse Factorielle des Correspondances) : variables quali
    • ACM (Analyse des Correspondances Multiples) : variables quali

 


1.
Matayong S, Jetwanna KW, Choksuchat C, Choosawang S, Trakulmaykee N, Limsuwan S, et al. IoT-based systems and applications for elderly healthcare: a systematic review. Univ Access Inf Soc [Internet]. 2023 Nov 2 [cited 2024 Oct 8]; Available from: https://doi.org/10.1007/s10209-023-01055-1
1.
Ferrara M, Bertozzi G, Di Fazio N, Aquila I, Di Fazio A, Maiese A, et al. Risk Management and Patient Safety in the Artificial Intelligence Era: A Systematic Review. Healthcare [Internet]. 2024 Jan [cited 2024 Oct 8];12(5):549. Available from: https://www.mdpi.com/2227-9032/12/5/549
1.
Kumar Y, Koul A, Singla R, Ijaz MF. Artificial intelligence in disease diagnosis: a systematic literature review, synthesizing framework and future research agenda. J Ambient Intell Human Comput [Internet]. 2023 Jul 1 [cited 2024 Oct 8];14(7):8459–86. Available from: https://doi.org/10.1007/s12652-021-03612-z
1.
rédaction L. Le numérique en santé au service du “Bien Vieillir” : enjeux et perspectives [Internet]. Repères en Gériatrie. 2023 [cited 2024 Oct 8]. Available from: https://geriatries.fr/le-numerique-en-sante-au-service-du-bien-vieillir-enjeux-et-perspectives/
1.
CKD Early Identification & Intervention Toolkit [Internet]. International Society of Nephrology. [cited 2023 Nov 24]. Available from: https://www.theisn.org/initiatives/toolkits/ckd-early-screening-intervention/
1.
Glenn JK, Goldman J. Task delegation to physician extenders--some comparisons. Am J Public Health. 1976 Jan;66(1):64–6.
1.
Heerspink HJL, Stefánsson BV, Correa-Rotter R, Chertow GM, Greene T, Hou FF, et al. Dapagliflozin in Patients with Chronic Kidney Disease. N Engl J Med [Internet]. 2020 Oct 8 [cited 2023 Nov 21];383(15):1436–46. Available from: https://doi.org/10.1056/NEJMoa2024816
1.
Heerspink HJL, Stefánsson BV, Correa-Rotter R, Chertow GM, Greene T, Hou FF, et al. Dapagliflozin in Patients with Chronic Kidney Disease. N Engl J Med [Internet]. 2020 Oct 8 [cited 2023 Nov 21];383(15):1436–46. Available from: https://doi.org/10.1056/NEJMoa2024816
1.
Namli Altintas İ, Kozaner Yenigül Ç. Active learning education in Museum. IJERE [Internet]. 2020 Mar 1 [cited 2021 Jan 5];9(1):120. Available from: http://ijere.iaescore.com/index.php/IJERE/article/view/20380
1.
Frappé P, Druais PL, Petersen W, Association française des jeunes chercheurs en médecine générale (Lyon). Initiation à la recherche. 2018.
1.
Becker J. Active Allyship. Public Services Quarterly. 2017 0;13(1):27–31.
1.
Bucher S, Maury A, Rosso J, de Chanaud N, Bloy G, Pendola-Luchel I, et al. Time and feasibility of prevention in primary care. Fam Pract. 2017;34(1):49–56.
1.
Le Lous M, De Chanaud N, Bourret A, Senat MV, Colmant C, Jaury P, et al. Improving the quality of transvaginal ultrasound scan by simulation training for general practice residents. Adv Simul (Lond). 2017;2:24.
1.
Le Lous M, De Chanaud N, Bourret A, Senat MV, Colmant C, Jaury P, et al. Improving the quality of transvaginal ultrasound scan by simulation training for general practice residents. Advances in Simulation [Internet]. 2017 Nov 21 [cited 2018 Mar 10];2:24. Available from: https://doi.org/10.1186/s41077-017-0056-z
1.
de Chanaud N, Boukari L, Gérin M, Mekinian A, Fain O. [Typhoid fever. Sore throat, macrophage activation syndrome and glomerulonephritis]. Rev Prat. 2012 Oct;62(8):1056.
1.
de Chanaud N, Sidrokiewitcz S. Comparaison de l’efficacité d’une évaluation gériatrique en soins primaires réalisée par une infirmière ou un médecin généraliste. D’après une communication de : Ferrat E, Attali C, Audureau E. Exercer. 2017;132:160–1.
1.
Neuman MD, Goldstein JN, Cirullo MA, Schwartz JS. Durability of class I American College of Cardiology/American Heart Association clinical practice guideline recommendations. JAMA. 2014 May;311(20):2092–100.
1.
Bucher S, Maury A, Rosso J, de Chanaud N, Bloy G, Pendola-Luchel I, et al. Time and feasibility of prevention in primary care. Fam Pract. 2017 Feb;34(1):49–56.
1.
Alderson LJH, Alderson P, Tan T. Median life span of a cohort of National Institute for Health and Care Excellence clinical guidelines was about 60 months. J Clin Epidemiol. 2014 Jan;67(1):52–5.
1.
Haute Autorité de Santé. Guide Saed : " ça aide à communiquer " [Internet]. 2014 [cited 2017 Mar 23]. Available from: http://www.has-sante.fr/portail/upload/docs/application/pdf/2014-11/saed_guide_complet_2014-11-21_15-41-2_64.pdf
1.
Makary MA, Daniel M. Medical error—the third leading cause of death in the US. BMJ [Internet]. 2016 May 3 [cited 2017 Mar 23];i2139. Available from: http://www.bmj.com/lookup/doi/10.1136/bmj.i2139
1.
Makary MA, Daniel M. Medical error—the third leading cause of death in the US. BMJ [Internet]. 2016 May 3 [cited 2017 Mar 23];353:i2139. Available from: http://www.bmj.com/content/353/bmj.i2139
1.
Michel P, Quenon JL, Djihoud A. Les événements indésirables graves liés au soins observés dans les établissements de santé : premiers résultats d’une étude nationale. Etudes et Résultats [Internet]. 2005 [cited 2017 Mar 23];(398). Available from: http://social-sante.gouv.fr/IMG/pdf/ENEIS_1.pdf
1.
Chaleix M, IZOTTE-KRET M, Régine BS, QUENON JL, OLIER L. Les événements indésirables graves associés aux soins observés dans les établissements de santé - Résultat des enquêtes nationales menées en 2009 et 2004. Solidarité Santé [Internet]. 2010 [cited 2017 Mar 23];(17). Available from: http://www.guidedesdemarches.com/DOCS/DOC123.pdf
1.
Stewart M. Towards a global definition of patient centred care. BMJ [Internet]. 2001 Feb 24 [cited 2017 Jan 5];322(7284):444–5. Available from: http://www.bmj.com/content/322/7284/444
1.
Minerva Website [Internet]. 2017 [cited 2017 Jan 5]. Critères composites : interprétation clinique. Available from: http://www.minerva-ebm.be/fr/article/410
1.
Jegu J, Braun M, Pelaccia T. Quelle est la motivation des étudiants en médecine pour l’apprentissage de la lecture critique d’article ? Pédagogie Médicale [Internet]. 2014 [cited 2017 Jan 5];15(4):259–67. Available from: http://www.pedagogie-medicale.org/10.1051/pmed/2014019
1.
Association pédagogique nationale pour l’enseignement de la thérapeutique (France), Durocher A. LCA-UE 12: formation générale à la recherche : iECN 2016, 2017, 2018 : cours + entraînement. Paris: Med-Line éditions; 2015.
1.
Mayer B, Ring C, Muche R, Rothenbacher D, Schmidt-Straßburger U. Creating a blended learning module in an online master study programme in oncology. Educ Health [Internet]. 2015 Jan 1;28(1):101–5. Available from: http://www.educationforhealth.net/article.asp?issn=1357-6283;year=2015;volume=28;issue=1;spage=101;epage=105;aulast=Mayer
1.
Moak JH, Larese SR, Riordan JP, Sudhir A, Yan G. Training in transvaginal sonography using pelvic ultrasound simulators versus live models: a randomized controlled trial. Acad Med. 2014 Jul;89(7):1063–8.
1.
Dorton LH, Lintzenich CR, Evans AK. Simulation model for tracheotomy education for primary health-care providers. Ann Otol Rhinol Laryngol. 2014 Jan;123(1):11–8.
1.
Sukalich S, Elliott JO, Ruffner G. Teaching medical error disclosure to residents using patient-centered simulation training. Acad Med. 2014 Jan;89(1):136–43.
1.
Prislin MD, Fitzpatrick CF, Lie D, Giglio M, Radecki S, Lewis E. Use of an objective structured clinical examination in evaluating student performance. Fam Med. 1998 May;30(5):338–44.
1.
Harris JM, Sun H. A randomized trial of two e-learning strategies for teaching substance abuse management skills to physicians. Acad Med. 2013 Sep;88(9):1357–62.
1.
Brown RS, Graham CL, Richeson N, Wu J, McDermott S. Evaluation of medical student performance on objective structured clinical exams with standardized patients with and without disabilities. Acad Med. 2010 Nov;85(11):1766–71.
1.
Fovet-Rabot. Coopérer en information scientifique et technique. 2016 [cited 2016 Nov 8]. Eviter  les  éditeurs  prédateurs  (predatory publishers), en 4 points. Available from: http://coop-ist.cirad.fr/content/download/5719/42223/version/1/file/CoopIST-editeurs-predateurs20150601.pdf
1.
Bertignac C, Fouquet J, Marie E. La bibliométrie [Internet]. Form@doct. 2016 [cited 2016 Nov 8]. Available from: http://guides-formadoct.ueb.eu/bibliometrie
1.
Catherine Bertignac JF. Formadoct. La bibliométrie. Introduction. [Internet]. 2016 [cited 2016 Nov 8]. Available from: http://guides-formadoct.ueb.eu/bibliometrie
1.
BIUSanté. 8 questions sur SIGAPS et SAMPRA [Internet]. Le blog actualités de la BIU Santé. 2016 [cited 2016 Nov 8]. Available from: http://www2.biusante.parisdescartes.fr/wordpress/index.php/sigaps-sampra/
1.
Maisonneuve H. Rédaction Médicale et Scientifique. 2016 [cited 2016 Nov 8]. Que penser de Penelope ? C’est un site pour identifier les erreurs dans les manuscrits.... bonne idée, mais utile ? Available from: http://www.h2mw.eu/redactionmedicale/2015/11/que-penser-de-penelope-un-site-pour-identifier-les-erreurs-dans-les-manuscrits.html
1.
Coulon JP, Piette E. Aphtes banals, aphtose buccale récidivante et maladie de Behçet. https://www-em--premium-com.frodon-biusante.parisdescartes.fr/data/traites/mb/28-53228/ [Internet]. 2008 Nov 20 [cited 2016 Nov 8]; Available from: https://www-em--premium-com.frodon-biusante.parisdescartes.fr/article/189348/resultatrecherche/5
1.
Gaba DM. The future vision of simulation in health care. Quality and Safety in Health Care [Internet]. 2004 Oct 1 [cited 2016 Nov 3];13(suppl_1):i2–10. Available from: http://qualitysafety.bmj.com/lookup/doi/10.1136/qshc.2004.009878
1.
JWE15118_09_07_2011.pdf [Internet]. 2016 [cited 2016 Mar 24]. Available from: https://jama-jamanetwork-com.frodon-biusante.parisdescartes.fr/data/Journals/JAMA/22464/JWE15118_09_07_2011.pdf
1.
Weller J. Simulation Training for Medical Emergencies In General Practice. In 2016 [cited 2016 Oct 1]. Available from: http://www.academia.edu/295022/Simulation_Training_for_Medical_Emergencies_In_General_Practice
1.
Hureaux J, Urban T. La simulation en pneumologie : rationnel, données de la littérature et perspectives. Revue des Maladies Respiratoires [Internet]. 2015 [cited 2016 Sep 29];32(10):969–84. Available from: http://linkinghub.elsevier.com/retrieve/pii/S0761842515001874
1.
Haute Autorité de Santé. Guide de bonnes pratiques en matière de simulation en santé [Internet]. 2012 [cited 2016 Sep 29]. Available from: http://www.has-sante.fr/portail/upload/docs/application/pdf/2013-01/guide_bonnes_pratiques_simulation_sante_guide.pdf
1.
Poelman T. Rapport de hasards (hazard ratio, HR) et risque relatif. Minerva [Internet]. 2013 [cited 2016 Sep 29];12(10):129. Available from: file:///Users/Nico/Downloads/12_10_129-129.pdf
1.
BMJ. Publications [Internet]. 2016 [cited 2016 Sep 8]. Available from: http://www.bmj.com/about-bmj/resources-readers/publications
1.
Cucherat M. Lecture critique [Internet]. 2016 [cited 2016 Sep 8]. Available from: http://www.spc.univ-lyon1.fr/lecture-critique/