III. Analyse univariée

A. Mesure de position

1. Moyenne

Définition : somme des valeurs divisées par le nombre d’observations, c’est la moyenne arithmétique.

Anglais : mean

Rmq: utiliser plutôt pour une variable qui suit une loi normale.

Inconvénient : sensible aux valeurs extrêmes, surtout s’il y a peu de valeurs.

2. Médiane

Définition : valeur qui permet de séparer l’ensemble des valeurs en 2.

Anglais : median

3. Quartile, décile, percentile

Définition : valeurs qui partagent les données en 4, 10 ou 100 groupes égaux.

Rmq : Le 2ème quartile correspond à la médiane.

4. Mode

Définition : valeur de donnée la plus fréquente dans l’échantillon.

5. Fréquence relative

Définition : fréquence d’une valeur ou d’un intervalle de classe observée dans un ensemble de données et calculée en divisant la fréquence par le nombre d’observations

Rmq : s’utilise pour une variable qualitative ou quantitative discrète.

B. Mesure de dispersion

Exercices :

1. Variance

Définition : moyenne des carrés des écarts à la moyenne de chaque valeur mesurée. Elle résume l’ensemble des écarts entre la moyenne et les valeurs mesurées.

Elle indique de quelle manière se dispersent les valeurs mesurées par rapport à sa moyenne

Condition : la distribution de la variable est normale.

2. Ecart-type

Définition : racine carré de la variance. Dans les articles, les auteurs indiquent l’écart-type plutôt que la variance.

Anglais : standard deviation ou SD

Condition : comme la variance, la distribution de la variable doit être normale.

  • 2/3 des valeurs se trouvent entre [moyenne – écart-type ; moyenne + écart-type ]
  • 95 % des valeurs se trouvent entre [moyenne – 2 écart-type ; moyenne + 2 écart-type ]

3. Coefficient de variation

Définition : mesure relative de la dispersion autour de la moyenne, permettant de comparer le degré de variation d’un échantillon à un autre, même si les moyennes sont différentes.

Synonyme : écart-type relatif

Anglais : Relative Standard Deviation (RSD)

Calcul : RSD = écart-type / moyenne

4. Extrême

Définition : valeurs maximales et minimales observées

Inconvénient : très sensible aux valeurs extrêmes

5. Etendue

Définition : différence entre les 2 valeurs extrêmes

Anglais : range

6. Intervalle interquartile

Définition : différence entre le 1er et 3ème

Intervalle semi-interquartile : moitié de l’intervalle interquartile, il est utilisé pour les variables ordonnées ou lorsque que la distribution est asymétrique.

C. Représentations graphiques

J’ai résumé sous forme de tableau les principaux graphiques en fonction du type de variable :

Variable     Graphique
Quantitative Normale Continue histogramme
  Discrète Diagramme en bâton (+/-empilé)

Courbe en escalier

  Non normale Boite à moustache
  indifférent Nuage de points

Toile d’araignée

Qualitative Diagramme en bâton (+/- empilé)

Diagramme en tuyau d’orgue

Diagramme en secteurs

Cartogramme

Diagramme en barres parallèles

Censurée Courbe de Kaplan Meyer

Courbe actuarielle

Autre divers Pictogramme
  Période Graphique en courbe
  A 3 variables Graphique en bulles
  Age et sexe Pyramide des âges

Il existe 2 grands types de diagrammes :

  • Diagramme différentiel représentant les effectifs ou les fréquences.
  • Diagramme intégral représentant les effectifs cumulés ou les fréquences cumulées.

1. 1 variable quantitative normale

a. Discrète

  • Diagramme en bâton (différentiel)
    • Abscisse : valeur de la variable
    • Ordonnée : effectif ou fréquence
  • Courbe en escalier (intégral)
    • Abscisse : valeur de la variable
    • Ordonnée : effectif ou fréquence cumulée

b. Continue

Les observations sont regroupées en classes d’un certain intervalle.

Chaque classe a une amplitude correspondant à la longueur de l’intervalle.

On appelle la densité d’effectif comme le rapport de l’effectif d’une classe et de son amplitude.

On appelle la densité de fréquence comme le rapport de la fréquence d’une classe et de son amplitude.

 

  • Histogramme

    Histogramme

    Histogramme (différentiel)

    • Anglais : histogram
    • Abscisse : classes représentant les modalités
    • Ordonnées : densité d’effectif ou densité de fréquence
    • L’aire du rectangle de l’histogramme est proportionnelle à l’effectif ou la fréquence de la classe.

 

 

  • Courbe cumulative

    Courbe cumulative

    Courbe cumulative (intégrale)

    • Abscisse : classes
    • Ordonnée : densité d’effectif ou de fréquence cumulée.

2. 1 variable quantitative non normale

  • La boite à moustache :
    • Anglais : box plot (Box & Whiskers Plot)
    • Synonymes : diagramme en boite, boîte de Tukey
boite a moustache

La boîte à moustaches

3. 2 variables quantitatives

  • droite regressionLe nuage de points
    • Anglais : scatter-plot
    • Synonyme : diagramme de dispersion, graphique de corrélation
    • Abscisse : valeur de la variable A
    • Ordonnée : valeur de la variable B
    • On peut tracer la droite de régression qui se rapproche le plus de tous les points afin de montrer la force et la relation entre les 2 variables.

 

  • bland altmanLe diagramme de Bland-Altman
    • Uniquement pour comparer 2 instruments
    • Abscisse : valeur moyenne entre les 2 instruments pour chaque sujet
    • Ordonnée : différence entre les 2 mesures pour chaque sujet
    • Limites d’agrément (limits of agreement)
      • Calcul d : différence moyenne
      • Calcul sdd : écart-type des différences
      • Calcul limite inférieur et supérieur (intervalle de confiance à 95%) : d ± 2sdd

4. 1 variable qualitative

  • batonDiagramme en bâton :
    • Abscisse : modalité
    • Ordonnée : rectangles dont la longueur est proportionnelle aux effectifs ou aux fréquences
    • NB : les rectangles sont espacés entre eux indiquant qu’il s’agit d’une variable qualitative

 

  • tuyau orgue

    Diagramme en tuyaux d orgue

    Diagramme en tuyaux d’orgue :

    • Anglais : grouped column chart
    • Identique au diagramme en bâton sauf que pour chaque classe, on dispose de 2 ou 3 séries différentes.

 


  • Diagramme en secteurs 
    : diagramme circulaire (ou semi-circulaire) consistant à partager un disque (ou un demi-disque) en tranches, ou en secteurs.

    • demi disque secteurAnglais : circle graph
    • 1 secteur pour chaque modalité
    • Surface de chaque secteur proportionnel à l’effectif ou la fréquence

 

  • cartogramme

    Cartogramme en fonction du nombre d habitants

    Cartogramme :

    • Surface de chaque pays proportionnel à l’effectif ou la fréquence

 


5. 2 variables qualitatives

  • Diagramme en barres parallèles :
    • Anglais : mosaic plot
    • L’abscisse et l’ordonnée correspondent à 1 variable qualitative

mosaic plot

6. 1 variable qualitative + 1 variable quantitative

  • Diagramme en boîtes parallèles

    Diagramme-boîtes parallèles

    Les diagrammes-boîtes parallèles :

    • On représente sur un même graphique, avec la même échelle, 2 diagrammes en boîte.

6. Variables censurées

  • Méthode de Kaplan-Meier
    • Courbe de Kaplan-Meier

      Courbe de Kaplan-Meier

      Anglais : Kaplan-Meier

    • Abscisse : durée dont les intervalles sont calculés par les dates d’événements observés. Le rythme de survenue des événements étant aléatoire, les intervalles le seront aussi.
    • Ordonnée : taux de survie. La hauteur de la marche est proportionnelle au nombre d’événements survenus.
    • On obtient une courbe en marches d’escalier de hauteurs inégales, où chaque événement, ou plusieurs événements simultanés, représentent la verticale d’une marche.
  • Méthode actuarielle
    • Courbe actuarielle

      Courbe actuarielle

      Anglais : actuarial analysis

    • Abscisse : durée dont les intervalles de temps sont fixés a priori.
    • Ordonnée : taux de survie calculé par une extrapolation linéaire.
    • On obtient une courbe en segments de droites reliant des points situés à intervalles réguliers au cours du temps.
    • Cette méthode n’est presque plus utilisée aujourd’hui.
    • Inconvénient :
      • On présuppose 2 hypothèses :
        • Les sujets censurés et les décès se distribuent uniformément dans l’intervalle.
        • Les sujets censurés sont exposés au risque en moyenne pendant la moitié de l’intervalle.
      • Moins précise
    • Intérêt :
      • Lorsque les temps de réalisation de l’événements ne sont pas connus.
      • Grands échantillons permettant de regrouper les événements par période pour simplifier les calculs