III. Analyse univariée
A. Mesure de position
1. Moyenne
Définition : somme des valeurs divisées par le nombre d’observations, c’est la moyenne arithmétique.
Anglais : mean
Rmq: utiliser plutôt pour une variable qui suit une loi normale.
Inconvénient : sensible aux valeurs extrêmes, surtout s’il y a peu de valeurs.
2. Médiane
Définition : valeur qui permet de séparer l’ensemble des valeurs en 2.
Anglais : median
3. Quartile, décile, percentile
Définition : valeurs qui partagent les données en 4, 10 ou 100 groupes égaux.
Rmq : Le 2ème quartile correspond à la médiane.
4. Mode
Définition : valeur de donnée la plus fréquente dans l’échantillon.
5. Fréquence relative
Définition : fréquence d’une valeur ou d’un intervalle de classe observée dans un ensemble de données et calculée en divisant la fréquence par le nombre d’observations
Rmq : s’utilise pour une variable qualitative ou quantitative discrète.
B. Mesure de dispersion
Exercices :
1. Variance
Définition : moyenne des carrés des écarts à la moyenne de chaque valeur mesurée. Elle résume l’ensemble des écarts entre la moyenne et les valeurs mesurées.
Elle indique de quelle manière se dispersent les valeurs mesurées par rapport à sa moyenne
Condition : la distribution de la variable est normale.
2. Ecart-type
Définition : racine carré de la variance. Dans les articles, les auteurs indiquent l’écart-type plutôt que la variance.
Anglais : standard deviation ou SD
Condition : comme la variance, la distribution de la variable doit être normale.
- 2/3 des valeurs se trouvent entre [moyenne – écart-type ; moyenne + écart-type ]
- 95 % des valeurs se trouvent entre [moyenne – 2 écart-type ; moyenne + 2 écart-type ]
3. Coefficient de variation
Définition : mesure relative de la dispersion autour de la moyenne, permettant de comparer le degré de variation d’un échantillon à un autre, même si les moyennes sont différentes.
Synonyme : écart-type relatif
Anglais : Relative Standard Deviation (RSD)
Calcul : RSD = écart-type / moyenne
4. Extrême
Définition : valeurs maximales et minimales observées
Inconvénient : très sensible aux valeurs extrêmes
5. Etendue
Définition : différence entre les 2 valeurs extrêmes
Anglais : range
6. Intervalle interquartile
Définition : différence entre le 1er et 3ème
Intervalle semi-interquartile : moitié de l’intervalle interquartile, il est utilisé pour les variables ordonnées ou lorsque que la distribution est asymétrique.
C. Représentations graphiques
Les principaux graphiques peuvent être résumé avec cette illustration : graphiques
J’ai résumé sous forme de tableau les principaux graphiques en fonction du type de variable :
Variable | Graphique | ||
Quantitative | Normale | Continue | histogramme |
Discrète | Diagramme en bâton (+/-empilé)
Courbe en escalier |
||
Non normale | Boite à moustache | ||
indifférent | Nuage de points
Toile d’araignée |
||
Qualitative | Diagramme en bâton (+/- empilé)
Diagramme en tuyau d’orgue Diagramme en secteurs Cartogramme Diagramme en barres parallèles |
||
Censurée | Courbe de Kaplan Meyer
Courbe actuarielle |
||
Autre | divers | Pictogramme | |
Période | Graphique en courbe | ||
A 3 variables | Graphique en bulles | ||
Age et sexe | Pyramide des âges |
Il existe 2 grands types de diagrammes :
- Diagramme différentiel représentant les effectifs ou les fréquences.
- Diagramme intégral représentant les effectifs cumulés ou les fréquences cumulées.
1. 1 variable quantitative normale
a. Discrète
- Diagramme en bâton (différentiel)
- Abscisse : valeur de la variable
- Ordonnée : effectif ou fréquence
- Courbe en escalier (intégral)
- Abscisse : valeur de la variable
- Ordonnée : effectif ou fréquence cumulée
b. Continue
Les observations sont regroupées en classes d’un certain intervalle.
Chaque classe a une amplitude correspondant à la longueur de l’intervalle.
On appelle la densité d’effectif comme le rapport de l’effectif d’une classe et de son amplitude.
On appelle la densité de fréquence comme le rapport de la fréquence d’une classe et de son amplitude.
-
Histogramme (différentiel)
- Anglais : histogram
- Abscisse : classes représentant les modalités
- Ordonnées : densité d’effectif ou densité de fréquence
- L’aire du rectangle de l’histogramme est proportionnelle à l’effectif ou la fréquence de la classe.
-
Courbe cumulative (intégrale)
- Abscisse : classes
- Ordonnée : densité d’effectif ou de fréquence cumulée.
2. 1 variable quantitative non normale
- La boite à moustache :
- Anglais : box plot (Box & Whiskers Plot)
- Synonymes : diagramme en boite, boîte de Tukey
3. 2 variables quantitatives
- Le nuage de points
- Anglais : scatter-plot
- Synonyme : diagramme de dispersion, graphique de corrélation
- Abscisse : valeur de la variable A
- Ordonnée : valeur de la variable B
- On peut tracer la droite de régression qui se rapproche le plus de tous les points afin de montrer la force et la relation entre les 2 variables.
- Le diagramme de Bland-Altman
- Uniquement pour comparer 2 instruments
- Abscisse : valeur moyenne entre les 2 instruments pour chaque sujet
- Ordonnée : différence entre les 2 mesures pour chaque sujet
- Limites d’agrément (limits of agreement)
- Calcul d : différence moyenne
- Calcul sdd : écart-type des différences
- Calcul limite inférieur et supérieur (intervalle de confiance à 95%) : d ± 2sdd
4. 1 variable qualitative
- Diagramme en bâton :
- Abscisse : modalité
- Ordonnée : rectangles dont la longueur est proportionnelle aux effectifs ou aux fréquences
- NB : les rectangles sont espacés entre eux indiquant qu’il s’agit d’une variable qualitative
-
Diagramme en tuyaux d’orgue :
- Anglais : grouped column chart
- Identique au diagramme en bâton sauf que pour chaque classe, on dispose de 2 ou 3 séries différentes.
Diagramme en secteurs : diagramme circulaire (ou semi-circulaire) consistant à partager un disque (ou un demi-disque) en tranches, ou en secteurs.- Anglais : circle graph
- 1 secteur pour chaque modalité
- Surface de chaque secteur proportionnel à l’effectif ou la fréquence
-
Cartogramme :
- Surface de chaque pays proportionnel à l’effectif ou la fréquence
5. 2 variables qualitatives
- Diagramme en barres parallèles :
- Anglais : mosaic plot
- L’abscisse et l’ordonnée correspondent à 1 variable qualitative
6. 1 variable qualitative + 1 variable quantitative
-
Les diagrammes-boîtes parallèles :
- On représente sur un même graphique, avec la même échelle, 2 diagrammes en boîte.
6. Variables censurées
- Méthode de Kaplan-Meier
-
Anglais : Kaplan-Meier
- Abscisse : durée dont les intervalles sont calculés par les dates d’événements observés. Le rythme de survenue des événements étant aléatoire, les intervalles le seront aussi.
- Ordonnée : taux de survie. La hauteur de la marche est proportionnelle au nombre d’événements survenus.
- On obtient une courbe en marches d’escalier de hauteurs inégales, où chaque événement, ou plusieurs événements simultanés, représentent la verticale d’une marche.
-
- Méthode actuarielle
-
Anglais : actuarial analysis
- Abscisse : durée dont les intervalles de temps sont fixés a priori.
- Ordonnée : taux de survie calculé par une extrapolation linéaire.
- On obtient une courbe en segments de droites reliant des points situés à intervalles réguliers au cours du temps.
- Cette méthode n’est presque plus utilisée aujourd’hui.
- Inconvénient :
- On présuppose 2 hypothèses :
- Les sujets censurés et les décès se distribuent uniformément dans l’intervalle.
- Les sujets censurés sont exposés au risque en moyenne pendant la moitié de l’intervalle.
- Moins précise
- On présuppose 2 hypothèses :
- Intérêt :
- Lorsque les temps de réalisation de l’événements ne sont pas connus.
- Grands échantillons permettant de regrouper les événements par période pour simplifier les calculs
-
Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.