Rappels en statistique descriptive univariée

Adrien Guille, Université Lyon 2

L'objectif de ce cours est de rappeler les bases de la statistique descriptive univariée. Tout au long de ce document, les notions décrites sont illustrées par un même exemple, en lien avec le domaine de la logistique.

Vocabulaire et notations

Il s'agit d'étudier une population, qui regroupe l'ensemble des individus auxquels on s'intéresse. La taille de population est définie comme le nombre total d'individus. Pour chaque individu, on possède une seule information. Autrement dit, chaque individu est caractérisée par une seule variable. L'ensemble des valeurs prises par cette variable décrit une série statistique.

On s'intéresse aux 20 chauffeurs chargés de livrer les colis à partir d'un certain entrepôt. En particuliers, on s'interroge quant à leur propension à égarer des colis. On mène donc une étude sur une population de taille 20, où chaque individu est un chauffeur, décrit selon une variable, à savoir le nombre de colis égarés au cours du dernier mois écoulé. On manipule ici une série statistique quantitative. On note cette série statistique, de taille . Une mesure est notée , :

Série statistique décrivant le nombre de colis perdus par chacun des 20 chauffeurs étudiés :

ChauffeurNombre de colis égarés
13
21
30
42
50
61
71
82
93
100
115
121
132
140
154
161
172
183
191
201

Représentation sous forme de tableau

Les données brutes constituant une série statistique sont généralement difficilement interprétables. On résume la série sous la forme d'un tableau qui décrit les effectifs et les fréquences des différentes modalités prises par la variable étudiée. Les modalités d'une variable sont les valeurs distinctes prises par celle-ci. On note l'ensemble des modalités , où indique le nombre de modalités.

La variable «nombre de colis égarés» a 6 modalités : .

Effectif

L'effectif (parfois appelé fréquence absolue) d'une modalité correspond au nombre d'individus ayant cette valeur. On note l'effectif de la n-ième modalité.

Par exemple, l'effectif de la modalité 0 est de 3, c'est-à-dire que 3 chauffeurs n'ont perdu aucun colis. L'effectif de la modalité 5 est 1, autrement dit un seul chauffeur a perdu 5 colis au cours du dernier mois écoulé.

Fréquence

La fréquence (parfois appelée fréquence relative) d'une modalité correspond à la proportion d'individus ayant cette valeur. Autrement dit, la fréquence d'une modalité correspond à son effectif rapporté sur la taille de la population ; la fréquence de la j-ième modalité, , s'obtient donc avec la formule suivante :

Ce tableau est généralement complété avec les effectifs et fréquences cumulés.

Tableau des effectifs et des fréquences de la variable "nombre de colis égarés" :

Nombre de colis égarés012345
Effectif375311
Fréquence15%35%25%15%5%5%
Effectif cumulé31015181920
Fréquence cumulée15%50%75%90%95%100%

Indicateurs statistiques

1. Tendance centrale

Médiane

La médiane est une valeur permettant de partionner les valeurs composant la série statistique en deux groupes de même taille : l'un regroupant des valeurs inférieures ou égales à la médiane, l'autre regroupant des valeurs supérieures ou égales à la médiane. Pour déterminer la médiane d'une série statistique, on ordonne les valeurs par ordre croissant, puis :

Comme , on obtient la médiane en calculant la moyenne entre la 10ème () et la 11ème valeur (), c'est-à-dire .

Mode

Le mode est la modalité ayant le plus grand effectif.

Le mode de la variable "nombre de colis égarés" est 1.

Moyenne

Selon qu'on se base directement sur la série statistique ou sur sa description sous forme de tableau des effectifs, on emploie une formule différente.

À partir de la série statistique brute on calcule une moyenne arithmétique :

À partir du tableau des effectifs, on calcule une moyenne pondérée (où correspond à la valeur de la j-ième modalité et correspond à l'effectif de la j-ième modalité) :

Le nombre moyen de colis égarés par chauffeur est 1,75.

2. Dispersion

Variance et écart-type

L'écart-type est une valeur caractérisant la dispersion des valeurs autour de la moyenne. Il s'exprime dans la même unité que la variable étudiée et se définit comme la racine carrée de la variance. La variance de la population, , est obtenue en calculant la moyenne des écarts à la moyenne au carré :

L'écart-type pour la population, noté , s'obtient donc ainsi :

On mesure une variance égale à 1,69; l'écart-type est lui de 1,3 colis.

Écart interquartiles

Les quartiles correspondent à trois valeurs :

Pour calculer les quartile, on ordonne la série statistique par ordre croissant, comme pour la médiane, puis :

L'écart interquartile, , est calculé à partir du premier et du troisième quartile :

On mesure un écart interquartiles de 2 pour la variable "nombre de colis égarés par chauffeur" (premier quartile à 1 et troisième quartile à 3.)

Représentation graphique d'une série statistique

Diagramme en barres

Ce diagramme permet d'illustrer les effectifs. On lit la hauteur de chaque barre (attention à ne pas confondre diagramme en barre et histogramme, où on inteprète l'aire de chaque rectangle et non pas simplement la hauteur).

Diagramme circulaire

Ce diagramme permet d'illustrer les fréquences (attention toutefois, ce type de diagramme devient vite illisible quand le nombre de modalités augmente).

Diagramme en boîte

Ce diagramme synthétise plusieurs informations à propos de la série statistique. On lit le minimum (extrêmité de la "moustache" gauche), le premier quartile (bord gauche de la boîte), la médiane (segment à l'intérieur de la boîte), le troisième quartile (bord droit de la boîte) et le maximum (extrêmité droite de la moustache).