Leçon 1 — Statistiques descriptives

Population, variables, tableaux de données, fréquences, représentations graphiques — les outils pour lire et organiser les données

I. Pourquoi les statistiques ?

Les statistiques sont la science qui permet de collecter, organiser, résumer et interpréter des données afin d'en tirer des conclusions fiables sur un phénomène ou une population. Dans un monde saturé d'informations, la capacité à analyser correctement des données est devenue une compétence fondamentale.

🔍 Statistiques descriptives vs statistiques inférentielles

Les statistiques descriptives (cette leçon et les deux suivantes) résument et décrivent un jeu de données existant : tableaux, graphiques, moyenne, médiane, écart-type. On décrit ce qu'on a observé, sans généraliser.

Les statistiques inférentielles (Leçons 4-8) utilisent un échantillon pour faire des inférences sur une population plus large. Elles font intervenir la théorie des probabilités.

La distinction est cruciale : décrire les notes d'une classe (\(\to\) descriptif) est différent de conclure sur le niveau de tous les lycéens du Burkina depuis cette classe (\(\to\) inférentiel).

Nerveux explique : L'INSD (Institut National de la Statistique et de la Démographie du Burkina Faso) collecte des données sur la population, la santé, l'éducation et l'économie du pays. Le Recensement Général de la Population de 2019 a dénombré environ 20 millions d'habitants au Burkina Faso. Cette donnée — 20 millions — c'est une statistique descriptive : elle décrit exactement ce qui a été compté. Les statistiques permettent aux gouvernements de planifier les hôpitaux, les écoles et les routes en fonction de la réalité mesurée.

II. Vocabulaire fondamental

Population

L'ensemble de tous les individus ou objets étudiés. Peut être finie (élèves d'un lycée) ou infinie (tous les grains de mil produits au Burkina). La taille de la population est notée \(N\).

Échantillon

Un sous-ensemble de la population, choisi pour être étudié quand la population entière est trop grande. La taille de l'échantillon est notée \(n\). La qualité d'un échantillon dépend de sa représentativité.

Variable statistique

La caractéristique mesurée sur chaque individu. Exemples : note d'un élève, taille, sexe, région. La variable prend des valeurs dans un ensemble de modalités.

Modalité / Valeur

Chaque valeur possible de la variable. Pour "région d'origine" : Sahel, Centre, Hauts-Bassins… Pour "note" : 0, 1, 2, …, 20.

Effectif \(n_i\)

Le nombre d'individus ayant la modalité \(i\). La somme de tous les effectifs est \(N = \sum n_i\).

Fréquence \(f_i\)

La proportion d'individus ayant la modalité \(i\) : \(f_i = \frac{n_i}{N}\). On a \(\sum f_i = 1\). Souvent exprimée en pourcentage.

III. Types de variables

Toutes les variables statistiques ne se comportent pas de la même façon — il est essentiel de distinguer leur type avant d'appliquer une méthode d'analyse.

Variables qualitatives — les modalités sont des catégories (pas des nombres) : \[\text{Nominale : pas d'ordre} \quad\text{(ethnie, région, couleur)}\] \[\text{Ordinale : ordre naturel} \quad\text{(niveau d'étude, appréciation)}\] On peut compter les effectifs et calculer des fréquences, mais pas une moyenne

Variables quantitatives — les modalités sont des nombres : \[\text{Discrète : valeurs isolées} \quad\text{(nombre d'enfants, nombre de sacs)}\] \[\text{Continue : toute valeur dans un intervalle} \quad\text{(taille, poids, température)}\] On peut calculer moyenne, médiane, variance, etc.

🔍 Pourquoi la distinction discrète / continue est-elle importante ?

Pour une variable discrète, on travaille avec un tableau de valeurs distinctes et leurs effectifs. L'histogramme a des barres centrées sur les valeurs.

Pour une variable continue, on regroupe les données en classes (intervalles) car il y aurait trop de valeurs différentes. L'histogramme a des barres jointives dont la largeur représente l'intervalle de la classe.

Exemple : la taille des élèves d'une classe (continue) ne peut pas être tabulée valeur par valeur — on crée des classes comme [1,50 ; 1,55[, [1,55 ; 1,60[, etc.

IV. Tableaux statistiques

Un tableau statistique organise les données en colonnes : valeur, effectif, fréquence (relative et cumulée). La fréquence cumulée est la somme des fréquences jusqu'à la valeur courante — elle indique quelle proportion de la population est en dessous d'un certain seuil.

Exemple 1 — Notes au BAC dans un lycée de Ouagadougou

Dans un lycée de Ouagadougou, 40 élèves ont passé le BAC. Leurs notes au devoir de mathématiques (sur 20) sont résumées ci-dessous :

Note \(x_i\)	Effectif \(n_i\)	Fréq. relative \(f_i = n_i/N\)	Fréq. en %	Fréq. cumulée \(F_i\)
6	2	0,050	5,0 %	0,050
8	4	0,100	10,0 %	0,150
10	8	0,200	20,0 %	0,350
12	12	0,300	30,0 %	0,650
14	9	0,225	22,5 %	0,875
16	4	0,100	10,0 %	0,975
18	1	0,025	2,5 %	1,000
Total	40	1,000	100 %	—

Lecture : La fréquence cumulée \(F_i=0{,}650\) pour la note 12 signifie que 65 % des élèves ont obtenu une note \(\leq 12\). Autrement dit, 35 % ont obtenu plus de 12. Cette information est immédiatement utile pour décider d'un seuil de réussite.

V. Tableaux avec données groupées en classes

Pour les variables continues ou les grandes séries, on groupe les données en classes \([a_i\,;\,b_i[\). On définit alors le centre de classe \(c_i = \frac{a_i+b_i}{2}\) et l'amplitude \(h_i = b_i - a_i\).

Exemple 2 — Précipitations annuelles dans les régions du Burkina

Les précipitations annuelles (en mm) de 30 stations météo du Burkina Faso ont été relevées. Les données groupées en classes sont :

Classe \([a_i\,;\,b_i[\)	Centre \(c_i\)	Effectif \(n_i\)	Fréq. \(f_i\)	Densité \(d_i = f_i/h_i\)	Fréq. cum. \(F_i\)
[400 ; 500[	450	4	0,133	0,00133	0,133
[500 ; 700[	600	8	0,267	0,00133	0,400
[700 ; 900[	800	10	0,333	0,00167	0,733
[900 ; 1100[	1000	6	0,200	0,00100	0,933
[1100 ; 1300[	1200	2	0,067	0,00033	1,000
Total	—	30	1,000	—	—

Densité de fréquence : Pour les classes d'amplitude inégale, on utilise la densité \(d_i = f_i/h_i\) — c'est cette valeur qui détermine la hauteur des barres d'un histogramme. Ainsi, l'aire de chaque barre (\(d_i \times h_i = f_i\)) est proportionnelle à la fréquence, ce qui permet de comparer des classes d'amplitudes différentes sans biais visuel.

VI. Représentations graphiques

Le choix du graphique dépend du type de variable et de l'information qu'on veut transmettre. Chaque type de graphique révèle un aspect différent des données.

Histogramme des notes (gauche), diagramme circulaire des régions (droite), courbe cumulative (bas)

🔍 Quel graphique choisir ?

Diagramme en barres : variable qualitative nominale ou quantitative discrète avec peu de valeurs.
Histogramme : variable quantitative continue groupée en classes (barres jointives).
Diagramme circulaire (camembert) : parts relatives d'un tout (répartition en %) — efficace quand il y a peu de modalités (<6).
Courbe des fréquences cumulées (ogive) : lire les percentiles et la médiane graphiquement.
Diagramme boîte (box plot) : résumé en 5 chiffres (min, Q1, médiane, Q3, max) — Leçon 3.
Nuage de points : relation entre deux variables quantitatives.

VII. Données groupées — interpolation linéaire

Quand les données sont groupées en classes, on ne connaît pas les valeurs individuelles exactes. Pour estimer un quantile (médiane, quartile) depuis un tableau de classes, on utilise l'interpolation linéaire — on suppose que les données sont réparties uniformément dans chaque classe.

Médiane par interpolation linéaire dans la classe médiane \([a\,;\,b[\) de fréquence \(f_{\text{cl}}\) : \[\text{Médiane} = a + \frac{0{,}5 - F_{\text{avant}}}{f_{\text{cl}}} \times (b-a)\] \(F_{\text{avant}}\) = fréquence cumulée juste avant la classe médiane

Exemple 3 — Estimation de la médiane des précipitations

En utilisant le tableau de précipitations (Exemple 2), estimer la médiane par interpolation.

La fréquence cumulée devient \(\geq 0{,}5\) dans la classe \([700\,;\,900[\) (où \(F_i=0{,}733\)).

\(F_{\text{avant}} = 0{,}400\), \(f_{\text{cl}} = 0{,}333\), \(a=700\), \(b=900\).

\(\text{Médiane} = 700 + \dfrac{0{,}5 - 0{,}400}{0{,}333} \times 200 = 700 + \dfrac{0{,}100}{0{,}333}\times200\)

\(= 700 + 0{,}300\times200 = 700 + 60 = \mathbf{760}\) mm

Interprétation : la moitié des stations reçoivent moins de 760 mm par an.

Médiane estimée : 760 mm de précipitations annuelles

VIII. Application concrète ⭐

⭐ Situation concrète Enquête sur la scolarisation dans la région du Sahel burkinabè

L'INSD a mené une enquête sur le taux de scolarisation dans 25 villages de la région du Sahel burkinabè. Le taux de scolarisation (en %) de chaque village est :

15, 22, 18, 35, 42, 28, 33, 19, 41, 27, 36, 24, 48, 31, 22, 17, 39, 45, 30, 26, 38, 20, 44, 32, 29

a) Construire un tableau de distribution avec les classes \([10\,;\,20[\), \([20\,;\,30[\), \([30\,;\,40[\), \([40\,;\,50]\) en indiquant effectifs, fréquences et fréquences cumulées.
b) Tracer l'histogramme (amplitudes égales donc hauteur = effectif).
c) Estimer par interpolation la médiane du taux de scolarisation.
d) Quel pourcentage de villages a un taux supérieur à 30 % ?

Exemple 4 — Scolarisation dans le Sahel

a) Classement des données :

Classe [10;20[ : 15, 18, 19, 17 → n=4

Classe [20;30[ : 22, 28, 27, 24, 22, 26, 20, 29 → n=8

Classe [30;40[ : 35, 33, 36, 31, 39, 30, 38, 32 → n=8

Classe [40;50] : 42, 41, 48, 45, 44 → n=5

Classe	Centre	Effectif \(n_i\)	Fréq. \(f_i\)	Fréq. cum. \(F_i\)
[10 ; 20[	15	4	0,16	0,16
[20 ; 30[	25	8	0,32	0,48
[30 ; 40[	35	8	0,32	0,80
[40 ; 50]	45	5	0,20	1,00
Total	—	25	1,00	—

c) Médiane par interpolation :

La classe médiane (où \(F_i \geq 0{,}5\) pour la première fois) est \([30\,;\,40[\) (avec \(F=0{,}80\)). \(F_{\text{avant}}=0{,}48\).

\(\text{Médiane} = 30 + \frac{0{,}5-0{,}48}{0{,}32}\times10 = 30 + \frac{0{,}02}{0{,}32}\times10 = 30 + 0{,}625 \approx \mathbf{30{,}6}\%\)

d) Villages avec taux \(> 30\%\) :

Classes [30;40[ et [40;50] : \(8+5=13\) villages sur 25 \(= \frac{13}{25} = 52\%\)

Médiane ≈ 30,6 % | 52 % des villages dépassent 30 % de scolarisation

✏️ Exercices d'application

Exercice 1 — Classification des variables

Classer chaque variable comme qualitative nominale, qualitative ordinale, quantitative discrète ou quantitative continue :

a) Région d'origine d'un Burkinabè
b) Niveau d'étude (primaire, collège, lycée, université)
c) Nombre de sacs de mil par ménage
d) Quantité de pluie tombée en une journée (en mm)
e) Note au baccalauréat (de 0 à 20 par entiers)
f) Température à Ouagadougou à midi

a) Qualitative nominale (pas d'ordre naturel entre régions)
b) Qualitative ordinale (ordre naturel : primaire < collège < lycée < université)
c) Quantitative discrète (valeurs entières isolées)
d) Quantitative continue (toute valeur positive possible)
e) Quantitative discrète (entiers de 0 à 20)
f) Quantitative continue (toute valeur réelle)

Exercice 2 — Tableau de distribution

Les âges (en années) de 20 femmes participant à une coopérative agricole de Bobo-Dioulasso sont :

23, 35, 41, 28, 52, 31, 24, 47, 38, 29, 44, 33, 27, 56, 36, 22, 49, 31, 25, 43

a) Construire un tableau avec les classes [20;30[, [30;40[, [40;50[, [50;60] et calculer les fréquences cumulées.
b) Quel pourcentage de femmes a moins de 40 ans ?
c) Estimer la médiane par interpolation.

a) [20;30[ : 23,28,24,29,27,22,25 → n=7, f=0,35, F=0,35
[30;40[ : 35,31,38,33,36,31 → n=6, f=0,30, F=0,65
[40;50[ : 41,47,44,49,43 → n=5, f=0,25, F=0,90
[50;60] : 52,56 → n=2, f=0,10, F=1,00

b) F([20;40[) = 0,35+0,30 = 0,65 → 65 % des femmes ont moins de 40 ans.

c) Classe médiane : [30;40[ (F passe de 0,35 à 0,65).
Médiane = 30 + \(\frac{0{,}5-0{,}35}{0{,}30}\times10 = 30+5=\mathbf{35}\) ans.

Exercice 3 — Production de coton dans les Hauts-Bassins

La production de coton (en tonnes) de 12 exploitations agricoles dans les Hauts-Bassins est :

2,1 3,4 1,8 4,2 2,8 3,1 5,0 2,5 3,8 4,5 2,2 3,6

a) Construire un tableau avec les classes [1;2[, [2;3[, [3;4[, [4;5[, [5;6].
b) Quelle est la classe modale (classe la plus fréquente) ?
c) Calculer la fréquence des exploitations produisant au moins 3 tonnes.

a) [1;2[ : 1,8 → n=1. [2;3[ : 2,1; 2,8; 2,5; 2,2 → n=4. [3;4[ : 3,4; 3,1; 3,8; 3,6 → n=4. [4;5[ : 4,2; 4,5 → n=2. [5;6] : 5,0 → n=1.

b) Classes modales : [2;3[ et [3;4[ (toutes deux n=4).

c) Classes [3;4[, [4;5[, [5;6] : \(4+2+1=7\) exploitations sur 12 = \(7/12\approx\mathbf{58{,}3\%}\).

Exercice 4 — Répartition des ménages par taille à Koudougou

Une enquête sur 200 ménages de Koudougou donne la distribution suivante du nombre de personnes par ménage :

Taille	1	2	3	4	5	6	7+
Effectif	8	20	35	48	40	32	17

a) Calculer les fréquences relatives et les fréquences cumulées.
b) Quel pourcentage de ménages ont 4 personnes ou moins ?
c) La valeur 7+ est une classe ouverte. Peut-on calculer la médiane exacte ? Justifier.

a) Total = 200. Fréquences : 0,04 ; 0,10 ; 0,175 ; 0,24 ; 0,20 ; 0,16 ; 0,085.
Fréq. cumulées : 0,04 ; 0,14 ; 0,315 ; 0,555 ; 0,755 ; 0,915 ; 1,000.

b) Fréq. cum. pour taille ≤ 4 : \(0{,}555\) → 55,5 %.

c) La médiane se trouve là où \(F=0{,}5\), soit entre la taille 3 (F=0,315) et la taille 4 (F=0,555). La médiane est exactement 4 personnes (variable discrète — on prend la valeur pour laquelle F passe pour la première fois à ≥ 0,5). Pas besoin d'interpolation pour une variable discrète.

Exercice 5 — Analyse des rendements rizicoles à Bama ⭐

Dans la plaine de Bama (Hauts-Bassins), les rendements de riz irrigué (en tonnes/hectare) de 30 parcelles sont résumés :

Rendement [t/ha]	[2;3[	[3;4[	[4;5[	[5;6[	[6;7]
Effectif	3	8	11	6	2

a) Compléter avec les fréquences relatives et cumulées.
b) Estimer la médiane et interpréter.
c) Estimer le premier quartile \(Q_1\) (valeur pour laquelle \(F=0{,}25\)).
d) Quelle est la densité de fréquence de chaque classe (toutes d'amplitude 1) ? Quelle classe a la plus haute densité ?

a) \(N=30\). f : 0,100 ; 0,267 ; 0,367 ; 0,200 ; 0,067. F : 0,100 ; 0,367 ; 0,733 ; 0,933 ; 1,000.

b) Classe médiane : [4;5[ (F passe de 0,367 à 0,733). \(F_{\text{avant}}=0{,}367\), \(f_{\text{cl}}=0{,}367\).
Médiane = \(4+\frac{0{,}5-0{,}367}{0{,}367}\times1=4+\frac{0{,}133}{0{,}367}\approx4+0{,}362=\mathbf{4{,}36}\) t/ha.
Interprétation : la moitié des parcelles produisent moins de 4,36 t/ha.

c) \(Q_1\) dans la classe [3;4[ (F passe de 0,100 à 0,367).
\(Q_1=3+\frac{0{,}25-0{,}100}{0{,}267}\times1=3+0{,}562\approx\mathbf{3{,}56}\) t/ha.

d) Densité = fréquence/amplitude = fréquence (amplitude = 1). La classe [4;5[ a la plus haute densité \(d=0{,}367\) — c'est la classe modale.

À retenir

Population \(N\) vs échantillon \(n\) : les statistiques descriptives décrivent les données observées sans généraliser.
Variables : qualitative (nominale ou ordinale) ou quantitative (discrète ou continue). Le type détermine les méthodes applicables.
Effectif \(n_i\) et fréquence \(f_i = n_i/N\) : \(\sum f_i = 1\).
Fréquence cumulée \(F_i\) : proportion d'individus ayant une valeur \(\leq x_i\).
Données groupées : classes \([a\,;\,b[\), centre \(c=(a+b)/2\), densité \(d=f/h\) pour les amplitudes inégales.
Médiane par interpolation : \(a + \frac{0{,}5 - F_{\text{avant}}}{f_{\text{cl}}} \times (b-a)\).
Graphiques : histogramme (continu), barres (discret), camembert (parts), ogive (cumulé).
Statistiques descriptives vs inférentielles : décrire le connu vs inférer sur l'inconnu.

Supports Vidéo

L2 : Moyenne, médiane et mode →