I. Pourquoi les statistiques ?
Les statistiques sont la science qui permet de collecter, organiser, résumer et interpréter des données afin d'en tirer des conclusions fiables sur un phénomène ou une population. Dans un monde saturé d'informations, la capacité à analyser correctement des données est devenue une compétence fondamentale.
Les statistiques descriptives (cette leçon et les deux suivantes) résument et décrivent un jeu de données existant : tableaux, graphiques, moyenne, médiane, écart-type. On décrit ce qu'on a observé, sans généraliser.
Les statistiques inférentielles (Leçons 4-8) utilisent un échantillon pour faire des inférences sur une population plus large. Elles font intervenir la théorie des probabilités.
La distinction est cruciale : décrire les notes d'une classe (\(\to\) descriptif) est différent de conclure sur le niveau de tous les lycéens du Burkina depuis cette classe (\(\to\) inférentiel).
II. Vocabulaire fondamental
III. Types de variables
Toutes les variables statistiques ne se comportent pas de la même façon — il est essentiel de distinguer leur type avant d'appliquer une méthode d'analyse.
Pour une variable discrète, on travaille avec un tableau de valeurs distinctes et leurs effectifs. L'histogramme a des barres centrées sur les valeurs.
Pour une variable continue, on regroupe les données en classes (intervalles) car il y aurait trop de valeurs différentes. L'histogramme a des barres jointives dont la largeur représente l'intervalle de la classe.
Exemple : la taille des élèves d'une classe (continue) ne peut pas être tabulée valeur par valeur — on crée des classes comme [1,50 ; 1,55[, [1,55 ; 1,60[, etc.
IV. Tableaux statistiques
Un tableau statistique organise les données en colonnes : valeur, effectif, fréquence (relative et cumulée). La fréquence cumulée est la somme des fréquences jusqu'à la valeur courante — elle indique quelle proportion de la population est en dessous d'un certain seuil.
Dans un lycée de Ouagadougou, 40 élèves ont passé le BAC. Leurs notes au devoir de mathématiques (sur 20) sont résumées ci-dessous :
| Note \(x_i\) | Effectif \(n_i\) | Fréq. relative \(f_i = n_i/N\) | Fréq. en % | Fréq. cumulée \(F_i\) |
|---|---|---|---|---|
| 6 | 2 | 0,050 | 5,0 % | 0,050 |
| 8 | 4 | 0,100 | 10,0 % | 0,150 |
| 10 | 8 | 0,200 | 20,0 % | 0,350 |
| 12 | 12 | 0,300 | 30,0 % | 0,650 |
| 14 | 9 | 0,225 | 22,5 % | 0,875 |
| 16 | 4 | 0,100 | 10,0 % | 0,975 |
| 18 | 1 | 0,025 | 2,5 % | 1,000 |
| Total | 40 | 1,000 | 100 % | — |
V. Tableaux avec données groupées en classes
Pour les variables continues ou les grandes séries, on groupe les données en classes \([a_i\,;\,b_i[\). On définit alors le centre de classe \(c_i = \frac{a_i+b_i}{2}\) et l'amplitude \(h_i = b_i - a_i\).
Les précipitations annuelles (en mm) de 30 stations météo du Burkina Faso ont été relevées. Les données groupées en classes sont :
| Classe \([a_i\,;\,b_i[\) | Centre \(c_i\) | Effectif \(n_i\) | Fréq. \(f_i\) | Densité \(d_i = f_i/h_i\) | Fréq. cum. \(F_i\) |
|---|---|---|---|---|---|
| [400 ; 500[ | 450 | 4 | 0,133 | 0,00133 | 0,133 |
| [500 ; 700[ | 600 | 8 | 0,267 | 0,00133 | 0,400 |
| [700 ; 900[ | 800 | 10 | 0,333 | 0,00167 | 0,733 |
| [900 ; 1100[ | 1000 | 6 | 0,200 | 0,00100 | 0,933 |
| [1100 ; 1300[ | 1200 | 2 | 0,067 | 0,00033 | 1,000 |
| Total | — | 30 | 1,000 | — | — |
VI. Représentations graphiques
Le choix du graphique dépend du type de variable et de l'information qu'on veut transmettre. Chaque type de graphique révèle un aspect différent des données.
Histogramme des notes (gauche), diagramme circulaire des régions (droite), courbe cumulative (bas)
- Diagramme en barres : variable qualitative nominale ou quantitative discrète avec peu de valeurs.
- Histogramme : variable quantitative continue groupée en classes (barres jointives).
- Diagramme circulaire (camembert) : parts relatives d'un tout (répartition en %) — efficace quand il y a peu de modalités (<6).
- Courbe des fréquences cumulées (ogive) : lire les percentiles et la médiane graphiquement.
- Diagramme boîte (box plot) : résumé en 5 chiffres (min, Q1, médiane, Q3, max) — Leçon 3.
- Nuage de points : relation entre deux variables quantitatives.
VII. Données groupées — interpolation linéaire
Quand les données sont groupées en classes, on ne connaît pas les valeurs individuelles exactes. Pour estimer un quantile (médiane, quartile) depuis un tableau de classes, on utilise l'interpolation linéaire — on suppose que les données sont réparties uniformément dans chaque classe.
En utilisant le tableau de précipitations (Exemple 2), estimer la médiane par interpolation.
La fréquence cumulée devient \(\geq 0{,}5\) dans la classe \([700\,;\,900[\) (où \(F_i=0{,}733\)).
\(F_{\text{avant}} = 0{,}400\), \(f_{\text{cl}} = 0{,}333\), \(a=700\), \(b=900\).
\(\text{Médiane} = 700 + \dfrac{0{,}5 - 0{,}400}{0{,}333} \times 200 = 700 + \dfrac{0{,}100}{0{,}333}\times200\)
\(= 700 + 0{,}300\times200 = 700 + 60 = \mathbf{760}\) mm
Interprétation : la moitié des stations reçoivent moins de 760 mm par an.
VIII. Application concrète ⭐
L'INSD a mené une enquête sur le taux de scolarisation dans 25 villages de la région du Sahel burkinabè. Le taux de scolarisation (en %) de chaque village est :
15, 22, 18, 35, 42, 28, 33, 19, 41, 27, 36, 24, 48, 31, 22, 17, 39, 45, 30, 26, 38, 20, 44, 32, 29
- a) Construire un tableau de distribution avec les classes \([10\,;\,20[\), \([20\,;\,30[\), \([30\,;\,40[\), \([40\,;\,50]\) en indiquant effectifs, fréquences et fréquences cumulées.
- b) Tracer l'histogramme (amplitudes égales donc hauteur = effectif).
- c) Estimer par interpolation la médiane du taux de scolarisation.
- d) Quel pourcentage de villages a un taux supérieur à 30 % ?
a) Classement des données :
Classe [10;20[ : 15, 18, 19, 17 → n=4
Classe [20;30[ : 22, 28, 27, 24, 22, 26, 20, 29 → n=8
Classe [30;40[ : 35, 33, 36, 31, 39, 30, 38, 32 → n=8
Classe [40;50] : 42, 41, 48, 45, 44 → n=5
| Classe | Centre | Effectif \(n_i\) | Fréq. \(f_i\) | Fréq. cum. \(F_i\) |
|---|---|---|---|---|
| [10 ; 20[ | 15 | 4 | 0,16 | 0,16 |
| [20 ; 30[ | 25 | 8 | 0,32 | 0,48 |
| [30 ; 40[ | 35 | 8 | 0,32 | 0,80 |
| [40 ; 50] | 45 | 5 | 0,20 | 1,00 |
| Total | — | 25 | 1,00 | — |
c) Médiane par interpolation :
La classe médiane (où \(F_i \geq 0{,}5\) pour la première fois) est \([30\,;\,40[\) (avec \(F=0{,}80\)). \(F_{\text{avant}}=0{,}48\).
\(\text{Médiane} = 30 + \frac{0{,}5-0{,}48}{0{,}32}\times10 = 30 + \frac{0{,}02}{0{,}32}\times10 = 30 + 0{,}625 \approx \mathbf{30{,}6}\%\)
d) Villages avec taux \(> 30\%\) :
Classes [30;40[ et [40;50] : \(8+5=13\) villages sur 25 \(= \frac{13}{25} = 52\%\)
✏️ Exercices d'application
Classer chaque variable comme qualitative nominale, qualitative ordinale, quantitative discrète ou quantitative continue :
- a) Région d'origine d'un Burkinabè
- b) Niveau d'étude (primaire, collège, lycée, université)
- c) Nombre de sacs de mil par ménage
- d) Quantité de pluie tombée en une journée (en mm)
- e) Note au baccalauréat (de 0 à 20 par entiers)
- f) Température à Ouagadougou à midi
b) Qualitative ordinale (ordre naturel : primaire < collège < lycée < université)
c) Quantitative discrète (valeurs entières isolées)
d) Quantitative continue (toute valeur positive possible)
e) Quantitative discrète (entiers de 0 à 20)
f) Quantitative continue (toute valeur réelle)
Les âges (en années) de 20 femmes participant à une coopérative agricole de Bobo-Dioulasso sont :
23, 35, 41, 28, 52, 31, 24, 47, 38, 29, 44, 33, 27, 56, 36, 22, 49, 31, 25, 43
- a) Construire un tableau avec les classes [20;30[, [30;40[, [40;50[, [50;60] et calculer les fréquences cumulées.
- b) Quel pourcentage de femmes a moins de 40 ans ?
- c) Estimer la médiane par interpolation.
[30;40[ : 35,31,38,33,36,31 → n=6, f=0,30, F=0,65
[40;50[ : 41,47,44,49,43 → n=5, f=0,25, F=0,90
[50;60] : 52,56 → n=2, f=0,10, F=1,00
b) F([20;40[) = 0,35+0,30 = 0,65 → 65 % des femmes ont moins de 40 ans.
c) Classe médiane : [30;40[ (F passe de 0,35 à 0,65).
Médiane = 30 + \(\frac{0{,}5-0{,}35}{0{,}30}\times10 = 30+5=\mathbf{35}\) ans.
La production de coton (en tonnes) de 12 exploitations agricoles dans les Hauts-Bassins est :
2,1 3,4 1,8 4,2 2,8 3,1 5,0 2,5 3,8 4,5 2,2 3,6
- a) Construire un tableau avec les classes [1;2[, [2;3[, [3;4[, [4;5[, [5;6].
- b) Quelle est la classe modale (classe la plus fréquente) ?
- c) Calculer la fréquence des exploitations produisant au moins 3 tonnes.
b) Classes modales : [2;3[ et [3;4[ (toutes deux n=4).
c) Classes [3;4[, [4;5[, [5;6] : \(4+2+1=7\) exploitations sur 12 = \(7/12\approx\mathbf{58{,}3\%}\).
Une enquête sur 200 ménages de Koudougou donne la distribution suivante du nombre de personnes par ménage :
| Taille | 1 | 2 | 3 | 4 | 5 | 6 | 7+ |
|---|---|---|---|---|---|---|---|
| Effectif | 8 | 20 | 35 | 48 | 40 | 32 | 17 |
- a) Calculer les fréquences relatives et les fréquences cumulées.
- b) Quel pourcentage de ménages ont 4 personnes ou moins ?
- c) La valeur 7+ est une classe ouverte. Peut-on calculer la médiane exacte ? Justifier.
Fréq. cumulées : 0,04 ; 0,14 ; 0,315 ; 0,555 ; 0,755 ; 0,915 ; 1,000.
b) Fréq. cum. pour taille ≤ 4 : \(0{,}555\) → 55,5 %.
c) La médiane se trouve là où \(F=0{,}5\), soit entre la taille 3 (F=0,315) et la taille 4 (F=0,555). La médiane est exactement 4 personnes (variable discrète — on prend la valeur pour laquelle F passe pour la première fois à ≥ 0,5). Pas besoin d'interpolation pour une variable discrète.
Dans la plaine de Bama (Hauts-Bassins), les rendements de riz irrigué (en tonnes/hectare) de 30 parcelles sont résumés :
| Rendement [t/ha] | [2;3[ | [3;4[ | [4;5[ | [5;6[ | [6;7] |
|---|---|---|---|---|---|
| Effectif | 3 | 8 | 11 | 6 | 2 |
- a) Compléter avec les fréquences relatives et cumulées.
- b) Estimer la médiane et interpréter.
- c) Estimer le premier quartile \(Q_1\) (valeur pour laquelle \(F=0{,}25\)).
- d) Quelle est la densité de fréquence de chaque classe (toutes d'amplitude 1) ? Quelle classe a la plus haute densité ?
b) Classe médiane : [4;5[ (F passe de 0,367 à 0,733). \(F_{\text{avant}}=0{,}367\), \(f_{\text{cl}}=0{,}367\).
Médiane = \(4+\frac{0{,}5-0{,}367}{0{,}367}\times1=4+\frac{0{,}133}{0{,}367}\approx4+0{,}362=\mathbf{4{,}36}\) t/ha.
Interprétation : la moitié des parcelles produisent moins de 4,36 t/ha.
c) \(Q_1\) dans la classe [3;4[ (F passe de 0,100 à 0,367).
\(Q_1=3+\frac{0{,}25-0{,}100}{0{,}267}\times1=3+0{,}562\approx\mathbf{3{,}56}\) t/ha.
d) Densité = fréquence/amplitude = fréquence (amplitude = 1). La classe [4;5[ a la plus haute densité \(d=0{,}367\) — c'est la classe modale.
À retenir
- Population \(N\) vs échantillon \(n\) : les statistiques descriptives décrivent les données observées sans généraliser.
- Variables : qualitative (nominale ou ordinale) ou quantitative (discrète ou continue). Le type détermine les méthodes applicables.
- Effectif \(n_i\) et fréquence \(f_i = n_i/N\) : \(\sum f_i = 1\).
- Fréquence cumulée \(F_i\) : proportion d'individus ayant une valeur \(\leq x_i\).
- Données groupées : classes \([a\,;\,b[\), centre \(c=(a+b)/2\), densité \(d=f/h\) pour les amplitudes inégales.
- Médiane par interpolation : \(a + \frac{0{,}5 - F_{\text{avant}}}{f_{\text{cl}}} \times (b-a)\).
- Graphiques : histogramme (continu), barres (discret), camembert (parts), ogive (cumulé).
- Statistiques descriptives vs inférentielles : décrire le connu vs inférer sur l'inconnu.