I. Pourquoi mesurer la dispersion ?
La moyenne résume une série en un seul nombre mais ne dit rien sur la variabilité des données. Deux séries peuvent avoir la même moyenne tout en étant très différentes : l'une concentrée autour de la moyenne, l'autre très étalée.
Considérons deux zones agricoles du Burkina, chacune avec une production moyenne de 2 tonnes/ha :
Zone A (stable) : 1,8 ; 2,0 ; 2,1 ; 1,9 ; 2,2 tonnes/ha → moyenne = 2,0
Zone B (variable) : 0,2 ; 1,0 ; 2,5 ; 3,5 ; 2,8 tonnes/ha → moyenne = 2,0
La Zone A est prévisible — les agriculteurs peuvent planifier. La Zone B est risquée — les années catastrophiques (0,2 t/ha) alternent avec les bonnes années. La moyenne seule ne distingue pas ces deux situations : il faut une mesure de dispersion.
II. Variance et écart-type
La variance est la moyenne des carrés des écarts à la moyenne. L'écart-type est sa racine carrée — il s'exprime dans la même unité que les données, ce qui le rend directement interprétable.
On développe la définition de la variance :
\(\sigma^2 = \frac{1}{N}\sum n_i(x_i-\bar{x})^2 = \frac{1}{N}\sum n_i(x_i^2 - 2x_i\bar{x} + \bar{x}^2)\)
\(= \frac{\sum n_i x_i^2}{N} - 2\bar{x}\cdot\frac{\sum n_i x_i}{N} + \bar{x}^2\cdot\frac{\sum n_i}{N}\)
\(= \overline{x^2} - 2\bar{x}\cdot\bar{x} + \bar{x}^2 = \overline{x^2} - \bar{x}^2 \quad \square\)
Cette formule est dite de König-Huygens. Elle est plus pratique car elle évite de calculer \((x_i-\bar{x})^2\) pour chaque valeur — on calcule directement \(\overline{x^2}\) et \(\bar{x}^2\).
La constante \(b\) (translation) ne change pas la dispersion. Seul le facteur \(a\) (mise à l'échelle) la modifie.
Mesure la dispersion relative — permet de comparer des dispersions entre des séries d'unités ou d'échelles différentes.
Transformation qui donne une série de moyenne 0 et d'écart-type 1 — permet de comparer des individus issus de populations différentes.
Au moins \(1-1/k^2\) des données sont dans l'intervalle \([\bar{x}-k\sigma\,;\,\bar{x}+k\sigma]\).
III. Les quartiles et l'écart interquartile
Les quartiles divisent la série ordonnée en quatre parties égales. Ils sont plus robustes que la variance car ils ne sont pas influencés par les valeurs extrêmes. L'écart interquartile est la mesure de dispersion associée aux quartiles.
L'écart-type utilise toutes les valeurs, y compris les plus extrêmes, et les met au carré — ce qui amplifie leur influence. L'EIQ, lui, ignore complètement les 25 % plus bas et les 25 % plus hauts : il ne mesure que la dispersion du "cœur" de la distribution.
Règle pratique : une valeur est souvent considérée comme outlier (valeur aberrante) si elle est à plus de 1,5 × EIQ au-delà de \(Q_3\) ou en deçà de \(Q_1\). Ce critère est utilisé dans les boîtes à moustaches.
Pour les séries symétriques sans outliers, l'écart-type et l'EIQ donnent des informations similaires. Pour les séries asymétriques ou avec outliers, l'EIQ est préférable.
IV. La boîte à moustaches (box plot)
La boîte à moustaches (ou box plot) est un graphique qui résume une série statistique en cinq nombres : minimum, \(Q_1\), médiane, \(Q_3\), maximum. Elle permet de visualiser simultanément la tendance centrale, la dispersion et l'asymétrie d'une distribution.
V. Visualisation — variance, écart-type et boîtes à moustaches
Haut : même moyenne, dispersions différentes (σ=1 vs σ=3). Bas : boîtes à moustaches comparant les précipitations du Sahel et des Hauts-Bassins.
VI. Mesures de dispersion — tableau comparatif
| Mesure | Formule | Unité | Robuste ? | Utilisation préférentielle |
|---|---|---|---|---|
| Étendue | \(\max - \min\) | Même que les données | Non | Aperçu rapide, données sans outliers |
| Variance \(\sigma^2\) | \(\overline{x^2}-\bar{x}^2\) | Carré de l'unité | Non | Calculs théoriques, probabilités |
| Écart-type \(\sigma\) | \(\sqrt{\sigma^2}\) | Même que les données | Non | Description générale, loi normale |
| EIQ | \(Q_3 - Q_1\) | Même que les données | Oui | Données asymétriques ou avec outliers |
| Coef. variation | \(\sigma/\bar{x}\times100\%\) | Sans dimension (%) | Non | Comparer des séries d'unités différentes |
VII. Exemples travaillés
Calculer la variance et l'écart-type de la série : 4, 7, 7, 8, 10, 12, 15, 17.
\(N=8\). \(\bar{x}=\frac{4+7+7+8+10+12+15+17}{8}=\frac{80}{8}=10\)
Méthode 1 — par les écarts :
| \(x_i\) | \(x_i-\bar{x}\) | \((x_i-\bar{x})^2\) |
|---|---|---|
| 4 | −6 | 36 |
| 7 | −3 | 9 |
| 7 | −3 | 9 |
| 8 | −2 | 4 |
| 10 | 0 | 0 |
| 12 | 2 | 4 |
| 15 | 5 | 25 |
| 17 | 7 | 49 |
| Total | 0 | 136 |
\(\sigma^2 = \dfrac{136}{8} = 17\) ; \(\sigma = \sqrt{17} \approx 4{,}12\)
Méthode 2 — König-Huygens :
\(\overline{x^2} = \frac{16+49+49+64+100+144+225+289}{8} = \frac{936}{8} = 117\)
\(\sigma^2 = 117 - 10^2 = 117 - 100 = 17\) ✓
Pour la série ordonnée de 12 notes : 5, 6, 8, 9, 10, 10, 11, 12, 13, 14, 16, 18.
Médiane (\(N=12\) pair) : Me \(= \frac{x_{(6)}+x_{(7)}}{2} = \frac{10+11}{2} = 10{,}5\)
Quartile \(Q_1\) : médiane de la moitié inférieure [5, 6, 8, 9, 10, 10] :
\(Q_1 = \frac{8+9}{2} = 8{,}5\)
Quartile \(Q_3\) : médiane de la moitié supérieure [11, 12, 13, 14, 16, 18] :
\(Q_3 = \frac{13+14}{2} = 13{,}5\)
EIQ : \(Q_3-Q_1=13{,}5-8{,}5=5\)
Limites outliers :
Borne basse : \(Q_1-1{,}5\times\text{EIQ}=8{,}5-7{,}5=1\)
Borne haute : \(Q_3+1{,}5\times\text{EIQ}=13{,}5+7{,}5=21\)
Toutes les valeurs sont dans [1, 21] → pas d'outlier.
Résumé 5 nombres : Min=5, Q₁=8,5, Me=10,5, Q₃=13,5, Max=18.
Calculer la variance des rendements de coton (Leçon 2, Exercice 2) dont la moyenne était 1045 kg/ha.
| Classe | Centre \(c_i\) | \(n_i\) | \(n_i c_i^2\) |
|---|---|---|---|
| [600;800[ | 700 | 5 | 5×490000=2 450 000 |
| [800;1000[ | 900 | 12 | 12×810000=9 720 000 |
| [1000;1200[ | 1100 | 14 | 14×1210000=16 940 000 |
| [1200;1400[ | 1300 | 7 | 7×1690000=11 830 000 |
| [1400;1600] | 1500 | 2 | 2×2250000=4 500 000 |
| Total | — | 40 | 45 440 000 |
\(\overline{x^2} = \dfrac{45\,440\,000}{40} = 1\,136\,000\)
\(\sigma^2 = \overline{x^2} - \bar{x}^2 = 1\,136\,000 - 1045^2 = 1\,136\,000 - 1\,092\,025 = 43\,975\)
\(\sigma = \sqrt{43\,975} \approx 209{,}7\) kg/ha
Coefficient de variation : \(\text{CV} = \frac{209{,}7}{1045}\times100\% \approx 20{,}1\%\) — dispersion modérée.
VIII. Application concrète ⭐
On compare les précipitations annuelles (en mm) dans deux régions du Burkina :
Sahel (Dori) — 10 années : 380, 420, 310, 550, 290, 480, 350, 610, 410, 400
Sud-Ouest (Gaoua) — 10 années : 980, 1020, 1150, 870, 1100, 960, 1080, 930, 1010, 900
- a) Calculer la moyenne et l'écart-type de chaque région.
- b) Calculer le coefficient de variation de chaque région. Quelle région est la plus variable en termes relatifs ?
- c) Calculer le résumé en 5 nombres et l'EIQ pour chaque région.
- d) Y a-t-il des outliers dans les données du Sahel ?
a) Sahel :
\(\bar{x}_S=\frac{380+420+310+550+290+480+350+610+410+400}{10}=\frac{4200}{10}=420\) mm
\(\overline{x_S^2}=\frac{380^2+420^2+\cdots+400^2}{10}=\frac{1\,835\,800}{10}=183\,580\)
\(\sigma_S^2=183\,580-420^2=183\,580-176\,400=7\,180\) ; \(\sigma_S=\sqrt{7\,180}\approx84{,}7\) mm
Sud-Ouest :
\(\bar{x}_G=\frac{980+1020+1150+870+1100+960+1080+930+1010+900}{10}=\frac{10\,000}{10}=1000\) mm
\(\overline{x_G^2}=\frac{980^2+\cdots+900^2}{10}=\frac{10\,069\,000}{10}=1\,006\,900\)
\(\sigma_G^2=1\,006\,900-1000^2=6\,900\) ; \(\sigma_G=\sqrt{6\,900}\approx83{,}1\) mm
b) Coefficients de variation :
\(\text{CV}_S=\frac{84{,}7}{420}\times100=\mathbf{20{,}2\%}\) \(\text{CV}_G=\frac{83{,}1}{1000}\times100=\mathbf{8{,}3\%}\)
Malgré des écarts-types similaires (~84 mm), le Sahel est bien plus variable en termes relatifs (20 % vs 8 %). Un écart de 84 mm représente peu par rapport à 1000 mm mais beaucoup par rapport à 420 mm.
c) Résumé 5 nombres — Sahel :
Série ordonnée : 290, 310, 350, 380, 400, 410, 420, 480, 550, 610.
Me = (400+410)/2 = 405 mm ; Q₁ = (350+380)/2 = 365 mm ; Q₃ = (480+550)/2 = 515 mm
EIQ = 515−365 = 150 mm
d) Outliers Sahel :
Borne basse : 365−1,5×150 = 140 ; Borne haute : 515+1,5×150 = 740
Toutes les valeurs sont dans [140, 740] → pas d'outlier détecté dans les données du Sahel.
✏️ Exercices d'application
Calculer la variance et l'écart-type des deux séries suivantes par la formule de König-Huygens. Laquelle est la plus dispersée ?
- Série A : 8, 10, 10, 12, 12, 12, 14, 14, 16 (notes d'élèves)
- Série B : 2, 6, 10, 12, 12, 12, 14, 18, 22 (même moyenne, répartition différente)
Série B : \(\bar{x}=108/9=12\). \(\overline{x^2}=(4+36+100+144+144+144+196+324+484)/9=1576/9\approx175{,}1\). \(\sigma_B^2=175{,}1-144=31{,}1\). \(\sigma_B\approx5{,}58\).
La Série B est bien plus dispersée (\(\sigma\approx5{,}58\) vs \(2{,}30\)), même si les deux ont la même moyenne et le même mode (12).
Les rendements journaliers (en kg) de 15 marchands de karité du marché de Bobo-Dioulasso sont :
12, 25, 18, 32, 15, 28, 22, 35, 19, 42, 27, 16, 55, 24, 31
- a) Trier les données et trouver le résumé en 5 nombres.
- b) Calculer l'EIQ et identifier les outliers éventuels.
- c) Calculer la variance et l'écart-type.
Min=12, Max=55. Me=x₍₈₎=25. Q₁=médiane de {12,15,16,18,19,22,24}=18. Q₃=médiane de {27,28,31,32,35,42,55}=32.
b) EIQ=32-18=14. Borne basse=18-21=-3. Borne haute=32+21=53. La valeur 55 > 53 → outlier !
c) \(\bar{x}=(12+15+\cdots+55)/15=421/15\approx28{,}1\). \(\overline{x^2}=(144+225+256+324+361+484+576+625+729+784+961+1024+1225+1764+3025)/15=12507/15=833{,}8\). \(\sigma^2=833{,}8-28{,}1^2=833{,}8-789{,}6=44{,}2\). \(\sigma\approx\sqrt{44{,}2}\approx\mathbf{111{,}2}\) ... relancer : \(28{,}1^2=789{,}61\). \(\sigma^2=833{,}8-789{,}6=44{,}2\). \(\sigma\approx\mathbf{11{,}1}\) kg.
Une série a une moyenne de 50 et un écart-type de 8.
- a) On ajoute 10 à toutes les valeurs. Quelle est la nouvelle moyenne ? le nouvel écart-type ?
- b) On multiplie toutes les valeurs par 1,5. Quelle est la nouvelle moyenne ? le nouvel écart-type ?
- c) On transforme par \(z = (x-50)/8\) (centrage-réduction). Quelle est la moyenne et l'écart-type de la série \(z\) ?
b) \(\overline{1{,}5x}=1{,}5\times50=75\). \(\sigma_{1{,}5x}=1{,}5\times8=12\).
c) \(z=(x-50)/8\). \(\bar{z}=(50-50)/8=0\). \(\sigma_z=8/8=1\). La série centrée-réduite a moyenne 0 et écart-type 1.
Deux exploitations agricoles du Centre-Nord burkinabè ont produit (en sacs de 100 kg) sur 8 années :
Exploitation A : 42, 45, 48, 44, 43, 47, 46, 45
Exploitation B : 30, 55, 38, 62, 41, 50, 48, 36
- a) Calculer la moyenne et l'écart-type de chaque exploitation.
- b) Laquelle recommanderiez-vous à un investisseur qui cherche la stabilité ? à un investisseur qui cherche le rendement maximal possible ?
- c) Si chaque sac vaut 15 000 FCFA, quel est l'écart-type du revenu annuel de chaque exploitation ?
Exploitation B : \(\bar{x}_B=360/8=45\) sacs. \(\overline{x_B^2}=17134/8=2141{,}75\). \(\sigma_B^2=2141{,}75-2025=116{,}75\). \(\sigma_B\approx10{,}8\) sacs.
b) Mêmes moyennes (45 sacs), mais \(\sigma_B\approx4{,}7\times\sigma_A\). Pour la stabilité : exploitation A. Pour le rendement maximal possible : B (peut atteindre 62 sacs vs 48 pour A), mais au risque d'années très mauvaises (30 sacs).
c) Transformation : valeur = 15 000 × production. \(\sigma_{\text{revenu A}}=15000\times2{,}29\approx\mathbf{34\,350}\) FCFA. \(\sigma_{\text{revenu B}}=15000\times10{,}8\approx\mathbf{162\,000}\) FCFA.
Dans un lycée de Ouagadougou, les notes de Mathématiques ont une moyenne de 11,2 et un écart-type de 3,4. Les notes de Français ont une moyenne de 12,5 et un écart-type de 2,8.
Kader a obtenu 15 en Mathématiques et 14 en Français.
- a) Calculer le score standardisé (note Z) de Kader dans chaque matière.
- b) Dans quelle matière Kader se distingue-t-il le plus de la moyenne de la classe ?
- c) Si la classe entière avait ses notes de Maths augmentées de 2 points (correction d'une erreur dans le barème), quelle seraient la nouvelle moyenne et le nouvel écart-type ?
- d) L'inégalité de Chebyshev avec \(k=2\) garantit qu'au moins 75 % des élèves ont des notes dans quel intervalle (en Maths) ?
Français : \(Z_F=\frac{14-12{,}5}{2{,}8}=\frac{1{,}5}{2{,}8}\approx\mathbf{0{,}54}\) écarts-types au-dessus.
b) Kader se distingue davantage en Mathématiques (\(Z=1{,}12\) vs \(0{,}54\)) — sa note de Maths est plus loin de la moyenne relative à la dispersion de la classe.
c) Nouvelle moyenne = \(11{,}2+2=\mathbf{13{,}2}\). Nouvel écart-type = \(\mathbf{3{,}4}\) inchangé (translation).
d) Intervalle : \([\bar{x}-2\sigma\,;\,\bar{x}+2\sigma]=[11{,}2-6{,}8\,;\,11{,}2+6{,}8]=[\mathbf{4{,}4\,;\,18{,}0}]\). Au moins 75 % des élèves ont une note dans cet intervalle.
À retenir
- Variance : \(\sigma^2=\frac{\sum n_i(x_i-\bar{x})^2}{N}=\overline{x^2}-\bar{x}^2\) — König-Huygens est souvent plus rapide.
- Écart-type : \(\sigma=\sqrt{\sigma^2}\) — même unité que les données, interprétable directement.
- Linéarité : \(\sigma_{ax+b}=|a|\sigma_x\) — translation n'affecte pas la dispersion.
- Quartiles : \(Q_1\) (25%), \(Q_2=\text{Me}\) (50%), \(Q_3\) (75%) — calculés par interpolation pour des données groupées.
- EIQ : \(Q_3-Q_1\) — robuste aux outliers, mesure la dispersion du "cœur" des données.
- Outliers : valeurs en dehors de \([Q_1-1{,}5\times\text{EIQ}\,;\,Q_3+1{,}5\times\text{EIQ}]\).
- Boîte à moustaches : résumé en 5 nombres (Min, Q₁, Me, Q₃, Max) — visualise tendance et dispersion.
- CV : \(\sigma/\bar{x}\times100\%\) — dispersion relative, permet de comparer des séries d'échelles différentes.
- Chebyshev : au moins \(1-1/k^2\) des données dans \([\bar{x}-k\sigma\,;\,\bar{x}+k\sigma]\) — valable pour toute distribution.