Professional Documents
Culture Documents
Principes et Méthodes
Statistiques
ENSAS 2018/2019 1
Plan du cours
Introduction générale
Chapitre 1 : Statistique descriptive
Chapitre 2 : Variable aléatoire
Chapitre 3 : Échantillonnage -Estimation
Chapitre 4 : Test d’hypothèses
Chapitre 5 : Régression linéaire simple
Chapitre 6: Régression linéaire multiple
ENSAS 2018/2019 2
INTRODUCTION GÉNÉRALE
Définition:
La statistique est la science dont l'objet est de
réunir, d'analyser, de commenter et critiquer des données
issues de l'observation de phénomènes aléatoires.
Dans la statistique il y a intervention du hasard et
des probabilités. L'objectif essentiel de la statistique est
de maîtriser au mieux cette incertitude.
L'analyse des données est utilisée pour décrire les
phénomènes étudiés, faire des prévisions et prendre des
décisions à leur sujet. En cela, la statistique est un outil
essentiel pour la compréhension et la gestion des
phénomènes complexes.
ENSAS 2018/2019 3
Exemples de Domaines d'application de la statistique:
ENSAS 2018/2019 4
Méthodes statistiques:
Les méthodes statistiques se repartissent en deux classes :
A- La statistique descriptive:
• Elle a pour but de résumer l'information contenue dans les données de façon
synthétique et efficace. Elle utilise pour cela des représentations de données sous
forme de graphiques (histogrammes, polygones, diagramme en boîte …), de tableaux
et d'indicateurs numériques (moyenne, écart-type, médiane…).
• Les probabilités n'ont qu'un rôle mineur dans la statistique descriptive.
B- La statistique inférentielle:
• La statistique inférentielle permet d’utiliser les données relatives à un échantillon
pour tirer des conclusions sur l'ensemble de la population.
• Elle a pour but de faire des prévisions et de prendre des décisions au vu des
observations:
Estimation de paramètres
Tests d'hypothèse
• En général, il faut pour cela proposer des modèles probabilistes du phénomène
aléatoire étudié et savoir gérer les risques d'erreurs. Les probabilités jouent ici un
rôle fondamental.
ENSAS 2018/2019 5
Chapitre 1: STATISTIQUE DESCRIPTIVE
1- Terminologie
• Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique,
dont les éléments sont des individus ou unités statistiques. Chaque individu est
décrit par une ou plusieurs variables, ou caractères statistiques.
ENSAS 2018/2019 6
Exemple :
Si l’échantillon est un groupe de TD à l'ENSAS, un individu est un
étudiant, la population peut être l'ensemble des étudiants de
l'ENSAS, des élèves ingénieur du Maroc, des habitants de Safi,
etc...les variables étudiées peuvent être la taille, la filière choisie, la
moyenne d'année, la couleur des yeux, la catégorie socio-
professionnelle des parents,...
• Chaque variable peut être, selon le cas :
Quantitative : ses valeurs sont des nombres exprimant une quantité, sur
lesquels les opérations arithmétiques (somme, etc...) ont un sens.
La variable peut alors être discrète ou continue selon la nature de
l'ensemble des valeurs qu'elle est susceptible de prendre (valeurs isolées
ou intervalle).
Qualitative : ses valeurs sont des modalités, ou catégories, exprimées
sous forme littérale ou par un codage numérique sur lequel des opérations
arithmétiques n'ont aucun sens.
On distingue des variables qualitatives ordinales ou nominales, selon que
les modalités peuvent être naturellement ordonnées ou pas.
ENSAS 2018/2019 7
ENSAS 2018/2019 8
Exemple 1:
• un contrôleur doit vérifier le bon fonctionnement d'une chaîne d'embouteillage
d'une cave coopérative.
Il note exactement le contenu de 100 bouteilles testées (en cl) :
74,3 75,2 73 75 75,6 ....
Il s'agit d'une série statistique brute résultant de la mesure de la variable (ou
caractère): « contenu » sur les individus (ou unités statistiques) : Bouteilles,
L’échantillon étudié comporte 100 individus. Le caractère étudié est quantitatif
et continu.
Exemple 2:
La population est constituée des 432 000 UV de produit des quatre secteurs
considérés, Le caractère est le secteur productif d’origine ce qui est une qualité. Le
caractère est donc qualitatif. Les Modalités sont au nombre de 4 : Marbre, Peaux,
chimie, tourisme…
ENSAS 2018/2019 9
Diagramme sectoriel
Category
Chimie
Marbre
Peaux
Tourisme
Diagramme en bâtons
120000
100000
80000
Effectif
60000
40000
20000
0
Chimie Marbre Peaux Tourisme
ENSAS 2018/2019 10
2.2.1- Cas d’une Variable quantitative discrète:
Valeurs de la
variable Effectifs Fréquences %
= × 100
Il existe un ordre naturel sur
… … … … les modalités:
< <⋯<
= × 100
… … … …
= × 100
Total 1 100
Graphique :
diagrammes en bâtons (en effectifs, fréquences, ou %) pour visualiser l'allure de
la distribution statistique.
Courbe cumulative des fréquences.
ENSAS 2018/2019 11
• Les représentations graphiques effectuées permettent de guider le
statisticien dans le choix d'un modèle probabiliste adapté aux données.
En effet, la fréquence = pourcentage d'observation de la modalité
dans l‘échantillon, est une estimation naturelle de la probabilité que la
variable prenne la valeur de la modalité , ( = ). Une loi de
probabilité vraisemblable pour est une loi telle que le diagramme des
( = ) soit proche, en un certain sens, du diagramme en bâtons.
ENSAS 2018/2019 12
Courbe cumulative:
ENSAS 2018/2019 13
Exemple: Les performances en jet de javelot de 100 joueurs sont présentés
dans le tableau suivant:
Effectifs 6 17 41 27 9 100
Effectifs
cumulés 6 23 64 91 100
croissants
Fréquences
cumulées 0,06 0,23 0,64 0,91 1
croissantes
ENSAS 2018/2019 14
ENSAS 2018/2019 15
2.2- Cas d’une Variable quantitative continue
Dans ce cas les représentations du type diagramme en bâtons sont sans intérêt et
On considèrera deux types de représentations graphiques :
• L'histogramme
• La fonction de répartition empirique
A- l'histogramme:
Le principe de cette représentation est de regrouper les observations « proches » en
classes. Pour cela:
On commence par ordonner les données. Si l‘échantillon initial est noté:
, … , l‘échantillon ordonné sera noté: ∗ , … , ∗
La règle de Herbert Sturges suggère un nombre de classes égal à :
ln( )
! ≈1+
l n(2)
On se fixe une borne inferieure de l‘échantillon '( < ∗ et une borne
supérieure ' > ∗ avec:
∗ ∗ - ∗) ∗ ∗ - ∗)
'( = − 0,025( et ' = + 0,025(
ENSAS 2018/2019 16
• L’histogramme des effectifs de la distribution statistique: ,([. , . / [ /1 ≤ ≤
! 1 s’obtient en traçant pour tout ∈ 1, … , ! le rectangle de largeur L = . / - .
(amplitude d’une classe) , et d’aire ∝ et de hauteur ∝
4 5 −4
• Dans le cas d’un histogramme des fréquences l’aire d’un rectangle est ∝ et la
hauteur: H∝
(4 5 −4 )
• Dans la pratique deux cas peuvent se présenter. Le cas où les classes sont d’égales
amplitudes et le cas où les amplitudes sont inégales.
ENSAS 2018/2019 17
Exemple 1: cas où les classes sont d’égales amplitudes
• Lors d’une course de vitesse, les 40 participants ont mis les temps (voir Tableau)
pour effectuer le parcours :
50.0 52.0 55.0 48.5
50.0 52.0 55.0 48.0
50.0 52.5 56.5 48.5
48.5 50.0 52.5 43.0
49.5 51.5 54.0 46.5
49.5 51.0 53.5 46.5
49.0 50.5 53.0 45.0
48.5 50.5 53.0 44.0
50.0 51.5 54.0 47.0
50.0 52.0 54.5 48.0
ENSAS 2018/2019 18
• On obtient le tableau des classes suivant:
Temps en
mn [43;45[ [45;47[ [47;49[ [49;51[ [51;53[ [53;55[ [55;57[
(classes)
Effectifs 2 3 7 11 8 6 3
Hauteurs ∝ 1 1,5 3,5 5,5 4 3 1,5
ENSAS 2018/2019 19
Exemple 2: Cas où les classes sont d’inégales amplitudes
On a recours à ce genre d’histogramme lorsque les données sont peu
denses dans certaines régions comme dans les queues de distribution.
Un groupe financier dispose de 250 agences bancaires réparties dans
l’ensemble du territoire nationale, enregistre le temps en heures de pannes
de ses guichets automatiques au cours de l’année 2011, Les résultats sont
inscrits dans le tableau ci-dessous.
Temps de
panne en [8 ; 8,4[ [8,4 ; 8,8[ [8,8 ;9,0[ [9 ; 9,2[ [9,2 ; 9,6[ [9,6 ; 10,2[ [10,2 ;
heures 10,9[
Nombre de 10 30 60 72 40 24 14
guichet
amplitudes 0,4 0,4 0,2 0,2 0,4 0,6 0,7
Hauteurs ∝ 25 75 300 360 100 40 20
ENSAS 2018/2019 20
• On obtient l’histogramme suivant:
ENSAS 2018/2019 21
C- courbe cumulative
• La courbe cumulative des fréquences de la distribution statistique:
KL
([. , . / [ /1 ≤ ≤ ! s’obtient en joignant les points H (. / ; ∑KL K )pour
variant de 1 à !
Exemple 3: considérons le tableau des classes vu dans un exemple précédent:
Temps en
mn [43 ; 45[ [45 ; 47[ [47 ; 49[ [49 ; 51[ [51 ; 53[ [53 ; 55[ [55 ; 57[
(classes)
Effectifs 2 3 7 11 8 6 3
Fréquence 0,050 0,075 0,175 0,275 0,200 0,150 0,075
Fréquence 0,050 0,125 0,300 0,575 0,775 0,925 1
cumulée
ENSAS 2018/2019 22
On obtient la courbe cumulative de fréquence ci-dessous:
Q
Avec : = ∑ L et , , … , Q sont respectivement les effectifs des
observations , , … , Q et , , … , Q sont leurs fréquences.
ENSAS 2018/2019 24
Exemple 1:
Les performances en jet de javelot de 100 joueurs sont présentées dans le tableau
suivant:
Longueur 71 74 77 80 83
(m)
Effectifs 6 17 41 27 9
71 × 6 + 74 × 17 + 77 × 41 + 80 × 27 + 83 × 9
̅= = 77,48
6 + 17 + 41 + 27 + 9
• Si les observations sont groupées sous formes de classes la moyenne se calcule
4 /4 5
comme précédemment, en remplaçant par le centre : = de la
classe[. ; . / [.
Exemple 2:
Soit le tableau donnant les salaires en dirhams des cadres d’une entreprise et leur
fréquence:
_` a` b` a`
[5000 ; 7000[ 0,21 6000 0,21 d
[7000 ; 9000[ 0,34 8000 0,34 ̅ = c : = 10655
[9000 ; 14000[ 0,25 11500 0,25 L
[14000 ; 20000[ 0,15 17000 0,15
[20000 ; 30000[ 0,05 25000 0,05
25
ENSAS 2018/2019
B- Médiane empirique:
Effectifs 6 17 41 27 9
On a: = 6 + 17 + 41 + 27 + 9 = 100
= 2! = 100 h' m
EE/EE
Donc :ef = d( = = 77
Exemple 2: considérons une classe de 60 élèves qui ont eu les notes
suivantes dans un examen de statistique:
Notes 4 5 5,5 7 8,5 9 10 12 13
_`
Effectif 5 6 3 8 10 12 10 4 2
n`
Effectif 5 11 14 22 32 44 54 58 60
cumulé
ef = 8,5
ENSAS 2018/2019 27
Exemple 3:
Considérons le tableau suivant donnant la superficie de 100 parcelles de
terrains agricoles en hectares:
Superficie x en [20 ; 40[ [40 ; 60[ [60 ; 80[ [80 ; 100[ [100 ; 120[
ha
Effectif 12 31 32 15 10
e o [60 ; 80[
ef − 60 50 − 43
=
80 − 60 75 − 43
⟺ e = 64,375
ENSAS 2018/2019 28
3.2- Indicateurs de position
A- Le Mode:
• Si est une variable discrète , on appelle mode qu’on note eq
toute valeur dont l’effectif (ou la fréquence) est maximum,
• Si X est une variable continue, on appelle classe modale toute
r
classe pour laquelle ou est maximum.
4 5 84 4 5 84
• Le mode eq permet de connaître la valeur la plus probable du
caractère.
• Le mode eq de l'histogramme est le milieu de la classe
correspondant au rectangle le plus haut.
ENSAS 2018/2019 29
Exemple : Considérons les deux séries statistiques vues précédemment et
représentées par les diagrammes suivants:
Cas d’une série à caractère discret Cas d’une série à caractère continue
eq ≈ 50
st =77 Classe Modale =[49 ; 51[
ENSAS 2018/2019 30
Remarque: La comparaison des trois paramètres ̅ , eu et ef donne
des indications sur la symétrie de la distribution.
ENSAS 2018/2019 31
B- les fractiles ou quantiles empiriques:
• Les Fractiles ou quantiles empiriques sont des valeurs qui partagent
l’échantillon ordonné en un certain nombre de parties de même effectif.
• s'il y a 2 parties, on retrouve la médiane empirique ef
• s'il y a 4 parties, on parle de quartiles, notés v ⁄w ; v ⁄y = ef ; vz⁄w
• s'il y a 10 parties, on parle de déciles, notés { ⁄ 9 ; … ; {|⁄ 9
• s'il y a 100 parties, on parle de centiles, notés } ⁄ 99 ; … ; }|⁄ 99
• Etc…
Remarque: Les déciles, et surtout les centiles, n'ont de sens que si n est
suffisamment grand (plusieurs centaines au moins pour des centiles).
ENSAS 2018/2019 32
2.3.3- Indicateurs de dispersion ou de variabilité
A- l ’étendue:
• L’étendue R est la mesure la plus simple de la dispersion, c’est l’intervalle
complet de la distribution. Elle exprime la distance entre la borne inférieure
(valeur minimale) et la borne supérieure de la distribution (valeur maximale).
Plus l’intervalle est grand, plus les valeurs sont dispersées autour de la
moyenne..
Exemple:
Considérons la série statistique suivante:
6,1 2,3 8,3 5,0 9,1 2,1 5,9 5,4 8,9 7,9
Min=2,1
Max= 9,1
R = Max-Min =9,1- 2,1 = 7,0
ENSAS 2018/2019 33
B- Les écarts inter-quantiles:
Remarque :
Tous ces écarts permettent de mesurer la dispersion autour de la médiane.
ENSAS 2018/2019 34
Diagramme en boîte (ou " boîte à moustaches"):
ENSAS 2018/2019 35
D- Ecart absolu moyen
• L’écart absolue moyen par rapport à la moyenne noté ̅ , encore appelé écart
arithmétique, est la moyenne arithmétique des valeurs absolues des écarts de
tous les termes de la série à leur moyenne arithmétique.
• Si nous disposons d’une série statistique: , ,…,
∑ L − ̅
̅ =
• Si la série est pondérée, on écrit: Q
∑QL − ̅ ∑QL − ̅
̅ = = =c − ̅
∑QL
L
Q
Avec : = ∑ L et , , … , Q sont respectivement les effectifs des
observations , , … , Q et , , … , Q sont leurs fréquences.
ENSAS 2018/2019 36
E- Variance et écart type:
• La variance empirique est la mesure de dispersion la plus utilisée. Elle est basée
sur la distance au carré entre la valeur d’un cas et la moyenne de l’échantillon.
• La variance (notée ‚ ²) est la somme de toutes les distances au carré divisée par
le nombre de cas.
∑L − ̅ ²
„ =
∑NO ²
Il est facile de vérifier : „ = − ̅²
P
∑O 8 ̅ ² Q
• Si la série statistique est pondérée on écrit: „ = =∑ L − ̅ ²
∑NO ²
Il est facile de vérifier : „ = − ̅ ² = ∑ L ² − ̅²
• Si les variables de la série sont regroupées en classes on remplace les par les
P
∑O …8 ̅ ² Q
centres de classes : : „ = =∑L : − ̅ ²
ENSAS 2018/2019 37
• Il est possible d’obtenir un résultat dans la même échelle que la mesure
originale. Il suffit de prendre la racine carrée de la variance. On obtient
alors l’écart-type qui indique si la moyenne représente bien les données.
†
„ = „
• Si l'écart-type est petit, les différentes observations sont situées près de la
moyenne. Dans le cas contraire, les observations s'éloignent de la
moyenne
• Un écart-type nul signifie que toutes les observations ont la même valeur.
Remarque:
Minitab donnent la valeur de s² au lieu de „ ∶
∑L − ̅
„² =
−1
On va voir l’explication dans le chapitre suivant (Estimation)
ENSAS 2018/2019 38
F- Coefficient de variation:
• La magnitude d’un écart-type dépend de l’unité de mesure. L’écart-type calculé
à partir d’une donnée mesurée en jours est beaucoup plus grand qu’avec une
donnée mesurée en années. De la même manière, l’écart-type de la variable «
salaire » en dollars sera beaucoup plus grand que celui de la variable « âge » en
années.
ENSAS 2018/2019 39
Exemple:
Considérons les deux séries statistiques suivantes concernant les notes
obtenues par deux groupes de 60 d’élèves ingénieurs à l’épreuve X :
Groupe A Groupe B
Note Effectif Note Effectif
4.0 1.0 4.0 4.0
5.0 1.0 5.0 4.0
6.0 3.0 6.0 4.0
7.0 4.0 7.0 4.0
8.0 8.0 8.0 7.0
9.0 12.0 9.0 4.0
10.0 8.0 10.0 5.0
11.0 6.0 11.0 6.0
12.0 5.0 12.0 5.0
13.0 4.0 13.0 4.0
14.0 3.0 14.0 3.0
15.0 2.0 15.0 4.0
16.0 2.0 16.0 4.0
17.0 1.0 17.0 2.0
ENSAS 2018/2019 40
Résultat d’analyse descriptive trouvé par Minitab:
ef (‰) ≈ ef (H)
Š ‰ = Š(H)
ENSAS 2018/2019 41
Les deux groupes A et B ont pratiquement la même moyenne , la même
médiane et même Etendues mais les notes du groupe B sont fortement
dispersées que celles du groupe A car l’écart-interquartile et l’écart-type
de B sont plus grand que ceux de A
ENSAS 2018/2019 42