You are on page 1of 192

Cours ralis par Laurent DOYEN

La statistique descriptive
DOYEN

1. Introduction et dfinitions

Statistique descriptive:
Analyse et synthse, NUMERIQUE et GRAPHIQUE,
dun ensemble de donnes
DOYEN

1. Introduction et dfinitions

Statistique descriptive:
Analyse et synthse, NUMERIQUE et GRAPHIQUE,
dun ensemble de donnes

But: Synthtiser linformation contenue dans les donnes

Origine: tude dmographique


DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies
DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies

Personne humaine, automobile, entreprise, pays, .


DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies

Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs


DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies

Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs

Les tudiants de 12-25ans, les Renault produites entre 1990 et 1995


DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies

Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs

Les tudiants de 12-25ans, les Renault produites entre 1990 et 1995

Caractre (Variable Statistique): ce quon observe sur


chacun des individus de la population
DOYEN

Individus: latin: ce qui est indivisible


stat: chacune des personnes tudies

Personne humaine, automobile, entreprise, pays, .

Population: ensemble des individus observs

Les tudiants de 12-25ans, les Renault produites entre 1990 et 1995

Caractre (Variable Statistique): ce quon observe sur


chacun des individus de la population

Sexe, age, taille, nombre enfants,


DOYEN

Attention:

La population doit tre dfinie avec prcision,


cest totalement diffrent de considrer:
Les tudiants
Les tudiants de 12-25 ans
Les tudiants de lIUP com. et vente de Grenoble
DOYEN

Attention:

La population doit tre dfinie avec prcision,


cest totalement diffrent de considrer:
Les tudiants
Les tudiants de 12-25 ans
Les tudiants de lIUP com. et vente de Grenoble

La population doit tre homogne au regard des


caractres tudis:
la rpartition des individus selon leur taille doit
distinguer les deux sexes
DOYEN

2 types de caractres:

Qualitatifs: non mesurables


DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
Quantitatifs discrets:
peuvent prendre un
nombre fini et faible
de valeurs
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues:
Par nature:
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues: Taille:
Par nature: 1m 2m
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues: Taille:
Par nature: 1m 2m

Par ncessit:
DOYEN

2 types de caractres:
Sexe, couleur des
yeux, secteur
Qualitatifs: non mesurables dactivit
Quantitatifs: mesurables Age, taille , PIB, taux
de chmage
Quantitatifs discrets: Nb enfants
peuvent prendre un
nombre fini et faible 0 1 2 3 4 5
de valeurs
Quantitatifs continues: Taille:
Par nature: 1m 2m

Nombre de salaris dune PME


Par ncessit:
0 500
DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.

EXHAUSTIFS et INCOMPATIBLES
DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.

EXHAUSTIFS et INCOMPATIBLES

Cad chaque individu prsente une et une seule modalit du caractre


DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.

EXHAUSTIFS et INCOMPATIBLES

Cad chaque individu prsente une et une seule modalit du caractre

Cadre suprieure, Profession int., Employ, Ouvrier, Ouvrier qualifi


DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.

EXHAUSTIFS et INCOMPATIBLES

Cad chaque individu prsente une et une seule modalit du caractre

Cadre suprieure, Profession int., Employ, Ouvrier, Ouvrier qualifi


Inactifs
DOYEN

2. tude dun caractre qualitatif


2.1 Modalits dun caractre: les diffrents tats dun
caractre qualitatif.

EXHAUSTIFS et INCOMPATIBLES

Cad chaque individu prsente une et une seule modalit du caractre

Cadre suprieure, Profession int., Employ, Ouvrier, Ouvrier qualifi


Inactifs
DOYEN

N= Effectif total de la
2.2 Pourcentage et frquence: population
ni= Effectif de la modalit
p i f i
considre

n n
f=N
p = 100
i
i
N i
i
DOYEN

N= Effectif total de la
2.2 Pourcentage et frquence: population
ni= Effectif de la modalit
p i f i
considre

n n
f=N
p = 100
i N
i
i
i

Proprit: p =100
i
i
f
i
=1
i
DOYEN

N= Effectif total de la
2.2 Pourcentage et frquence: population
ni= Effectif de la modalit
p i f i
considre

n n
f=N
p = 100
i N
i
i
i

Proprit: p =100
i
i
f
i
=1
i

Exemple: En 1989 parmi les franais de plus de 15 ans


Sur 21033906 hommes il y a 4286858 retraits
4286858 10020% des hommes sont retraits
21033906
DOYEN

2.3 Tableau de distribution:


Franais de plus de 15 ans en 1986

CSP Nb de personnes Pourcentages


Agriculteurs exploitants 1268264 2.9
Artisans, commerants et 1757221 4.0
chefs dentreprises
Cadres et professions 2314770 5.3
intellectuelles suprieures
Professions intermdiaires 4593294 10.4
Employs 6771239 15.4
Ouvriers 7121812 16.2
Retraits 8429509 19.2
Inactifs divers (autres que 11741884 26.7
retraits)
Ensemble 43997993 100
DOYEN

2.4 Reprsentations graphiques:


Rgle: sur les graphiques, les aires des modalits
sont proportionnelles leurs effectifs
DOYEN

2.4 Reprsentations graphiques:


Rgle: sur les graphiques, les aires des modalits
sont proportionnelles leurs effectifs
a. Diagramme en barre: La hauteur des barres est
proportionnelle leffectif de la
modalit
30
Agri. Exploi.
Artisans,
20 Cadres
Prof. Int.
Employs
10 Ouvriers
Retraits
Inactifs
0
Pourcentages
DOYEN

b. Diagramme en secteurs: Langle du secteur de disque est


proportionnel leffectif de la
modalit

Agri. Exploi.
Artisans,
Cadres
Prof. Int.
Employs
Ouvriers
Retraits
Inactifs
DOYEN

3. tude dune variable


quantitative discrte
Mnage Franais par rapport leur effectif en 1989
Nbe personnes Effectif Pourcentage
1 personne 7079434 31.6
2 personnes 7086664 31.6
3 personnes 3619655 16.1
4 personnes 3057674 13.6
5 personnes 1182235 5.3
6 ou plus 109189 1.8
Total 22434621 100
DOYEN

3. tude dune variable


quantitative discrte
Mnage Franais par rapport leur effectif en 1989
Nbe personnes Effectif Pourcentage
1 personne 7079434 31.6 On considre
2 personnes 7086664 31.6 6 et +
comme valant
3 personnes 3619655 16.1 6
4 personnes 3057674 13.6
5 personnes 1182235 5.3
6 ou plus 109189 1.8
Total 22434621 100
DOYEN

3.1 Frquence cumule: proportion dindividus dont la


valeur du caractre est infrieure ou gale la valeur
considre
Nbe pers. Effectif Pi F. Cumule
en %
1 pers. 7079434 32 32
2 pers. 7086664 32
3 pers. 3619655 16
4 pers. 3057674 14

5 pers. 1182235 5
6 ou plus 109189 2
Total 22434621 100
DOYEN

3.1 Frquence cumule: proportion dindividus dont la


valeur du caractre est infrieure ou gale la valeur
considre
Nbe pers. Effectif Pi F. Cumule
en %
1 pers. 7079434 32 32 7079434 + 7086664
2 pers. 7086664 32 63 22434621
3 pers. 3619655 16
4 pers. 3057674 14
32+32=64
5 pers. 1182235 5
6 ou plus 109189 2
Total 22434621 100
DOYEN

3.1 Frquence cumule: proportion dindividus dont la


valeur du caractre est infrieure ou gale la valeur
considre
Nbe pers. Effectif Pi F. Cumule
en %
1 pers. 7079434 32 32 7079434 + 7086664
2 pers. 7086664 32 63 22434621
3 pers. 3619655 16 79

4 pers. 3057674 14 93
32+32=64
5 pers. 1182235 5 98

6 ou plus 109189 2 100 En 1989, 63% des


mnages sont composs
Total 22434621 100
de 2 personnes ou moins
DOYEN

3.2 Reprsentations graphiques:

a. Histogramme des frquences:


Diagramme en bton: en abscisse les valeurs du caractre
en ordonne les frquences
Frquence en %

30

20

10

Nbe de pers.
0
par mnage
1 2 3 4 5 6 et +
DOYEN

3.2 Reprsentations graphiques:

a. Histogramme des frquences:


Diagramme en bton: en abscisse les valeurs du caractre
en ordonne les frquences
Frquence en %

30
32% des mnages
sont composs de
20 2 personnes

10

Nbe de pers.
0
par mnage
1 2 3 4 5 6 et +
DOYEN

b. Diagramme cumulatif:
Reprsente les frquences cumules en fonction des valeurs du
caractre

Frquence en %
100

75

50

25

0 Nbe pers.
0 1 2 3 4 5 6 7 par mnage
DOYEN

b. Diagramme cumulatif:
Reprsente les frquences cumules en fonction des valeurs du
caractre

Frquence en %
100

75

79% des mnages franais


50 sont constitu de
strictement moins
25 de 4 personnes

0 Nbe pers.
0 1 2 3 4 5 6 7 par mnage
DOYEN

3.3 Rsum numrique dune distribution:

a. Caractristiques centrales:

La moyenne note x
Moyenne arithmtique des valeurs du caractre pour les n
individus de la population

x = ni xi = f
1
x
n i i
i i
DOYEN

3.3 Rsum numrique dune distribution:

a. Caractristiques centrales:
Reprsente le barycentre
des valeurs prises par le
La moyenne note x caractre

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

x = ni xi = f
1
x
n i i
i i
x = ni xi = f
DOYEN

1
n i i
i x i

Nbe pers. Effectif Pi


x=
1 pers. 7079434 32 0.32*1
2 pers. 7086664 32 +0.32*2
3 pers. 3619655 16 +0.16*3
4 pers. 3057674 14 +0.14*4
5 pers. 1182235 5 +0.05*5
6 ou plus 109189 2 +0.02*6
Total 22434621 100 2.4 (personnes)
x = ni xi = f
DOYEN

1
n i i
i x i

Nbe pers. Effectif Pi


x=
1 pers. 7079434 32 0.32*1
2 pers. 7086664 32 +0.32*2
Ne pas oublier
3 pers. 3619655 16 +0.16*3 lunit
4 pers. 3057674 14 +0.14*4
5 pers. 1182235 5 +0.05*5
6 ou plus 109189 2 +0.02*6
Total 22434621 100 2.4 (personnes)
En 1989 en France, il y a en
moyenne 2.4 personnes par mnage
DOYEN

Le(s) mode(s)

Valeurs du caractre en lesquelles lhistogramme des


frquences possde un maximum relatif
DOYEN

Le(s) mode(s)

Valeurs du caractre en lesquelles lhistogramme des


frquences possde un maximum relatif
Frquence en %

30
Le mode vaut: 2 personnes

20

10

Nbe de pers.
0
par mnage
1 2 3 4 5 6 et +
DOYEN

Le mode

Valeurs du caractre en lesquels lhistogramme des


frquences possde un maximum RELATIF
DOYEN

Le mode

Valeurs du caractre en lesquels lhistogramme des


frquences possde un maximum RELATIF

Cette distribution a
2 modes!
Elle est BIMODALE

Cest souvent caractristique dune population


NON HOMOGENE
DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
On la dtermine laide des frquences cumules ou
du diagramme cumulatif
DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
On la dtermine laide des frquences cumules ou
du diagramme cumulatif
Frquence en %
100 La mdiane
est entre 1 et 2
75
personnes par
mnage
50

25

0 Nbe pers.
0 1 2 3 4 5 6 7 par mnage
DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
On la dtermine laide des frquences cumules ou
du diagramme cumulatif
Frquence en %
100 La mdiane
est entre 1 et 2
75
personnes par
62% 2 pers. ou moins
mnage
50

25
32% 1 pers. ou moins

0 Nbe pers.
0 1 2 3 4 5 6 7 par mnage
DOYEN

Quelle est la diffrence entre moyenne et mdiane?

Note de prparation la maison semaine3:

x=12
6 14 16

mdiane
DOYEN

Quelle est la diffrence entre moyenne et mdiane?

Note de prparation la maison semaine3:

x=12

3 6 x=9 14 16

mdiane

La mdiane est peu sensible aux valeurs


aberrantes contrairement la moyenne
DOYEN

b. Caractristiques de dispersion:

Exemple:
Notes des devoirs la maison en 2001 lIUP com et
vente
Semaine 1: 9, 10, 10, 11
Semaine 2: 0, 10, 10, 20
DOYEN

b. Caractristiques de dispersion:

Exemple:
Notes des devoirs la maison en 2001 lIUP com et
vente
Semaine 1: 9, 10, 10, 11 Toutes les caractristiques
centrales valent 10!
Semaine 2: 0, 10, 10, 20
DOYEN

b. Caractristiques de dispersion:

Exemple:
Notes des devoirs la maison en 2001 lIUP com et
vente
Semaine 1: 9, 10, 10, 11 Toutes les caractristiques
centrales valent 10!
Semaine 2: 0, 10, 10, 20

Trouver des valeurs numriques qui caractrisent la


dispersion de la distribution
Comment les valeurs sont elles loignes de la
moyenne?
DOYEN

Une mauvaise ide: 1



n i n(i xix )

Semaine 1: 9, 10, 10, 11

1 ( 1*(910) + 2*(1010) + 1*(1110) ) = 0


4
DOYEN

Une mauvaise ide: 1



n i n(i xix )

Semaine 1: 9, 10, 10, 11

1 ( 1*(910) + 2*(1010) + 1*(1110) ) = 0


4
+
=
0
Les carts positifs et ngatifs se compensent!
DOYEN

Lcart absolu moyen:

La moyenne des ECARTS ABSOLUS la moyenne

ex n i ni
= 1
xi f
x =
i
i xi x
DOYEN

Lcart absolu moyen:


x=2.4 (personnes)
Nb pers. Effectif Pi

1 pers. 7079434 32 0.32 * |1-2.4|


2 pers. 7086664 32 + 0.32 * |2-2.4|
3 pers. 3619655 16 + 0.16 * |3-2.4|
4 pers. 3057674 14 + 0.14 * |4-2.4|
5 pers. 1182235 5 + 0.05 * |5-2.4|
6 ou plus 109189 2 + 0.02 * |6-2.4|
Total 22434621 100
e x
1.4 (personnes)
DOYEN

Lcart absolu moyen:


x=2.4 (personnes)
Nb pers. Effectif Pi

1 pers. 7079434 32 0.32 * |1-2.4|


2 pers. 7086664 32 + 0.32 * |2-2.4|
3 pers. 3619655 16 + 0.16 * |3-2.4|
4 pers. 3057674 14 + 0.14 * |4-2.4|
5 pers. 1182235 5 + 0.05 * |5-2.4|
6 ou plus 109189 2 + 0.02 * |6-2.4|
Total 22434621 100
e x
1.4 (personnes)
Attention lunit
DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne

2
= ni
1
n i (xix ) = f (xix)
2

i
i
2
DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2 2

2
= ni
1
n i (xix ) = f (xix)
2

i
i
2
DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2 2

2
= ni
1
n i (xix ) = f (xix)
2

i
i
2

Lcart-type est la racine carr de la variance

=
2
DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2 2

2
= ni
1
n i (xix ) = f (xix)
2

i
i
2

Lcart-type est la racine carr de la variance

=
Mme unit que le 2
caractre
DOYEN

La variance et lcart-type:
La variance est la moyenne des carrs des carts la
moyenne Si x a pour unit la personne, alors
a pour unit personne
2 2

2
= ni
1
n i (xix ) = f (xix)
2

i
i
2

Lcart-type est la racine carr de la variance

=
Mme unit que le 2
caractre

Entre x2 et x+2 il y a au moins 75% de la population


DOYEN

Pour calculer la variance on peut utiliser la formule:



= f
2
x
2 2
x
i
i i

Nbe pers. Effectif Pi x=2.4 (personnes)


1 pers. 7079434 32 0.32 * 12
2 pers. 7086664 32 + 0.32 * 22
3 pers. 3619655 16 + 0.16 * 32
4 pers. 3057674 14 + 0.14 * 42
5 pers. 1182235 5 + 0.05 * 52
6 ou plus 109189 2 + 0.02 * 62

2
7.25-2.4 1.5 ( personnes )
2 2
Total 22434621 100
DOYEN

Pour calculer la variance on peut utiliser la formule:



= f
2
x
2 2
x
i
i i

Nbe pers. Effectif Pi x=2.4 (personnes)


1 pers. 7079434 32 0.32 * 12
2 pers. 7086664 32 + 0.32 * 22
3 pers. 3619655 16 + 0.16 * 32
4 pers. 3057674 14 + 0.14 * 42 Attention
5 pers. 1182235 5 + 0.05 * 52 lunit
6 ou plus 109189 2 + 0.02 * 62

2
7.25-2.4 1.5 ( personnes )
2 2
Total 22434621 100
DOYEN

1.51.2 (personne)
En 1999, au moins 75% des mnages franais ont
un effectif entre 0 et 4.8 personnes.
DOYEN

4. tude dune variable


quantitative continue
Mme notion que dans le chapitre prcdent.
La seule diffrence est que on ne considre pas les
modalit une par une mais par CLASSES
DOYEN

4. tude dune variable


quantitative continue
Mme notion que dans le chapitre prcdent.
La seule diffrence est que on ne considre pas les
modalit une par une mais par CLASSES

Intervalle de valeurs possibles pour la


variable statistique continue
DOYEN

Population franaise active par ge en 1999

Age Effectif Pourcentage Cumul


15-24 2279542 8.6 8.6
25-29 3628502 13.7 22.3
30-34 3771554 14.2 36.5
35-39 3865252 14.6 51.0
40-44 3770300 14.2 65.2
45-49 3696642 13.9 79.2
50-54 3305278 12.5 91.6
55 et + 2225411 8.4 100
Total 26542481 100 100
DOYEN

Population franaise active par ge en 1999

Age Effectif Pourcentage Cumul


15-24 2279542 8.6 8.6
25-29 3628502 13.7 22.3
30-34 3771554 14.2 36.5
35-39 3865252 14.6 51.0
Il y a
3771554
40-44 3770300 14.2 65.2
personnes 45-49 3696642 13.9 79.2
dans la 50-54 3305278 12.5 91.6
classe
dge des 55 et + 2225411 8.4 100
30-34 ans Total 26542481 100 100
DOYEN

Comment dterminer les classes?


DOYEN

Comment dterminer les classes?

Nombre de classes relativement faible: 10


DOYEN

Comment dterminer les classes?

Nombre de classes relativement faible: 10

Effectif des classes du mme ordre de grandeur


Classe fine l o le caractre est plus frquent
Classe large l o le caractre est rare
DOYEN

Comment dterminer les classes?

Nombre de classes relativement faible: 10

Effectif des classes du mme ordre de grandeur


Classe fine l o le caractre est plus frquent
Classe large l o le caractre est rare

Essayer dutiliser des classes de mme amplitude


DOYEN

Comment dterminer les classes?

Nombre de classes relativement faible: 10

Effectif des classes du mme ordre de grandeur


Classe fine l o le caractre est plus frquent
Classe large l o le caractre est rare

Essayer dutiliser des classes de mme amplitude

Souvent la premire et la dernire classe nont pas la


mme amplitude
DOYEN

4.1 Frquence relative

Quand les amplitudes des classes sont diffrentes on


ne considre plus les frquences, mais les
FREQUENCES RELATIVES:

f i
a est lamplitude de la classe
i
a i
DOYEN

.ai Age Effectif .fi


Cumul .f relative 5 ans
2 15-24 2279542 0.086 8.6 0.043
1 25-29 3628502 0.137 22.3 0.137
1 30-34 3771554 0.142 36.5 0.142
1 35-39 3865252 0.146 51.0 0.146
1 40-44 3770300 0.142 65.2 0.142
1 45-49 3696642 0.139 79.2 0.139
1 50-54 3305278 0.125 91.6 0.125
2 55 et + 2225411 0.084 100 0.042
Total 26542481 1 100
DOYEN

.ai Age Effectif .fi


Cumul .f relative 5 ans
2 15-24 2279542 0.086 8.6 0.043
1 25-29 3628502 0.137 22.3 0.137
1 30-34 3771554 0.142 36.5 0.142
1 35-39 3865252 0.146 51.0 0.146
1 40-44 3770300 0.142 65.2 0.142
1 45-49 3696642 0.139 79.2 0.139
1 50-54 3305278 0.125 91.6 0.125
2 55 et + 2225411 0.084 100 0.042
Total 26542481 1 100

Pour avoir la largeur de classe il faut


fixer la borne suprieur de la classe.
Il faut prendre une dcision raisonnable.
Ici on parle de population active: 55-64
DOYEN

4.2 Reprsentations graphiques:


a. Histogramme des frquences:

Les classes de la distribution forment les bases des batons


Les SURFACES sont proportionnelles aux frquences!
DOYEN

4.2 Reprsentations graphiques:


a. Histogramme des frquences:

Les classes de la distribution forment les bases des batons


Les SURFACES sont proportionnelles aux frquences!

Donc si les classes sont damplitudes diffrentes, les


HAUTEURS des histogrammes sont proportionnelles
aux FREQUENCES RELATIVES.
DOYEN

.f relatives
5 ans
16
14
12
10
8
6
4
2
Age en
0
0 10 20 30 40 50 60 annes
DOYEN

.f relatives
5 ans
16
14
12
10
8
6
4
2
Age en
0
0 10 20 30 40 50 60 annes

Pour la borne suprieure on


conserve toujours la mme
DOYEN

b. Polygone des frquences cumules:

En abscisse les limites de classes On rejoint les points


En ordonne les frquence cumules par une ligne brise

.f cumules
100

80

60

40

20

0 Age en annes
0 10 20 30 40 50 60
DOYEN

4.3 Rsum numrique dune distribution:

a. Caractristiques centrales:

La moyenne note x
Moyenne arithmtique des valeurs du caractre pour les n
individus de la population

x = ni ci = f
1
c
n i i
i i
DOYEN

4.3 Rsum numrique dune distribution:

a. Caractristiques centrales:

La moyenne note x
Moyenne arithmtique des valeurs du caractre pour les n
individus de la population

x = ni ci = f
1
c
n i i
i i

On ne considre plus les valeurs des modalits, mais les


CENTRES DES CLASSES
DOYEN

4.3 Rsum numrique dune distribution:

a. Caractristiques centrales:
Reprsente le barycentre
des valeurs prises par le
La moyenne note x caractre

Moyenne arithmtique des valeurs du caractre pour les n


individus de la population

x = ni ci = f
1
c
n i i
i i

On ne considre plus les valeurs des modalits, mais les


CENTRES DES CLASSES
DOYEN

x=f c i
i
i

Age Effectif .fi Cumul


15-24 2279542 0.086 8.6
25-29 3628502 0.137 22.3
30-34 3771554 0.142 36.5
35-39 3865252 0.146 51.0
40-44 3770300 0.142 65.2
45-49 3696642 0.139 79.2
50-54 3305278 0.125 91.6
55 et + 2225411 0.084 100
Total 26542481 1 100
DOYEN

15+24 20 x=f c i
2 i
i

.ci Age Effectif .fi Cumul


20 15-24 2279542 0.086 8.6
27 25-29 3628502 0.137 22.3
33 30-34 3771554 0.142 36.5
37 35-39 3865252 0.146 51.0
43 40-44 3770300 0.142 65.2
47 45-49 3696642 0.139 79.2
53 50-54 3305278 0.125 91.6
60 55 et + 2225411 0.084 100
Total 26542481 1 100
DOYEN

15+24 20 x=f c i
2 i
i

.ci Age Effectif .fi Cumul


20 15-24 2279542 0.086 8.6 0.086*20
27 25-29 3628502 0.137 22.3 + 0.137*27
33 30-34 3771554 0.142 36.5 + 0.142*33
37 35-39 3865252 0.146 51.0 + 0.146*37
43 40-44 3770300 0.142 65.2 + 0.142*43
47 45-49 3696642 0.139 79.2 + 0.139*47
53 50-54 3305278 0.125 91.6 + 0.125*53
60 55 et + 2225411 0.084 100 + 0.042*60
x 40 (ans)
Total 26542481 1 100
DOYEN

15+24 20 x=f c i
2 i
i

.ci Age Effectif .fi Cumul


20 15-24 2279542 0.086 8.6 0.086*20
27 25-29 3628502 0.137 22.3 + 0.137*27
33 30-34 3771554 0.142 36.5 + 0.142*33
37 + 0.146*37 Ne pas
35-39 3865252 0.146 51.0
oublier
43 40-44 3770300 0.142 65.2 + 0.142*43 lunit
47 45-49 3696642 0.139 79.2 + 0.139*47
53 50-54 3305278 0.125 91.6 + 0.125*53
60 55 et + 2225411 0.084 100 + 0.042*60
x 40 (ans)
Total 26542481 1 100

En 1999 en France, les actifs


ont une moyenne dge de 40 ans
DOYEN

Classe(s) modale(s)
CLASSES en lesquelles lhistogramme des
frquences prsente un maximum RELATIF
Classes en laquelle la frquence RELATIVE
prsente un maximum RELATIF
DOYEN

Classe(s) modale(s)
CLASSES en lesquelles lhistogramme des
frquences prsente un maximum RELATIF
Classes en laquelle la frquence RELATIVE
prsente un maximum RELATIF
La classe modale est
.f relatives 5 ans celle des 35-39 ans
16
14
12
10
8
6
4
2
0
0 10 20 30 40 50 60 Age en annes
DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
Cest la valeur correspondant un effectif cumul de
50% sur le polygone des frquences cumules
DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
Cest la valeur correspondant un effectif cumul de
50% sur le polygone des frquences cumules
.f cumules Graphiquement, on lit
100
que la mdiane vaut
80 un peu moins de 40
ans
60

40

20

0 Age en annes
0 10 20 30 40 50 60
DOYEN

La mdiane
Valeur du caractre qui partage la srie statistique en
2 groupes de mme frquence (0.5).
Cest la valeur correspondant un effectif cumul de
50% sur le polygone des frquences cumules
.f cumules Graphiquement, on lit
100
que la mdiane vaut
80 un peu moins de 40
ans
60

40 Peut on avoir
une expression
20
exacte de la
0 Age en annes mdiane?
0 10 20 30 40 50 60
DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules
100

80

60

40

20

0 Age en annes
0 10 20 30 40 50 60
DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules
Les accroissements
51
5050 sur les abscisses et
47 les ordonnes sont
44
proportionnels
41 M 35 = 4035
38 5036.5 5136.5
36.5
35 Age en annes
32 34 35 36 38 40 42
40
M
DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules
Les accroissements
51
5050 sur les abscisses et
47 les ordonnes sont
44
proportionnels
41 M 35 = 4035
38 5036.5 5136.5
36.5
35 Age en annes
32 34 35 36 38 40 42
40
M= 35 + (5036.5) 4035 39.7 (ans)
5136.5
DOYEN

Pour avoir la valeur de la mdiane on ralise une


interpolation linaire .
.f cumules
Les accroissements
51
5050 sur les abscisses et
47 les ordonnes sont
44
proportionnels
41 M 35 = 4035
38 5036.5 5136.5
36.5
35 Age en annes
32 34 35 36 38 40 42
40
50% des actifs ont plus
M= 35 + (5036.5) 4035 39.7 (ans)
de 39.7 ans et 50 % 5136.5
ont moins
DOYEN

b. Caractristiques de dispersion:
cart absolue, variance, cart-type
Idem caractre discret mais on prend le centre des
classes comme valeur reprsentative
DOYEN

b. Caractristiques de dispersion:
cart absolue, variance, cart-type
Idem caractre discret mais on prend le centre des
classes comme valeur reprsentative
.ci Age Effectif .fi
x 40 (ans)
20 15-24 2279542 0.086
27 25-29 3628502 0.137
33 30-34 3771554 0.142
37 35-39 3865252 0.146
43 40-44 3770300 0.142
47 45-49 3696642 0.139
53 50-54 3305278 0.125
60 55 et + 2225411 0.084
Total 26542481 1
DOYEN

b. Caractristiques de dispersion:
cart absolue, variance, cart-type
Idem caractre discret mais on prend le centre des
classes comme valeur reprsentative
.ci Age Effectif .fi
x 40 (ans)
20 15-24 2279542 0.086 0.086 * |20-40| 0.086 * 202
27 25-29 3628502 0.137 +0.137 * |27-40| +0.137 * 272
33 30-34 3771554 0.142 +0.142 * |33-40| +0.142 * 332
37 35-39 3865252 0.146 +0.146 * |37-40| +0.146 * 372
43 40-44 3770300 0.142 +0.142 * |43-40| +0.142 * 432
47 45-49 3696642 0.139 +0.139 * |47-40| +0.139 * 472
50-54 3305278 0.125 +0.125 * |53-40| +0.125 * 532
53
+0.084 * |60-40| +0.084 * 602

60 55 et + 2225411 0.084
=171240
2 2

Total 26542481 1 e x 9.64 (ans)


112 (ans )
2

11210.6 (ans)
DOYEN

Le coefficient de variation

V=
x
DOYEN

Le coefficient de variation

Cest un nombre SANS UNITE, V=


donc plus pratique pour
comparer 2 distributions
x
DOYEN

Le coefficient de variation

Cest un nombre SANS UNITE, V=


donc plus pratique pour
comparer 2 distributions
x
DOYEN

Le coefficient de variation

Cest un nombre SANS UNITE, V=


donc plus pratique pour
comparer 2 distributions
x

Exemple: Prix dun poisson rouge en Francs Grenoble


6.5 F 19.5 F 33 F
x1 19.7 (F); 110.8 (F)
Prix dun poisson vert en euros Grenoble

1E 3E 5E
x1 3 (E); 21.63 (E)
DOYEN

Le coefficient de variation

Cest un nombre SANS UNITE, V=


donc plus pratique pour
comparer 2 distributions
x

Exemple: Prix dun poisson rouge en Francs Grenoble


6.5 F 19.5 F 33 F
V1 0.54 x1 19.7 (F); 110.8 (F)
Prix dun poisson vert en euros Grenoble

V2 0.54 1E 3E 5E
x1 3 (E); 21.63 (E)
DOYEN

Lintervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs gaux.
Ce sont les 3 valeurs du caractre correspondant
des effectifs cumuls de 25%, 50% et 75%
DOYEN

Lintervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs gaux.
Ce sont les 3 valeurs du caractre correspondant
des effectifs cumuls de 25%, 50% et 75%
.f cumules
100

80

60

40

20

0 Age en annes
0 10 20 30 40 50 60
DOYEN

Lintervalle interquartile
Les quartiles sont les 3 valeurs Q1 ; Q2 ; Q3 qui
partagent la population en 4 effectifs gaux.
Ce sont les 3 valeurs du caractre correspondant
des effectifs cumuls de 25%, 50% et 75%
.f cumules
100
Graphiquement:
80
Q 30 (ans)
1
60
Q 40 (ans)
2
40

20 Q 50 (ans)
3

0 Q1 Q2 Q3 Age en annes
0 10 20 30 40 50 60
DOYEN

Pour calculer la valeur des quartiles on fait une


interpolation linaire

Pour k=1,2,3:
x x
Q = x + ( P F )
i k i
j i

Effectifs cumuls
k
F F j i

F j
P =25%
1
P
P =50%
k
2

F i
P =75%
3

x i Q k
x j
DOYEN

= + 3530
Age Effectif .fi Cumul
Q1 30 ( 25 22.3)
36.522.3
15-24 2279542 0.086 8.6
31 (ans)
25-29 3628502 0.137 22.3
30-34 3771554 0.142 36.5
35-39 3865252 0.146 51.0 Q = Me 39.5 (ans)
2
40-44 3770300 0.142 65.2
45-49 3696642 0.139 79.2
5045
50-54 3305278 0.125 91.6 Q = 45 + (7565.2)
3 79.265.2
55 et + 2225411 0.084 100
Total 26542481 1 100
48.5 (ans)
DOYEN

Lintervalle inter-quartile: [ Q1 , Q3 ] il contient 50 % de


la population et laisse 25% de chaque ct.

Lcart inter-quartile: Qs est lamplitude de lintervalle


inter quantile: Qs =Q3 Q1 il mesure la dispersion de la
population
DOYEN

Lintervalle inter-quartile: [ Q1 , Q3 ] il contient 50 % de


la population et laisse 25% de chaque ct.

Lcart inter-quartile: Qs est lamplitude de lintervalle


inter quantile: Qs =Q3 Q1 il mesure la dispersion de la
population

Exemple:

En France, en 1999, 50 % de la population active a entre 31


et 48.5 ans

Qs =48.5-31=17.5 (ans)
DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.

Salaire net et ge des livreurs de pizza du restaurant PIPIpizza

Salaires Y 170-200 200-230 230-260


Ages X Euros euros euros
20-22 3 1 0 4
22-24 2 3 0 5
24-26 1 5 1 7
6 9 1 16
DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.

Salaire net et ge des livreurs de pizza du restaurant PIPIpizza

3 pers. de 20-22 Salaires Y 170-200 200-230 230-260


ans gagnant 170 Ages X Euros euros euros
200 euros 20-22 3 1 0 4
22-24 2 3 0 5
24-26 1 5 1 7
6 9 1 16
DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.

Salaire net et ge des livreurs de pizza du restaurant PIPIpizza

3 pers. de 20-22 Salaires Y 170-200 200-230 230-260


ans gagnant 170 Ages X Euros euros euros
200 euros 20-22 3 1 0 4
9 pers. gagnant 22-24 2 3 0 5
entre 200 et 230 24-26 1 5 1 7
euros
6 9 1 16
DOYEN

5. tude dun couple de


caractres
Deux caractres (X,Y) pouvant tre de nature diffrente: qualitatif,
quantitatif discret ou continu; on note ( xi ) i=1.. n et ( y j ) j=1.. m
leurs modalits.
Il y a 16 livreurs dans lentreprise

Salaire net et ge des livreurs de pizza du restaurant PIPIpizza

3 pers. de 20-22 Salaires Y 170-200 200-230 230-260


ans gagnant 170 Ages X Euros euros euros
200 euros 20-22 3 1 0 4
9 pers. gagnant 22-24 2 3 0 5
entre 200 et 230 24-26 1 5 1 7
euros
6 9 1 16
DOYEN

5.1 Frquence relative

F. relative de ( xi , y j ) , proportion dindividus prsentant


la modalit ( xi , y j ) des caractres ( X ,Y ) par rapport
la population totale.

ni , j Nb individus avec X =xi et Y= yi


ni , j
fi, j =
N N Nb totale dindividus
DOYEN

5.1 Frquence relative

F. relative de ( xi , y j ) , proportion dindividus prsentant


la modalit ( xi , y j ) des caractres ( X ,Y ) par rapport
la population totale.

ni , j Nb individus avec X =xi et Y= yi


ni , j
fi, j =
N N Nb totale dindividus

Proprit: f
i j
i, j =1
DOYEN

Salaires Y 170-200 200-230 230-260


3 0.19 Ages X euros euros euros
16
20-22 3 1 0 4
0.19 0.06 0
22-24 2 3 0 5
0.13 0.19 0
24-26 1 5 1 7
0.06 0.31 0.06
6 9 1 16
DOYEN

Salaires Y 170-200 200-230 230-260


3 0.19 Ages X euros euros euros
16
20-22 3 1 0 4
0.19 0.06 0
22-24 2 3 0 5
0.13 0.19 0
24-26 1 5 1 7
0.06 0.31 0.06
6 9 1 16

31% des employs ont entre 24 et 26 ans et


gagnent entre 200 et 230 euros
DOYEN

5.2 Frquence marginale

Pour (X,Y) les lois marginales sont:


La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X
DOYEN

5.2 Frquence marginale


Not:
Pour (X,Y) les lois marginales sont: f i ,.
La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X f ., j
DOYEN

5.2 Frquence marginale


Not:
Pour (X,Y) les lois marginales sont: f i ,.
La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X f ., j
Salaires Y 170-200 200-230 230-260
Ages X euros euros euros
20-22 3 1 0 4
0.19 0.06 0 0.25 f1,. = 4 0.25
16
22-24 2 3 0 5
0.13 0.19 0 0.31
24-26 1 5 1 7
0.06 0.31 0.06 0.44
6 9 1 16
0.38 0.56 0.06
DOYEN

5.2 Frquence marginale


Not:
Pour (X,Y) les lois marginales sont: f i ,.
La loi de X quelque soit la valeur de Y
La loi de Y quelque soit la valeur de X f ., j
Salaires Y 170-200 200-230 230-260
Ages X euros euros euros
20-22 3 1 0 4
0.19 0.06 0 0.25 f1,. = 4 0.25
16
22-24 2 3 0 5
0.13 0.19 0 0.31
24-26 1 5 1 7
31% des
0.06 0.31 0.06 0.44
livreur ont
entre 22 et
6 9 1 16
24 ans
0.38 0.56 0.06
DOYEN

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
0.19 0.06 0 0.25
22-24 2 3 0 5
0.13 0.19 0 0.31
24-26 1 5 1 7
0.06 0.31 0.06 0.44
6 9 1 16
0.38 0.56 0.06 1

Proprit: f
i
i ,. =1 fj
., j =1
DOYEN

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4 0.25
0.19 0.06 0 0.25
22-24 2 3 0 5
+ 0.31
0.13 0.19 0 0.31
24-26 1 5 1 7
0.06 0.31 0.06 0.44 + 0.44
6 9 1 16
0.38 0.56 0.06 1

0.38 + 0.56 + 0.06

Proprit: f
i
i ,. =1 fj
., j =1
DOYEN

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
0.19 + 0.06 + 0 = 0.25
22-24 2 3 0 5
0.13 + 0.19 + 0 = 0.31
24-26 1 5 1 7
0.06 + 0.31 + 0.06 = 0.44
6 9 1 16
0.38 0.56 0.06 1

Proprit:
f j
i,j = f i,.
DOYEN

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
0.19 0.06 0 0.25
22-24 + 2 + 3 + 0 5
0.13 0.19 0 0.31
24-26 1 + 5 + 1 7
+
0.06 0.31 0.06 0.44
6 = 9 = 1 16
=
0.38 0.56 0.06 1

Proprit:
f j
i,j = f i,. fi
i, j = f ., j
DOYEN

Sur les lois marginales, on peut tracer des


graphes: de frquences, frquences cumules,

Frquences cumules des ges


1

0,8

0,6

0,4

0,2
ges
0
20 22 24 26 28
DOYEN

Sur les lois marginales, on peut calculer des


indices centraux et de dispersions.

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
0.19 0.06 0 0.25 Le salaire
22-24 2 3 0 5 moyen des
0.13 0.19 0 0.31 livreurs de
24-26 1 5 1 7 pizza est de
0.06 0.31 0.06 0.44 205.4 euros
6 9 1 16
0.38 0.56 0.06 1

185*0.38 +215*0.56+245*0.06 = 205.4 (euros)


DOYEN

5.3 Frquence conditionnelle

Frquence conditionnelle de xi sachant yi : proportion


dindividus prsentant la modalit xi du caractre X par
rapport au totale des individus prsentant la modalit yi du
caractre Y, note
f xi yj

ni , j ni , j
f xi y j = f yj xi =
ni , j
i
ni , j
j
DOYEN

Frquence conditionnelle des ges sachant les salaires

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
3 =0.5 1 0.11 0 =0
6 9 1
22-24 2 3 0 5
2 =0.3 3 =0.33 0 =0
6 9 1
24-26 1 5 1 7
1 0.17 5 =0.56 1 =1
6 9 1
6 9 1 16
DOYEN

Frquence conditionnelle des ges sachant les salaires

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
3 =0.5 1 0.11 0 =0
6 9 1
Parmi les 22-24 2 3 0 5
livreurs gagnant 2 =0.3 3 =0.33 0 =0
entre 170 et 200 6 9 1
euros, 50% ont 24-26 1 5 1 7
entre 20 et 22
ans
1 0.17 5 =0.56 1 =1
6 9 1
6 9 1 16
DOYEN

Frquence conditionnelle des ges sachant les salaires

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
3 =0.5 1 0.11 0 =0
6 + 9 1
Parmi les + +
22-24 2 3 0 5
livreurs gagnant 2 =0.3 3 =0.33 0 =0
entre 170 et 200 6 9 1
euros, 50% ont + + +
24-26 1 5 1 7
entre 20 et 22
ans
1 0.17 5 =0.56 1 =1
6 9 1
= = =
6 9 1 16
1 1 1
DOYEN

Frquence conditionnelle des salaires sachant les ges

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
3 =0.75 1 0.25 0 =0
4 4 4
22-24 2 3 0 5
2 =0.4 3 =0.6 0 =0
5 5 5
24-26 1 5 1 7
1 0.14 5 =0.71 1 =0.14
7 7 7
6 9 1 16
DOYEN

Frquence conditionnelle des salaires sachant les ges

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
3 =0.75 1 0.25 0 =0
4 4 4
Parmi les 22-24 2 3 0 5
livreurs gs de 2 =0.4 3 =0.6 0 =0
20 22 ans, 75% 5 5 5
gagnent entre 24-26 1 5 1 7
170 et 200 euros
1 0.14 5 =0.71 1 =0.14
7 7 7
6 9 1 16
DOYEN

Frquence conditionnelle des salaires sachant les ges

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros
20-22 3 1 0 4
3 =0.75 1 0.25+ 0 =0 = 1
4 + 4 4
Parmi les 22-24 2 3 0 5
livreurs gs de 2 =0.4 + 3 =0.6 0 =0
20 22 ans, 75% + = 1
5 5 5
gagnent entre 24-26 1 5 1 7
170 et 200 euros
1 0.14+5 =0.71+1 =0.14 = 1
7 7 7
6 9 1 16
DOYEN

Sur les lois conditionnelles, on peut tracer des


graphes: de frquences, frquences cumules

Frquences pour les 24-26 ans


0,8

0,6

0,4

0,2

0 Salaires en euros
170 200 230 260
DOYEN

Sur les lois conditionnelles, on peut calculer des


indices centraux et de dispersions.

Frquence conditionnelle des salaires sachant les ges

Salaires Y 170-200 200-230 230-260


Ages X euros euros euros Pour les 22-24 ans:
20-22 3 1 0 4 0.4*185+0.6*215+0*245
0.75 0.25 0
22-24 2 3 0 5 =203 (euros)
0.4 0.6 0 Parmi les livreurs gs
24-26 1 5 1 7 de 22 24 ans, le
0.14 0.71 0.14 salaire moyen chez
6 9 1 16 PIPIpizza est de 203
euros
DOYEN

5.3 Indpendance

X est dite indpendante de Y si les variations de Y


nentranent pas de variation de X
DOYEN

5.3 Indpendance

X est dite indpendante de Y si les variations de Y


nentranent pas de variation de X

Proprit: Si X est indpendante de Y alors Y est


indpendante de X.
DOYEN

5.3 Indpendance

X est dite indpendante de Y si les variations de Y


nentranent pas de variation de X

Proprit: Si X est indpendante de Y alors Y est


indpendante de X.

On dit X et Y sont indpendants


DOYEN

5.3 Indpendance

X est dite indpendante de Y si les variations de Y


nentranent pas de variation de X

Proprit: Si X est indpendante de Y alors Y est


indpendante de X.

On dit X et Y sont indpendants

Les rsultats de 2 lancs de d non pip sont indpendants!


DOYEN

Proprit:

X et Y sont indpendantes si les frquences conditionnelles


de X sachant Y sont gales aux frquences marginales de X
DOYEN

Proprit:

X et Y sont indpendantes si les frquences conditionnelles


de X sachant Y sont gales aux frquences marginales de X
Ou de faon quivalente,
X et Y sont indpendantes si les frquences conditionnelles
de Y sachant X sont gales aux frquences marginales de Y
DOYEN

Proprit:

X et Y sont indpendantes si les frquences conditionnelles


de X sachant Y sont gales aux frquences marginales de X
Ou de faon quivalente,
X et Y sont indpendantes si les frquences conditionnelles
de Y sachant X sont gales aux frquences marginales de Y

Proprit:
Dans le cas ou il y a indpendance entre X et Y, alors dans
le tableau de contingence les valeurs des lignes sont
proportionnelles et les valeurs des colonnes le sont aussi.
DOYEN

.f sachant ge 170-200 200-230 230-260 .f des classes


euros euros euros dge

20-22 0.75 0.25 0 0.25


22-24 0.4 0.6 0 0.31
24-26 0.14 0.71 0.14 0.44

Les distribution sont toutes diffrentes, donc ges et salaires


ne sont pas indpendants, il existe une dpendance entre
ges et salaires chez PIPIpizza.
DOYEN

5.3 Dpendance totale

X est dit totalement dpendant de Y, si la connaissance de


X entrane la connaissance de Y.
DOYEN

5.3 Dpendance totale

X est dit totalement dpendant de Y, si la connaissance de


X entrane la connaissance de Y.

Dans le tableau de contingence cela ce traduit par le fait


quil ny a quun effectif non nul par colonne.
DOYEN

5.3 Dpendance totale

X est dit totalement dpendant de Y, si la connaissance de


X entrane la connaissance de Y.

Dans le tableau de contingence cela ce traduit par le fait


quil ny a quun effectif non nul par colonne.

Si Y est totalement dpendant de X, alors dans le tableau


de contingence, il ny a quun effectif non nul par ligne.
DOYEN

5.3 Dpendance totale

X est dit totalement dpendant de Y, si la connaissance de


X entrane la connaissance de Y.

Dans le tableau de contingence cela ce traduit par le fait


quil ny a quun effectif non nul par colonne.
Ce nest pas une notion rciproque,
contrairement lindpendance

Si Y est totalement dpendant de X, alors dans le tableau


de contingence, il ny a quun effectif non nul par ligne.
DOYEN

5.3 Dpendance totale

X est dit totalement dpendant de Y, si la connaissance de


X entrane la connaissance de Y.

Dans le tableau de contingence cela ce traduit par le fait


quil ny a quun effectif non nul par colonne.
Ce nest pas une notion rciproque,
contrairement lindpendance

Si Y est totalement dpendant de X, alors dans le tableau


de contingence, il ny a quun effectif non nul par ligne.
Il ny a pas de dpendance totale entre ge et salaire.
DOYEN

Exemple: Y= Valeur du lanc dun d


X= gain
1 si Y est paire
X=
-1 si Y est impaire

X est totalement dpendant de Y


Y nest pas totalement dpendant de X
Y nest pas indpendant de X
DOYEN

Exemple: Y= Valeur du lanc dun d


X= gain
1 si Y est paire
X=
-1 si Y est impaire

X est totalement dpendant de Y


Y nest pas totalement dpendant de X
Y nest pas indpendant de X

Dans le cas gnral il ny a pas indpendance ni


dpendance totale: on est entre les deux.
DOYEN

6. tude dun couple de


caractres sans pondration:
rgression linaire

On tudie un couple de caractre X et Y qui soit:


Quantitatifs
Sans pondration: chaque modalit du couple ( xi , y j )
apparat une seule fois
DOYEN

Exemple:

Lentreprise CONCONconserve tudie lincidence de la pression


marketing. Elle enregistre dans 5 zones gographiques, les
y
Ventes i (en milliers de boites de conserve) et les Dpenses
x
Publicitaires i (en milliers d euros)

Rgion i .yi .xi

1 27 5
2 32 6
3 31 9
4 40 12
5 65 18
DOYEN

6.1 Visualisation de la corrlation X f (Y ) ?


On reprsente le nuage de points: X en fonction de Y
On cherche si il existe une droite ou une courbe qui
soit une bonne approximation du nuage de points
DOYEN

6.1 Visualisation de la corrlation X f (Y ) ?


On reprsente le nuage de points: X en fonction de Y
On cherche si il existe une droite ou une courbe qui
soit une bonne approximation du nuage de points

Exemple:
Y

X
DOYEN

6.1 Visualisation de la corrlation X f (Y ) ?


On reprsente le nuage de points: X en fonction de Y
On cherche si il existe une droite ou une courbe qui
soit une bonne approximation du nuage de points

Exemple:
Y
Il ny a pas de
bonne
approximation,
X et Y semblent
indpendants

X
DOYEN
Y

X
DOYEN
Y

Une droite est une bonne


approximation du nuage de
points, il existe une relation
linaire entre X et Y.

X
DOYEN
Y

Une droite est une bonne


approximation du nuage de
points, il existe une relation
linaire entre X et Y.

X
DOYEN
Y

Une droite est une bonne


approximation du nuage de
points, il existe une relation
linaire entre X et Y.

Une courbe est une bonne


approximation du nuage de
points, il existe une relation
curviligne entre X et Y.
X
DOYEN

Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20
DOYEN

Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20

Y a*X + b
DOYEN

Kboite
70

60

50
40
40

30
16
20 Keuro
4 8 12 16 20

Y a*X + b
a 40 = 2.5 ( Kboite )
16 Keuro
DOYEN

Kboite
70

60

50
40
40

30
16
20 Keuro
4 8 12 16 20

Y a*X + b
b204*2.5=10 (Kboite)
a 40 = 2.5 ( Kboite )
16 Keuro
DOYEN

Kboite
70

60

50
40
40

30
16
20 Keuro
4 8 12 16 20

Y a*X + b
b204*2.5=10 (Kboite)
a 40 = 2.5 ( Kboite )
16 Keuro
Cest trs approximatif!
DOYEN

6.2 Lquation de rgression linaire


Quand lobservation semble tre de type linaire: Y = a*X +b
Lobjectif est de calculer a et b de telle sorte que lon minimise:

ei
2

Y i
e3
ei: cart entre la droite de
e2 rgression et la ime
observation
e1
X
DOYEN

On note: x = 1 xi y = 1 yi
n i n i
V ( X ) = ( xi x) = xi x
2
1 1 2 2

n i n i
Cov ( X ) = 1 ( xi x )( yi y ) = 1 xi *yi x*y
n i n i
DOYEN

On note: x = 1 xi y = 1 yi
n i n i
V ( X ) = ( xi x) = xi x
2
1 1 2 2

n i n i
Cov ( X ) = 1 ( xi x )( yi y ) = 1 xi *yi x*y
n i n i

On a:
Cov ( X ,Y )
a=
V (X )

b = ya*x
DOYEN

Rgion i .yi .xi .yi2 .xi2 .yi*xi

1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
DOYEN

Rgion i .yi .xi .yi2 .xi2 .yi*xi

1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
x=50 =10 (Keuro)
5 610 2
V ( X )= 10 =22 (Keuro)
2

y=195=39 (Kboite) 5
5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5
DOYEN

Rgion i .yi .xi .yi2 .xi2 .yi*xi

1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
x=50 =10 (Keuro)
5 610 2
V ( X )= 10 =22 (Keuro)
2

y=195=39 (Kboite) 5
5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5
a= 61.2 2.78 ( Kboite ) b392.78*10=11.2 (Kboite)
22 Keuro
DOYEN

Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20

Y 2.78*X +11.2
DOYEN

6.3 Mesure de la qualit de la rgression

Le coefficient de corrlation:

Cov ( X ,Y )
r=
V ( X ) V (Y )
DOYEN

6.3 Mesure de la qualit de la rgression

Le coefficient de corrlation:

Cov ( X ,Y )
r=
V ( X ) V (Y )

Proprits:

1 r 1
(
r proche de 1: corrlation linaire possible r >0.86 )
r proche de 0: pas de corrlation linaire
DOYEN

Rgion i .yi .xi .yi2 .xi2 .yi*xi

1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
DOYEN

Rgion i .yi .xi .yi2 .xi2 .yi*xi

1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
2
50
x= =10 (Keuro) V ( X )= 610 10 =22 (Keuro)
2

5 5
2
195
y= =39 (Kboite) V (Y )= 8539 39 =186.8 (Kboite)
2

5 5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5
DOYEN

Rgion i .yi .xi .yi2 .xi2 .yi*xi

1 27 5 729 25 135
2 32 6 1024 36 192
3 31 9 961 81 279
4 40 12 1600 144 480
5 65 18 4225 324 1170
195 50 8539 610 2256
2
50
x= =10 (Keuro) V ( X )= 610 10 =22 (Keuro)
2

5 5
2
195
y= =39 (Kboite) V (Y )= 8539 39 =186.8 (Kboite)
2

5 5
Cov ( X ,Y )= 2256 10*39=61.2 (Keuro*Kboite)
5
r 61 . 2 0.96
22*186.8
DOYEN

Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20

Y 2.78*X +11.2 r0.96


DOYEN

Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20

Y 2.78*X +11.2 r0.96


La corrlation linaire des donnes est forte
DOYEN

On peut faire de la prvision:


Sur une sixime rgion on veut vendre Y=55 (Kboites),
combien faut il dpenser en publicit?
Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20
DOYEN

On peut faire de la prvision:


Sur une sixime rgion on veut vendre Y=55 (Kboites),
combien faut il dpenser en publicit?
Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20

55=2.78*X +11.2 X =
5511 . 2 15.8 (Keuro)
2.78
DOYEN

On peut faire de la prvision:


Sur une sixime rgion on veut vendre Y=55 (Kboites),
combien faut il dpenser en publicit?
Kboite
70

60

50

40

30

20 Keuro
4 8 12 16 20

55=2.78*X +11.2 X =
5511 . 2 15.8 (Keuro)
2.78

You might also like