Professional Documents
Culture Documents
5 Regression
http://www.math.sciences.univ-nantes.fr/~philippe/
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 1 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 2 / 166
Introduction Introduction
Definition
La population : lensemble de tous les elements consideres dans une
etude.
Definition
Lechantillon est un sous ensemble fini de la population.
La taille de lechantillon est le nombre delements selectionnes pour
constituer lechantillon.
Introduction Introduction
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 7 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 8 / 166
Probabilites : Variables Aleatoires Continues Probabilites : Variables Aleatoires Continues Generalites
Plan de la section
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 9 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 10 / 166
Probabilites : Variables Aleatoires Continues Generalites Probabilites : Variables Aleatoires Continues Generalites
La variance de X :
La probabilite que lhotel soit complet vaut !2
X X
50
P(X = 50) = C50 0.7550 (1 0.75)0 = 0.7550 var(X ) = pk xk2 pk xk
kE kE
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 11 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 12 / 166
Probabilites : Variables Aleatoires Continues Generalites Probabilites : Variables Aleatoires Continues Generalites
0.4
La variable aleatoire X peut prendre toutes les valeurs de lintervalle
[135, 165]. pour tout x R, f (x) 0
0.3
Cette variable aleatoire nest donc pas une variable discrete. laire en dessous la courbe
0.2
representative de f vaut 1
Definition autrement dit
0.1
On dit que X est une variable aleatoire continue. Z
0.0
f (x)dx = 1 10 5 0 5 10
x
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 13 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 14 / 166
Probabilites : Variables Aleatoires Continues Generalites Probabilites : Variables Aleatoires Continues Generalites
Autrement dit
Z b
P(a X b) = f (t)dt
a
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 15 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 16 / 166
Probabilites : Variables Aleatoires Continues Generalites Probabilites : Variables Aleatoires Continues Generalites
Esperance/Variance
Definition
X une variable aleatoire continue.
La fonction de repartition de X (notee F ) est definie par X une variable aleatoire continue de densite f
F (x) = P(X x) Lesperance de X secrit
Z
Quelques proprietes E(X ) = xf (x) dx
1 P(X = x) = 0
et la variance de X
2 P(X x) = P(X < x)
2
P(a X b) = P(X b) P(X a) = F (b) F (a)
Z Z
3
2
var(X ) = x f (x) dx xf (x) dx
4 P(X b) = 1 P(X b) = 1 F (b)
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 17 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 18 / 166
Probabilites : Variables Aleatoires Continues Loi gaussienne/normale Probabilites : Variables Aleatoires Continues Loi gaussienne/normale
0.4
0.4
MOY=5 SD=1
MOY=0 SD=3
MOY=5 SD=6
0.3
0.3
est un parametre de position
densite
densite
un parametre de dispersion
0.2
0.2
0.1
0.1
Proprietes
Soit X une variable aleatoire gaussienne.
0.0
0.0
10 5 0 5 10 10 5 0 5 10
E(X ) = , la moyenne x x
var(X ) = 2 , la variance Densites de lois gaussiennes ayant Densites de lois gaussiennes ayant
la meme variance mais des la meme moyenne mais des
est lecart type de X
moyennes differentes variances differentes
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 21 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 22 / 166
Probabilites : Variables Aleatoires Continues Loi gaussienne/normale Probabilites : Variables Aleatoires Continues Loi gaussienne/normale
0.4
u 0 (aire en vert)
0.3
Pour tout x, on a
0.2
P(X x) = P(X x)
0.1
0.0
4 2 0 2 4
P(X x) = 1 P(X x)
Prenons u = 1.96 = autrement dit F0,1 (x) = 1 F0,1 (x).
1.9 + 0.06. P(x X x) = F0,1 (x) F0,1 (x) = 2F0,1 (x) 1
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 25 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 26 / 166
Probabilites : Variables Aleatoires Continues Loi gaussienne/normale Probabilites : Variables Aleatoires Continues Loi gaussienne/normale
Plan de la section
3 Estimation
Exemple introductif
3 Estimation Echantillonnage
Exemple introductif Estimation ponctuelle dune moyenne
Echantillonnage Theoreme central limite
Estimation ponctuelle dune moyenne Erreur destimation : Conclusions probabilistes
Theoreme central limite Estimation par intervalle de la moyenne
Erreur destimation : Conclusions probabilistes Estimation ponctuelle dune variance
Estimation par intervalle de la moyenne Estimation ponctuelle dune proportion
Estimation ponctuelle dune variance Conclusion
Estimation ponctuelle dune proportion
Conclusion
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 29 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 30 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 31 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 32 / 166
Estimation Exemple introductif Estimation Exemple introductif
S F S F S F
On construit un echantillon constitue de 30 responsables de societes 1 50427.82 1 11 53714.13 1 21 54276.3 1
du groupe. 2 47770.71 1 12 56641.81 1 22 58389.2 1
Pour chaque personne de lechantillon, on collecte deux informations 3 51686.39 1 13 45535.32 0 23 48762.44 0
4 44520.07 1 14 55626.63 1 24 48916.25 0
son salaire. On note S1 , . . . , S30 les salaires
5 47976.9 0 15 54898.44 0 25 51026.77 1
sil a participe au programme de formation que lon code par 1 6 59979.41 1 16 49246.59 0 26 50999.26 1
pour oui et 0 pour non. On note F1 , . . . , F30 les reponses 7 47022.2 1 17 57261.6 1 27 55811.3 1
8 44252.88 1 18 52876.62 0 28 48622.47 1
9 51641.93 1 19 49841.11 1 29 47226.59 0
10 51206.19 1 20 54256.2 0 30 53419.27 1
S = salaire
F = formation (0 :non, 1 :oui)
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 33 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 34 / 166
Erreur dechantillonnage
q P
son ecart type S = n1 ni=1 (xi x)2
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 35 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 36 / 166
Estimation Exemple introductif Estimation Echantillonnage
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 37 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 38 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 39 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 40 / 166
Estimation Estimation ponctuelle dune moyenne Estimation Estimation ponctuelle dune moyenne
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 41 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 42 / 166
Estimation Estimation ponctuelle dune moyenne Estimation Estimation ponctuelle dune moyenne
n
2.5
30
50
2
ou est la variance de la population. 2.0
3 Lecart type de x :
1.5
(x) =
1.0
n
0.5
0.0
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 43 / 166 A. lippe (U. Nantes)6 Methodes
8 de statistique
10inferentielle. 12 19
14 mai 2016 44 / 166
Estimation Estimation ponctuelle dune moyenne Estimation Theoreme central limite
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 45 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 46 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 47 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 48 / 166
Estimation Theoreme central limite Estimation Theoreme central limite
Loi de x pour des echantillons de taille n = 5 Loi de x pour des echantillons de taille n = 30
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 49 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 50 / 166
En pratique
Loi de x pour des echantillons de taille n = 50
On peut approcher la loi de x par une loi gaussienne pour des grands
echantillons. On admet souvent comme limite n > 30.
Remarque
Si la loi de la population est gaussienne alors la loi de x est
gaussienne quelque soit la taille de lechantillon.
Remarque
La loi dechantillonnage revele la facon dont les valeurs de x sont
distribuees autour de . Nous allons utiliser cette loi
pour controler lerreur destimation
pour construire une estimation par intervalle.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 51 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 52 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 53 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 54 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
Soit Z une variable gaussienne standard. Dapres la table de la loi Conclusion probabiliste sur lerreur
gaussienne, on sait que P(Z [1, 96 ; 1.96]) = 0.95 95% des valeurs de x generent une erreur absolue inferieure a
1, 96
En effet n
P(Z [a ; a]) = 2F0,1 (a) 1 = 0.95 et F0,1 (1.96) = 0.975
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 55 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 56 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
2 1 des valeurs de x
2
3.92 3.92
= 2x1.96 a a
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 57 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 58 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 59 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 60 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
Proposition si = 8 alors
Quand le degre de liberte est grand, on peut approcher la loi de P(X < 1.859) =
Student par une loi gaussienne standard 0.95.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 65 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 66 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Erreur destimation : Conclusions probabilistes
Theoreme
1 2 3 20 30 40 500
n
t(, 0.975) 12.706 4.302 3.182 2.085 2.041 2.022 1.960 La loi de (x ) est une loi de Student a n 1 degres de liberte.
Sc
Pour la loi gaussienne standard, on a q(0.975) = 1.96.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 67 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 68 / 166
Estimation Erreur destimation : Conclusions probabilistes Estimation Estimation par intervalle de la moyenne
Sc
x genere une erreur absolue inferieure a t(n 1, 1 /2) avec
n
une A.probabilite de
lippe (U. Nantes)
1 .
Methodes de statistique inferentielle. 19 mai 2016 69 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 70 / 166
Estimation Estimation par intervalle de la moyenne Estimation Estimation par intervalle de la moyenne
A partir de lechantillon, on souhaite construire un intervalle qui Estimation par intervalle de la moyenne dune population
verifie la propriete suivante : Hypotheses
il y a une probabilite 1 que lintervalle contienne la la taille de lechantillon est assez grande (n>30)
moyenne de la population. la variance de la population 2 est connue
Definitions x q(1 /2) ; x + q(1 /2)
n n
1 1 est le coefficient de confiance.
est un intervalle de confiance de niveau 1 pour la moyenne
2 Lintervalle obtenu est appele intervalle de confiance de niveau
1 . il y a une probabilite 1 que lintervalle de
confiance contienne la moyenne de la population.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 71 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 72 / 166
Estimation Estimation par intervalle de la moyenne Estimation Estimation par intervalle de la moyenne
m
x q(1 /2) ; x + q(1 /2)
n n Lintervalle en rose ne contient pas la vraie valeur de la moyenne.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 73 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 74 / 166
Estimation Estimation par intervalle de la moyenne Estimation Estimation par intervalle de la moyenne
Estimation Estimation par intervalle de la moyenne Estimation Estimation par intervalle de la moyenne
Pour resumer
Les intervalles de confiance sur la moyenne de la population
Situation 2 On suppose que la loi des salaires est gaussienne. La
variance de la population est inconnue.
petits echantillons grands echantillons
Calculpde la variance modifiee Sc2 = S 2 30/29. Dou
Sc = S 2 30/29 = 4161.12 loi gaussienne quelle que soit la loi
Dans la table de la loi de Student , on trouve t(29, 0.975) = 2.04 connu x q(1 /2) x q(1 /2)
n n
Avec une probabilite de 95%, lerreur est inferieure a Sc S
inconnu x t(n 1, 1 /2) x q(1 /2)
2.04 4161.1/ 30 = 1553.78 n n
Lintervalle de confiance au niveau 95% est
Notations :
[51461.09 1553.78 ; 51461.09 + 1553.78] = [49907.31 ; 53014.87] [a b] est lintervalle [a b; a + b]
q P q
1 n 2 1
Pn 2
S = n i=1 (xi x) et Sc = n1 i=1 (xi x)
Construction de lestimateur
3 Estimation On souhaite estimer la variance de la population.
Exemple introductif 1er estimateur : On estime la variance de la population par la
Echantillonnage variance de lechantillon
n
Estimation ponctuelle dune moyenne 2 1X
S = (xi x)2
Theoreme central limite n i=1
Erreur destimation : Conclusions probabilistes
Estimation par intervalle de la moyenne Remarque (estimation biaisee)
Estimation ponctuelle dune variance n1 2
E(S 2 ) = n
6= 2 on dit que lestimateur a un biais.
Estimation ponctuelle dune proportion
Conclusion 2eme estimateur : On ameliore lestimateur S 2 en prenant la
variance modifiee n
1 X
Sc2 = (xi x)2
n 1 i=1
Le biais est corrige, on a E(Sc2 ) = 2
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 81 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 82 / 166
Estimation Estimation ponctuelle dune variance Estimation Estimation ponctuelle dune variance
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 83 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 84 / 166
Estimation Estimation ponctuelle dune variance Estimation Estimation ponctuelle dune variance
si = 5 alors
P(X < 11.07) =
0.95.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 85 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 86 / 166
Estimation Estimation ponctuelle dune variance Estimation Estimation ponctuelle dune variance
Theoreme
On note k(, ) le quantile dordre n1 2
Si la population est gaussienne alors la loi de S est la loi du 2
de la loi du 2 a degres de 2 c
a n 1 degres de liberte.
liberte.
Grands echantillons gaussien
P(X k(, )) =
Quand la taille de la population est assez grande (n > 30), on peut
n1 2
approcher la loi de S par la loi gaussienne de moyenne n 1 et
2 c
Fixons = 0.975 decart type 2n 2.
1 3 5 10 20 500 2
Sc n1
k(, 0.975) 5.02 9.35 12.83 20.48 34.17 563.85 Autrement dit on peut approcher la loi de 2
1 par la
2
Pour la loi gaussienne de moyenne 500 et decart type 1000, le loi gaussienne standard
quantile superieur dordre = 0.975 vaut 561.97
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 87 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 88 / 166
Estimation Estimation ponctuelle dune variance Estimation Estimation ponctuelle dune variance
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 89 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 90 / 166
Estimation Estimation ponctuelle dune proportion Estimation Estimation ponctuelle dune proportion
Construction de lestimateur
3 Estimation
Exemple introductif
Echantillonnage
Estimation ponctuelle dune moyenne On etudie une caracteristique X qui prend deux modalites {0, 1}.
Theoreme central limite Soit p la proportion de la population qui possede la modalite 1
Erreur destimation : Conclusions probabilistes On veut estimer p a partir de notre echantillon.
Estimation par intervalle de la moyenne Construction de lestimateur
Estimation ponctuelle dune variance On note p la proportion de lechantillon qui possede la modalite 1.
Estimation ponctuelle dune proportion Cest un estimateur ponctuel de p
Conclusion
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 91 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 92 / 166
Estimation Estimation ponctuelle dune proportion Estimation Estimation ponctuelle dune proportion
500
400
approximation par une gaussienne VALIDE
300
np>5 et n(1p)>5
200
100
0
0.0 0.2 0.4 0.6 0.8 1.0
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 93 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 94 / 166
Estimation Estimation ponctuelle dune proportion Estimation Estimation ponctuelle dune proportion
Soit fixe. On a r
p(1 p)
" #! On estime lecart type de la loi de p par
n
r r
p(1 p) p(1 p)
P p p q(1 /2) ; q(1 /2) = 1
n n Theoreme
r Pour n assez grand, la loi de
p(1 p)
p genere une erreur absolue inferieure a q(1 /2) avec
r
n
n (p p)
une probabilite de 1 . p(1 p)
Remarque peut etre approchee par la loi gaussienne standard.
Lerreur depend de p qui est inconnu.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 95 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 96 / 166
Estimation Estimation ponctuelle dune proportion Estimation Estimation ponctuelle dune proportion
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 97 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 98 / 166
Estimation Estimation ponctuelle dune proportion Estimation Estimation ponctuelle dune proportion
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 99 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 100 / 166
Estimation Estimation ponctuelle dune proportion Estimation Conclusion
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 101 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 102 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 103 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 104 / 166
Tests Definitions et exemples Tests Definitions et exemples
Un test statistique
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 105 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 106 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 107 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 108 / 166
Tests Definitions et exemples Tests Definitions et exemples
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 109 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 110 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 111 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 112 / 166
Tests Definitions et exemples Tests Definitions et exemples
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 119 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 120 / 166
Tests Test sur la moyenne Tests Test sur la moyenne
Construction du test sur la consommation On dispose dun grand echantillon n = 100 > 30 et = 1 est connu.
x 9
Si H0 est vraie alors la loi de Z = peut etre approchee par
1/ 100
On mesure la consommation sur un echantillon de 100 voitures une loi gaussienne standard
equipees du nouveau moteur. On calcule la moyenne x
On cherche C telle que
4
loi de x sous Ho
Si x C C 9
P(x < C ) = P(Z )
3
alors on accepte Ha 1/ 100
sinon on accepte H0 Decision Ha Decision Ho
= 0.05
2
5%
1
Comment fixer la limite C ? Dans la table, on lit
C 9
On fixe lerreur de premiere espece = 0.05 = 1.64 donc C = 8.83
0
1
P(accepter Ha ) = P(x < C ) = 0.05 Si x < 8.83 alors on rejette lhypothese nulle (on accepte lhypothese
alternative) au niveau 5%
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 121 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 122 / 166
Sur lechantillon constitue par les ingenieurs, la moyenne des Situation : Un producteur de tiges filetees pretend que la longueur
consommations est egale a x = 8.5. moyenne des tiges est dun metre.
Les resultats de lechantillon indiquent que lon rejette H0 et Un echantillon de tiges est constitue et leur longueur est mesuree
donc que lon accepte Ha au niveau 5% pour tester laffirmation du fabricant.
Les ingenieurs ont le support statistique necessaire pour affirmer
que le nouveau moteur est plus economique.
La production pourra alors commencer. Hypotheses : On accorde le benefice du doute au producteur et son
assertion correspond a H0 .
On formule les hypotheses
H0 : = 1 et Ha : 6= 1
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 123 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 124 / 166
Tests Test sur la moyenne Tests Test sur la moyenne
Construction du test sur la qualite des pieces On dispose dun grand echantillon n = 100 > 30 et = 1 est connu.
x 1
Si H0 est vraie alors la loi de Z = peut etre approchee par
1/ 100
On mesure la longueur de 100 tiges. On calcule la moyenne x une loi gaussienne standard
4
loi de x sous Ho
Si |x 1| C
C
alors on accepte Ha P(|x 1| > C ) = P(|Z | )
3
sinon on accepte H0 1/ 100
Decision Ha Decision Ha
= 0.05
2
Decision Ho
1
2.5%
Comment fixer la limite C ? 2.5% Dans la table, on lit
1 On fixe lerreur de premiere espece = 0.05 C
= 1.96 donc C = 0.19
0
2 On cherche la valeur de C telle que si H0 est vraie [ = 1] alors 0.6 0.8 1.0 1.2 1.4 1/ 100
x
P(accepter Ha ) = P(|x 1| > C ) = 0.05 Si x < 0.81 ou x > 1.19 alors on rejette lhypothese nulle (autrement
dit on accepte lhypothese alternative) au niveau 5%.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 125 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 126 / 166
Remarque
Legalite doit toujours apparatre dans lhypothese nulle H0 .
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 127 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 128 / 166
Tests Test sur la moyenne Tests Test sur la moyenne
Test sur la moyenne : n grand, connu Test sur la moyenne : n grand, inconnu
Hypothese Hypothese Ha est acceptee Hypothese Hypothese Ha est acceptee
nulle H0 alternative Ha H0 est rejetee nulle H0 alternative Ha H0 est rejetee
= 0 > 0 = 0 > 0
S
0 x > 0 + q(1 ) 0 x > 0 + q(1 )
n n
= 0 < 0 = 0 < 0
S
0 x < 0 q(1 ) 0 x < 0 q(1 )
n n
S
= 0 6= 0 x > 0 + q(1 /2) = 0 6= 0 x > 0 + q(1 /2)
n n
ou bien ou bien
x < 0 q(1 /2) S
n x < 0 q(1 /2)
n
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 129 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 130 / 166
Test sur la moyenne : cas gaussien, connu Test sur la moyenne : cas gaussien, inconnu
Hypothese Hypothese Ha est acceptee Hypothese Hypothese Ha est acceptee
nulle H0 alternative Ha H0 est rejetee nulle H0 alternative Ha H0 est rejetee
= 0 > 0 = 0 > 0
Sc
0 x > 0 + q(1 ) 0 x > 0 + t(n 1, 1 )
n n
= 0 < 0 = 0 < 0
Sc
0 x < 0 q(1 ) 0 x < 0 t(n 1, 1 )
n n
Sc
= 0 6= 0 x > 0 + q(1 /2) = 0 6= 0 x > 0 + t(n 1, 1 /2)
n n
ou bien ou bien
x < 0 q(1 /2) Sc
n x < 0 t(n 1, 1 /2)
n
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 131 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 132 / 166
Tests Comparaison de deux echantillons Tests Comparaison de deux echantillons
Tests de comparaison
Probleme On veut tester si deux echantillons ont la meme moyenne.
Deux situations
4 Tests
Definitions et exemples
1 les deux echantillons sont independants
Test sur la moyenne Exemple
Comparaison de deux echantillons On veut comparer les salaires moyens des techniciens de deux
Test du 2 entreprises.
2 les echantillons sont apparies
Exemple
Pour tester lefficacite dun medicament, on compare le taux de
cholesterol avant et apres le traitement sur un groupe de malades.
Les echantillons ne sont pas independants car les mesures sont
effectuees sur les memes individus.
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 133 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 134 / 166
Un grand magasin implante deux boutiques On suppose que les deux populations sont independantes
lune est situee dans le centre ville Population 1 Population 2
lautre dans un centre commercial en banlieue moyenne 1 moyenne 2
Le directeur des ventes remarque que les produits qui se vendent bien ecart type 1 ecart type 2
dans un des magasins ne se vendent pas forcement bien dans le La question
second. Il attribue cette variation des ventes au fait que lage moyen Les deux moyennes sont-elles egales ? 1 = 2 ?
des clients est different entre les deux magasins. On teste 1 = 2 contre 1 6= 2
Les observations : on dispose de deux echantillons independants.
boutique taille age moyen ecart type
echantillon 1 echantillon 2
de lechantillon
extrait de la population 1 extrait de la population 2
pop. 1 centre ville n1 = 36 x1 = 40 ans S1 = 9 ans
taille n1 moyenne x1 , taille n2 , moyenne x2 ,
pop. 2 banlieue n2 = 49 x2 = 35 ans S2 = 10 ans
ecart type S1 ecart type S2
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 135 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 136 / 166
Tests Comparaison de deux echantillons Tests Comparaison de deux echantillons
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 145 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 146 / 166
On calcule
`i cj
2 Retour a lexemple
p q e(i, j)
X X n
Q= .
`i cj
i=1 j=1
n blanche blonde brune
Si Q > k((p 1)(q 1), 1 ) homme 20 40 20 80
alors femme 30 30 10 70
on rejette lhypothese nulle H0 (on accepte lhypothese 50 70 30 150 = n
alternative Ha ) au niveau . Les variables X et Y ne sont On calcule Q = 6.13.
pas independantes On compare Q avec k((2 1)(3 1), 0.95) = 5.99
sinon Conclusion Q = 6.13 > 5.99 donc on rejette lindependance.
on accepte lhypothese nulle H0 , les variables sont Il existe un lien entre la preference en matiere de biere et le sexe
independantes. du consommateur.
Plan de la section
5 Regression
Introduction
5 Regression La correlation
Introduction Estimation
La correlation Complement sur la correlation
Estimation
Complement sur la correlation
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 151 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 152 / 166
Regression Introduction Regression Introduction
Illustration En pratique
r = 1 r = 0.95 r = 0.75
3
3 1 1
3 1 1
y
x x x
2 si |r | est proche de 1, les variables sont lies.
r = 0.25 r = 0 r = 0.25
On cherche a determiner si la nature du lien est lineaire ou
dune autre nature.
3
3
3
3 1 1
3 1 1
3 1 1
y
2
3 1 1 3 3 1
1 2 3 3
1 1 2 3
pour i = 1, . . . , n
x x x
Si les points semblent dessiner une droite, alors le lien lineaire
r = 0.75 r = 0.95 r = 1
est confirme.
3
3
3 1 1
3 1 1
3 1 1
points du nuage.
3 1 1 2 3 3 1 1 3 3 1 1 2 3
x x x
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 157 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 158 / 166
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 159 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 160 / 166
Regression Estimation Regression Estimation
ou
x represente la moyenne et Sx2 la variance de lechantillon
x1 , . . . , xn
y represente la moyenne de lechantillon y1 , . . . , yn
Lordonnee a lorigine est egale a
b = y ax
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 161 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 162 / 166
Prevoir
Sil existe un lien lineaire entre X et Y , on peut prevoir la valeur prise 5 Regression
par Y connaissant la valeur de X Introduction
La correlation
Calcul de la prevision Si on connat la valeur de X , X = x0 , on Estimation
prevoit la valeur de la variable Y en prenant ax0 + b. Complement sur la correlation
Exemple
Un restaurateur sait que sa clientele est composee de 10 %
detudiants
Il peut prevoir ses ventes de pizzas en prenant
a 10 + b = 5 10 + 60 = 110 milliers deuros
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 163 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 164 / 166
Regression Complement sur la correlation Regression Complement sur la correlation
Le bon usage du coefficient de correlation Les nuages de points associes aux donnees
nuages de points ajustements lineaires
On dispose de 4 nuages de points
12
12
10
10
donnees A donnees B donnees C donnees D
8
y
y
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
6
Dans les 4 cas, on a 8
13
6.95
7.58
8
13
8.14
8.74
8
13
6.77
12.74
8
8
5.76
7.71
4
x = 9 ; y = 7.50, 9
11
8.81
8.33
9
11
8.77
9.26
9
11
7.11
7.81
8
8
8.84
8.47 5 10 15 5 10 15
12
12
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
10
10
5 5.68 5 4.74 5 5.73 8 6.89
8
y
y
6
6
On obtient donc la meme droite y = 0.5x + 3 pour les 4 nuages de
4
points. 5 10
x
15 5 10
x
15
A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 165 / 166 A. lippe (U. Nantes) Methodes de statistique inferentielle. 19 mai 2016 166 / 166