You are on page 1of 4

M2 Pro Ingnierie Mathmatique

Universit d'Angers, Universit de Nantes

Anne 2011-2012

TD de rgression linaire simple

Exercice 1 : EMV et EMC


On dispose d'un chantillon de n couples (xi , yi ), i = 1, . . . , n satisfaisant
y i = 0 + 1 x i + i ,

o l'on suppose que les i , i = 1 . . . n sont des variables alatoires i.i.d. de loi normale N (0, 2 ), 2
inconnue. Le but de cet exercice est de comparer la mthode des moindres carrs et la mthode du
maximum de vraisemblance dans ce modle.
1. Calculer la vraisemblance de l'chantillon.
2. Calculer les estimateurs de 0 , 1 et 2 par la mthode du maximum de vraisemblance.
3. Calculer les estimateurs de 0 , 1 et 2 l'aide de la mthode des moindres carrs.
4. Comparer les rsultats obtenus.
Exercice 2 : Modle de croissance humaine
Un pre a deux garons, et s'inquite de la croissance de son cadet qu'il trouve petit. Il dcide
de faire un modle familial partir des mesures de taille en fonction de l'age de l'an :

ge
taille

3
96

4
104.8

5
110.3

6
115.3

7
121.9

8
127.4

9
130.8

10
136

11
139.7

12
144.5

1. Reprsenter les donnes sur un graphique et justier l'utilisation d'un modle de rgression
linaire simple. Discuter les hypothses ncessaires.
2. Estimer les coecients de la rgression et tracez sur le graphique la droite de rgression
estime.
3. Calculer le R2 et reprsenter les rsidus. La rgression semble-t'elle valable ?
Pour information, les donnes proviennent des tudes auxologique du Docteur Semp dont une
partie a t publie par Abidi et al (1996). Ces donnes mesures sur des milliers d'enfants (de 1
mois 19 ans) ont permis d'tablir un modle de croissance humaine qui fournit les prdictions du
carnet de sant. Il s'crit de la manire suivante :

Y = 1 1

1 + ((X + 8 )/2 )3


1
,
+ ((X + 8 )/4 )5 + ((x + 8 )/6 )7

o 1 reprsente la taille adulte, 8 le temps de grossesse, et les couples (2 , 3 ), (4 , 5 ) et (6 , 7 )


permettent de modliser respectivement la phase de croissance initiale (juste aprs la naissance),
la phase de croissance centrale (pr-adolescente) et la phase nale.
Exercice 3 : Hauteur des arbres
Nous souhaitons exprimer la hauteur Y d'un arbre en fonction de son diamtre X 1m30 du
sol. Pour cela, nous avons mesur 20 couples diamtre-hauteur et les rsultats ci-dessous sont
disponibles :
20

x
= 34.9;
20

1 X
(xi x
)2 = 28.29; y = 18.34
20 i=1
20

1 X
1 X
(yi y)2 = 2.85;
(xi x
)(yi y) = 6.26.
20 i=1
20 i=1

1. On note Y = 0 + 1 X l'estimation de la droite de rgression. Donner l'expression de 0 et


1 en fonction des statistiques lmentaires ci-dessus. Calculer 0 et 1 .
2. Donner une mesure de qualit d'ajustement des donnes au modle. Exprimer cette mesure
l'aide des statistiques lmentaires. Calculer et commenter.
3. Testez H0 : j = 0 contre H1 : j 6= 0 pour j = 0, 1. Commentez.
Exercice 4 : Natalit en Amrique
La tableau suivant contient la liste de 14 pays d'Amrique du Nord et d'Amrique Centrale,
dont la population dpassait le million d'habitants en 1985. Pour chaque pays, on mesure le taux
de natalit yi (nombre de naissances annuel pour 1000 habitants) ainsi que le taux d'urbanisation
xi (pourcentage de la population vivant dans des villes de plus de 100000 habitants). On fait
l'hypothse d'un modle de regrssion linaire simple du type yi = 0 + 1 xi + i , c'est--dire que
le taux de natalit dpend linairement du taux d'urbanisation.

Observations
1
2
3
4
5
6
7
8
9
10
11
12
13
14

pays
Canada
Costa-Rica
Cuba
USA
El Salvador
Guatemala
Hati
Honduras
Jamaque
Mexique
Nicaragua
Trinidade/Tobago
Panama
Rep. Dominicaine

taux d'urbanisation
55.0
27.3
33.3
56.5
11.5
14.2
13.9
19.0
33.1
43.2
28.5
6.8
37.7
37.1

1.
2.
3.
4.
5.

taux de natalit
16.2
30.5
16.9
16.0
40.2
38.4
41.3
43.9
28.3
33.9
44.2
24.6
28.0
33.1

Reprsenter graphiquement les donnes.


Estimer les paramtres 0 et 1 du modle et tracer la droite de rgression correspondante.
Calculer la somme des rsidus.
Calculer SCtot , SCreg et SCres puis R2 .
Tester l'hypothse H0 : 1 = 0 contre H1 : 1 6= 0 et donner un intervalle de conance
95% pour 1 .
6. Tester l'hypothse H0 : 0 = 0 contre H1 : 0 6= 0 et donner un intervalle de conance
95% pour 0 .
7. Reprsenter graphiquement un intervalle de conance de 95% autour de la droite de rgression
l'aide d'une grille de 10 points.

M2 Pro Ingnierie Mathmatique


Universit d'Angers, Universit de Nantes

Anne 2011-2012

TP de rgression linaire simple

Exercice 1 : concentration en ozone


Nous allons traiter les 50 donnes journalires de la concentration en ozone en fonction de la
temprature. Les donnes se trouvent dans le chier "ozone.txt". La variable expliquer est la
concentration en ozone, note "maxO3", et la variable explicative est la temprature midi, note
"T12".
1. Commencer par reprsenter les donnes l'aide des commandes suivantes :
>ozone<-read.table("ozone.txt",header=T)
>plot(maxO3~T12,data=ozone)

Une regression linaire simple semble-t'elle justie graphiquement ?


2. Eectuer la rgression linaire l'aide de la commande
>reg<-lm(maxO3~T12,data=ozone)

et consulter les rsultats l'aide de la commande


>resume<-summary(reg)

Que reprsente les coecients de la matrice coecients ?


3. Tracer l'estimation de la droite de rgression, ainsi qu'un intervalle de conance 95% de
celle-ci grce aux commandes suivantes :
>plot(maxO3~T12,data=ozone)
>T12=seq(min(ozone[,"T12"]),max(ozone[,"T12"]),length=100)
>grille<-data.frame(T12)
>ICdte<-predict(reg,new=grille,interval="confidence",level=0.95)
>matlines(grille$T12,cbind(ICdte),lty=c(1,2,2),col=1)

Ce graphique permet de vrier visuellement l'ajustement des donnes au modle de rgression propos. Que remarquez-vous ? Reprsentez le vecteur des rsidus grce aux commandes :
>res<-rstudent(reg)
>plot(res,pch=15,ylab=Rsidus,ylim=c(-3,3))
>abline(h=c(-2,0,2),lty=c(2,1,2)).

4. On s'intresse prsent la qualit de prvision du modle. Pour cela, on va tracer un


intervalle de conance des prvisions de la manire suivante :
>plot(maxO3~T12,data=ozone)
>T12=seq(min(ozone[,"T12"]),max(ozone[,"T12"]),length=100)
>grille<-data.frame(T12)
>ICprev<-predict(reg,new=grille,interval="pred",level=0.95)
>matlines(grille$T12,cbind(ICprev),lty=c(1,2,2),col=1)

5. On va maintenant calculer les intervalles de conances des coecients 0 et 1 du modle de


rgression. Pour cela, on utilise la fonction coef() qui permet d'extraire les estimateurs de 0
et 1 et leurs carts types empiriques.
>seuil<-qt(0.975,df=reg$df.res)
>beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2]
>beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2]
>beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2]
>beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2]

Que remarquez-vous sur l'intervalle de conance de 0 ? Comment l'expliquez-vous ?


6. Pour tre plus prcis et tenir compte de la dpendance entre 0 et 1 , on peut aussi construire
une rgion de conance pour . Les commandes suivantes permettent de visualiser la dirence entre le rectangle de conance, simple juxtaposition des deux intervalles de conance
et la rgion de conance. Elles ncessitent l'installation du package ellipse.
>library(ellipse)
>plot(ellipse(reg,level=0.95),type="l",xlab="beta0",ylab="beta1")
>points(coef(reg)[1],coef(reg)[2],pch=3)
>lines(c(beta0min,beta0min,beta0max,beta0max,beta0min),c(beta1min,beta1max,beta1max,
beta1min,beta1min),lty=2)
>plot(ellipse(reg,level=0.95),type="l",xlab="beta0",ylab="beta1")
>points(coef(reg)[1],coef(reg)[2],pch=3)
>lines(c(beta0min,beta0min,beta0max,beta0max,beta0min),c(beta1min,beta1max,beta1max,
beta1min,beta1min),lty=2)

Exercice 2 : Hauteur des eucalyptus


On veut expliquer la hauteur des eucalyptus en fonction de leur circonfrence partir d'une
rgression linaire simple. On dispose de 1737 couples circonfrence-hauteur qui se trouvent dans
le chier "eucalyptus.txt".
1. Extraire et reprsenter les donnes dans le plan.
2. Eectuer la rgression et commenter les rsultats obtenus.
3. Tracer l'estimation de la droite de rgression et un intervalle de conance 95% de celle-ci.
Que dduisez-vous de la qualit de l'estimation ?
4. Calculer les intervalles de conance des coecients 0 et 1 du modle de rgression et
tracer le rectangle de conance associ. Faites de mme pour la rgion de conance du couple
= (0 , 1 ). Commenter.
5. On veut prsent prdire la taille d'une nouvelle srie d'eucalyptus de circonfrence 50, 100,
200 puis 500. Donner les estimateurs de la taille de chacun d'entre eux et les intervalles de
conances associs.
6. Que se passe-t'il pour les faibles valeurs de circonfrences ? Proposer une amlioration possible du modle pour tenir compte de ce phnomne. Cette amlioration sera traite dans le
prochain TP de rgression multiple.
Exercice 3 : Modle quadratique
Au vu de la reprsentation de la concentration d'ozone en fonction de la temprature midi de
l'Exercice 1, nous souhaitons modliser l'ozone par la temprature au carr.
1. Ecrire le modle et estimer les paramtres.
2. Comparer ce modle au modle de rgression linaire.

You might also like