Lect 1

El modelo de regresión lineal clásico
Métodos Estadı́sticos Avanzados I
Luis Gutiérrez
Departamento de Estadı́stica
Facultad de Matemáticas
llgutier@mat.uc.cl
Doctorado en Estadı́stica, 2018
Logo
Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo
Supongamos que nos interesa estudiar el comportamiento de

una variable aleatoria Y ∈ R
Supongamos además, que contamos con un conjunto de

predictores X = (X1 , . . . , Xk )T , X ⊂ Rk
Nuestro interés radica en modelar las relaciones de la variable

Y y el conjunto de predictores (regresores) X
En general, modelaremos las relaciones entre Y y X con una

función f (X )
Logo

La relaciones entre las variables no son exactas, estas son

afectadas por un ruido aleatorio
Lo habitual es asumir que el ruido aleatorio o error es aditivo
De esta forma el modelo nos queda
Y = f (X ) +
El objetivo principal es estimar la función desconocida f , es

decir, separar la componente sistemática f del ruido aleatorio
Logo

Desde un punto de vista estadı́stico f (x) corresponde a

E(Y | X )
Luego el problema se traduce en estimar la esperanza

condicional de Y
Asumiendo que observamos n realizaciones de la variable Y y

n realizaciones de las variables X en las siguientes láminas
definiremos el modelo lineal clásico en términos matriciales
Logo

Definamos los siguientes vectores
   
y1 1
y =  ...  y =  .. 
  
. 
yn n
y la matriz de diseño X ,
 
1 x11 · · · x1k
 .. .. .. 
X = . . . 
1 xn1 · · · xnk
Logo

Definición (1)
Al modelo
y = Xβ +
se le llama modelo de regresión clásico, si se cumplen los siguientes
supuestos:
1. E() = 0
2. Cov () = E(T ) = σ 2 I
3. La matriz de diseño X tiene rango completo, es
decir, rango(X ) = k + 1 = p
4. ∼ N(0, σ 2 I )
Para covariables estocásticas estos supuestos se asumen condicional
Logo
aX

De la definición (1) se derivan las siguientes propiedades
Propiedades
1. E(y ) = X β
2. Cov (y ) = σ 2 I
3. y | X ∼ Nn (X β, σ 2 I )
Logo


Para entender y discutir las propiedades del modelo, definiremos
los residuos
Definición (2)
Sea β̂ un estimador del parámetro β, entonces el vector de residuos
se define como
ˆ = y − X β̂
ˆ es un estimador de los errores . Los residuos parciales se definen
como:
Definición (3)
Sean X (−j) y β̂ (−j) la matriz de diseño y el vector de estimadores sin
la j−ésima columna y fila respectivamente, se definen los residuos
parciales como, Logo
ˆ = y − X (−j) β̂ (−j)
A continuación discutiremos los alcances de las propiedades del

modelo clásico
Linearidad del efecto de las covariables:

Este pareciera ser un supuesto fuerte y restrictivo
Sin embargo, dentro de los modelos lineales, relaciones no

lineales también son posibles
Por ejemplo, el modelo yi = β0 + β1 log(zi ) + i , genera el

siguiente modelo lineal yi = β0 + β1 xi + i , donde xi = log(zi )
Logo

En general las relaciones no lineales pueden ser incluidas en

modelos lineales salvaguardando que estas sean lineales en los
parámetros
Un ejemplo de un modelo que no es lineal en los parámetros

es yi = β0 + β1 sin(β2 zi ) + i
Logo

Homocedasticidad en la varianza de los errores:

Esta propiedad implica que la varianza de los errores i no
varia sistemáticamente a través de los individuos con el
incremento o disminución del valor de una o más covariables xj
Logo


3.1 Model Definition 79
a homoscedastic variance
b homoscedastic variance, errors
10 4
5 2
0 0
−5 −2
−10 −4
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
c funnel−shaped heteroscedastic variance

d funnel−shaped heteroscdastic variance, errors
10
5
5 2.5
0 0
−5 −2.5
−10 −5
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Fig. 3.1 Illustration for homo- and heteroscedastic variances: The graphs on the left show simu-
lated data together with the true regression line. In the graphs on the right the corresponding errors
are displayed. The data are based on the model yi ! N."1 C 2xi ; 1/ [panels (a)—homoscedastic Logo
variance and (b)—homoscedastic variance, errors] and yi ! N."1 C 2xi ; .0:1 C 0:3.xi C
3//2 / [panels (c)—funnel-shaped heteroscedastic variance and (d)—funnel-shaped heteroscedastic
variance, errors]

80 3 The Classical Linear Model
1000
1600 750
500
1200
net rent in Euro
250
residuals
800 0
−250
400
−500
0 −750
20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160

area in sqm area in sqm
Fig. 3.2 Munich rent index: illustration of heteroscedastic variances. The left panel shows a
scatter plot between net rent and area together with the estimated regression line. The right panel
displays the corresponding residuals versus area
Example 3.1 Munich Rent Index—Heteroscedastic Variances

The funnel-shaped trend of the errors in Fig. 3.1c d is typical for many real data situations. Logo
As an example we take the Munich rent data; see Fig. 3.2 which shows the scatter plot
between the net rent and living area together with the estimated regression line (left panel).
The right panel of Fig. 3.2 shows a scatter plot of the corresponding residuals as a function
of living area. The observed net rent scatters with an increasing variance around the plotted
Luis Gutiérrez
regression line. Clearly, a wider Métodos
range of rent is found Estadı́sticos
for larger living areasAvanzados I
than for smaller
¿Cuales son las consecuencias de ignorar la heterocedasticidad de

las varianzas?
La varianza de Var (β̂) no es estimada correctamente
Lo anterior trae consecuencias sobre pruebas de hipótesis e

intervalos de confianza de los coeficientes de regresión
La estimación incorrecta de las varianzas de los estimadores

nos puede llevar a conclusiones erróneas
Logo


Errores no correlacionados:
En muchas aplicaciones se encuentran errores

auto–correlacionados
Ejemplos tı́picos son datos de series de tiempo y datos

longitudinales
Otros ejemplos aparecen cuando el modelo está mal

especificado, ejemplo, modelar un efecto no lineal con uno
lineal
Muchas veces los errores auto–correlacionados aparecen

cuando se omite o no se observa alguna covariable que tiene Logo
tendencias temporales o estacionales


a b
errors with positive autocorrelation errors with positive autocorrelation
observations and regression line time series of the errors
2
5
1
0
−5
−1
−10 −2
−3 −2 −1 0 1 2 3 1 11 21 31 41 51 61 71 81 91 101
x i
c errors with negative autocorrelation

d errors with negative autocorrelation
observations and regression line time series of the errors
5 3
0
1
0
−5
−1
−2
−10
−3 −2 −1 0 1 2 3 1 11 21 31 41 51 61 71 81 91 101
x i
Fig. 3.3 Illustration for autocorrelated errors: Panels (a) and (b) show errors with positive
autocorrelation and panels (c) and (d) correspond to negative autocorrelation. The respective
graphs on the left show the (simulated) data including the (true) regression line. The graphs on the
right-hand side display the corresponding errors. In case of negative autocorrelation, observations Logo
are connected in order to emphasize the changing algebraic sign. The data with positive correlation
are simulated according to the model yi D !1 C 2xi C "i where "i D 0:9"i!1 C ui and
ui " N.0; 0:52 /. The data with negative correlation in the errors are simulated according to
yi D !1 C 2xi C "i where "i D !0:9"i!1 C ui and ui " N.0; 0:52 /


a observations and true function

b observations and regression line
4 4
2 2
0 0
−2 −2
−4 −4
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
c residuals
1
.5
−.5
−1
−3 −2 −1 0 1 2 3
Fig. 3.4 Illustration for correlated residuals when the model is misspecified: Panel (a) displays
(simulated) data based on the function E.yi j xi / D sin.xi / C xi and "i ! N.0; 0:32 /.
Panel (b) shows the estimated regression line, i.e., the nonlinear relationship is ignored. The Logo
corresponding residuals can be found in panel (c)
simulated from the model yi D sin.xi / C xi C "i . The conditional mean of yi

is E.yi j xi / D sin.xLuis Gutiérrez Métodos Estadı́sticos Avanzados I
i / C xi ; which is a nonlinear function of x; see Fig. 3.4a.

a b
observations of x1 against time observations of x2 against time
2 10
−2
−10
−4
−6
−20
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
i i
c d
regression y versus x1 and x2, residuals over time regression y versus x1, residuals over time
10 10
5 5
0 0
−5 −5
−10 −10
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
i i
e regression y versus x2, residuals over time

10
−5
−10
0 10 20 30 40 50 60 70 80 90 100
i
Logo
Fig. 3.5 Illustration for autocorrelated errors if relevant covariates showing a temporal trend are
ignored. Panels (a) and (b) show the covariates over time. Panels (c–e) display the residuals for
the regression models yi D ˇ0 C ˇ1 xi1 C ˇ2 xi2 C "i (correct model), yi D ˇ0 C ˇ1 xi1 C "i (x2
ignored), and yi D ˇ0 C ˇ1 xi2 C "i (x1 ignored)

¿Cuales son las consecuencias de ignorar la auto–correlación de los

residuos?
Una de las consecuencias de ignorar la auto-correlación de los

residuos es la perdida de información cuando se quiere
predecir
Por ejemplo, supongamos que estamos interesados en predecir

la respuesta de una nueva observación de las covariables x n+1
Un estimador habitual es ŷn+1 = x n+1 β̂, el cual no considera

la información de la autocorrelación
Logo

Errores aditivos:
Hay situaciones donde los errores pueden asumirse
multiplicativos
Un ejemplo de errores multiplicativos es el modelo exponencial
yi = exp(β0 + β1 xi1 + · · · + βk xik + i )

= exp(β0 ) exp(β1 xi1 ) · · · exp(βk xik ) exp(i )
Es evidente que transformaciones logarı́tmicas de los modelos

exponenciales resultan en modelos lineales con errores aditivos
ln(yi ) = β0 + β1 xi1 + · · · + βk xik + i

Logo


a scatter plot: y versus x1

b scatter plot: y versus x2
150 150
100 100
y
50 50
0 0
0 1 2 3 0 1 2 3
x1 x2
c d
scatter plot: log(y) versus x1 scatter plot: log(y) versus x2
6 6
4 4
2
log(y)
log(y)
2
0 0
−2 −2
0 1 2 3 0 1 2 3
x1 x2
Fig. 3.6 Example for a multiplicative model: Panels (a) and (b) show scatter plots between
simulated data y and x1 , respectively, x2 based on the model yi D exp.1 C xi1 ! xi2 C "i / with Logo
"i " N.0; 0:42 /. Panels (c) and (d) display scatter plots of log.y/ versus x1 and x2 , respectively
with multiplicative errors "Qi D exp."i /. Models with multiplicative error structure
are more plausible forLuis Gutiérrez
exponential Métodos
relationships Estadı́sticos
since the AvanzadostoI
errors are proportional
a scatter plot: sales versus price

b scatter plot: sales versus price of competing brand
3000 3000
2000 2000
sales
sales
1000 1000
0 0
6 6.25 6.5 6.75 7 7.25 7.5 7.75 8 8.25 8.5 6 6.5 7 7.5 8 8.5 9 9.5
price price of competing brand
Fig. 3.7 Supermarket scanner data: scatter plot between the sales of a particular brand and its
price [panel (a)] and the price of a competing brand [panel (b)], respectively
log.yi / D ˇ0 C ˇ1 xi1 C : : : C ˇk xi k C "i :
Hence, we can treat an exponential model within the scope of linear models by Logo
taking the logarithm of the response variable. Panels (c) and (d) in Fig. 3.6 show
scatter plots between the logarithmic response value log.y/ and the covariates x1
and x2 for the simulated model (3.3), which provides clear evidence of linear
Matriz de diseño y efecto de las covariables:
La especificación de la matriz de diseño es fundamental en el

modelo lineal clásico
Una mala especificación nos puede traer problemas de falta de

identificabilidad estadı́stica
Por otro lado si un predictor presenta una relación no lineal

con la variable respuesta, y es necesaria una transformación,
entonces dicha transformación se debe incorporar en la matriz
de diseño
Logo

Covariables continuas en la matriz de diseño

Las covariables continuas que tienen una relación lineal con la
respuesta no necesitan mayor procesamiento para ingresar a la
matriz de diseño
Si una covariable continua posee una relación no lineal

entonces debe ser tratada con una transformación o una
regresión polinomial
En la siguiente figura se muestra un ejemplo donde una

transformación del predictor mejora el comportamiento de los
residuos
Logo


a rent per sqm vs. area

b f(area) = 1/area
20 20
15 15
rent per sqm
rent per sqm

10 10
5 5
0 0
20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160
c residuals
d residuals
10 10
5 5
residuals
residuals
0 0
−5 −5
−10 −10
20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160
e f
average residuals average residuals
6 4
4 2
2 0
residuals
residuals
0 −2
−2 −4
−4 −6
20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160
Fig. 3.8 Munich rent index: illustration for modeling nonlinear relationships via variable trans- Logo
formation. The left column shows the estimated regression line including observations [panel (a)],
corresponding residuals [panel (b)], and average residuals for every distinct covariate value [panel
(c)]. The right column displays the estimated nonlinear relationship rentsqmi D 4:73 C 140:18 ! 1
1=areai [panel (d)] and the corresponding residual plots [panels (e) and (f)]


En los paneles (a), (c) y (e) el modelo considerado fue:
yi = β0 + β1 xi + i
donde, yi := rentsqmi y xi := areai . En los paneles (b), (d) y (f) el
modelo fue:
yi = β0 + β1 f (xi ) + i ,
donde f (xi ) = 1/xi , ası́, la matriz de diseño para este segundo
modelo es
 
1 1/30
 1 1/37 
 
X =  ... ..
 
 . 

 1 1/73  Logo
1 1/73
Otra forma de lidiar con efectos no lineales es mediante una

regresión polinomial. Los siguientes modelos son ilustrados en la
próxima figura,
yi = β0 + β1 x1 + β2 x12 + i
yi = β0 + β1 x1 + β2 x12 + β3 x13 + i
donde, yi := rentsqmi y xi := areai .
Logo


a polynomial of degree 2 b polynomial of degree 3

20 20
15 15
net rent per sqm
net rent per sqm

10 10
5 5
0 0
20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160
c residuals d residuals
10 10
5 5
residuals
residuals
0 0
−5 −5
−10 −10
20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160
Fig. 3.9 Munich rent index: illustration for modeling nonlinear relationships using polynomials.
The upper panels show fitted quadratic and cubic polynomials including observations. The lower Logo
panels display the corresponding residuals
The results are obtained with STATA. Note that with other statistics packages we sometimes
obtained slightly different
Luisresults due to rounding Métodos
Gutiérrez errors. Estadı́sticos Avanzados I
Los paneles (a) y (c) muestran los resultados de la regresión

polinomial de grado 2. Los paneles (b) y (d) muestran los
resultados de la regresión polinomial de grado 3. Para ambos casos
las matrices de diseño están dadas por:
1 30 302 1 30 302 303

   
 1 37 372   1 37 372 373 
   
 .. .. .
..  y X =  . . .. .. 
X = . .  .. ..

   . . 

 1 73 732   1 73 732 733 
1 73 732 1 73 732 733
Logo

Covariables discretas en la matriz de diseño:
Las covariables discretas deben ser recodificadas para su

correcta interpretación
La manera habitual de codificarlas es construyendo variables

llamadas dummy
El truco para una correcta codificación es que si tenemos una

variable categórica con c niveles entonces debemos crear c − 1
variables dummy, dejando uno de los niveles en el intercepto
Logo

Para modelar el efecto de una covariable categórica x ∈ {1, . . . , c}

con c categorı́as utilizando codificación dummy, debemos definir
c − 1 variables dummy,
( (
1 xi = 1, 1 xi = c − 1,
di,1 = ··· di,c−1 =
0 en otro caso, 0 en otro caso,
para i = 1, . . . , n e incluir las variables dummy en el modelo
yi = β0 + β1 di,1 + . . . + βc−1 di,c−1 + . . . + i .
Por razones de identificabilidad, se omite una variable dummy, la cual

corresponde a la categorı́a c. Dicha categorı́a se le llama categorı́a
Logo
o celda de referencia y los resultados de los demás efectos deben ser
interpretados con respecto a la celda de referencia.
Interacción entre las covariables:

Definición (4)
Una interacción entre covariables existe si el efecto de una covariable
depende del valor de otra covariable
Para ejemplificar la definición consideremos el siguiente

modelo
y = β0 + β1 x + β2 z + β3 xz + ,
donde la variable respuesta y depende de las covariables x y z
El término β3 xz es llamado la interacción entre x y z

Logo

Calculemos ahora lo siguiente,
E(Y | x + a, z) − E(Y | x, z) = β0 + β1 (x + a) + β2 z + β3 (x + a)z

−β0 − β1 x − β2 z − β3 xz
= β1 a + β3 az
Si β3 = 0, la interacción se elimina del modelo y el cambio

esperado β1 a es independiente del valor de la covariable z
Si β3 6= 0 el valor esperado del cambio es β1 a + β3 az, el cual

depende de a y de z
Logo

Interacciones entre variables categóricas:
Supongamos dos covariables, x y z cada una con 3 categorı́as
Primero debemos crear las respectivas variables dummy
Denotemos por x1 , x2 y z1 , z2 las variables dummy para x y z
Logo

El modelo con las interacciones nos queda
y = β0 +β1 x1 +β2 x2 +β3 z1 +β4 z2 +β5 x1 z1 +β6 x1 z2 +β7 x2 z1 +β8 x2 z2 +
Algunos de los coeficientes pueden ser interpretados como:

β0 representa el efecto de x = 3 y z = 3, es decir el nivel de
referencia
β0 + β1 representa el efecto de x = 1 y z = 3
β0 + β2 + β4 + β8 representa el efecto de la combinación
x = 2, z = 2 cuando se le compara con la combinación x = 3,
z =3
Logo

La interacción entre las variables x y z también puede ser

modelada definiendo una nueva variable w
Las categorı́as de w consisten de todas las posibles
combinaciones de los valores de x y z:



 1 si x = 1, z = 1,

2 si x = 1, z = 2,



w = 3 si x = 1, z = 3,
 . .
.. ..





9 si x = 3, z = 3
Finalmente, se deben definir 8 variables dummy con las

categorı́as de w Logo

Interacción entre una variable categórica y una continua:
Supongamos que tenemos una variable continua x y una

categórica z con tres niveles
Primero definiremos las dos variables dummy correspondientes

a z, z1 y z2 , dejando el nivel 3 de z como referencia
Ahora, se considera el modelo
y = β0 + β1 z1 + β2 z2 + β3 x + β4 xz1 + β5 xz2 +
Logo

Interacciones entre variables continuas:
Cuando se estima la interacción de dos covariables continuas,

es necesario modelar una función bi-dimensional
Dicha función puede ser estimada por ejemplo utilizando

polinomios bi-dimensionales
Logo

Estimación de los parámetros
Ahora estimaremos los parámetros β y σ 2
También se derivaran las propiedades estadı́sticas de los

estimadores
Utilizaremos dos métodos de estimación: mı́nimos cuadrados y

máxima verosimilitud
Para máxima verosimilitud deberemos asumir una distribución

sobre los errores
Logo

Método de mı́nimos cuadrados:

De acuerdo con el principio de mı́nimos cuadrados, los
coeficientes desconocidos β son estimados minimizando la
suma de las desviaciones al cuadrado, es decir:
n
X n
X
T 2
LS(β) = (yi − x i β) = 2i = T
i=1 i=1
Note que
LS(β) = T
= y T y − 2y T X β + β T X T X β (1)
Logo

Derivando (1) con respecto a β nos queda,
∂LS(β)
= −2X T y + 2X T X β
∂β
∂LS(β)
luego, resolviendo la ecuación ∂β |β=β̂ =0
nos queda,
β̂ = (X T X )−1 X T y .
Logo

Estimación máximo verosı́mil:

Haremos el siguiente supuesto ∼ N(0, σ 2 I )
Con el supuesto anterior nos queda que y ∼ N(X β, σ 2 I )
Ası́, la verosimilitud queda

2 1 1 T
L(β, σ ) = exp − 2 (y − X β) (y − X β)
(2πσ 2 )n/2 2σ
y la log–verosimilitud está dada por

n n 1
l(β, σ 2 ) = − log(2π) − log(σ 2 ) − 2 (y − X β)T (y − X β) (2)
2 2 2σ
Logo

Derivando (2) con respecto a β nos queda
β̂ = (X T X )−1 X T y
Ası́, el estimador máximo verosı́mil coincide con el estimador

de mı́nimos cuadrados
Logo

Ahora procederemos a estimar σ 2 por máxima verosimilitud

Derivando (2) con respecto a σ 2 nos queda
∂l(β, σ 2 ) n 1
2
= − 2 + 4 (y − X β)T (y − X β)
∂σ 2σ 2σ
Igualando a cero y sustituyendo β̂ en el lugar de β, el

estimador nos queda
2 (y − X β̂)T (y − X β̂)
σ̂ML =
n
2 ) y proponga un estimador insesgado de σ 2
encuentre E(σ̂ML
Logo

Valores predichos y residuos

El valor predicho corresponde a la estimación de la esperanza
\
condicional de y dado X , es decir, E(y | X ) = ŷ = X β̂
Reemplazando el estimador de β̂ en la expresión anterior nos

queda:
\
E(y | X ) = X (X T X )−1 X T y = Hy
donde H = X (X T X )−1 X T es una matriz de dimensión
n × n.
Los residuos se estiman mediante
ˆ = y − ŷ = y − Hy = (I − H)y
A la matriz H, se le llama la matriz sombrero Logo

Valores predichos y residuos
La matriz H = X (X T X )−1 X T tiene las siguientes propiedades:

1. H es simétrica
2. H es idempotente
3. rk(H) = tr (H) = p, es decir, la traza es igual al
rango
4. La matriz I − H es también simétrica e
idempotente, con rango rk(I − H) = n − p
Logo

Propiedades de los estimadores
Se discutirá acera de las propiedades geométricas del

estimador de mı́nimos cuadrados
Estudiaremos las propiedades estadı́sticas de los estimadores

considerando muestras finitas e infinitas
También discutiremos propiedades de los residuos
Logo

Propiedades geométricas de los estimadores de mı́nimos

cuadrados:
Para ilustrar las propiedades geométricas, considere el
siguiente modelo

y1 1 1
y= = Xβ + = β0 +
y2 1 2
Ası́, la matriz de diseño sólo consiste del vector columna

x 0 = (1, 1)T
Asuma que observamos el vector y = (2, 3)T
El estimador de mı́nimos cuadrados para β0 es β̂0 = 2,5 Logo

3.2 Parameter Estimation 111
Fig. 3.14 Visualization of

the geometric properties of 4
the least squares estimator
y = (2, 3)...
3 .....
......... ..... .
..
................ ........ .....
.. . ......
... . .... ...........
...
....
.
.. ŷ = (2.5, 2.5)
... .
..
.....
.... ..
... .....
2 ....
.... ..
.
... ....
.
... ..
.... .....
... ..
... .....
...
.... ...
1 .... .............
.
.
. ........
.... .. .......
... ...... ..
x = (1, 1)
ε̂ = y − ŷ = (−0.5, 0.5) .... ..... .
....... ... .....
................... .........
........ ........
.. ...... ..............
..........
0 ..
.....
−1 .....
.. 0 1 2 3 4
.
.....
..
..... −1
Logo
We can generalize these observations for arbitrary linear models: The method of
least squares yields parameter estimates ˇO such that the residuals "O and the predicted
values yO are orthogonal to each other. This can
Luis Gutiérrez
be easily proved using properties of
Métodos Estadı́sticos Avanzados I

Propiedades geométricas de los estimadores de mı́nimos
cuadrados:
1. Los valores predichos ŷ son ortogonales a los residuos
ˆ, es decir, ŷ T ˆ = 0
2. Las columnas x j de X son ortogonales de los
residuos ˆ, es decir, (x j )T ˆ = 0 o X T ˆ = 0
3. La suma
P y el promedio P de los residuos es cero, es
decir, ni=1 î = 0 o n1 ni=1 î = 0
4. El promedio de los valores predichos ŷi es igual al
promedio de los valores observados de la variable
respuesta yi , es decir, n1 ni=1 ŷi = ȳ
P
5. El hyper–plano de regresión pasa a través del

promedio de los datos, es decir, Logo
ȳ = β̂0 + β̂1 x̄1 + · · · + β̂k x̄k

Antes de continuar con las propiedades de los estimadores

introduciremos el coeficiente de determinación, el cual se
define como:
Pn Pn 2
2 (ŷi − ȳ )2 ˆ
R = Pn i=1
2
= 1 − Pn i=1 i 2
i=1 (yi − ȳ ) i=1 (yi − ȳ )
0 ≤ R2 ≤ 1
Pn
Cuando R 2 es cercano a 1 entonces la ˆ2i
i=1 es pequeña
indicando un buen ajuste
Cuando R 2 es cercano a 0, la suma de los residuos al
cuadrado es relativamente grande indicando un ajuste pobre
Logo


Propiedades estadı́sticas sin asumir supuestos
distribucionales
E(β̂) = β
Cov (β̂) = σ 2 (X T X )−1
2
Var (β̂j ) = Pσn
(1−Rj2 ) i=1 (xij −x̄j )
2
En la expresión anterior, Rj2 es el coeficiente de determinación

para la regresión entre xj y todas las otras variables
independientes incluyendo un intercepto
Var (β̂j ) ≤ Var (β̂jL ), j = 0, . . . , k. donde β̂jL es un estimador
lineal insesgado. A esta última propiedad se le conoce como Logo
teorema de Gauss-Markov.
Propiedades estadı́sticas asumiendo normalidad:

y ∼ N(X β, σ 2 I )
β̂ ∼ N(β, σ 2 (X T X )−1 )
(β̂−β)T (X T X )(β̂−β)
σ2
∼ χ2p
Logo

Propiedades asintóticas de los estimadores de mı́nimos

cuadrados:
Para obtener tests e intervalos exactos, el supuesto de
normalidad de los errores es necesario
Sin embargo, algunas propiedades son aproximadamente

validas si el tamaño de muestra tiende a infinito
Para clarificar, se indexará el modelo con el número de

observaciones n: y n = X n β + n , E(n ) = 0,
Cov (n ) = σ 2 I n .
Similarmente, se indexaran el estimador de mı́nimos cuadrados

β̂ n y el estimador de la varianza σ̂n2 con n. Logo


cuadrados:
Los siguientes resultados hacen uso del siguiente supuesto:
lı́mn→∞ n1 X T
n X n = V , donde V es definida positiva
1. El estimador de mı́nimos cuadrados β̂ n de β y el

estimador ML o REML σ̂n2 para la varianza σ 2 son
consistentes.
√
2. La distribución asintótica de n(β̂ n − β) es normal,
√ d
n(β̂ n − β) → N(0, σ 2 V −1 )
Logo


cuadrados:
Con los resultados asintóticos de 2, se deduce que:
approx
β̂ n ∼ N(β, σ 2 V −1 /n)
approx
β̂ n ∼ N(β, σ̂n2 (X T −1
n X n) )
El resultado anterior nos dice que cuando el tamaño de muestra

tiende a infinito el estimador de mı́nimos cuadrados sigue aproxima-
damente una distribución normal independiente de la distribución
sobre .
Logo


cuadrados:
El supuesto sobre los predictores generalmente no se cumple
cuando se consideran predictores que siguen una tendencia.
Por ejemplo si consideramos el modelo,
yi = β1 xi + i , i = 1, . . . , n
donde xi = i, i = 1, . . . , n. En este caso tenemos que:
n
1 T 1X 2 1
Xn Xn = xi = (1 + . . . + i 2 + . . . + n2 ) → ∞
n n n
i=1
Logo

Propiedades estadı́sticas de los residuos sin asumir supuestos

distribucionales sobre :
1 E(ˆ) = 0
i ) = σ 2 (1 − hii )
2 Var (ˆ
3 Cov (ˆ) = σ 2 (I − X (X T X )−1 X T )
Logo

Propiedades estadı́sticas de los residuos asumiendo

normalidad sobre :
1. ˆ ∼ N(0, σ 2 (I − H))
T ˆ
ˆ 2
2. σ2
= (n − p) σ̂σ2 ∼ χ2n−p
3. La suma de cuadrados de los residuos ˆT ˆ y el

estimador de mı́nimos cuadrados β̂ son
independientes.
Logo

Otros tipos de residuos

Residuos estandarizados ri = √ î
σ̂ 1−hii
Si los supuestos sobre el modelo son correctos, entonces los

residuos estandarizados son homocedásticos
Residuos studentizados
ˆ
ri∗ = σ̂ (1+X T (X T(i)X )−1 X )1/2 ∼ tn−p−1
(i) i (i ) (i ) i
El sub-indice (i) denota que la i−ésima observación ha sido

removida
Logo

Pruebas de hipótesis
Consideremos las siguientes hipótesis lineales generales
H0 : C β = d vs. H1 : C β 6= d ,
C es una matriz de dimensiones r × p con rk(C ) = r ≤ p
d es un vector de dimensión r
Ası́, bajo H0 un total de r condiciones lineales independientes

se cumplen
Logo

Ejemplo 1:
 
β0
Sea C = 0 1 0 , β =  β1  y d = 0, entonces la
β2
hipótesis H0 : C β = d nos queda
 
β0
H0 : 0 1 0  β1  = 0 ⇐⇒ H0 : β1 = 0
β2
Logo

Ejemplo 2:
     
1 0 0 β0 0
Sea C =  0 1 0 , β =  β1  y d =  0 , entonces
0 0 1 β2 0
la hipótesis H0 : C β = d nos queda
    
1 0 0 β0 0
H0 : 0
 1 0   β1 = 0  ⇐⇒
 
0 0 1 β 0
   2
β0 0
H0 :  β 1 = 0 
β2 0
Logo

Ejemplo 3:
 
β0
Sea C = 0 1 −1 , β =  β1  y d = 0, entonces la
β2
hipótesis H0 : C β = d nos queda
 
β0
H0 : 0 1 −1  β1  = 0 ⇐⇒ H0 : β1 − β2 = 0 ⇐⇒
β2
H0 : β 1 = β 2
Logo

Como se deduce de los ejemplos anteriores, desde la hipótesis

general se obtienen todos los casos particulares
En lo que sigue estudiaremos 4 tipos de hipótesis, sus test

estadı́sticos y los valores crı́ticos
Los tests son relativamente robustos a moderadas

desviaciones del supuesto de normalidad en los residuos
Adicionalmente, los tests pueden ser aplicados con muestras

grandes, incluso cuando los errores no son normales
Logo

Hipótesis lineales generales:
H0 : C β = d vs. H1 : C β 6= d ,
donde C es una matriz de dimensiones r × p con rk(C ) = r ≤ p y

r es el número de restricciones lineales independientes.
Asumiendo errores normales, bajo H0 se tiene que el estadı́stico de

prueba nos queda:
F = (1/r )(C β̂ − d )T (σ̂ 2 C (X T X )−1 C T )−1 (C β̂ − d ) ∼ Fr ,n−p
Se rechaza H0 si F > Fr ,n−p (1 − α) Logo

Test de significancia (t–test):
H0 : βj = 0 vs. H1 : βj 6= 0

prueba nos queda:
β̂j
tj = 1/2
∼ tn−p
\
Var (β̂j )
Se rechaza H0 si |t| > tn−p (1 − α/2)
Logo

Test compuesto de un subvector:
H0 : β 1 = 0 vs. H1 : β 1 6= 0

prueba nos queda:
1 −1
\
F = (β̂ 1 )T Cov (β̂ 1 ) (β̂ 1 ) ∼ Fr ,n−p
r
Se rechaza H0 si F > Fr ,n−p (1 − α)
Logo

Test de significancia de la regresión

H0 : β1 = β2 = · · · = βk = 0 vs. H1 : βj 6= 0 para al menos un
j ∈ {1, . . . , k}

prueba nos queda:
n − p R2
F = ∼ Fk,n−p
k 1 − R2
Se rechaza H0 si F > Fk,n−p (1 − α)
Logo

Regiones de confianza e intervalos de predicción
Suponiendo normalidad de los errores o tamaño de muestra

grande, es posible obtener los siguientes intervalos de confiabilidad
y predicción
Intervalo de confianza para βj de nivel 1 − α
[β̂j − tn−p (1 − α/2)sej , β̂j + tn−p (1 − α/2)sej ]
Elipsoide de confianza para un subvector β 1 = (β1 , . . . , βr )T

con nivel 1 − α
−1

1 T \
β 1 : (β̂ 1 − β 1 ) Cov (β̂) (β̂ 1 − β 1 ) ≤ Fr ,n−p (1 − α)
r
Logo

Intervalo de confianza con nivel (1 − α) para µ0 = E(y0 ),

donde y0 es una observación futura en la localización x 0
−1
xT T T
0 β̂ ± tn−p (1 − α/2)σ̂(x 0 (X X ) x 0 )
1/2
Intervalo de predicción para una observación futura y0 en la

localización x 0 con nivel (1 − α)
−1
xT T T
0 β̂ ± tn−p (1 − α/2)σ̂(1 + x 0 (X X ) x 0 )
1/2
Logo


15
10
0
20 40 60 80 100 120 140 160
area in sqm
Fig. 3.16 Munich rent index: estimated rent per square meter depending on the living area
including 95 % confidence interval (solid lines) and 95 % prediction interval (dashed lines). The
values of the remaining covariates have been set to yearc D 1918, nkitchen D 0, gkitchen D 0,
and year01 D 0. Additionally included are the observations available for this covariate pattern Logo
If we substitute ! 2 with the estimator !O 2 , the resulting expression follows a

Selección de variables y de modelos
En muchas aplicaciones se cuenta con un número

potencialmente enorme de predictores
La pregunta que surge es: ¿Cuales de los predictores deben ser

incluidos en el modelo?
Algunas estrategias empleadas para responder a la pregunta

son:
Estrategia 1: Estimar el modelo más complejo, el cual incluye
a todos los predictores
Estrategia 2: Primero, estimar un modelo con todas los
predictores, luego, remover las variables no significativas del
modelo Logo

Estudiemos el siguiente ejemplo con datos simulados:
y | x1 , x2 , x3 ∼ N(−1 + 0,3x1 + 0,2x3 , 0,22 ),

donde x1 y x3 son independientes y uniformemente distribuidas
sobre [0, 1]. La variable x2 se define como: x2 = x1 + u. Considere
n = 150 observaciones (yi , xi1 , xi2 , xi3 ), i = 1, . . . , n
Logo

Selección3.4 de variables
Model y Selection
Choice and Variable de modelos 141
scatter plot matrix for y, x1, x2, x3

0 .5 1 0 .5 1
−.5
y −1
−1.5
1
.5 x1
0
1.5
1
x2
.5
0
1
.5 x3
0
Logo
−1.5 −1 −.5 0 .5 1 1.5
Fig. 3.18 Scatter plot matrix for the variables y, x1 , x2 , and x3


Veamos
142
los resultados del ajuste considerando las variables x1 , x2 y
3 The Classical Linear Model
x3 en un primer modelo y luego un modelo con x1 y x3
Table 3.3 Results for the model based on covariates x1 , x2 , and x3
Variable Coefficient Standard error t-value p-value 95 % Confidence interval
intercept !0.970 0.047 !20.46 <0.001 !1.064 !0.877
x1 0.146 0.187 0.78 0.436 !0.224 0.516
x2 0.027 0.177 0.15 0.880 !0.323 0.377
x3 0.227 0.052 4.32 <0.001 0.123 0.331
Table 3.4 Results for the correctly specified model based on covariates x1 and x3
Variable Coefficient Standard error t-value p-value 95 % Confidence interval
intercept !0.967 0.039 !24.91 <0.001 !1.042 !0.889
x1 0.173 0.055 3.17 0.002 0.065 0.281
x3 0.226 0.052 4.33 <0.001 0.123 0.330
Cuando el modelo
independent es especificado
and uniformly distributed on [0,1].correctamente
The variable x2 is definedno
as xsolo la
2 D x1 C u,
where
variable x is also
ues uniformly distributed
significativa, sinoon [0,1].
que Thus, the variables
también la x1 and x2 arexhighly
variable Logo
3
correlated. Finally, the response variable y is simulated according to the model 1 , la cual
habı́a sido no significante en el modelo completo
y j x1 ; x2 ; x3 " N.!1 C 0:3x1 C 0:2x3 ; 0:2 2/:
2
Estudiemos un segundo ejemplo, en donde los datos fueron

generados desde una regresión polinomial
yi = β0 + β1 xi + β2 xi2 + . . . + βl xil + i
Consideremos la siguiente medida de la calidad del ajuste
n
1X
MSE(l) = (yi − ŷi (l))2 ,
n
i=1
la cual corresponde a la suma de cuadrado del error.
Logo


a training data
b validation data
−.7 −.7
−.8 −.8
−.9 −.9
y
−1 −1
−1.1 −1.1
−1.2 −1.2
0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
x x
c regression line
d polynomial regression with l=2
−.7 −.7
−.8 −.8
−.9 −.9
−1 −1
−1.1 −1.1
−1.2 −1.2
0 .2 .4 .6 .8 1 0 .2 .4 .6 .8 1
x x
e polynomial regression with l=5
f MSE for training and validation data
−.7 .008
−.8 .007
−.9 .006
−1 .005
−1.1 .004
−1.2 .003
0 .2 .4 .6 .8 1 0 1 2 3 4 5 6 7 8 9
x degree of polynomial
Fig. 3.17 Simulated training data yi [panel (a)] and validation data yi! [panel (b)] based on 50 Logo
design points xi , i D 1; : : : ; 50. The true model used for simulation is yi D !1C0:3xi C0:4xi2 !
0:8xi3 C "i with "i " N.0; 0:072 /. Panels (c–e) show estimated polynomials of degree l D 1; 2; 5
based on the training set. Panel (f) displays the mean squared error MSE.l/ of the fitted values
in relation to the polynomial degree (solid line). The dashed line shows MSE.l/, if the estimated
polynomials are used to predict the validation data yi!

Criterios de selección de modelos: A continuación veremos

algunos criterios de selección de modelos
Akaike Information Criterion (AIC):
AIC = −2l(β̂ M , σ̂ 2 ) + 2(|M| + 1),
donde l(β̂ M , σ̂ 2 ) es el valor de la log-verosimilitud evaluado en

el máximo verosı́mil, |M| es el número de covariables incluidas
en el modelo.
Valores pequeños del AIC corresponden a mejores ajustes del

modelo.
Derive una expresión para el AIC del modelo lineal con errores
Logo
Gaussianos?

Bayesian Information Criterion (BIC):
BIC = −2l(β̂ M , σ̂ 2 ) + log(n)(|M| + 1)
Los modelos con valores más pequeños del BIC indican un

mejor ajuste.
Derive una expresión para el BIC del modelo lineal con errores
Gaussianos?
Logo

Coeficiente de determinación corregido

n−1
R̄ 2 = 1 − (1 − R 2 )
n−p
El coeficiente de determinación corregido se basa en el
coeficiente de determinación, el cual es ajustado por el número
de parámetros, penalizando los modelos más complejos
Los modelos con mayores coeficientes de determinación

corregido son los que se prefieren
Logo

Lect 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lect 1

Uploaded by

Copyright:

Available Formats

El modelo de regresión lineal clásico

Métodos Estadı́sticos Avanzados I

Doctorado en Estadı́stica, 2018

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

Supongamos que nos interesa estudiar el comportamiento de

Supongamos además, que contamos con un conjunto de

Nuestro interés radica en modelar las relaciones de la variable

En general, modelaremos las relaciones entre Y y X con una

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

La relaciones entre las variables no son exactas, estas son

Lo habitual es asumir que el ruido aleatorio o error es aditivo

De esta forma el modelo nos queda

El objetivo principal es estimar la función desconocida f , es

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

Desde un punto de vista estadı́stico f (x) corresponde a

Luego el problema se traduce en estimar la esperanza

Asumiendo que observamos n realizaciones de la variable Y y

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

Definamos los siguientes vectores

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

De la definición (1) se derivan las siguientes propiedades

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

Definición y propiedades del modelo

A continuación discutiremos los alcances de las propiedades del

Linearidad del efecto de las covariables:

Sin embargo, dentro de los modelos lineales, relaciones no

Por ejemplo, el modelo yi = β0 + β1 log(zi ) + i , genera el

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

En general las relaciones no lineales pueden ser incluidas en

Un ejemplo de un modelo que no es lineal en los parámetros

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

Homocedasticidad en la varianza de los errores:

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

c funnel−shaped heteroscedastic variance

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

80 3 The Classical Linear Model

20 40 60 80 100 120 140 160 20 40 60 80 100 120 140 160

Example 3.1 Munich Rent Index—Heteroscedastic Variances

Definición y propiedades del modelo

¿Cuales son las consecuencias de ignorar la heterocedasticidad de

La varianza de Var (β̂) no es estimada correctamente

Lo anterior trae consecuencias sobre pruebas de hipótesis e

La estimación incorrecta de las varianzas de los estimadores

Luis Gutiérrez Métodos Estadı́sticos Avanzados I

Definición y propiedades del modelo

En muchas aplicaciones se encuentran errores

Ejemplos tı́picos son datos de series de tiempo y datos

Otros ejemplos aparecen cuando el modelo está mal

Muchas veces los errores auto–correlacionados aparecen

tendencias temporales o estacionales

Definición y propiedades del modelo

Por ejemplo, el modelo yi = β0 + β1 log(zi ) + i , genera el

yi = exp(β0 + β1 xi1 + · · · + βk xik + i )

ln(yi ) = β0 + β1 xi1 + · · · + βk xik + i

yi = β0 + β1 di,1 + . . . + βc−1 di,c−1 + . . . + i .