518 2013 10 25 EctrGr JAM 2 PDF

ECONOMETRÍA
Facultad de Ciencias
Económicas y Empresariales
2
REGRESIÓN LINEAL MÚLTIPLE I
José Alberto Mauricio
Departamento de Economía Cuantitativa
Internet - http://www.ucm.es/info/ecocuan/jam/ectrgr
COPYRIGHT  2012-2013 José Alberto Mauricio
E-mail: jamauri@ccee.ucm.es
Internet: http://www.ucm.es/info/ecocuan/jam
Este documento puede utilizarse exclusivamente como instrumento para la docencia de las asignaturas
ECONOMETRÍA
ECONOMETRÍA APLICADA
que se imparte en la Facultad de Ciencias Económicas y Empresariales de la Universidad Complutense de Madrid. No
se permite almacenar, reproducir o distribuir por medio alguno, ni tampoco utilizar este documento en cualquier
sentido, fuera de los términos mencionados anteriormente. La obtención de este documento (EctrGr-JAM-2.pdf) en la
dirección de Internet
http://www.ucm.es/info/ecocuan/jam/ectrgr
implica la aceptación de que su uso estará limitado a los términos anteriores.
Versión 2.0 - 4 de febrero de 2013
II
2
REGRESIÓN LINEAL MÚLTIPLE I
BIBLIOGRAFÍA
Wooldridge (2003), Capítulos 2, 3, 4, 5, 6. Sección 9.1. Apéndice E.
Heij, de Boer, Franses, Kloek, van Dijk (2004), Capítulos 2, 3. Secciones 5.1, 5.2.
III
CONTENIDO
2.1 Especificación I ......................................................................................................... 1

Forma Funcional ......................................................................................................... 2
2.2 Estimación ................................................................................................................. 9
Aspectos Algebraicos ................................................................................................ 13
Propiedades Estadísticas .......................................................................................... 29
2.3 Contrastes de Hipótesis ......................................................................................... 44
El Estadístico F ......................................................................................................... 45
Estadísticos t ............................................................................................................. 50
Intervalos de Confianza ............................................................................................. 56
Previsión ................................................................................................................... 57
2.4 Propiedades Asintóticas ........................................................................................ 61
2.5 Especificación II ...................................................................................................... 67
IV
2.1 Especificación I
La especicación inicial de un modelo RLM requiere considerar tres cuestiones:
 La elección de las variables explicativas.

 La elección de la forma funcional de la relación entre la variable dependiente y las
variables explicativas.
 La especicación de las hipótesis que garantizan unas buenas propiedades para los
métodos de inferencia que serán utilizados.
Las dos primeras cuestiones suelen resolverse mediante algún tipo de razonamiento lógico
basado (quizás) en un modelo teórico y (fundamentalmente) en un análisis inicial de las
características muestrales de los datos disponibles sobre todas las variables. También es
importante, desde luego, la experiencia y el buen juicio del investigador.
La tercera cuestión suele resolverse planteando inicialmente aquellas hipótesis que justican
el empleo de métodos de inferencia sencillos y con propiedades óptimas.
ECONOMETRÍA PÁGINA 1
2 · REGRESIÓN LINEAL MÚLTIPLE I 2.1 ESPECIFICACIÓN I
FORMA FUNCIONAL
El modelo RLM es lineal porque los parámetros que guran en su lado derecho lo hacen de
forma lineal (a lo sumo, están multiplicados por un término que no depende de ningún
parámetro del modelo):
Y = b1 + b2 X 2 +  + bK XK + U . [1]
No obstante, en el modelo pueden aparecer cualesquiera transformaciones lineales y no

lineales de las variables originales de interés; ver la Tabla 1 (donde Q y P representan
variables originales). En la Tabla 1, [M1]-[M7] son todos ellos casos particulares de [1]
(deniendo adecuadamente Y, X j y K en cada caso), que, además, pueden combinarse
entre sí para formular modelos que resultan muy exibles en la práctica.
b b
Observación: Modelos como Q = b1 P1 + b12 P2 + U y Q = m0P1 1 P2 2 + U son no lineales con respecto a sus
b b
parámetros (ninguno de ellos es un caso particular de [1]). Un modelo como Q = m0 P1 2 P2 3 eU es equivalente
(tomando el logaritmo neperiano en ambos lados) a ln Q = b1 + b2 ln P1 + b3 ln P2 + U , con b1 º ln m0 , que sí es
lineal con respecto a los parámetros b1 , b2 y b3 . En general, un modelo de regresión es no lineal cuando ni es lineal
en su formulación original, ni se puede convertir en un modelo lineal mediante alguna transformación. Los modelos de
regresión no lineal sólo se consideran marginalmente en esta asignatura.
TABLA 1
Tipos de Efectos Causales en Diferentes Modelos de Regresión Lineal
Modelo Tipo de Efecto Causal
¶Q
M1 Q = b1 + b2 P + U = b2  D Q = b 2 D P
¶P
¶Q Q
M2 ln Q = b1 + b2 ln P + U  Q = exp éë b1 + b2 ln P + U ùû = b2  % D Q @ b2 % D P
¶P P
¶Q
M3 ln Q = b1 + b2 P + U  Q = exp éë b1 + b2 P + U ùû = b2Q  % DQ @ (100 b2 )DP
¶P
¶Q æb ö
M4 Q = b1 + b2 ln P + U = b2  DQ @ çç 2 ÷÷÷ %DP
1
¶P P è 100 ø
¶Q æ -b ö
M5 Q = b1 + b2 1
+U = -b2 1  DQ @ çç 2 ÷÷÷ %DP
P ¶P P2 è 100 P ø
¶Q
M6 Q = b1 + b2 P + b3 P 2 + U = b2 + 2 b3 P  DQ @ ( b2 + 2 b3 P )DP
¶P
¶Q
M7 Q = b1 + b2 PA + b3 PB + b4 ( PA ´ PB ) + U = b2 + b4 PB  DQ = ( b2 + b4 PB )DPA
¶PA
En M2, b2 es la elasticidad de Q con respecto a P. En M3, 100b2 es la semielasticidad de Q con respecto a P.
FIGURA 1
Formas Funcionales Alternativas para Modelos de Regresión Lineal I
M1: Q = β1 + β 2 P M2: ln Q = β1 + β 2 ln P  Q = exp [ β1 + β 2 ln P ]
β2 > 0 β2 = 1
−1 < β 2 < 0
Q Q 0 < β2 < 1
β 2 = −1
β2 < 0
β2 > 1
P P
FIGURA 2
Formas Funcionales Alternativas para Modelos de Regresión Lineal II
M3: ln Q = β1 + β 2 P  Q = exp [ β1 + β 2 P ] M4: Q = β1 + β 2 ln P
β2 > 0 β2 < 0
Q Q
β2 > 0
β2 < 0
P P
FIGURA 3
Formas Funcionales Alternativas para Modelos de Regresión Lineal III
M5: Q = β1 + β 2 1
P
M6: Q = β1 + β 2 P + β3 P2
β2 > 0 β3 < 0
Q Q
β2 < 0 β3 > 0
P P
FIGURA 4
Datos de Sección Cruzada sobre Salarios, Educación y Experiencia
30 30
25 25
SLRPH : SALARIO
SLRPH : SALARIO
20 20
15 15
10 10
5 5
0 0
0 4 8 12 16 20 0 10 20 30 40 50
EDUC : EDUCACIÓN EXLP : EXPERIENCIA
Salario medio anual (dólares por hora), educación (años) y experiencia laboral
potencial (años) de 526 personas trabajadoras entrevistadas en 1976
(Current Population Survey - U.S. Census Bureau). Archivo SC03-Salarios3.wf1.
TABLA 2
Algunos Modelos de Regresión Lineal para los Datos de la Figura 4
Y X2
 
RLS ln SLRPH = β1 + β 2 EDUC + U.
Y X2 X3
  
RLM.1 ln SLRPH = β1 + β 2 EDUC + β3 EXLP + U.
Y X2 X3 X4
   
RLM.2 2
ln SLRPH = β1 + β 2 EDUC + β3 EXLP + β 4 EXLP + U.
Y X2 X3 X4
   
RLM.3 2
ln SLRPH = β1 + β 2 EDUC + β3 EXLP + β 4 EXLP
X5

+ β5 EDUC × EXLP + U.
EJ2
2.2 Estimación
Para estimar los parámetros b1 y b2 del modelo RLS

Y = b1 + b2 X2 + U , [2]
se dispone de una colección de datos o muestra de N observaciones sobre cada una de las
variables (Y, X 2 ), que puede representarse como
é y1 x 12 ù
ê ú
ê y 2 x 22 ú
[ y, x2 ] º ê ú. [3]
ê   ú
ê ú
ê yN x N 2 ú
ë û
Las N observaciones o las [y i , x i 2 ] (i = 1, 2, ..., N ) de la muestra [3] pueden referirse a N
entidades observables en un momento dado (datos de sección cruzada, como en la Figura 2
de la Introducción), o bien a N momentos consecutivos de la historia de una única entidad
observable (datos de series temporales, como en la Figura 3 de la Introducción).
2 · REGRESIÓN LINEAL MÚLTIPLE I 2.2 ESTIMACIÓN
FIGURA 5
Estimación "arbitraria" de un Modelo RLS
b1 + b2 X 2
Y : VARIABLE DEPENDIENTE
y1
e1 > 0
b1 + b2 x12 La pendiente de
b1 + b2 x 22 esta recta es b2
b1
y2
e2 < 0
0 x 22 x12
X2 : VARIABLE EXPLICATIVA
Residuos
ei (b1 , b2 ) º yi - (b1 + b2 xi 2 ) (i = 1, ..., N ). [4]
Criterio de estimación MCO
2
Minimizar SCR(b1 , b2 ) º åiN=1 ei (b1 , b2 )2 º åiN=1 éë yi - (b1 + b2 xi 2 ) ùû . [5]
Estimaciones MCO de β1 y β 2
bˆ1 = y - bˆ2 x 2 , [6]
å iN=1 ( x i 2 - x 2 )(yi - y ) ˆ x2 , y ]
cov[ ˆ y]
dvt[
bˆ2 = 2
= = ´ corr[
ˆ x 2 , y ]. [7]
å iN=1 ( x i 2 - x2 ) ˆ x2 ]
var[ ˆ x2 ]
dvt[
Valores Ajustados y Residuos MCO
yî º bˆ1 + bˆ2 x i 2 (i = 1, ..., N ). [8]
uî º yi - yî º yi - ( bˆ1 + bˆ2 x i 2 ) (i = 1, ..., N ). [9]
FIGURA 6
Estimación MCO de un Modelo RLS
ˆ = βˆ + βˆ X
Y
1 2 2
y1
û1 > 0
βˆ1 + βˆ2 x12 ŷ1 = βˆ1 + βˆ2 x12
βˆ1 + βˆ2 x 22 ŷ 2 = βˆ1 + βˆ2 x 22

û2 < 0
y2 La pendiente de
esta recta es βˆ2
β̂1
0 x 22 x12
ASPECTOS ALGEBRAICOS
Para estimar el vector de K parámetros b º [ b1, b2 , ..., bK ]¢ del modelo RLM
Y = b1 + b2 X 2 + ... + bK X K + U , [10]
se dispone de una colección de datos o muestra de N observaciones sobre cada una de las
variables Y, X 2 , …, X K , que puede representarse como
é y1 x12  x1 K ù
ê ú
ê y2 x 22  x 2 K ú
[ y, x 2 , ..., xK ] º ê ú. [11]
ê    ú
ê ú
ê yN x N 2  x NK ú
ë û
Residuos
ei ( b ) º yi - (b1 + b2 x i 2 + ... + bK x iK ) º yi - xi¢ b (i = 1, ..., N ),
[12]
xi¢ º [1, x i 2 , ..., x iK ] (i = 1, ..., N ), b º [b1 , b2 , ..., bK ]¢ .
Notación: En [11], x j es un vector columna ( N ´ 1) referido a los datos disponibles sobre X j (2 £ j £ K ) . En [12],
xi¢ es un vector la (1 ´ K ) referido a los datos disponibles sobre X 2 , ..., X K en la i -ésima observación (1 £ i £ N ) .
En adelante, una x (o una X) con un subíndice puede representar un vector de un tipo o del otro según el contexto.
é e1 ( b ) ù é y1 - x1¢ b ù é y1 ù é x¢ ù é 1 x12  x1 K ù
ê ú ê ú ê ú ê 1 ú ê ú
ê e2 ( b ) ú ê y2 ú
- x 2¢ b ú ê y2 ú ê ú
x 2¢ ú ê 1 x 22  x 2 K ú
e( b ) º êê úºê ê
º y - Xb , y º ê ú ê
, Xºê º êê ú.
 ú ê  ú  ú  ú    ú
ê ú ê ú ê ú ê ú ê ú
e
êë N ( b ) úû êë yN - xN ¢ bú ê yN ú ê x ¢ ú
N ê 1 x N 2  x NK ú
û ë û ë û ë û
Notación: La matriz X ( N ´ K ) puede denirse a través de sus N las (como en la última parte de la expresión
anterior), o bien a través de sus K columnas: X º [ i , x 2 , ..., x K ] (ver [11]), donde i es un vector columna de N unos.
Criterio de estimación MCO
Minimizar SCR( b ) º å iN=1 ei ( b )2 º e ( b ) ¢ e ( b ) º ( y - Xb ) ¢ ( y - Xb ) . [13]

Estimación MCO del vector β
ˆ ) = 2 X ¢Xb
[C1] SCR( b ˆ - 2 X ¢y = 0. [C2] 2 SCR( b
ˆ ) = 2 X ¢X denida positiva.
La condición [C1] puede escribirse como

X ¢Xb̂ = X ¢y , [14]
que se denomina sistema de ecuaciones normales (ver [18]). Si X ¢X (una matriz simétrica
de orden K ) es no singular, entonces b̂ puede representarse explícitamente como
ˆ = ( X ¢X)-1 X ¢y
b [15]
Observación I: La no singularidad de X ¢X está garantizada cuando la matriz X satisface la condición de que

rango( X ) = K £ N , es decir, cuando las K columnas de X son linealmente independientes entre sí (de manera que
los datos sobre cada variable explicativa no son una combinación lineal exacta de los datos sobre otra/s variable/s
explicativa/s). A esta condición se le denomina ausencia de multicolinealidad exacta en la matriz X. Al mismo
tiempo, esta condición garantiza que X ¢X es una matriz denida positiva (como requiere la condición [C2] anterior).
Observación II: El sistema de ecuaciones normales [14] puede escribirse detalladamente como
é 1 1  1 ù é 1 x  x 1K ù é bˆ ù é 1 1  1 ùéy ù é N å x i 2  å x iK ù é bˆ1 ù é åy ù
ê ú ê 12 úê 1 ú ê úê 1 ú ê úê ú ê i ú
ê x 12 x 22  x N 2 ú ê 1 x 22  x 2K ú ê bˆ2 ú ê x 12 x 22  x N 2 ú ê y2 ú ê å x i 2 å x 2  å x i 2x iK ú ê bˆ2 ú ê å x i 2yi ú
ê úê úê ú ê úê ú  ê i2 úê ú ê ú,
ê    úê   úê  ú=ê    úê  ú ê    úê  ú=ê
 ú
ê úê úêˆ ú ê úê ú ê úê ú ê ú
êë x 1K x 2K  x NK úû êë 1 x N 2  x NK úû ê bK ú ê x 1K x 2K  x NK úû êë yN úû ê 2 úêˆ ú êåx y ú
ë û ë êë å x iK å x iK x i 2  å x iK úû ëê bK ûú ëê iK i ûú
K Ń N ´K K ´1 K Ń N ´1 K ´K K ´1 K ´1
donde todas las sumas van desde i = 1 hasta N. .EJ3 HASTA A.
Valores Ajustados y Residuos MCO

yî º bˆ1 + bˆ2 x i 2 + ... + bˆK x iK º xi¢ b
ˆ (i = 1, ..., N ),
ˆ = X( X ¢X )-1 X ¢ y = Hy .
ˆ º Xb
y [16]

H
uî º yi - yî º yi - ( bˆ1 + bˆ2 x i 2 + ... + bˆK x iK ) º yi - xi¢ b

ˆ (i = 1, ..., N ),
ˆ = y - X( X ¢X )-1 X ¢y = é I - X( X ¢X )-1 X ¢ ù y = My .
ˆ º y - Xb
ˆ º y-y [17]
u ëû
M º I- H
Propiedades de los Residuos y los Valores Ajustados
De [14] y [17] se deduce que:
ˆ = 0  X ¢( y - Xb
X ¢y - X ¢Xb ˆ ) = 0  X ¢u
ˆ = 0, [18]
lo que signica que cada la de X ¢ (o cada columna de X, es decir el vector de datos sobre
cada variable explicativa) es ortogonal (perpendicular o normal) a los residuos MCO:
é 1 1  1 ù é uˆ1 ù é å uî ù é0ù
ê ú ê ú ê ú ê ú
ê x12 x 22  x N 2 ú ê uˆ2 ú ê å x i 2uî ú ê0ú
ê ú ê ú=ê ú = ê ú.
ê    ú ê  ú ê  ú êú
êx ú ê uˆ ú ê å x uˆ ú ê0ú
êë 1 K x 2 K  x NK úû êë N úû êë iK i úû êë úû
La primera la de esta expresión implica que en modelos con término constante:
å uî = 0  å (yi - yî ) = 0  å yi = å yî  y = yˆ . [19]
FIGURA 7
Representación de la Ecuación [19] en un Modelo RLS
 uˆ i = 0  y = yˆ  y = 1
N
 (βˆ 1 + βˆ 2 x i2 )  y = βˆ 1 + βˆ 2x 2
ˆ = βˆ + βˆ X
Y
1 2 2
y y = βˆ1+βˆ2 x 2
0 x2
Por otro lado, [16] y [18] implican que

ˆ ¢u
y ˆ )¢ u
ˆ = ( Xb ˆ ¢( X ¢u
ˆ=b ˆ ¢0 = 0 ,
ˆ) = b [20]
lo que signica que los valores ajustados MCO también son ortogonales a los residuos
MCO. De [17] y [20] se deduce que
y ¢y = ( y ˆ )¢ ( y
ˆ+u ˆ+u ˆ ¢y
ˆ) = y ˆ ¢u
ˆ+u ˆ, [21]
lo que implica junto con [15]-[17] que
ˆ ¢u
u ˆ = y ¢y - y
ˆ ¢y ˆ ¢X ¢Xb
ˆ = y ¢y - b ˆ = y ¢y - b
ˆ ¢X ¢y = y ¢My . [22]
Observación: Si v = [ v1 , ..., vN ]¢ , entonces v ¢v = å iN=1 vi2 (el cuadrado de la norma euclídea de v) es una medida del
"tamaño" de v o de la "cantidad de información" que contiene v. .EJ3 HASTA B.
Grado de Ajuste I - R 2 No Centrado

El R2 no centrado de un modelo RLM estimado por MCO se dene como
2 å yî2 ˆ ¢y
y ˆ ˆ ¢u
u ˆ å uî2
RNC º = = 1- = 1- . [23]
å yi2 y ¢y  y ¢y å yi2
[ 21 ]
ˆ ¢u
Como y ¢y ³ 0 , yˆ ¢yˆ ³ 0 y u 2
ˆ ³ 0 , siempre ocurre que 0 £ RNC £ 1.
Grado de Ajuste II - R 2 Centrado

El coeciente de determinación (el R2 centrado, o simplemente el R2 ) de un modelo RLM
estimado por MCO se dene como (comparar con [23])
å( yî -yˆ )2 y ˆ-Nyˆ 2
ˆ ¢y ˆ-N y 2
ˆ ¢y
y ˆ ¢u
ˆ å uî2
R2 º = = = 1- u = 1- . [24]
å( yi -y )2 y ¢y-N y 2  y ¢y-N y 2  y ¢y-N y 2 å( yi - y )2
T.CTE. [19] [21]
Por lo tanto, R 2 ³ 0 siempre, pero R 2 £ 1 sólo está garantizado en modelos con término
constante. [Sin término constante, la segunda parte de [24] puede ser un número negativo.]
Observación I: En modelos con término constante, el R2 es igual al cuadrado del coeciente de correlación lineal
simple entre ŷ e y. En un modelo RLS del tipo Y = b1 + b2 X 2 + U , el R2 es igual al cuadrado del coeciente de
correlación lineal simple entre x 2 e y. En un modelo del tipo Y = b1 + U , el R2 es igual a cero. .EJ4 P1-P3.
Observación II: En modelos con término constante, ciertas transformaciones lineales en y (cambios de origen) pueden
modicar el valor del R 2 , pero el valor del R2 es invariante ante cualesquiera transformaciones lineales (cambios de
NC
escala y/o de origen) tanto en X como en y. No obstante, la inclusión de nuevas variables explicativas en un modelo
con término constante nunca reduce el valor del R2 (ni el del RNC
2 ), ya que y
ˆ ¢y ˆ ¢u
ˆ (u ˆ ) nunca disminuye (aumenta) al
aumentar K (en particular, K = N  R2 = 1 ). .EJ4 P4-P5.
Observación III: SCT º å(yi - y )2 = y ¢y - N y 2 ; SCE º å(yî - yˆ )2 = y ˆ - Nyˆ 2 ; SCR º å uî2 = u

ˆ ¢y ˆ ¢u
ˆ (Suma de
Cuadrados Total - Explicada - Residual). Por la primera parte de [24], R 2 º SCE/SCT . En modelos con término
constante (ver [19]), [i] SCE = å(yî - y )2 = y ˆ - N y 2 ; en este caso, además, [ii] SCT = SCE + SCR (ver [21]), y
ˆ ¢y
[iii] R 2 = 1 - SCR/SCT (como en la segunda parte de [24]). La manera más sencilla de calcular SCE es a través de
yˆ ¢y
ˆ=b ˆ ¢X ¢y (ver [22]). La manera más sencilla de calcular SCR es como u
ˆ ¢u ˆ ¢X ¢y (ver [22]), que en
ˆ = y ¢y - b
modelos con término constante coincide con SCT - SCE .
Grado de Ajuste III - R 2 Ajustado

El R2 ajustado o R2 asociado con [24] para modelos con término constante se dene como
SCR /( N -K )
R2 º 1 - SCT /( N -1)
= 1 - NN--K1 (1 - R 2 ) . [25]
Observación: En [25] cabe la posibilidad de que al incluir nuevas variables explicativas la reducción consiguiente en
SCR no sea tan grande como la reducción en N - K , de manera que el R2 puede disminuir. Por otro lado (excepto
cuando K = 1), R 2 < R 2 , por lo que R 2 < 1 ; sin embargo, el R2 puede ser negativo cuando un modelo tiene muy
poca capacidad explicativa, de manera que SCR / SCT sea mayor que ( N - K ) /( N - 1) . .EJ3 HASTA C.
Datos en Desviaciones con respecto a la Media

Un modelo con término constante estimado por MCO puede escribirse cuando K ³ 2 como
é bˆ1 ù
y = Xb ˆ+u ˆ = [ i, X b ] êê ˆ úú + u
ˆ, [26]
b
ëê b ûú
donde i es la primera columna de X (un vector de unos), X b º [ x 2 , ..., x K ] (las restantes
K - 1 columnas de X), y b ˆ b º [ bˆ2 , ..., bˆK ]¢ . La partición X = [ i , X b ] en [26] implica que
é i ¢i i ¢X b ù é i ¢y ù
X¢X = ê ¢ ú , X¢y = ê ú,
ê X b i X¢b X b ú ê X¢b y ú
ë û ë û
é (i ¢i)-1 + (i ¢i)-1 i ¢X b (X¢b DX b )-1 X¢b i(i ¢i)-1 -(i ¢i)-1 i ¢X b (X¢b DX b )-1 ù
(X¢X) = ê
-1
- - -
ú,
ê ¢ 1 ¢
-(X b DX b ) X b i(i i) ¢ 1 ¢
(X b DX b ) 1 ú
ë û
donde D º éë I - i( i ¢i )-1 i ¢ ùû es una matriz simétrica ( D ¢ = D) e idempotente ( DD = D) . A
partir de las expresiones anteriores para (X¢X)-1 y X ¢y , puede comprobarse que:
é 1 + x ¢ (X
 ¢b X
 b )-1 x  b )-1 ù
 ¢b X
-x ¢ (X
(X¢X)-1 = êê N   -1   - 1
ú,
ú [27]
êë -(X¢b X b ) x (X¢b X b ) úû
ù é bˆ1 é y - x¢ b ˆb ù
ú = ( X ¢X ) X ¢y = ê
ˆ =ê
b -1 ú, [28]
ú êˆ ê (X
 b¢ X
 b )-1 X
 b¢ y ú
úû êë b b êë  úû
donde y = (i¢i)-1 i¢y es la media muestral de y, x¢ º [x 2, ..., x K ] = (i¢i)-1 i¢Xb es el vector
1 ´ (K - 1) que contiene las medias muestrales de x 2 , ..., x K , y la matriz X  b º DX b
[N ´ (K - 1)] y el vector y  º Dy [N ´ 1] contienen datos en desviaciones con respecto a
sus medias muestrales correspondientes:
é y1 - y ù
ê ú
-
 º éë I - i ( i ¢i ) i ¢ ùû y = y - i N1 i ¢y = ê
y 1 ê  ú,
  ú
y ê ú
D êë yN - y úû
D é x - xj ù
  ê 1j ú
 b º [x
X  2 , ..., x
K  j º éë I - i ( i ¢i )-1 i ¢ ùû x j = x j - i N1 i ¢x j = êê
], x  ú ( j = 2, ..., K ).
ú
 ê ú
xj êë x Nj - x j úû
ˆ =u
Dado que Di = 0 y Du ˆ , los residuos MCO en [26] quedan (comparar con [17])
ˆ =y
-X ˆb = é I - X
 bb  b (X
 ¢b X
 b )-1 X
 ¢b ù y  ,
u ë û  = M by [29]
b º I-X
con M  b(X
 ¢bX
 b )-1 X
 ¢b (simétrica e idempotente). Por último (comparar con [22]):
ˆ ¢u
u ˆ = y  by
 ¢M  = y ¢y
 - bˆ b¢ X
 b¢ y
 = SCT ´ (1 - R 2 ) . [30]
    
SCR SCR SCT SCE SCR
Ejemplo I: En relación con la estimación por MCO de un modelo RLS del tipo Y = b1 + b2 X2 + U (K = 2), el vector
de parámetros, el vector de datos sobre la variable dependiente, la matriz de datos sobre las variables explicativas, y
la estimación MCO del vector de parámetros, pueden representarse, respectivamente, como:
é y1 ù é 1 x12 ù
ê y ú ê x ú éˆ ù
éb ù ê 1 22 ú . b ˆ = ê b1 ú .
b = ê 1 ú . y = êê 2 ú . X = [ i, x ] =
ú ê ú
êë b2 úû ê  ú
2
ê  ú ê bˆ ú
ë 2û
ëê yN ûú ëê 1 x N 2 ûú
ˆ b = b̂2 . En [27]-[28]:
En [26]: X b = x 2 , b
é x12 - x 2 ù é y1 - y ù
ê ú ê ú
ê x 22 - x 2 ú ê y2 - y ú
 =x
x = x2 . X 2 º ê ºê
ú. y ú.
b ê  ú ê  ú
ê ú ê ú
êë x N 2 - x 2 úû êë yN - y úû
¢X  2 = å iN=1 ( x i 2 - x 2 )2 = N ´ var[
 2¢ x
X b b = x ˆ x 2 ].
¢y  = å iN=1 (x i 2 - x 2 )(yi - y ) = N ´ cov[
 2¢ y
X b = x ˆ x 2 , y ].
Por lo tanto, en un modelo RLS: .EJ3 HASTA D.

é 1 x 22 x2 ù
êN + ¢ - ú
 2¢ x
= êê ú.
2 x
x 2 x 2
[27]  ( X ¢X )-1 ú
ê - x2 1 ú
êë  2¢ x
x 2  2¢ x
x 2 úû
 2¢ y
x  å iN=1 ( x i 2 -x 2 )( yi -y ) ˆ x2 , y ]
cov[ ˆ y]
dvt[
[28]  bˆ1 = y - x 2 bˆ2 . bˆ2 = = = = ´ corr[
ˆ x2 , y ].
 2¢ x
x 2 å iN=1 ( x i 2 -x 2 )2 ˆ x2 ]
var[ ˆ x2 ]
dvt[
[29]-[30]  ˆ =y
u  2 bˆ2 . u
-x ˆ ¢u
ˆ = y  - bˆ2 x
 ¢y  = å iN=1 (yi - y )2 - bˆ2 ´ å iN=1 ( x i 2 - x 2 )(yi - y ).
 2¢ y
  
SCR SCT SCE
Ejemplo II: En relación con la estimación por MCO de un modelo RLM del tipo Y = b1 + b2 X2 + b3 X 3 + U (K = 3),
el vector de parámetros, el vector de datos sobre la variable dependiente, la matriz de datos sobre las variables
explicativas, y la estimación MCO del vector de parámetros, pueden representarse, respectivamente, como:
é y1 ù é 1 x12 x13 ù é bˆ ù
é b1 ù êy ú ê x x ú ê 1ú
b = êê b2 ú . y = ê 2 ú . X = [ i , x , x ] = ê 1 22 23 ú . b ˆ = ê bˆ ú .
ú ê ú ê
êb ú ê  ú
2 3
ê   úú ê 2ú
ê bˆ ú
ë 3 û êë yN ûú êë 1 x N 2 x N 3 ûú ëê 3 ûú
ˆ b = [ bˆ2 , bˆ3 ]¢ . En [27]-[28]:
En [26]: X b = [ x 2 , x 3 ] , b
é x12 - x 2 x13 - x 3 ù é y1 - y ù
ê ú ê ú
é x2 ù  ê x 22 - x 2 x 23 - x 3 ú ê y2 - y ú
x = ê ú . Xb = [ x 3 ] º ê
2 , x ú. yºê ú.
êë x 3 úû ê   ú ê  ú
ê ú ê ú
êë x N 2 - x 2 x N 3 - x 3 úû êë yN - y úû
éx ¢ ù éx 2¢ x  2¢ x
2 x 3 ù é å iN=1 (x i 2 - x 2 )2 å iN=1 (x i 2 - x 2 )( x i 3 - x 3 ) ùú
¢X =ê 2 ú [x  ]= ê ú= ê
X b b  3¢
 ,x
úû 2 3 êx ¢ ¢ ú ê N ( x - x )( x - x ) ú=
êë x  
x 
x
êë 3 2 3 3 úû 
x êë å i =1 i 3 3 i2 2 å iN=1 (x i 3 - x 3 )2 úû
é var[
ˆ x 2 ] cov[ˆ x2 , x 3 ] ù
=N´ ê ú.
ê cov[ ˆ x3 ] ú
ˆ x 2 , x 2 ] var[
ë û
éx 2¢ ù éx 2¢ y
ù é å N ( x i 2 - x 2 )(yi - y ) ù é cov[
ˆ x2 , y ] ù
¢y ê ú ê i =1 ú = N ´ê ú.
X b  = êê  ¢ úy
úû
=ê
 ¢  ú = ê å N ( x - x )(y - y ) ú ê ˆ
cov[ x , y ] ú
ë x3 x
êë 3 úû y êë i =1 i 3 3 i úû ë 3 û
Por lo tanto, en un modelo RLM del tipo Y = b1 + b2 X2 + b3 X3 + U (K = 3): .EJ5 P1.
é bˆ ù
b1 = y - [ x 2 , x 3 ] êê
ˆ 2 ú ˆ ˆ
ˆ ú = y - x 2 b2 - x 3 b3 .
êë b3 úû
[28]  -1
éˆ ù é ¢  ¢  ù é ¢  ù ˆ x 2 , x 3 ] ù-1
ê b2 ú = ê x 2 x 2 x 2 x 3 ú ê x 2 y ú = éê var[ x 2 ] é cov[
ˆ cov[ ˆ x2 , y ] ù
êˆ ú ú ê ú.
b ê 
x ¢ 
x 
x ¢ 
x ú ê 
x ¢ 
y ú ê ˆ
cov[ x , x ] ˆ
var[ x ] ú ê cov[
ˆ x3 , y ] ú
ëê 3 ûú ëê 3 2 3 3 ûú ëê 3 ûú ë 3 2 3 û ë û
 2¢ x
Nótese que si x  3¢ x
 3 (= x  2 ) = 0 [  cov[
ˆ x 2 , x 3 ] ( = cov[
ˆ x 3 , x 2 ]) = 0] , entonces b̂2 coincide con la estimación de la
pendiente en la RLS de Y sobre X 2 , y b̂3 coincide con la estimación de la pendiente en la RLS de Y sobre X 3 .
é bˆ ù
 3 ] êê ú=y
2
[29]  ˆ =y
u  - [x
2 , x ú  2 bˆ2 - x
-x  3 bˆ3 .
bˆ
ëê 3 úû
 2¢ y
éx ù
¢
ˆ u
u ˆ =y
y¢ ˆ ˆ ê
 - [ b2 , b3 ] ê ú= y  - [ bˆ2 x
 ¢y  + bˆ3 x
 2¢ y  3¢ y
] =
  ¢  ú   
[30]  SCR
x y
êë 3 úû SCT SCE
= å iN=1 (yi - y )2 - éë bˆ2 ´ å iN=1 (x i 2 - x 2 )(yi - y ) + bˆ3 ´ å iN=1 (x i 3 - x 3 )(yi - y ) ùû .
Regresión Particionada I
De acuerdo con la primera parte de [29], un modelo con término constante estimado por
MCO puede escribirse cuando K ³ 3 como
éb ˆ2 ù
=X ˆb + u
 bb ˆ = [X  3] ê
 2, X ú+u
y êˆ ú ˆ. [31]
êë b 3 úû
b
La partición X 2, X
= [X  3 ] en [31] implica que
é   ¢2 X
3 ù éX
¢y ù
 b = ê X ¢2 X 2
 ¢b X
X
X
 = ê 2 ú,
 ¢b y
ú, X
êX   ¢3 X
3 ú êX
 ú
ë ¢3 X 2 X û ë ¢3y û
é (X
 ¢2 X
 2 )-1 + (X
 ¢2 X
 2 )-1 X
 ¢2 X
 3 (X
 ¢3 M
 2X  3 )-1 X ¢3 X
 2 (X
 ¢2 X
 2 )-1  ¢2 X
-(X  2 )-1 X  ¢2 X
 3 (X
 ¢3 M
 2X
 3 )-1 ù
  - 1
(X ¢b X b ) = êê ú, [32]
-(X  ¢3M
 2X 3 )-1 X  ¢3 X
 2 (X
 ¢2 X
 2 )-1 (X ¢3 M
 2X  3 )-1 ú
ë û
2 º I-X
con M  2(X
 ¢2X
 2 )-1 X
 ¢2 (simétrica e idempotente). Por lo tanto:
éb ˆ2 ù é (X
 2¢ X
 2 )-1 X
 2¢ ( y
-X ˆ3 ) ù
 3b
ˆb
b = êê ú = (X
ú
 b¢ X
b ) X
-1  = êê
 b¢ y ú. [33]
ˆ    - 1    ú
êë b 3 úû êë ( X3¢ M2 X3 ) X3¢ M2 y úû
Regresión Particionada II
 Si en [31] se escoge X 2 = X
 -j (la matriz formada por todas las columnas de X b
3 = x
excepto la columna x j ), y X ˆ 3 = bˆj (la estimación
 j (2 £ j £ K ) , de manera que b
MCO del parámetro asociado con la variable explicativa X j ), entonces [33] implica que
 ¢j M
x  -jy
 (M -jx  j )¢ y
 (M -jx
 j )¢ ( M -jy
)
bˆj =  -jx =  -jx  -jx =  -jx  -jx
, [34]
 ¢j M
x j (M  j )¢ ( M j ) (M  j )¢ ( M j )
 -j º I - X
con M  - j (X
-  -j )-1 X
¢ jX -¢ j (simétrica e idempotente).
 [34]  bˆj puede expresarse como
ˆrj¢ y
 ˆrj¢ u
ˆj
bˆj = = , [35]
ˆrj¢ˆrj ˆrj¢ˆrj
donde ˆrj º M -j x ˆj º M
 j (u  -j y
) son los residuos MCO (ver [29]) en la regresión con
término constante de x j (y) sobre X- j . Como [35] es igual a la estimación de la pendiente
en la RLS (ver [7]) de y (o de uˆ j ) sobre ˆrj , bˆj mide la relación muestral directa (parcial o
neta) entre X j e Y que no es debida a la presencia de las demás variables explicativas.
 Si en [31]-[33] X2 = xj y X3 = X  -j (2 £ j £ K ) , de manera que b ˆ 2 = bˆj , entonces
 ¢j y
x  x -j
 ¢j X
bˆj = ( x  j )-1 x
 j¢ x  j¢ ( y
-X ˆ- j ) =
-j b - ˆ- j .
b [36]
 ¢j x
x j  ¢j x
x j
 [36]  bˆj =/ (x  ¢j y  ¢j x
 ) /( x  j ) (la estimación de la pendiente en la RLS de y sobre x j )
 - j = 0 (cuando todas las covarianzas muestrales entre x j y X - j son
 j¢ X
excepto cuando x
iguales a cero), o bien cuando b ˆ - j = 0 (cuando en la RLM las estimaciones de las

pendientes de todas las demás variables explicativas son iguales a cero).
 [36]  La estimación bˆj puede ser distinta de cero aunque x  ¢j y
 = 0 , es decir, aunque la
correlación lineal simple (covarianza) muestral entre x j e y sea igual a cero.
 [36]  El signo de la estimación bˆj puede no coincidir con el signo de la correlación
lineal simple (covarianza) muestral entre x j e y.
El Coeficiente de Correlación Lineal Parcial

ˆ ˆrj , u
cov[ ˆj ] ˆrj¢ u
ˆj
ˆ j [ x j , y ] º corr[
cp ˆj ] =
ˆ ˆrj , u = , [37]
ˆ ˆrj ]´dvt[
dvt[ ˆ u ˆj ] ˆrj¢ˆrj ˆ ¢j u
u ˆj
 -j x
con ˆrj º M ˆj º M
j , u  -j y  . [37]  cp ˆj [xj , y] =
/ corr[
ˆ x j , y ] (excepto si x  - j = 0 ).
 j¢ X
/ ) 0  bˆj = ( =
ˆ j [ x j , y ] = (=
Además (ver [35]), [i] cp ˆ j [ x j , y ]) = sgn(bˆj ).
/ ) 0 , y [ii] sgn(cp
Ejemplo III: En un modelo RLM del tipo Y = b1 + b2 X2 + b3 X3 + U (K = 3), [35] implica que: .EJ5 P1.
ˆr2¢ y ˆr2¢ u
ˆ2 ˆr3¢ y ˆr3¢ u
ˆ3
bˆ2 = = , bˆ =
3 = ,
ˆr2¢ ˆr2 ˆr2¢ ˆr2 ˆr3¢ ˆr3 ˆr3¢ ˆr3
donde r̂2 ( r̂3 ) es el vector de residuos MCO en la RLS de x 2 sobre x 3 ( x 3 sobre x 2 ), y û 2 ( û 3 ) es el vector de
residuos MCO en la RLS de y sobre x 3 ( x 2 ). Por lo tanto, bˆ2 ( bˆ3 ) es igual a la estimación MCO de la pendiente en
la RLS de y, o de los residuos û 2 ( û 3 ), sobre los residuos r̂2 ( r̂3 ).
Por su parte, [36] implica las relaciones siguientes entre el modelo RLM y diferentes modelos RLS:
RLM RLS(Y,X2) RLS(X3,X2) RLM RLM RLS(Y,X3) RLS(X2,X3) RLM
 2¢ y
x   2¢ x
x 3  3¢ y
x   3¢ x
x 2
bˆ2 = - ´ bˆ3 , bˆ3 = - ´ bˆ2 .
 2¢ x
x 2  2¢ x
x 2  3¢ x
x 3  3¢ x
x 3
   
ˆ =
u ˆ3
u - ˆr3 ´ bˆ3 , ˆ =
u ˆ2
u - ˆr2 ´ bˆ2 .
En esta expresión, b̂2 (el "efecto muestral directo" de X 2 sobre Y ) se calcula quitando del "efecto muestral total" de
X 2 sobre Y ( x  2¢ y
/x  2 ) el "efecto muestral indirecto" de X 2 sobre Y a través de X 3 ( x 2¢ x 3 / x 2¢ x 2 ´ bˆ3 ) ; del
 2¢ x
mismo modo, b̂3 (el "efecto muestral directo" de X 3 sobre Y ) se calcula quitando del "efecto muestral total" de X 3
 3¢ y
sobre Y ( x /x  3 ) el "efecto muestral indirecto" de X 3 sobre Y a través de X 2 ( x 3¢ x 2 / x 3¢ x 3 ´ bˆ2 ) .
 3¢ x
Por último, [37] implica que:
ˆr2¢ u
ˆ2 ˆr3¢ u
ˆ3
ˆ 2 [ x 2 , y ] º corr[
cp ˆ2 ] =
ˆ ˆr2 , u , cp
ˆ 3 [ x 3 , y ] º corr[ ˆ3 ] =
ˆ ˆr3 , u ,
ˆr2¢ˆr2 ˆ 2¢ u
u ˆ2 ˆr3¢ ˆr3 ˆ 3¢ u
u ˆ3
ˆ x 2 , y ] , corr[
que no coinciden, en general, con corr[ ˆ x 3 , y ] , respectivamente.
PROPIEDADES ESTADÍSTICAS
El modelo estadístico RLM está formado por un conjunto de hipótesis que, por un lado,
ponen en relación los datos [11] con el modelo [10] que se pretende utilizar para describirlos,
y, por otro lado, garantizan que el método MCO proporciona estimaciones (relativamente)
ables en la práctica. Con esta doble nalidad, en el modelo estadístico RLM se considera
que los datos [11] son una realización particular de una colección W de variables aleatorias,
é Y1 X12 X13  X1 K ù
ê ú
ê Y2 X 22 X 23  X 2 K ú
ê ú
Wºê ú º [ Y, X2 , X 3 , ..., XK ] , [38]
ê     ú
ê ú
êY X X  X NK ú
ë N N2 N3 û
que satisface las hipótesis clásicas HC1-HC5 siguientes:
HC1 Linealidad con respecto a los parámetros
Yi = b1 + b2 X i 2 + ... + bK X iK + U i = b1 + å K
j = 2 b j X ij + U i (i = 1, 2, ..., N ), [39]
donde b1 , b2 , ..., bK son K parámetros cuyos valores (desconocidos) son los mismos en
todos los puntos muestrales, y Ui (1 £ i £ N ) es una perturbación aleatoria (error) no
observable asociada con el i -ésimo punto muestral.
La ecuación [39] puede escribirse como
Y = Xb + U [40]
donde
é Y1 ù é 1 X12  X1 K ù é X1¢ ù é b1 ù é U1 ù
ê Y2 ú ê ú ê X¢ ú êb ú ê U2 ú
ê ú ê 1 X 22  X 2 K ú ê 2 ú ê 2 ú ê ú
Y ºê ú, X ºê ú= ê ú, b ºê ú, U ºê ú , [41]
N ´1 ê  ú N ´K ê   ú ê  ú ê  ú N ´1 ê  ú
ê ú ê ú ê ú K ´1 ê ú ê ú
ê YN ú ê ú ê X¢ ú êb ú êU N ú
ë û êë 1 X N 2  X NK úû êë N úû ë K û ë û
o bien como
Yi = Xi¢ b + U i (i = 1, 2, ..., N ),
donde Xi¢ º [1, X i 2 , ..., X iK ] es la i -ésima la de la matriz X.
HC2 Ausencia de multicolinealidad exacta

Rango(X) = K (con probabilidad igual a 1). Además, se supone que K < N (N – K > 0 
grados de libertad positivos).
HC3 Exogeneidad estricta

 E[U i | X ] = E[U i ] para todo i = 1, ..., N, o bien E[ U | X ] = E[ U ]. Adicionalmente:
HC3.1 E[U i ] es la misma para todo i = 1, ..., N (inuencia esperada homogénea).

HC3.2 E[U i ] = 0 para todo i = 1, ..., N, o bien E[ U ] = 0 (término constante).
 E[U i | X ] = 0 para todo i = 1, ..., N, o bien E[ U | X ] = 0 .
Observación: La hipótesis HC3 constituye un enunciado formal de la idea de independencia entre inuencias omitidas
e inuencias incluidas en un análisis aplicado, mencionada repetidamente en la Introducción. Cuando E[ U X] = 0 , se
dice que los regresores del modelo son estrictamente exógenos, en el sentido de que el valor esperado de las inuencias
incluidas en cada perturbación del modelo es independiente de lo que valga cualquier variable explicativa (regresor)
en cualquier punto muestral (entidad observable o momento). En particular, E[ U X] = 0 implica que E[XtU i ] = 0
(es, decir, que Cov[Xt , U i ] = Corr[Xt , U i ] = 0 ) para todos t, i = 1, …, N (ortogonalidad entre regresores y
perturbaciones). Según los datos empleados, la exogeneidad estricta puede requerir lo siguiente:
 Cuando se supone que una colección de datos de sección cruzada procede de una muestra aleatoria del tipo [Yi , Xi¢ ]
( i = 1, ..., N ), con cada una de sus observaciones independiente de las demás, la hipótesis de que E[U i Xi ] = 0
para todo i = 1, ..., N es suciente para garantizar HC3.
 Cuando se supone que una colección de datos de series temporales procede de una secuencia ordenada de variables
aleatorias del tipo [Yt , X t¢ ] ( t = 1, ..., N ), en la que cada observación está correlacionada con las anteriores, HC3
no permite la presencia de regresores correlacionados con valores pasados de U t (feedback). Esto excluye, en
particular, la presencia de retardos de la variable dependiente (Yt -1 , Yt -2 , ...) en el lado derecho del modelo.
HC4 Perturbaciones esféricas - Homoscedasticidad y ausencia de autocorrelación
E[ UU ¢ | X ] = s 2 I .
En conjunto, HC3 y HC4 implican que E[ U ] = 0 y Var[ U ] = s 2 I (incondicionalmente):
é U1 ù é0ù é Var[U 1 ] Cov[U 1, U 2 ]  Cov[U 1, U N ] ù és2 0  0 ù

êU2 ú ê0ú ê Cov[U , U ] ú ê ú
ê ú ê ú ê 2 1 Var[U 2 ]  Cov[U 2 , U N ] ú ê 0 s2  0 ú
E[U] º E ê ú = ê ú , Var[U] º ê ú = êê ú.
ê  ú êú ê    ú ê     úú
êU ú ê0ú ê Cov[U N , U 1 ] Cov[U N , U 2 ]  Var[U N ] úú
ë N û ë û êë û ê 0 0  s2 ú
ë û
Observación: s 2 I , que
Var[ U | X] º E[(U - E[ U | X])(U - E[ U | X])¢ | X] . [HC3]-[HC4]  Var[ U | X ] = E[ UU ¢ | X ] =
se denomina una matriz escalar (diagonal con elementos iguales en su diagonal principal). Cuando las perturbaciones
satisfacen HC4, se dice que son "esféricas" por ciertas características geométricas de su distribución de probabilidad.
HC5 Normalidad
U | X  Normal .
Observación: [i] HC3-HC5  U | X  N(0, s 2 I) . [ii] HC1-HC5  Y | X  N( Xb, s 2 I) ; ver Figura 8.
FIGURA 8
Representación del Modelo Estadístico RLS bajo HC1-HC5
E[ Y | X 2 ] = β1 + β2 X 2
y1
u1 > 0
β1 + β2 x12 E[ Y | X 2 = x12 ]
β1 + β2 x 22 E[ Y | X 2 = x 22 ]
β1
y2
u2 < 0
0 x 22 x12
FIGURA 9
Interpretación del Modelo Estadístico RLS Estimado por MCO
ˆ = βˆ + βˆ X
Y
1 2 2
y1
û1 > 0
βˆ1 + βˆ2 x12 ˆY|X =x ]
ŷ1 ≡ E[ 2 12
βˆ1 + βˆ2 x 22 ˆ Y|X =x ]

ŷ 2 ≡ E[ 2 22
û2 < 0
y2 La pendiente de
esta recta es βˆ2
β̂1
0 x 22 x12
Notación: Para abreviar, en adelante no vuelve a emplearse (en general) la notación ⋅ | X ("condicionado por X"). No
obstante, cualquier momento (esperanza, varianza, covarianza) o, en general, cualquier distribución de probabilidad,
deberá entenderse siempre condicionado por X. Cuando un momento o una distribución no dependa de X, entonces
también podrá entenderse como un momento o una distribución incondicional o marginal.
El Estimador MCO de β
El estimador MCO de b es el vector ( K ´ 1) de variables aleatorias
ˆ W º ( X ¢X)-1 X ¢Y ,
b [42]
donde X e Y son la matriz y el vector de variables aleatorias que guran en [41].
Observación: Concebir un estimador como un vector de variables aleatorias permite, a través del estudio de sus
propiedades estadísticas, obtener información sobre cualquier estimación en cualquier situación práctica en la que
puedan asumirse razonablemente las hipótesis que garantizan las propiedades del estimador.
Propiedades Estadísticas del Estimador β̂ W

[A] Insesgadez: Bajo HC1-HC3, E[ b ˆW ] = b.
[B] Varianza: Bajo HC1-HC4, Var[ b ˆ W ] = s 2 ( X ¢X )-1 .
[C] Teorema de Gauss-Markov: Bajo HC1-HC4, si b W es cualquier estimador de b lineal
en Y con E[ b W ] = b , entonces Var[ b W ] - Var[ b ˆ W ] es una matriz semidenida positiva,
ˆ W es el estimador lineal e insesgado de b con varianza mínima (ELIO/BLUE).
por lo que b
FIGURA 10 FIGURA 11
Valor Esperado - Insesgadez Varianza - Eficiencia Relativa
f β̂ f βW
W
f β̂
W
f βW
k1 β k2 δ k1 β k2
El Estimador MCO de s 2
El estimador MCO de s 2 es la variable aleatoria
2 º Uˆ ¢U
ˆ
sˆW , [43]
N -K
ˆ W es el vector de residuos MCO asociado con [40] y [42].

ˆ º Y - Xb
donde U
Propiedades Estadísticas de Û y del Estimador ŝ 2W

ˆ ] = 0 y Var[U
[A] Bajo HC1-HC4, E[U ˆ ] = s2M =
/ s2I , con M º I - X(X ¢X)-1 X ¢ (ver [17]).
2 ] = s2
[B] Bajo HC1-HC4, E[ sˆW .
El Estimador MCO de Var[ β̂ W ]

El estimador MCO de Var[ b ˆ W ] = s 2 ( X ¢X )-1 es la matriz ( K ´ K ) de variables aleatorias
ˆ b
Var[ ˆ W ] º sˆ 2 ( X ¢X )-1 , [44]
W
que, por [B] en el punto anterior, es un estimador insesgado de Var[ b ˆ ]. W
Observación I: Cuando en [42]-[44] tanto el vector Y como la matriz X de variables aleatorias se remplazan por los
datos correspondientes a una aplicación concreta (nótese que se emplea el mismo símbolo X para representar tanto la
matriz de variables aleatorias como la matriz de datos referidos a las variables explicativas), se obtienen las
cantidades numéricas siguientes: [A] b ˆ º ( X ¢X )-1 X ¢y (la estimación MCO de b dada en [15]), [B]
sˆ2 º ( u ˆ ) /(N - K ) (la estimación MCO de la varianza de las perturbaciones s 2 , cuyo numerador es la SCR), y,
ˆ ¢u
por último, [C] Var[ ˆ b ˆ W ] º sˆ 2 ( X ¢X )-1 (la matriz de varianzas-covarianzas estimadas del estimador b ˆ W , que se
representa con el mismo símbolo que el estimador denido en [44]). Los elementos de Var[ ˆ bˆ W ] º sˆ 2 ( X ¢X )-1 son:
é
ê ˆ bˆ1W ]
Var[ ˆ bˆ1W , bˆ2W ]  Cov[
Cov[ ˆ bˆ1W , bˆK W ] ùú
ê ˆ2W , bˆ1W ] ˆ 2W ] ˆ2W , bˆK W ] úú
ê
ˆ W] = ê ˆ
Cov[ b ˆ
Var[ b  ˆ
Cov[ b
ˆ b
Var[ ú.
ê    ú
ê ú
ê Cov[
ˆ bˆK W , bˆ1W ] Cov[
ˆ ˆK W , bˆ2W ] 
b ˆ
Var[ ˆK W ] ú
b
ëê ûú
La raíz cuadrada de sˆ2 º ( u ˆ ¢u
ˆ ) /(N - K ) se denomina el error estándar de la regresión. La raíz cuadrada de la
varianza estimada Var[ ˆ
ˆ b j W ] se denomina el error estándar del estimador bˆj W (1 £ j £ K ) (que es simplemente la
desviación típica estimada del estimador MCO de b j ). Otras cantidades que suelen incluirse en el resumen de un
modelo estimado son el R 2 (centrado), el R 2 (ajustado), y el tamaño muestral N. .EJ3 HASTA E.
Observación II: En modelos con término constante, las fórmulas [27] y [32] referidas a (X ¢X)-1 pueden utilizarse para
expresar cualquier "parte" de Var[ ˆ bˆ W ] . En modelos con K ³ 2 , [27] implica que Var[ ˆ bW ] = sˆ2 ( X
ˆ b  b¢ X
 b )-1 ; en
ˆ bˆ2 W ] = sˆ 2 (SCT2 )-1 (con SCT2 º x
particular, Var[  2¢ x
 2 ) en un modelo RLS (K = 2) . En modelos con K ³ 3 , [32]
con X2 = X  -j , X
3 = x  j (2 £ j £ K ) (ver también [34]-[35]) implica que
sˆ 2 sˆ 2
ˆ bˆj W ] =
Var[ = (2 £ j £ K , K ³ 3), .EJ5 P2.
ˆrj¢ˆrj SCTj ´ (1 - R j2 )
donde ˆrj º M -j x
 j , SCTj º x j¢ x
 j y Rj2 º 1 - ˆrj¢ˆrj /x j¢ x j son, respectivamente, el vector de residuos MCO, la SCT y
el R2 en la regresión con término constante de X j sobre las demás variables explicativas. Así, entre otros factores, la
varianza estimada de bˆj W (o su error estándar) es tanto menor cuanto menor es el grado de asociación lineal entre
los datos de X j y los de las demás variables explicativas (es decir, cuanto mayor es ˆrj¢ˆrj , o cuanto menor es Rj2 ).
ˆ W  N[b, s 2 (X¢X)-1 ] , [ii] sˆ 2  [ s 2 /( N - K )] ´ χ 2 ( N - K ) , y
Observación III: HC5 añade a todo lo anterior que [i] b W
ˆ W y ŝ 2 son independientes. HC5 también posibilita la estimación del modelo RLM por máxima verosimilitud.
[iii] b W
La Función de Verosimilitud en el Modelo RLM 

En el modelo estadístico RLM descrito por las hipótesis clásicas HC1-HC5, se especica que
Y | X  N(Xb, s 2I), cuya función de densidad es
- N2
f ( y; b, s 2 ) = 2
(2 ps ) exp éê - 1 ( y - Xb )¢ ( y - Xb ) ùú ,
ë 2 s2 û
que asigna diferentes densidades de probabilidad a las diferentes realizaciones posibles de Y,
para unos valores dados (aunque desconocidos) de b y s 2 .
Si y es una realización dada de Y (unos datos), la función de verosimilitud de b y s 2 es

- N2
L ( b, s 2 ; y ) º 2
(2 ps ) exp éê - 1 ( y - Xb )¢ ( y - Xb ) ùú ,
ë 2s 2 û
que asigna diferentes verosimilitudes a los diferentes valores posibles de b y s 2 , para unos
datos y sobre Y dados. Es decir, L(·) es f (·) con el papel de sus argumentos intercambiado.
Los Estimadores MV de β y de s 2 
Las estimaciones de máxima verosimilitud (MV) de b y de s 2 son los valores de b y de s 2 ,
respectivamente, que maximizan L(·) (o su logaritmo neperiano). Dichos valores son

  

ˆ , s2 º ( y - Xb ) ¢ ( y - Xb )
b º (X¢X)-1 X¢y = b N
= ˆ ¢u
u
N
ˆ -K s
= NN ˆ2 .
Por lo tanto, los estimadores MV de b y de s 2 son

  
-1 
ˆW , s º ( Y - Xb ) ¢ ( Y - Xb W) N -K s
b W º (X¢X) X¢Y = b W
2 W
N
= N
ˆ 2
W.
 
Sustituyendo b y s 2 en L(·) por b y s 2 , respectivamente, se obtiene que
 2
l MAX º ln L ( b , s ; y ) = - N2 éë 1 + ln ( 2Np ) ùû - N2 ln( u ˆ ¢u
ˆ ).
 
Propiedades Estadísticas de β W y de s 2W 

Como b W = b ˆ W , el estimador MV de b tienen exactamente las mismas propiedades que el
2 -K s 2 implica que
estimador MCO. Por otro lado, la relación s W = NN ˆW
2 N -K s 2 < s 2 , Var[ s 2 2( N -K ) s 4 2 s 4
E[ s W ]= N W]= < Var[ sˆW ] = N -K .
2
N2
2 2 . (La
Observación: El estimador MV s W no es insesgado, pero su varianza es menor que la del estimador MCO ŝ W
2 pueden calcularse fácilmente a partir de [ii] en la Observación III de la página 39.) Por
esperanza y la varianza de ŝ W
2 2 2
otro lado, E[s W ]  s 2 y Var[s W ]  0 cuando N  ¥ , por lo que s W es un estimador consistente (Sección 2.4).
El Teorema de Cramér-Rao en el Modelo RLM 

Sea q º [b¢, s 2 ]¢ el vector (K + 1) ´ 1 que contiene a todos los parámetros del modelo
estadístico RLM denido por las hipótesis clásicas HC1-HC5. Bajo ciertas condiciones de
regularidad sobre la función de densidad f (y; q) , la matriz de varianzas de cualquier
estimador insesgado q W de q es tal que Var[qW ] - I(q)-1 es una matriz semidenida
positiva para todo q , donde
é ¶ 2 ln f ( Y ; q ) ù
I( q ) º - E ê ú º -E[ 2 ln f ( Y ; q )]
ê ¶q¶q ¢ ú q
ë û
se denomina la matriz de información sobre q , e I(q)-1 se denomina la cota (mínima) de
Cramér-Rao (CCR). En el modelo estadístico RLM, la matriz de información es
é ¶ 2 ln f ( Y ; q ) ¶ 2 ln f ( Y ; q ) ù
ê ¶b¶b ¢ ¶b¶s 2
ú
ê    úú é 1 ( X ¢X ) 0 ù
ê
I( q ) = - E ê 2
K ´K K ´1 ú = êê s2 ú
ú,
ê ¶ ln f ( Y ; q ) ¶ 2 ln f ( Y ; q ) ú ê 0¢ N ú
ê ú ë 2s4 û
ê 
¶ s 2 ¶b ¢
 ¶s 2 ¶ s 2  ú

ê ú
ë 1´K 1´1 û
por lo que la CCR queda

é s 2 ( X ¢X )-1 0 ù
ê ú
I( q )-1 =ê ú.
ê 0¢ 2s4 ú
ë N û

ˆ
Por lo tanto, b W (= b W ) º (X¢X)-1 X¢Y es un estimador eciente de b , ya que su
varianza es mínima con respecto a la de cualquier otro estimador insesgado de b .
2 4 4
s > 2 s ; no obstante, puede demostrarse (por otros medios
Por su parte, Var[ sˆW ] = N2- K N
distintos del Teorema de Cramér-Rao) que no existe ningún estimador insesgado de s 2 con
varianza menor que N2- s 4 , por lo que ŝ 2 también es un estimador eciente.
K W
ˆ W , suele de decirse que b
Observación I: En relación con la eciencia de b ˆ W es el MVUE (Minimum Variance
Unbiased Estimator) o el BUE (Best Unbiased Estimator) de b . El Teorema de Gauss-Markov implica que b ˆ W es el
BLUE (Best Linear Unbiased Estimator) o el ELIO (Estimador Lineal Insesgado Óptimo) de b (lo que no requiere
la hipótesis de Normalidad HC5), pero no que b ˆ W sea eciente: el Teorema de Gauss-Markov no excluye la
ˆ W ; por su parte, la hipótesis
posibilidad de que existan estimadores insesgados no lineales con menor varianza que b
de Normalidad HC5 (requerida por el Teorema de Cramér-Rao) sí excluye esa posibilidad.

2 no es insesgado, por lo que el Teorema de Cramér-Rao no es aplicable en este caso.
Observación II: El estimador s W
2 ] sea menor que la CCR referida a estimadores insesgados de s 2 .
Por este motivo, no debe sorprender que Var[s W
2.3 Contrastes de Hipótesis
 Objetivo: Obtener información sobre ciertos aspectos cuantitativos de la relación entre la
variable dependiente y las variables explicativas en un modelo RLM.
 Método: Contrastar la posible existencia de relaciones entre Ab y c, con A ( M ´ K ) tal

que rango(A) = M (1 £ M £ K ) y c ( M ´ 1) dados.
 Componentes de un contraste:
[1] H 0 (hipótesis nula): conjetura que se mantiene como válida (no se rechaza) mientras
no se encuentre suciente evidencia muestral en su contra.
[2] H1 (hipótesis alternativa): conjetura en favor de la cual se rechaza (si procede) H 0 .
[3] FW (estadístico de contraste): estadístico (variable aleatoria que no depende de
parámetros desconocidos) cuya distribución se conoce bajo H 0 .
[4] C R (región crítica): C R Ì  tal que F Î C R  rechazar H 0 en favor de H1 .
2 · REGRESIÓN LINEAL MÚLTIPLE I 2.3 CONTRASTES DE HIPÓTESIS
EL ESTADÍSTICO F
El Estadístico F I - Forma Inicial y Distribución .EJ5 P3.
En el modelo estadístico RLM, HC1-HC5 implican que

ˆ W - b )]¢[A( X ¢X )-1 A ¢ ]-1 [ A( b
[ A( b ˆ W - b )]
*
FW º  F (M , N - K ).
M sˆW2
Si Ab = c , la expresión anterior puede escribirse como

ˆ W - c )¢[A( X ¢X )-1 A ¢ ]-1 ( Ab
( Ab ˆ W - c)
FW º 2
 F ( M , N - K ), [45]
M sˆW
que se denomina el estadístico F para el contraste de H 0 : Ab = c frente a H 1: Ab =
/ c.
Observación: Dado que s
ˆW2
A ( X ¢X )-1 A ¢ = Var[
ˆ Abˆ W ] , el estadístico FW puede escribirse como
FW = ˆ W - c )¢ Var[
( Ab1 ˆ Abˆ W ]-1 ( Ab
ˆ W - c ),
M
que puede interpretarse como la distancia entre Abˆ W y c, ponderada por la matriz ( M ´ Var[
ˆ Abˆ W ])-1 . El valor
calculado del estadístico F es
ˆ - c )¢[A( X ¢X )-1 A ¢ ]-1 ( Ab
( Ab ˆ - c) ˆ - c )¢ Var[
( Ab ˆ Ab ˆ W ]-1 ( Ab
ˆ - c)
F º = .
M sˆ2 M
FIGURA 12
Región Crítica y "p-value" para Contrastes basados en el Estadístico F
f F ( M,N − K ) f F ( M,N − K )
α α∗
0 F1−α 0 F
P-value = α∗
No rechazar H0 Rechazar H0 Prob. de obtener un valor mayor que F
Pr[F (M , N - K ) £ F1- a ] = 1 - a a * = Pr[F (M , N - K ) ³ F ]
El Estimador MCR de β
La estimación de Mínimos Cuadrados Restringidos (MCR) de b cuando en un modelo
RLM se impone la restricción de que Ab = c , es el valor de b que resuelve el problema
Minimizar: SCR( b ) º ( y - Xb )¢ ( y - Xb )
Sujeto a: Ab = c .
La solución de este problema es
ˆ* º b
b ˆ - (X¢X)-1 A¢[A(X¢X)-1 A¢]-1(Ab
ˆ - c),
por lo que el estimador MCR de b se dene como
ˆ* º b
b ˆ W - (X ¢X)-1 A ¢[A(X ¢X)-1 A ¢]-1(Ab
ˆ W - c) . [46]
W
Observación: El estimador MCR de b satisface (entre otras) las propiedades siguientes: [i] Si A b = c ( Ab =
/ c ),
ˆ * ] = b ( E[ b
ˆ* ] = ˆ* 2 ¢ -1 - s 2 (X ¢X)-1 A ¢[A(X ¢X)-1 A ¢]-1 A(X ¢X)-1 en cualquier
entonces E[ b W W / b ), [ii] Var[ b W ] = s (X X)
caso (tanto si A b = c como si Ab = ˆ * ] £ Var[ b
/ c ), por lo que [iii] Var[ b ˆ ].
W W
El Estadístico F II - Forma Basada en Sumas de Cuadrados de Residuos

La forma inicial [45] del estadístico F puede escribirse, teniendo en cuenta la expresión [46]
para el estimador MCR, como

ˆ* - b
(b ˆ W )¢ X ¢X( b
ˆ* - b
ˆW )
W W
FW = 2
 F (M , N - K ) ,
M sˆW
o bien como
ˆ *¢ U
U ˆ* - Uˆ ¢U
ˆ N -K Uˆ *¢ U
ˆ* - U ˆ ¢U
ˆ
FW = = ´  F ( M , N - K ), [47]
2
M sˆW M ˆ
UU ¢ ˆ
donde U ˆ * (residuos MCR) y U

ˆ * º Y - Xb ˆ W (residuos MCO).
ˆ º Y - Xb
W
Observación I: La expresión [47] para el estadístico F permite contrastar H 0 : Ab = c frente a H 1: Ab =

/ c en
cualquier modelo estadístico RLM, simplemente comparando la suma de cuadrados de los residuos restringida por la
ˆ *¢ U
hipótesis nula H 0 ( U ˆ ¢U
ˆ * ) con la suma de cuadrados sin restringir ( U ˆ ). En las dos observaciones siguientes se
mencionan dos aplicaciones muy populares de esta posibilidad.
Observación II: De acuerdo con [47], el estadístico F puede calcularse en cualquier aplicación práctica como
ˆ¢u
N -K u ˆ -u ˆ ¢u
ˆ,
F = ´ * * .EJ5 P4.
M ˆ ¢u
u ˆ
ˆ = SCT ´ (1 - R 2 ) , u
ˆ ¢u
donde (en modelos con término constante; ver [24]) u ˆ * = SCT* ´ (1 - R 2* ) . Entonces, si
ˆ *¢ u
SCT* = SCT (en particular, si la variable dependiente en ambos modelos es la misma), el estadístico F queda
N - K R 2 - R 2* .
F = ´
M 1 - R2
En consecuencia, si en un modelo con término constante la hipótesis nula que se desea contrastar es la de que todas
las pendientes son conjuntamente iguales a cero (de manera que H 0 : b2 = b3 = ... = bK = 0 , M = K - 1 , y en el
modelo restringido tan sólo queda el término constante b1 ), entonces
N -K R2 ,
F = ´ .EJ5 P5.
K - 1 1 - R2
que bajo H 0 debe proceder de una distribución F ( K - 1, N - K ) . El contraste al que reere la expresión anterior se
denomina un contraste de signicación global (de las pendientes) en modelos con término constante.
Observación III: El denominado Test de Chow es un contraste de estabilidad o de ausencia de cambio estructural en
los parámetros de dos modelos estadísticos RLM (referidos al mismo conjunto de variables) del tipo
Y1 = X1 b 1 + U1 , Y2 = X2 b 2 + U2 ,
( N 1 ´1) ( N 1 ´K )( K ´1) ( N 1 ´1) ( N 2 ´1) ( N 2 ´K )( K ´1) ( N 2 ´1)
con N 1 > K y N 2 > K , tales que en el modelo no restringido
é Y1 ù é X1 0 ù é b1 ù é U1 ù
ê ú=ê ú ê ú ê ú
ê Y2 ú ê 0 X2 ú ê b 2 ú + ê U2 ú
ëêûú ëê
ûú ëê
êë úû 
 ûú
Y X b U
se cumplen las hipótesis clásicas HC1-HC5. Para contrastar H 0 : b1 = b 2 frente a H 1: b1 = / b 2 , puede utilizarse el
estadístico F de [47], teniendo en cuenta que el modelo restringido por H 0 queda en este caso
é Y1 ù é X1 ù é U1 ù
ê ú = ê ú b2 + ê ú.
ê Y2 ú ê X2 ú ê U2 ú
êë úû êë úû êë úû
En el modelo no restringido, puede comprobarse que SCR = u ˆ 1¢ u ˆ 2¢ u
ˆ1 + u ˆ 2 , donde û1 y û 2 son los residuos MCO de
las regresiones (estimadas por separado) de y1 sobre X1 y de y2 sobre X2 , respectivamente. Por su parte, en el
modelo restringido, SCR * = u ˆ *¢ u ˆ * son los residuos MCO de la regresión de [ y1¢ , y 2¢ ]¢ sobre [ X1¢ , X 2¢ ]¢ . En
ˆ * , donde u
consecuencia, el estadístico F puede calcularse en este caso como
ˆ¢u
N1 + N 2 - 2K u ˆ - (u ˆ 1¢ u
ˆ1 + u ˆ 2¢ u
ˆ2 ) ,
F = ´ * *
K ˆ 1¢ u
u ˆ1 + u ˆ 2¢ u
ˆ2
que bajo H 0 debe proceder de una distribución F ( K , N 1 + N 2 - 2 K ) .
ESTADÍSTICOS t
El Estadístico t l - Forma General y Distribución .EJ5 P6-P7.
En relación con el contraste de una hipótesis nula general del tipo H 0 : Ab = c (que consta
de M ³ 1 las o enunciados), consideramos el caso particular de que dicha hipótesis conste
de un único enunciado (M = 1) del tipo H 0 : a1b1 + a 2b2 + ... + aK bK = c , de manera que,
en este caso, A = [a1, a 2, ..., aK ] = a ¢ (un vector la 1 ´ K ), y c = c (un escalar 1 ´ 1 ). El

estadístico F [45] referido a la hipótesis nula H 0 : a ¢b = c queda
ˆ W - c )¢[a ¢( X ¢X )-1 a ]-1 ( a ¢b
( a ¢b ˆW - c) ˆ W - c )2
( a ¢b
FW = 2
= 2 - 1
 F (1, N - K ) .
sˆW ¢ ¢
s W [a ( X X ) a ]
ˆ
Teniendo en cuenta que sˆW 2

[a ¢( X ¢X )-1 a ] = Var[ ˆ W ] y que F (1, N - K ) = t ( N - K )2 ,
ˆ a ¢b
la expresión anterior es equivalente a que
ˆW - c
a ¢b
tW º  t ( N - K ), [48]
¢ ˆ
ˆ a bW ]
Dvt[
ˆ a ¢b
donde Dvt[ ˆ W ] º Var[ ˆ W ] es el estimador MCO de la desviación típica de a ¢b
ˆ a ¢b ˆ W . El
estadístico [48] se denomina el estadístico t general referido a la hipótesis nula H 0 : a ¢b = c .
El Estadístico t II - Casos Particulares .EJ5 P8.
El estadístico [48] referido a una hipótesis nula del tipo H 0 : b j = c (1 £ j £ K ), se obtiene

particularizando [48] cuando a ¢ = [0, ..., 1, ..., 0] (un vector lleno de ceros excepto por un 1
en la posición j -ésima ):
bˆj W - c
 t ( N - K ), [49]
ˆ
ˆ bj W ]
Dvt[
ˆ bˆj W ] º
donde Dvt[ ˆ bˆj W ] . Cuando H 0 : b j = 0 , [49] queda
Var[
bˆj W
 t ( N - K ), [50]
ˆ
ˆ bj W ]
Dvt[
que se denomina el estadístico t para el contraste de signicación individual del parámetro
b j (o, simplemente, el estadístico t de b j ).
Observación I: El valor calculado de cualquier estadístico t puede expresarse como
Lado izquierdo estimado de H0 - Lado derecho de H0 .

t =
Error estándar del estimador del lado izquierdo de H0
Observación II: En modelos con término constante, el denominador del valor calculado de [49]-[50] es (ver Observación
ˆ bˆj W ] = sˆ[SCTj (1 - Rj2 )]-½ . Por lo tanto, cualquier contraste basado en [49]-[50] será más
II en página 39) Dvt[
propenso a generar valores de t pequeños (y, por lo tanto, a no rechazar H 0 ; ver la Figura 13) cuanto mayor sea el
grado de relación muestral entre X j y las demás variables explicativas (entre otros factores), es decir, cuanta menos
información especíca aporten los datos de X j acerca de las inuencias muestrales sobre Y.
FIGURA 13
Región Crítica y "p-value" para Contrastes basados en Estadísticos t cuando H1 es de tipo =/
Contrastes de Dos Colas o Bilaterales
ft ( N − K ) ft ( N − K )
α α α∗ α∗
2 2 2 2
tα 0 t1− α −|t| 0 |t|

2 2
P-value = α∗
Rechazar H0 No rechazar H0 Rechazar H0 Prob. de obtener un valor más extremo que | t |
Pr[ t ( N - K ) £ t1- a ] = 1 - a a * = 2 ´ Pr[t (N - K ) ³ t ]

2 2
FIGURA 14
Región Crítica y "p-value" para Contrastes basados en Estadísticos t cuando H1 es de tipo >
Contrastes de Una Cola o Unilaterales por la Derecha
ft ( N − K ) ft ( N − K )
α α∗
0 t1−α 0 t
P-value = α∗
No rechazar H0 Rechazar H0 Prob. de obtener un valor mayor que t
Pr[ t ( N - K ) £ t1- a ] = 1 - a a * = Pr[t (N - K ) ³ t ]
FIGURA 15
Región Crítica y "p-value" para Contrastes basados en Estadísticos t cuando H1 es de tipo <
Contrastes de Una Cola o Unilaterales por la Izquierda
ft ( N − K ) ft ( N − K )
α α∗
tα 0 t 0
P-value = α∗
Rechazar H0 No rechazar H0 Prob. de obtener un valor menor que t
Pr[ t ( N - K ) £ t a ] = a a * = Pr[t (N - K ) £ t ]
INTERVALOS DE CONFIANZA
En relación con un modelo estadístico RLM estimado por MCO, un intervalo conanza
(estimado) del 100(1 - a)% para una combinación lineal de b del tipo a ¢b (donde a ¢ es un
vector 1 ´ K ), es un subconjunto de  tal que para cualquier número c de dicho
subconjunto, el resultado de contrastar H 0 : a ¢b = c frente a H 1: a ¢b =
/ c al (100 ´ a)%
consiste en no rechazar H 0 (ver la Figura 13):
IC1-a (a¢b) º { c Î : t £ t1-a2 } , [51]
donde t es el valor calculado del estadístico [48]. La cantidad 1 - a [o, en términos

porcentuales, 100(1 - a)% ] se denomina el nivel de conanza del intervalo [51].
Observación I: Un intervalo de conanza contiene todos aquellos valores posibles de a¢b que son relativamente
compatibles con la información contenida en los datos. La interpretación frecuente de un intervalo de conanza en los
términos " Pr[ a ¢b Î IC1- a (a ¢b )] = 1 - a " es incorrecta, entre otros motivos porque el "suceso" que gura como
argumento de la probabilidad anterior no tiene absolutamente nada de "aleatorio".
Observación II: De manera más explícita, IC1- a (a ¢b ) puede denirse como el conjunto formado por todos aquellos
números reales c Î  tales que
ˆ - c £ Dvt[
a ¢b ˆW ]´t a ,
ˆ a ¢b 1- 2
donde t1- a es un valor crítico de la distribución t(N - K ) tal que Pr[t (N - K ) £ t1- a ] = 1 - a. La desigualdad
2 2 2
anterior puede escribirse de forma equivalente como
ˆ a ¢b
-Dvt[ ˆ W ] ´ t a £ a ¢b ˆ - c £ Dvt[ ˆW ]´t a ,
ˆ a ¢b
1- 2 1- 2
o bien, nalmente, como
ˆ - Dvt[
a ¢b ˆ W ] ´ t a £ c £ a ¢b
ˆ a ¢b ˆ + Dvt[ ˆW ]´t a ,
ˆ a ¢b
1- 2 1- 2
por lo que
IC1-a ( a ¢b ) º éê a ¢b
ˆ  Dvt[ ˆW ]´ t a ù .
ˆ a ¢b 1- 2 úû .EJ5 P9.
ë
Observación III: En la práctica, el tipo de intervalo de conanza que suele tener mayor interés es el referido a algún
componente individual b j (1 £ j £ K ) de b . En este caso,
IC1-a ( b j ) º éê bˆj  Dvt[
ˆ bˆj W ] ´ t1- a ùú , .EJ5 P9.
ë 2 û
que es un intervalo cerrado cuya amplitud depende (dado un nivel de conanza) del error estándar del estimador del
parámetro b j . En consecuencia, cuanto menor (mayor) sea dicho error estándar, menor (mayor) será el rango de
valores posibles para b j que son relativamente compatibles con los datos, y, por lo tanto, con mayor (menor)
precisión o abilidad estará localizado el verdadero valor de b j . Éste es el sentido que tiene interpretar el error
estándar de bˆj W como una medida de su precisión o de la abilidad de la estimación puntual bˆj .
PREVISIÓN
Previsión Puntual .EJ5 P10.
En relación con un modelo estadístico RLM
Yi = b1 + b2 Xi 2 + ... + bK XiK + U i = Xi¢ b + U i (i = 1, 2, ..., N ) [52]

descrito por las hipótesis clásicas HC1-HC5, consideramos la previsión de una variable
aleatoria Y f tal que
Y f = b1 + b2 X f 2 + ... + bK X fK + U f = X f¢ b + U f . [53]
La variable Y f se puede prever puntualmente después de estimar [52] siempre que se
disponga de datos sobre X f 2 , ..., X fK .
Si bˆ1, bˆ2 , ..., bˆK son las estimaciones MCO de b1, b2, ..., bK en [52], entonces la previsión
puntual de Y f en [53] asociada con unos datos x f 2 , ..., x fK , es la estimación puntual
yˆf º bˆ1 + bˆ2x f 2 + ... + bˆK x fK º x ¢f b
ˆ, [54]
cuyo estimador correspondiente es
Yˆf º X ¢f b̂ W , [55]
ˆ W es el estimador MCO de b en el modelo [52].
donde b
Error de Previsión
El error de previsión de Y f en [53] asociado con el estimador [55] es la variable aleatoria
V f º Y f - Yˆf , [56]
que, de acuerdo con [53] y [55], puede escribirse como
ˆ W = U f - X ¢f (b
V f = Y f - X ¢f b ˆ W - b ). [57]
Propiedades del Error de Previsión

Si en el modelo resultante de "ensamblar" [52] y [53],
éY ù éX ù éU ù
ê ú= ê úb+ ê ú,
êë Y f úû ê ú êë U f úû
ë X f¢ û
se cumplen las hipótesis clásicas HC1-HC5, entonces V f sigue una distribución Normal con
E[V f ] = 0, Var[V f ] = s 2 + Var[Yˆf ] = s 2 + s 2 X ¢f (X ¢X)-1 X f . [58]
En consecuencia:
Vf - E [V f ] Yf - Yˆf Yf - Yˆf
=  N(0, 1)   t ( N - K ). [59]
Dvt[Vf ] Dvt[Vf ] ˆ Vf ]
Dvt[
Intervalo de Confianza para Yf .EJ5 P10.
Un intervalo de conanza (estimado) del 100(1 - a)% para Y f en [53] es un subconjunto

IC1-a (Y f ) de  tal que la probabilidad de que Y f Î IC1-a (Y f ) es igual al nivel de
conanza 100(1 - a)% (o, en términos proporcionales, 1 - a ).
Por la segunda parte de [59],
é Y f - Yˆf ù
Pr êê -t1- a £ £ t1- a ú = 1 - a  IC1-a (Y f ) º é yˆf  Dvt[
ˆ V f ] ´ t1- a ù . [60]
2 ˆ
Dvt[ V ] 2 ú êë 2 úû
êë f úû
Estimación de Probabilidades referidas a Yf .EJ5 P10.
é Y f - Yˆf a - Yˆf ù é a - yˆf ù

Pr [ Y f ³ a ] = Pr êê ³ ú  Pr
ˆ [ Y f ³ a ] = Pr ê t ( N - K ) ³ ú . [61]
êë ˆ
Dvt[ V f ] ˆ Vf
Dvt[ ] úú êë ˆ Vf
Dvt[ ] úû
û
Análogamente:
é b - yˆf ù
P̂r [ Y f £ b ] = Pr ê t ( N - K ) £ ú. [62]
êë ˆ Vf
Dvt[ ] úû
.REPASO - EJ6.
2.4 Propiedades Asintóticas
El modelo estadístico RLM de las Secciones 2.2-2.3 está formado por un conjunto de
hipótesis (HC1-HC5) que dotan al método MCO de unas propiedades (estadísticas) exactas
o en muestras nitas que son, por un lado, fácilmente obtenibles analíticamente, y, por otro
lado, óptimas para hacer inferencia sobre los parámetros del modelo.
En muchas situaciones prácticas, alguna o algunas de las hipótesis clásicas de las que se
derivan las propiedades exactas del método MCO, no son asumibles, por lo que el empleo
del método MCO en esos casos no puede justicarse sobre la base de dichas propiedades.
En ciertos casos, aún es justicable el empleo del método MCO gracias a sus propiedades
asintóticas (aproximadas) o en muestras grandes. Por ejemplo, en ciertas situaciones en las
que no se conoce la distribución exacta del estimador MCO, sí se puede comprobar que
dicho estimador es consistente y asintóticamente Normal, lo que puede justicar su empleo
aún sin saber nada sobre su distribución exacta o en muestras nitas.
2 · REGRESIÓN LINEAL MÚLTIPLE I 2.4 PROPIEDADES ASINTÓTICAS
Las Hipótesis "Ampliadas" del Modelo Estadístico RLM 
HA1 Linealidad: Igual que HC1. Además, {Wi } º {[Yi , X i¢ ]¢ } es un proceso estocástico [i]
estacionario y [ii] débilmente dependiente. [Wooldridge (2003), Sección 11.1.]
HA2 Ausencia de Multicolinealidad: Igual que HC2. Además, Q º E[ X i X i¢ ] es una matriz

( K ´ K ) nita y no singular (que, por HA1, es la misma en cada punto muestral).
HA3 Exogeneidad Contemporánea: E[U i | Xi ] = 0 para todo i = 1, …, N. Esto implica, en

particular, que [i] E[U i ] = 0 , y [ii] Cov[ Xi , U i ] = E[ XiU i ] = 0 (en cada punto muestral).
HA4 Perturbaciones Esféricas: [i] E[U i2 | Xi ] = s 2 , [ii] E[U i 1U i 2 | Xi 1 , Xi 2 ] = 0 (i 1 =

/ i 2 ).
Observación I: En HA1, la hipótesis de que {Wi } º {[Yi , Xi¢ ]¢ } es estrictamente estacionario y débilmente dependiente
incluye, como caso particular, la posibilidad de que {Wi } º {[Yi , Xi¢ ]¢ } sea una muestra aleatoria (es decir, una
muestra cuyos elementos son IID), lo cual resulta adecuado para muchas colecciones de datos de sección cruzada.
Observación II: En HA2, la hipótesis de que Q º E[ Xi Xi¢ ] es nita y no singular requiere que las variables explicativas
no varíen "excesivamente" (de manera que Q sea nita) aunque sí "lo suciente" (para que Q sea no singular).
Observación III: Para que b ˆ W tenga buenas propiedades asintóticas, en HA3 bastaría con que [i] E[U i ] = 0 , y [ii]
E[ Xi U i ] = 0 (ortogonalidad contemporánea) en cada punto muestral. Por otro lado, aunque HC3 implica HA3, la
implicación contraria no es, en general, cierta. La diferencia fundamental entre HC3 y HA3 consiste en que HA3 no
excluye la posibilidad de que E[ Xi 1U i 2 ] =/ 0 para cualquier par de puntos muestrales diferentes ( i 1 =

/ i 2 ), en cuyo
caso E[U i 2|Xi 1 ] =
/ 0 , y, por lo tanto, E[ U|X ] =
/ 0 (lo cual está excluido del modelo RLM clásico por HC3). Así, por
ˆ - 1
ejemplo, E[ b W |X ] = b + ( X ¢X ) X ¢E[ U|X ] será (en general) bajo HA3 un vector distinto de b (porque E[ U|X ] = / 0 ).
Por lo tanto, ampliar el modelo RLM clásico en el sentido de HA3 implica que todas las propiedades exactas de los
estadísticos MCO de las Secciones 2.2-2.3 dejan de ser válidas. La ausencia de la hipótesis de Normalidad también
tiene implicaciones (aunque menos relevantes) en el mismo sentido.
Propiedades Asintóticas de βˆ W
Las hipótesis HA1-HA4 (que incluyen como caso particular a las hipótesis HC1-HC5), junto
d
ˆ W - b )} 
con ciertas condiciones adicionales, implican que {N ½ ( b Normal ( 0, s 2 Q-1 ) .
Por lo tanto,
p
ˆ
{b W }  b y b ˆW  a 2
Normal b , s Q-1 , ( N
[63] )
ˆ W es un estimador consistente y asintóticamente Normal
La expresión [63] implica que b
(CAN) de b .
Observación I: El estimador MCO de b puede escribirse como
é 
N -
1 X ¢X
 ù-1 é 
N -1 X ¢U ù
ê ú ê ú
ˆW
b = b + ( X ¢X )-1 X ¢U = b + ê N1 åiN=1 Xi Xi¢ ú ´ ê N1 åiN=1 XiU i ú ,
ê  ú ê  ú
ê ¢ ú ê X ¢U
ú
ë XX û ë û
FIGURA 16
Consistencia y Normalidad Asintótica
f βˆ ( N = N3 ) N1 < N2 < N3
W
f βˆ ( N = N2 )
W
f βˆ ( N = N1 )
W
k1 β k2
por lo que b ˆ W es una función de determinadas medias muestrales. Bajo HA1-HA3, a dichas medias se les puede
p
aplicar cierta Ley de los Grandes Números, de manera que, bajo HA1-HA3: [i] {N -1 X ¢X}  Q º E[ Xi Xi¢ ] (ver
p ˆW} p
HA2), y [ii] {N -1 X ¢U }  E[ XiU i ] = 0 (ver HA3), lo que implica que { b ˆ W ] = b . En este caso, la
b , ó plim[ b
probabilidad de que cualquier realización particular de b ˆ W (es decir, cualquier estimación puntual b̂ de b ) esté
próxima a b , es esencialmente igual a 1 si el tamaño muestral N es sucientemente grande. [Ver Figura 16.]
Observación II: Las "condiciones adicionales" mencionadas en relación con [63] garantizan a través de cierto Teorema
d
Central del Límite que {N -½ X ¢U}  Normal( 0, S) 1 ¢
, con S = lim{ N Var[ X U ]} , de manera que
é 
N -
1 X ¢X
 ù -1 é 
N -1 X ¢U ù
ê 1 N ú ê ú d
ˆW
N ½ (b - b ) = ê N åi =1 Xi Xi¢ ú ´ N ½ ê N1 åiN=1 XiU i ú  Normal ( 0, Q-1 SQ-1 ) .
ê  ú ê  ú
ê ¢X ú ê X ¢U
ú
ëX û
û ë
p d
 Q-1  Normal( 0 , S )
Cuando dichas condiciones adicionales van acompañadas de [ii] en HA4, entonces S = E[ XiU iU i Xi¢ ] , lo cual, junto
con [i] en HA4, implica que S = s 2 Q . [Ver, por ejemplo, Hayashi, F. (2000), Econometrics, Princeton University
Press, Secciones 2.1-2.6 y 6.5-6.6.]
Propiedades Asintóticas de ŝ 2W
2
Las hipótesis HA1-HA4 (junto con ciertas condiciones adicionales) garantizan que ŝW es un
estimador CAN del parámetro s 2 .
El Estimador de la matriz VarAs[ βˆ W ]

ˆ W es la matriz de varianzas-covarianzas
La matriz de varianzas-covarianzas asintótica de b
de la distribución asintótica de b ˆ W dada en [63]: VarAs[ b
ˆ W ] = s 2 Q-1 . Como, por un
N
-1 ¢
2 2
lado, plim[ ŝW ] = s , y, por otro lado, plim[N X X ] = Q , entonces sˆW 2
( N -1 X ¢X )-1 es
ˆ W ] es
un estimador consistente de s 2 Q-1 , por lo que un estimador consistente de VarAs[ b
simplemente N -1 sˆW
2 N -1 X ¢X -1
( ) , es decir,
ˆ b
VarAs[ ˆ W ] º sˆ 2 ( X ¢X )-1 . [64]
W
La distribución asintótica [63] junto con el estimador [64] de VarAs[ b̂ W ], se pueden usar en
la práctica para hacer inferencia sobre b de la forma habitual (como en las Secciones 2.2-
2.3), aunque ahora (bajo HA1-HA4) la justicación es aproximada (asintótica) en vez de
exacta (como lo era en las Secciones 2.2-2.3 bajo HC1-HC5).
Los Estadísticos de Wald y de los Multiplicadores de Lagrange 

Para contrastar H 0 : Ab = c frente a H 1: Ab =
/ c , HA1-HA4 implican si H 0 es cierta que
ˆ W - c )]¢[A ( X ¢X )-1 A ¢ ]-1 ( Ab a 2
ˆ W - c ) = M ´ FW 
WW º 1
2 ( Ab χ (M ). [65]
sˆW
ˆ *¢ X(X¢X)-1 X¢U
U ˆ* a
LM W =N´ = N ´ R 2ˆ  χ 2 (M ), [66]
Uˆ ¢*U
ˆ* U*
2
(ver [45]-[47]), donde R 2ˆ es el RNC ˆ * sobre X.
(ver [23]-[24]) de la regresión de U
U*
2.5 Especificación II
La elección inicial del conjunto de variables explicativas y de la forma funcional de un

modelo RLM se basa (en ocasiones) en algún modelo teórico y (fundamentalmente) en el
examen de los datos y en la experiencia y el buen juicio del investigador.
Una vez estimado un modelo inicial, la revisión de sus variables explicativas y de su forma
funcional puede llevarse a cabo teniendo en cuenta las consideraciones de esta sección.
Omisión de Variables Explicativas Relevantes
[BE.1] Y = b1 + b2 X 2 + b3 X 3 + U .
[ME.1] Y = b1 + b2 X 2 + V , con V = b3 X 3 + U ( b3 =
/ 0) .
[BE.1] E[ bˆ2 W ] = b2 , Var[ bˆ2 W ] = s2 .

SCT2 ´(1-R22 )
ˆ X2 , X3 ]
cov[ s2
[ME.1] E[ bˆ2*W ] = b2 + b3 ˆ X2 ]
var[
/ b2 , Var[ bˆ2*W ] =
= SCT2
£ Var[ bˆ2 W ].
2 · REGRESIÓN LINEAL MÚLTIPLE I 2.5 ESPECIFICACIÓN II
Observación I: La omisión de variables explicativas relevantes que están correlacionadas con las variables explicativas
incluidas en un modelo, es también la causa más frecuente de la inconsistencia de los estimadores MCO. En
particular, si [BE.1] satisface las hipótesis HA1-HA3 (Sección 2.4) que garantizan la consistencia de b̂2 W , entonces en
[ME.1] Cov[ Xi 2 , Vi ] = b3 Cov[ Xi 2 , Xi 3 ] =
/ 0 , lo que implica que HA3 no se cumple en [ME.1]. Esto implica que
Cov[Xi 2 , Xi 3 ]
plim[ bˆ2*W ] = b2 + b3 =
/ b2 ,
Var[Xi 2 ]
por lo que el estimador MCO de b2 en [ME.1] es inconsistente. [Nótese que cov[ ˆ X2 ] en E[ bˆ2*W ] son
ˆ X2 , X 3 ] y var[
momentos muestrales, mientras que Cov[ Xi 2 , Xi 3 ] y Var[ Xi 2 ] en plim[ bˆ2*W ] son momentos teóricos.]
Observación II - Caso General: Si en [BEG.1] Y = Xb + U = ib1 + X 2 b 2 + X 3 b 3 + U se cumplen HC1-HC4, pero en

su lugar se especica [MEG.1] Y = ib1 + X 2 b 2 + V , con V = X 3 b 3 + U , entonces (ver [31]-[33] y [26]-[28]):
[BEG.1] ˆ 2 W ] = b2 , Var[ b
E[ b ˆ 2 W ] = s2 [ ( X
 2¢ X
 2 )-1 + ( X
 2¢ X
 2 )-1 X
 2¢ X
 3 (X
 3¢ M
 2X
 3 )-1 X
 3¢ X
 2 (X
 2¢ X
 2 )-1 ].
[MEG.1] ˆ * ] = b2 + ( X
E[ b  2¢ X
 2 )-1 X
 2¢ X ˆ * ] = s2 ( X
 3 b 3 , Var[ b  2¢ X ˆ 2 W ].
 2 )-1 £ Var[ b
2W 2W
[MEG.1] ˆ * ] = b2 + Q-1Q23 b 3 , Q22 = Var[ Xi 2 ], Q23 = Cov[ Xi 2 , Xi 3 ].

plim[ b 2W 22
Inclusión de Variables Explicativas Irrelevantes
[BE.2] Y = b1 + b2 X 2 + U .
[ME.2] Y = b1 + b2 X 2 + b3 X 3 + U ( b3 = 0) .
[BE.2] E[ bˆ2 W ] = b2 , Var[ bˆ2 W ] = s2 .

SCT2
s2
[ME.2] E[ bˆ2*W ] = b2 , E[ bˆ3* W ] = 0 , Var[ bˆ2*W ] = 2 ³ Var[ bˆ2 W ].
SCT2 ´(1-R2 )
Observación - Caso General: Si en [BEG.2] Y = Xb + U = ib1 + X 2 b 2 + U se cumplen HC1-HC4, pero se especica
en su lugar [MEG.2] Y = ib1 + X 2 b 2 + X 3 b 3 + U (donde b 3 = 0 ), entonces (ver [26]-[28] y [31]-[33]):
[BEG.2] ˆ 2 W ] = b2 , Var[ b
E[ b ˆ 2 W ] = s2 ( X
 2¢ X
 2 )-1 .
ˆ * ] = b 2 , E[ b
E[ b ˆ * ] = 0,
2W 3W
[MEG.2]
ˆ* ] = s2 [ (X
Var[ b  2¢ X
 2 )-1 + ( X
 2¢ X
 2 )-1 X
 2¢ X
 3 (X
 3¢ M
 2X
 3 )-1 X
 3¢ X
 2 (X
 2¢ X ˆ 2 W ].
 2 )-1 ] ³ Var[ b
2W
Omisión del Término Constante

[BE.3] Y = b1 + b2 X 2 + U .
[ME.3] Y = b2 X 2 + V , con V = b1 + U ( b1 =
/ 0).
[BE.3] E[ bˆ2 W ] = b2 , Var[ bˆ2 W ] = s2 = s2 .

SCT2 X2¢ X2 -NX 22
NX 2 2
[ME.3] E[ bˆ2*W ] = b2 + b1 = ˆ* s
/ b2 , Var[ b2 W ] = ¢ £ Var[ bˆ2 W ].
X2¢ X2 X2 X2
Revisión del Contenido del Conjunto de Variables Explicativas
El sesgo y la inconsistencia asociados con la omisión de variables explicativas relevantes y

la pérdida de precisión asociada con la inclusión de variables irrelevantes, ponen de relieve
la importancia de revisar cuidadosamente el contenido inicial del conjunto de variables
explicativas de un modelo estimado.
La señal más evidente de una mala especicación (o del empleo de un método de estimación
inadecuado) suele ser la obtención de estimaciones con valores y/o signos chocantes.
Diferentes contrastes de signicación pueden ayudar a decidir si una o varias variables son
irrelevantes en un modelo, aunque la posible escasa signicación estadística de uno o varios
parámetros no debe llevar directamente a la eliminación de sus variables respectivas.
En primer lugar, porque la signicación estadística depende del tamaño muestral y de la

posible presencia de multicolinealidad [Wooldridge (2003), Sección 3.4]. Y, sobre todo,
porque la signicación teórica y/o la signicación práctica de una variable pueden ser tan
relevantes o más que su signicación estadística [Wooldridge (2003), Sección 4.2].
Criterios de Información y de Evaluación de Previsiones - Ejemplo en Tabla 3
Akaike IC AIC º ln ( SCR

N )
+ 2K
N
K ln( N )
Schwarz (Bayesian) IC SC ( BIC ) º ln ( SCR
N )
+ N
Root Mean Squared Error RMSE º 1

P å Pf =1 (y f - yˆf )2
1
Mean Absolute Error MAE º P å Pf =1 y f - yˆf
100 y f -yˆf
Mean Absolute Percentage Error MAPE º P å Pf =1 yf
Observación: En RMSE, MAE, MAPE, [i] el número P representa un número de previsiones calculadas a partir de un
modelo estimado con un conjunto de N observaciones (estimation sample), [ii] y f ( f = 1, ..., P ) son datos de fuera de
ˆ ( f = 1, ..., P ) son las previsiones puntuales calculadas con el
dicho conjunto (hold-out sample), y [iii] yˆf = x f¢ b
modelo estimado, de manera que [iv] y f - yˆf ( f = 1, ..., P ) son los errores de previsión cometidos u observados.
Revisión de la Forma Funcional - RESET - Ejemplo en Tabla 3

Wooldridge (2003), Sección 9.1.
TABLA 3
Criterios de Especificación para los Modelos de la Tabla 2
R2 AIC SC (BIC) RESET RMSE MAE MAPE
RLS 0.1248 1.3474 1.3644 6.207 (0.002) 0.59 0.50 21.90 %
RLM.1 0.1853 1.2777 1.3032 3.305 (0.038) 0.55 0.46 20.26 %
RLM.2 0.2361 1.2154 1.2494 2.281 (0.103) 0.52 0.44 19.31 %
RLM.3 0.2435 1.2076 1.2501 1.586 (0.206) 0.50 0.41 18.73 %
Datos del archivo SC03-Salarios3.wf1 ordenados según la serie EDUC de menor a mayor. Modelos estimados con las 495
primeras observaciones ( EDUC ≤ 16 ). RESET ( α ∗ entre paréntesis) calculado con Yˆ 2 , Yˆ 3 . RMSE, MAE y MAPE calculados a
partir de previsiones de Y ≡ ln SLRPH para las observaciones 496-526 (31 observaciones con EDUC ≥ 17 ).
Cuestiones para estudio personal utilizando el manual de la asignatura

Multicolinealidad - Significación Práctica vs. Significación Estadística - RESET

518 2013 10 25 EctrGr JAM 2 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

518 2013 10 25 EctrGr JAM 2 PDF

Uploaded by

Copyright:

Available Formats

ECONOMETRÍA

José Alberto Mauricio

Departamento de Economía Cuantitativa

Versión 2.0 - 4 de febrero de 2013

REGRESIÓN LINEAL MÚLTIPLE I

2.1 Especificación I ......................................................................................................... 1

La especicación inicial de un modelo RLM requiere considerar tres cuestiones:

 La elección de las variables explicativas.

No obstante, en el modelo pueden aparecer cualesquiera transformaciones lineales y no

Modelo Tipo de Efecto Causal

En M2, b2 es la elasticidad de Q con respecto a P. En M3, 100b2 es la semielasticidad de Q con respecto a P.

M1: Q = β1 + β 2 P M2: ln Q = β1 + β 2 ln P  Q = exp [ β1 + β 2 ln P ]

M3: ln Q = β1 + β 2 P  Q = exp [ β1 + β 2 P ] M4: Q = β1 + β 2 ln P

EDUC : EDUCACIÓN EXLP : EXPERIENCIA

Para estimar los parámetros b1 y b2 del modelo RLS

Criterio de estimación MCO

Valores Ajustados y Residuos MCO

yˆi º bˆ1 + bˆ2 x i 2 (i = 1, ..., N ). [8]

uˆi º yi - yˆi º yi - ( bˆ1 + bˆ2 x i 2 ) (i = 1, ..., N ). [9]

βˆ1 + βˆ2 x 22 ŷ 2 = βˆ1 + βˆ2 x 22

Criterio de estimación MCO

Minimizar SCR( b ) º å iN=1 ei ( b )2 º e ( b ) ¢ e ( b ) º ( y - Xb ) ¢ ( y - Xb ) . [13]

La condición [C1] puede escribirse como

Observación I: La no singularidad de X ¢X está garantizada cuando la matriz X satisface la condición de que

Valores Ajustados y Residuos MCO

uˆi º yi - yˆi º yi - ( bˆ1 + bˆ2 x i 2 + ... + bˆK x iK ) º yi - xi¢ b

Por otro lado, [16] y [18] implican que

Grado de Ajuste I - R 2 No Centrado

Grado de Ajuste II - R 2 Centrado

Observación III: SCT º å(yi - y )2 = y ¢y - N y 2 ; SCE º å(yˆi - yˆ )2 = y ˆ - Nyˆ 2 ; SCR º å uˆi2 = u

Grado de Ajuste III - R 2 Ajustado

Datos en Desviaciones con respecto a la Media

Por lo tanto, en un modelo RLS: .EJ3 HASTA D.

Por lo tanto, en un modelo RLM del tipo Y = b1 + b2 X2 + b3 X3 + U (K = 3): .EJ5 P1.

= å iN=1 (yi - y )2 - éë bˆ2 ´ å iN=1 (x i 2 - x 2 )(yi - y ) + bˆ3 ´ å iN=1 (x i 3 - x 3 )(yi - y ) ùû .

iguales a cero), o bien cuando b ˆ - j = 0 (cuando en la RLM las estimaciones de las

El Coeficiente de Correlación Lineal Parcial

HC1 Linealidad con respecto a los parámetros

La ecuación [39] puede escribirse como

donde Xi¢ º [1, X i 2 , ..., X iK ] es la i -ésima la de la matriz X.

HC2 Ausencia de multicolinealidad exacta

HC3 Exogeneidad estricta

HC3.1 E[U i ] es la misma para todo i = 1, ..., N (inuencia esperada homogénea).

 E[U i | X ] = 0 para todo i = 1, ..., N, o bien E[ U | X ] = 0 .

HC4 Perturbaciones esféricas - Homoscedasticidad y ausencia de autocorrelación

é U1 ù é0ù é Var[U 1 ] Cov[U 1, U 2 ]  Cov[U 1, U N ] ù és2 0  0 ù

βˆ1 + βˆ2 x 22 ˆ Y|X =x ]

Propiedades Estadísticas del Estimador β̂ W

ˆ W es el vector de residuos MCO asociado con [40] y [42].

Propiedades Estadísticas de Û y del Estimador ŝ 2W

El Estimador MCO de Var[ β̂ W ]

La Función de Verosimilitud en el Modelo RLM 

Si y es una realización dada de Y (unos datos), la función de verosimilitud de b y s 2 es

Las estimaciones de máxima verosimilitud (MV) de b y de s 2 son los valores de b y de s 2 ,

respectivamente, que maximizan L(·) (o su logaritmo neperiano). Dichos valores son

Por lo tanto, los estimadores MV de b y de s 2 son

El Teorema de Cramér-Rao en el Modelo RLM 

por lo que la CCR queda

 Método: Contrastar la posible existencia de relaciones entre Ab y c, con A ( M ´ K ) tal

El Estadístico F I - Forma Inicial y Distribución .EJ5 P3.

En el modelo estadístico RLM, HC1-HC5 implican que

Si Ab = c , la expresión anterior puede escribirse como

Pr[F (M , N - K ) £ F1- a ] = 1 - a a * = Pr[F (M , N - K ) ³ F ]