You are on page 1of 20

REGRESI

ON LINEAL SIMPLE
Dr. Arturo Erdely Ruiz
04 de septiembre de 2009
Resumen
Con apoyo en diversos libros en la materia que se enumeran al nal de este trabajo, se
desarrolla una exposicion sobre la Unidad 3. REGRESI

ON LINEAL SIMPLE, de la
asignatura Estadstica II en la Licenciatura en Actuara de la Facultad de Estudios Superiores
Acatlan de la UNAM. Esto supone conocimientos previos sobre las asignaturas de Probabilidad
I y II, Estadstica I y lo correspondiente a las dos primeras unidades de Estadstica II, par-
ticularmente respecto a variables aleatorias y sus transformaciones, as como los principios y
metodos basicos de inferencia estadstica.
1. Regresion y el caso lineal simple
Seg un la etimologa latina del espa nol,
1
la palabra regresion viene de re = hacia atr as y grad

ior
= ir, caminar, es decir acci on de ir hacia atr as. Fue Francis Galton quien, en trabajos publica-
dos en 1886 y 1889, introdujo el concepto de regresion en la disciplina estadstica, junto con el de
correlacion, ver Kotz et al. (2006). Galton (1886) encontr o que, a pesar de la tendencia de padres
altos a tener hijos altos, y de padres de baja estatura a tener hijos de baja estatura, la estatura
promedio de hijos de padres altos tiende a ser menor que la estatura promedio de sus padres, y que
la estatura promedio de hijos de padres bajos tiende a ser mayor que la estatura promedio de sus
padres, esto es, que la estatura promedio de unos y otros tiende a regresar hacia la estatura prome-
dio de la poblacion total. Sin embargo, de acuerdo a Gujarati (1997) el concepto ha evolucionado y
la interpretaci on moderna de la regresi on es bastante diferente:
El an alisis de regresion trata del estudio de la dependencia de la variable dependiente,
en una o m as variables explicativas, con el objetivo de estimar y/o predecir la media
o valor promedio poblacional de la primera, en terminos de los valores conocidos o jos
(en muestras repetidas) de las ultimas.
En este trabajo se considera el caso de una sola variable explicativa para una variable aleatoria
dependiente Y . Dado un vector aleatorio (X, Y ) con funci on de distribuci on conjunta H, es posible
obtener a partir de esta ultima la funcion de distribuci on de Y condicional en el evento {X = x}, esto
es F
Y | X
(y | x) = P(Y y | X = x). Para cada x en el rango de la variable aleatoria X denotemos
Y
x
a la variable aleatoria con funci on de distribuci on F
Y | X
(y | x). En caso de que exista la esperanza
1
Segura Mungua, S. (2003) Nuevo diccionario etimologico Latn-Espa nol y de las voces derivadas, Universidad de
Deusto (Bilbao).
1
de Y
x
, a la funci on (x) := E(Y
x
) = E(Y | X = x) se le conoce como funcion o curva de regresion.
Pero normalmente H es desconocida, y por tanto es necesario hacer algunos supuestos sobre Y
x
y/o
estimar F
Y | X
(y | x), o al menos (x), con base en observaciones de las variables aleatorias Y
x
, dado
un n umero nito de valores de x.
Denici on 1. Sea Y
g(w)
una variable aleatoria con segundo momento nito, con esperanza
E(Y
g(w)
) = + g(w) y varianza V(Y
g(w)
) =
2
, donde w D, siendo D alg un subconjunto
de los n umeros reales R, y g una funcion de D en R. Sea D
0
un subconjunto nito de D. A la
coleccion (nita) de variables aleatorias {Y
g(w)
: w D
0
} se le denomina modelo de regresion
lineal simple.
La palabra lineal en la denicion anterior se reere a la relaci on de la esperanza respecto a los
par ametros y , y no respecto a la forma funcional de g. Por simplicidad, denimos x := g(w) y por
tanto E(Y
x
) = +x y V(Y
x
) =
2
. Sean x
1
, . . . , x
n
los elementos de la imagen directa g(D
0
). Para
i = 1, . . . , n denimos las variables aleatorias
i
:= Y
i
x
i
, donde se escribe Y
i
en vez de Y
x
i
sin lugar a confusi on. Entonces E(
i
) = 0 y V(
i
) =
2
. Lo anterior permite una forma equivalente
de denir un modelo de regresi on lineal simple, congruente con la Denicion 1 anterior:
Y
i
= +x
i
+
i
, i = 1, . . . , n,
E(
i
) = 0 , V(
i
) =
2
, (1)
en donde los par ametros , y
2
son desconocidos, y los valores x
i
conocidos. Es importante
destacar, como lo hacen Mood et al. (1974), que Y
1
, . . . , Y
n
no es una muestra aleatoria de tama no
n de una variable aleatoria Y, se trata de n muestras aleatorias de tama no 1, una por cada una de
las n variables aleatorias no necesariamente independientes, y distintas, al menos, en cuanto a sus
esperanzas E(Y
i
) = +x
i
, aunque con varianza com un V(Y
i
) =
2
.
2. Modelo clasico de regresi on lineal simple
En esta seccion solamente se agrega a (1) el supuesto de que Cov(
i
,
j
) = 0 para todo i = j ,
lo cual implica a su vez que Cov(Y
i
, Y
j
) = 0 (y que no implica necesariamente independencia). Esto
permite obtener estimadores puntuales para y , que resultan ser optimos en el sentido de lo
siguiente:
Denici on 2. Si un estimador

= (Y
1
, . . . , Y
n
) de un parametro desconocido es lineal, insesgado
y de varianza mnima, esto es, respectivamente:
a)

=
n

i =1
d
i
Y
i
para ciertas constantes conocidas d
i
,
b) E(

) = ,
c) para cualquier otro estimador lineal insesgado de , digamos

, se cumple: V(

) V(

) ,
se dice entonces que

es el mejor estimador lineal insesgado (MELI) para .
En Mood et al. (1974), Lehmann y Casella (1998) o en Casella y Berger (2002), se puede consultar
los detalles de la demostracion del siguiente:
2
Teorema 1. Los siguientes estimadores son los MELIs para y en (1) bajo el supuesto de que
Cov(
i
,
j
) = 0 para todo i = j :

n
i =1
(Y
i
Y )(x
i
x)

n
i =1
(x
i
x)
2
, = Y

x ,
en donde Y :=
1
n

n
i =1
Y
i
, x :=
1
n

n
i =1
x
i
.
Recordando la diferencia entre estimador y estimacion (el primero es variable aleatoria, el segundo
es un valor observado del primero, y por tanto un n umero real), dadas las observaciones y
1
, . . . , y
n
de las variables aleatorias Y
1
, . . . , Y
n
en (1), a las estimaciones:
b =

n
i =1
(y
i
y)(x
i
x)

n
i =1
(x
i
x)
2
, a = y b x , (2)
se les conoce como estimaciones por mnimos cuadrados ordinarios (MCO) de y ya
que la funci on cuadratica
h(, ) :=
n

i =1
( y
i
x
i
)
2
(3)
se minimiza justamente en (, ) = (a, b), lo cual es sencillo de vericar mediante tecnicas est andar
de c alculo de varias variables, ver por ejemplo Calero (1998). Se podran proponer otras funciones
para minimizar diferencias entre los valores y
i
y +x
i
(diferencias absolutas, por ejemplo) pero la
ventaja que ya se tiene con la estimaci on por MCO es que el Teorema 1 demuestra que los estimadores
correspondientes son los MELIs y por tanto no habr a propuesta que los supere en este sentido.
Como sera de esperarse, para
2
= V(Y
i
) no se tiene un MELI ya que su estimaci on involucra
a los momentos de segundo orden de las variables aleatorias Y
i
, lo cual no es posible lograr con un
estimador lineal. Sin embargo, es factible obtener, cuando menos, un estimador insesgado para
2
deniendo las variables aleatorias e
i
:= Y
i


x
i
, respecto a las cuales se puede vericar que
E(

e
2
i
) = (n 2)
2
, ver Calero (1998), y por lo tanto, para n 3, se tiene que un estimador
insesgado es:

2
:=
1
n 2
n

i =1
e
2
i
=
1
n 2
n

i =1
( Y
i


x
i
)
2
. (4)
3. Modelo clasico bajo Normalidad
Mientras no se haga alg un supuesto sobre la distribucion de probabilidad de las variables aleatorias

i
en (1), no es posible obtener estimadores de m axima verosimilitud, ni construir pruebas de hipotesis
o intervalos de conanza para los par ametros.
2
Con el supuesto de la seccion anterior, Cov(
i
,
j
) = 0
para todo i = j , s olo es posible abordar el problema de estimacion puntual, encontrando estimadores
2
Estrictamente hablando, antes de imponer una distribucion de probabilidad, se podra analizar el comportamiento
asintotico de los estimadores obtenidos en el Teorema 1 y en (4) por medio de teoremas de Estadstica Asintotica en
donde se obtienen versiones del Teorema Central del Lmite para variables aleatorias independientes no identicamente
distribudas, como por ejemplo el Teorema de Lindeberg-Feller, as como teoremas relacionados con estadsticos U,
pero son tecnicas que requieren conocimientos que usualmente no se adquieren en una licenciatura en Actuara. Veanse
las referencias de Sering (1980), van der Vaart (1998) y DasGupta (2008).
3
,

, y

2
, con optimalidad unicamente para los dos primeros, y restringiendose a la clase de los
estimadores lineales insesgados.
Para el resto de la presente exposicion, agregaremos a (1) el supuesto de que las variables aleatorias

1
, . . . ,
n
son iid (independientes e identicamente distribudas) Normal (0,
2
). Por que se escoge
esta distribuci on de probabilidad y no otra? Esencialmente porque bajo Normalidad los estimadores
de maxima verosimilitud para y coinciden con los MELIs obtenidos en la seccion anterior, y mas
a un, los estimadores obtenidos en el Teorema 1 y en (4) resultan ser (ahora s, los tres) optimos y
sobre una clase mas amplia: la de los estimadores insesgados en general (sin la restricci on de
que sean lineales).
Como consecuencia inmediata del supuesto de Normalidad se tiene ahora que las variables aleato-
rias Y
1
, . . . , Y
n
son independientes, mas no identicamente distribudas. Especcamente se tiene ahora
que Y
i
Normal ( +x
i
,
2
), i = 1, . . . , n, con funcion de densidad de probabilidad:
f
Y
i
(y
i
| +x
i
,
2
) =
1

2
2
exp
_

_
y
i
( +x
i
)
_
2
/(2
2
)
_
. (5)
3.1. Inferencia sobre los parametros
Recuerdese que una familia de funciones de densidad de probabilidades f(y | ), en donde
= (
1
, . . . ,
k
), es una familia exponencial si puede expresarse en la forma
f(y | ) = h(y)c () exp
_
k

j =1
w
j
()t
j
(y)
_
, (6)
en donde las funciones h : R R
+
{0} y t
j
: R R s olo dependen de y (no pueden depender de
), y donde las funciones c : R
k
R
+
{0} y w
j
: R
k
R s olo dependen de (no pueden depender
de y), ver Casella y Berger (2002). Es inmediato vericar que (5) es una familia exponencial con
k = 3, = (, ,
2
), y con
h(y
i
) =
1

2
, c (, ,
2
) =
1

2
exp
_

( +x
i
)
2
2
2
_
,
w
1
(, ,
2
) =

2
, t
1
(y
i
) = y
i
,
w
2
(, ,
2
) =

2
, t
2
(y
i
) = x
i
y
i
,
w
3
(, ,
2
) =
1
2
2
, t
3
(y
i
) = y
2
i
. (7)
Lo anterior tiene especial relevancia en cuanto a que al modelo de regresion lineal simple, bajo los
supuestos de esta secci on, le son aplicables resultados para familias exponenciales en general. Por
ejemplo, de acuerdo a Cox y Hinkley (1974) y Mood et al. (1974) se tiene el siguiente:
Teorema 2. Sean Y
1
, . . . , Y
n
variables aleatorias independientes con funciones de densidad
f
Y
i
(y |
i
, ), pertenecientes a la misma familia exponencial h(y)c (, ) exp
_
k
j =1
w
j
(, )t
j
(y)
_
,
4
pero con parametro distinto
i
, en donde este ultimo es funcion lineal de . Entonces el vector de
estimadores
T =
_
n

i =1
t
1
(Y
i
) , . . . ,
n

i =1
t
k
(Y
i
)
_
es conjuntamente completo y suciente minimal para (, ).
Los conceptos de estadstico completo y estadstico suciente minimal pueden repasarse en Mood
et al. (1974), Cox y Hinkley (1974) o Casella y Berger (2002). De manera informal y concisa, el que
un estadstico sea suciente minimal implica que representa la mayor reduccion o simplicacion
posible de la informacion contenida en (Y
1
, . . . , Y
n
) pero sin perder informaci on valiosa para la
estimaci on de los par ametros involucrados. El concepto de completez es mas difcil de poner en pocas
palabras, quiz as lo mas sencillo que se puede decir es que un estadstico es completo si y solo si el unico
estimador insesgado de 0 que es funci on de dicho estadstico es identicamente 0 con probabilidad 1.
El Teorema 2 es aplicable a (5) ya que en este caso
i
= + x
i
es funci on lineal de = (, ) , y
adem as =
2
, por lo que, utilizando (7), se tiene que el vector de estimadores
_
T
1
, T
2
, T
3
_
=
_
n

i =1
Y
i
,
n

i =1
x
i
Y
i
,
n

i =1
Y
2
i
_
(8)
es completo y suciente minimal para (, ,
2
) en el modelo de regresi on lineal simple bajo Norma-
lidad. Esto ser a util para determinar la optimalidad de estimadores puntuales insesgados en lo que
sigue:
Estimacion puntual
La independencia de las variables aleatorias Y
i
permite expresar la funcion de densidad conjunta
del vector aleatorio (Y
1
, . . . , Y
n
) como el producto de las densidades individuales (5), esto es
f
Y
1
Yn
(y
1
, . . . , y
n
| , ,
2
) =
n

i =1
f
Y
i
(y
i
| , ,
2
) ,
=
n

i =1
1

2
2
exp
_
(y
i
( +x
i
))
2
/(2
2
)
_
,
=
1
(2
2
)
n/2
exp
_

_
n

i =1
(y
i
x
i
)
2
_
_
(2
2
)
_
. (9)
La expresi on (9) permite calcular los estimadores de maxima verosimilitud (EMV) para , y
2
:
dadas las observaciones y
1
, . . . , y
n
correspondientes a las variables aleatorias Y
1
, . . . , Y
n
, los valores
que maximizan la funci on de log-verosimilitud
log L(, ,
2
| y
1
, . . . , y
n
) = log f
Y
1
Yn
(y
1
, . . . , y
n
| , ,
2
) ,
=
n
2
log 2
n
2
log
2

1
2
2
n

i =1
(y
i
x
i
)
2
, (10)
coinciden, para y , con los MELIs que se obtuvieron en el Teorema 1, y en el caso de
2
resulta ser
el que se obtuvo en (4) pero multiplicado por
n2
n
, detalles en Calero (1998). El EMV para
2
tiene
5
sesgo (caracterstica frecuente en este tipo de estimadores), as que multiplicandolo por el recproco
del factor anterior se vuelve insesgado. En este caso particular, los EMVs para , , y el de
2
(en
versi on insesgada), resultan ser optimos en el sentido de lo siguiente:
Denicion 3. Si un estimador

= (Y
1
, . . . , Y
n
) de un parametro desconocido es insesgado y de
varianza mnima para todo valor de (es decir, cumple incisos b y c de la Denicion 2) se dice que
es un estimador insesgado de varianza uniformemente mnima (EIVUM).
En general, cualquier funcion uno a uno (inyectiva) de un estadstico suciente es tambien un
estadstico suciente. Combinaremos esta propiedad con la siguiente generalizacion del Teorema de
Lehmann-Schee, que a su vez utiliza el Teorema de Rao-Blackwell, veanse Cox y Hinkley (1974) y
Mood et al. (1974) :
Teorema 3. Bajo los supuestos del Teorema 2, si : R
k
R
k
es funcion uno a uno (inyectiva) y
W = (T) es un vector de estimadores insesgados para (, ) entonces W es un vector de EIVUMs
para (, ).
N otese primero que los MELIs del Teorema 1 son transformacion lineal de (T
1
, T
2
) en (8), esto es
_
d
3
d
2
d
2
d
1
__
T
1
T
2
_
=
_

_
, (11)
en donde
d
1
:=
1

n
i =1
(x
i
x)
2
d
2
:= d
1
x d
3
:= d
1
x
2
+
1
n
(12)
Como la transformacion (11) es invertible y (4) puede reexpresarse de la forma

2
=
1
n2
T
3
+
(T
1
, T
2
) , tenemos entonces que existe una funci on inyectiva que transforma (8) en los estimadores
( ,

,

2
) obtenidos en el Teorema 1 y en (4), que a su vez son estimadores insesgados de (, ,
2
),
as que por el Teorema 3 se concluye que ( ,

,

2
) son EIVUMs para los parametros del modelo de
regresi on lineal simple bajo Normalidad.
Estrictamente hablando, con lo anterior se cumple el objetivo de tener a los mejores estimadores
puntuales posibles, pero hay algo m as que decir, ahora en cuanto a la dependencia entre dichos
estimadores, que sera util mas adelante en estimacion por intervalos y pruebas de hipotesis. Para
analizar dicha dependencia es necesario, y afortunadamente posible, identicar la distribucion de
probabilidad conjunta del vector aleatorio ( ,

,

2
), vease Mood et al. (1974). Para ello, primero se
hace el cambio de variables

1
:=

2
:=

3
:=
(n 2)

2
, (13)
y luego se calcula la funcion generadora de momentos conjunta del vector aleatorio (

1
,

2
,

3
) por
medio de m

3
(z
1
, z
2
, z
3
) = E
_
exp(z
1

1
+ z
3

2
+ z
3

3
)

. La combinaci on lineal z
1

1
+ z
3

2
+ z
3

3
es, en ultima instancia, una transformaci on de las variables aleatorias Y
i
que de forma generica
denotaremos (Y
1
, . . . , Y
n
), y como se tiene la funci on de densidad conjunta de (Y
1
, . . . , Y
n
) dada en
(9), el c alculo de m

3
se realiza como sigue:
6
m

3
(z
1
, z
2
, z
3
) = E
_
exp(z
1

1
+z
3

2
+z
3

3
)

,
= E
_
(Y
1
, . . . , Y
n
)

,
=
_

(y
1
, . . . , y
n
)f
Y
1
Yn
(y
1
, . . . , y
n
| , ,
2
) dy
1
dy
n
,
=
.
.
.
.
.
.
.
.
.
.
.
.
=
_
exp{d
3
z
2
1
+ 2(d
2
)z
1
z
2
+ d
1
z
2
2
}

(1 2z
3
)
(n2)/2
, siempre que z
3
< 1/2 ,
= m

2
(z
1
, z
2
)m

3
(z
3
) . (14)
En el resultado anterior hay que reconocer lo siguiente: primero, que la factorizaci on resultante impli-
ca la independencia del vector aleatorio (

1
,

2
) y la variable aleatoria

3
; segundo, que m

2
(z
1
, z
2
)
corresponde a la funci on generadora de momentos conjunta de una distribuci on Normal Bivaria-
da y m

3
(z
3
) corresponde a la funcion generadora de momentos univariada de una distribuci on de
probabilidad Ji-cuadrada con n 2 grados de libertad:
(

1
,

2
) N
2
_ _
0
0
_
,
_
d
3
d
2
d
2
d
1
_ _
,

3

2
n2
. (15)
N otese que la matriz de varianza-covarianza de (

1
,

2
) es la matriz correspondiente a la transfor-
maci on lineal (11). El resultado anterior en combinaci on con (13) nos permite establecer el siguiente:
Teorema 4. Para los EIVUM ( ,

,

2
) del modelo de regresion lineal simple bajo Normalidad, se
cumple:
a) El vector de estimadores ( ,

) y el estimador

2
son independientes.
b) ( ,

) N
2
_ _

_
,
2
_
d
3
d
2
d
2
d
1
_ _
.
c)
(n 2)

2

2
n2
.
Estimacion por intervalos
Utilizaremos el Teorema 4 para obtener estadsticos pivotales apropiados para la construccion de
intervalos de conanza para cada uno de los parametros del modelo de regresion lineal simple bajo
Normalidad. En el modelo particular que nos ocupa, un estadstico pivotal es una variable aleato-
ria Q que es funcion de (Y
1
, . . . , Y
n
, , ,
2
) pero cuya distribucion de probabilidad no depende
de (, ,
2
). Un ejemplo inmediato es el inciso c del Teorema 4: denotemos por Q
0
a dicho es-
tadstico pivotal. Como Q
0
s olo incluye de manera explcita al par ametro desconocido
2
, esto lo
hace candidato a ser utilizado para construir un intervalo de conanza para dicho par ametro. Dado
un valor 0 < < 1, recordemos que un intervalo de conanza al 100 % se construye encontran-
do, primero, cuantiles q
1
< q
2
tales que P(q
1
< Q
0
< q
2
) = ; luego, se reexpresa la desigualdad
7
q
1
< Q
0
< q
2
en una equivalente pero de la forma
1
(Y
1
, . . . , Y
n
) <
2
<
2
(Y
1
, . . . , Y
n
) de modo que
P[
1
(Y
1
, . . . , Y
n
) <
2
<
2
(Y
1
, . . . , Y
n
) ] = . Aunque normalmente hay una innidad de pares de
valores (q
1
, q
2
) que cumplen con la condici on requerida, lo usual es repartir la probabilidad sobre
un intervalo centrado en la mediana de la distribuci on de probabilidad del estadstico pivotal, esto
es:
_ 1
2
q
1
f
Q
0
(u) du =

2
=
_
q
2
1
2
f
Q
0
(u) du . (16)
En el caso particular de Q
0
, q
1
y q
2
representaran entonces los cuantiles
1
2
y
1+
2
de una distribu-
ci on Ji-cuadrada con n 2 grados de libertad. Luego
q
1
<
(n 2)

2
< q
2

(n 2)

2
q
2
<
2
<
(n 2)

2
q
1
,
con lo que se obtiene:
Intervalo de conanza al 100 % para
2
: I

2() =
_
(n 2)

2
q
2
,
(n 2)

2
q
1
_
. (17)
Del inciso b del Teorema 4 se desprende que el estimador Normal (,
2
d
3
), por lo que
la variable aleatoria ( )/

2
d
3
Normal (0, 1), y por lo tanto dicha variable aleatoria es un
estadstico pivotal. Sin embargo, tal cual no es util para construir un intervalo de conanza para un
solo par ametro desconocido al tener en su denici on dos par ametros desconocidos, y
2
. Como ya
se cuenta con un intervalo de conanza para
2
, si hubiese forma de deshacerse de el al denir el
estadstico pivotal y que s olo permanezca como parametro desconocido, se estara en condiciones
de construir un intervalo de conanza para este ultimo parametro. Un forma de deshacerse de
2
es
sustituirlo por el estimador

2
, pero entonces la distribuci on de probabilidad del estadstico pivotal
Q
1
:= ( )/
_

2
d
3
ya no ser a Normal (0, 1); sin embargo, podemos hacer uso de un conocido
resultado de transformaciones de variables aleatorias: Si Z Normal (0, 1), U Ji-cuadrada con k
grados de libertad, Z y U independientes, entonces Z/
_
U/k t-Student con k grados de libertad.
Por lo tanto, utilizando los tres inicisos del Teorema 4:
Q
1
=

_

2
d
3
=
( )/

2
d
3
_

2
/
2

Normal (0, 1)
_

2
n2
/(n 2)
t-Student
n2
. (18)
Para construir un intervalo de conanza al 100 % para se requieren cuantiles q
1
< q
2
tales que
P(q
1
< Q
1
< q
2
) = . Nuevamente lo usual es repartir la probabilidad en un intervalo centrado en
la mediana, que en el caso de la distribuci on t-Student es cero, y como adem as su funcion de densidad
es simetrica respecto a cero, basta tomar como q
2
= q > 0 al cuantil (1 + )/2 de la distribucion
t-Student con n 2 grados de libertad (t
n2
), y por simetra q
1
= q. Luego
q <

_

2
d
3
< q q
_

2
d
3
< < +q
_

2
d
3
con lo que se obtiene:
Intervalo de conanza al 100 % para : I

() =
_
q
_

2
d
3
, +q
_

2
d
3
_
. (19)
8
Para el procedimiento es totalmente an alogo al de , y se obtiene:
Intervalo de conanza al 100 % para : I

() =
_

q
_

2
d
1
,

+q
_

2
d
1
_
. (20)
Pruebas de hipotesis
De acuerdo a Casella y Berger (2002), en el caso del modelo de regresi on lineal simple, usualmente
se tiene mayor interes en que en , ya que este ultimo representa la esperanza de Y
x
cuando x = 0,
y dependiendo del problema, con frecuencia x = 0 no es un valor razonable o realista de la
variable explicativa. En contraste, representa la razon de cambio de E(Y
x
) como funci on de x,
v alida sobre todo el rango de valores razonables para x, por lo que centraremos nuestra atencion
en , pero en el entendido de que tecnicamente es posible hacer lo an alogo respecto a .
3
En terminos de pruebas de hipotesis, interesa en particular analizar la posibilidad de que = 0
ya que si las observaciones muestrales no proporcionan informaci on que permita rechazar contunden-
temente esta posibilidad, se pondra en duda que x sea efectivamente una variable explicativa, que
es la esencia del modelo de regresi on lineal simple. Construiremos entonces una prueba de hipotesis
para el contraste:
H
0
: = 0 versus H
1
: = 0 . (21)
Como consecuencia del inciso b del Teorema 4, y de un argumento an alogo al utilizado en (18),
se tiene que, bajo la hip otesis H
0
: = 0, la variable aleatoria
V :=

2
d
1
H
0
t
n2
(t-Student con n 2 grados de libertad) , (22)
por lo que resulta adecuada como estadstico de prueba para el contraste (21), conocido tambien como
del tipo de prueba de dos colas. Para una prueba de tama no se requiere de una regla de decisi on
que rechace incorrectamente H
0
con probabilidad , situaci on conocida como error tipo I. Aunque
0 < < 1, normalmente se utilizan valores peque nos para , tpicamente 0.05 o 0.01. Tomando
en cuenta la simetra de la distribuci on de probabilidad de (22), para una prueba de dos colas se
reparte la probabilidad por partes iguales en las colas de la distribucion, y en caso de que el
valor observado del estadstico de prueba corresponda a una de las dos colas, se toma entonces la
decisi on de rechazar H
0
, ya que existe una probabilidad (peque na) de que esto suceda bajo H
0
.
En concreto, se calcula el valor q > 0 tal que
1 = P( q < V < q ) , lo que equivale a que P( | t
n2
| > q ) = , (23)
3
En particular, interesara que hubiese evidencia muestral que permitiese rechazar la hipotesis nula H
0
: = 0
versus la alternativa H
1
: = 0, y si no fuese el caso de rechazar H
0
, para decidir aceptar = 0 habra primero que
hacer un analisis del error tipo II, y en caso de decidirse por = 0, el modelo Y
x
= +x
i
+ tendra que modicarse
a la version mas simplicada Y
x
= x
i
+ , regresi on lineal simple a traves del origen, y repetir un analisis similar al
que se ha hecho hasta el momento en este trabajo, ya que al haber un parametro menos que estimar, se modican
algunos de los estimadores y sus propiedades estadsticas, ver Gujarati (1997).
9
Es decir, en este caso q es el cuantil 1

2
de la distribucion t-Student con n 2 grados de libertad.
Luego entonces la regla de decision para (21) queda como sigue:
Rechazar H
0
: = 0 si | v | > q , (24)
en donde v es el valor observado del estadstico V de (22). Recuerdese que el tama no de prueba
lo establece el usuario de la misma. En ocasiones, en vez de jar un valor , se preere conocer el
valor-p (en idioma ingles: p-value) que corresponde a una muestra observada, esto es, determinar el
mnimo valor bajo el cual se rechazara H
0
de acuerdo a la regla de decisi on (24), y con base en
ello decidir rechazar H
0
en la medida que el valor-p resulte aceptablemente peque no.
4
La regla de decision para H
0
: = 0 versus H
1
: = 0 es totalmente an aloga: Rechazar H
0
si | u| > q , en donde u es el valor observado del estadstico U := /
_

2
d
3
. Tambien de forma
an aloga, haciendo uso del iniciso c del Teorema 4, se pueden construir pruebas de hipotesis para
2
,
por ejemplo del tipo H
0
:
2
> s
0
versus H
1
:
2
s
0
, que en este caso involucrara a la distribuci on
Ji-cuadrada con n 2 grados de libertad.
5
3.2. Respuesta media y predicci on
Hasta el momento se han aplicado tecnicas generales de inferencia estadstica a los par ametros
desconocidos del modelo (, ,
2
), pero no hay que olvidar que la esencia del modelo de regresi on
lineal simple radica en poder estimar y/o predecir la media o valor promedio poblacional de la variable
dependiente (o de respuesta) Y
x
en terminos de valores conocidos o jos (en muestras repetidas) de
la variable explicativa x. Salvo en los casos particulares en los que los par ametros en s mismos son
el principal motivo de la inferencia, por la interpretacion que pudieran tener respecto a aquello a lo
cual se aplica el modelo, en general el asunto de hacer inferencia sobre los parametros es un paso
intermedio hacia el n principal de hacer inferencia estadstica sobre la variable dependiente o de
respuesta Y
x
.
Si se escoge un valor x = x
0
tendremos entonces que la variable aleatoria Y
x
0
= + x
0
+
se distribuye Normal ( + x
0
,
2
), en donde a su vez Normal (0,
2
). Respecto al estimador
+

x
0
notemos que
E( +

x
0
) = E( ) +x
0
E(

) = +x
0
= E(Y
x
0
) , (25)
esto es, que +

x
0
es un estimador puntual insesgado para E(Y
x
0
), la respuesta media cuando
x = x
0
. M as a un, utilizando el inciso b del Teorema 4, y que de una combinaci on lineal de variables
aleatorias con distribuci on Normal resulta tambien una variable aleatoria Normal, la distribuci on
de probabilidad del estimador +

x
0
quedar a completamente especicada despues de calcular su
varianza:
V( +

x
0
) = V( ) +x
2
0
V(

) + 2x
0
Cov( ,

) =
2
_
1
n
+ d
1
(x
0
x)
2
_
, (26)
4
De hecho, en terminos de automatizar los calculos, lo usual es que el software estadstico reporte el p-value, en
vez de pedir al usuario que ingrese el valor que desea. Vease, por ejemplo, Ugarte et al. (2008), Crawley (2007),
Dalgaard (2002) y Everitt (2006).
5
Mas a un, para construir pruebas de hipotesis en donde H
0
sea una hipotesis compuesta (esto es, H
0
:
0
, en
donde
0
tiene mas de un elemento), existen criterios para la construccion de pruebas uniformemente mas potentes
aprovechando el hecho de que el modelo de regresion lineal simple bajo Normalidad es una familia exponencial, ver
Lehmann (1986).
10
y por lo tanto, el estimador puntual insesgado de la respuesta media E(Y
x
0
) se distribuye:

E(Y
x
0
) := +

x
0
Normal
_
E(Y
x
0
) ,
2
_
1
n
+ d
1
(x
0
x)
2
_
_
. (27)
N otese que la varianza de

E(Y
x
0
) alcanza un mnimo cuando x
0
= x . Nuevamente, mediante un
razonamiento an alogo al utilizado en (18) se tiene que
Q
2
:=

E(Y
x
0
) E(Y
x
0
)
_

2
_
1
n
+ d
1
(x
0
x)
2
_
t
n2
, (28)
por lo que Q
2
se puede utilizar como estadstico pivotal para construir un intervalo de conanza para
E(Y
x
0
) ya que q < Q
2
< q si y s olo si

E(Y
x
0
) q
_

2
_
1
n
+ d
1
(x
0
x)
2
_
< E(Y
x
0
) <

E(Y
x
0
) +q
_

2
_
1
n
+ d
1
(x
0
x)
2
_
, (29)
y por lo tanto, si q es el cuantil
1+
2
de la distribuci on t-Student con n 2 grados de libertad,
entonces un intervalo de conanza 100 % para la respuesta media E(Y
x
0
) cuando x = x
0
es
el siguiente:
I
E(Yx
0
)
() =
_

E(Y
x
0
) q
_

2
_
1
n
+ d
1
(x
0
x)
2
_
,

E(Y
x
0
) +q
_

2
_
1
n
+ d
1
(x
0
x)
2
_
_
. (30)
Si lo que se desea es hacer prediccion sobre el valor que puede reportar la variable aleatoria Y
x
0
dado un nuevo valor x = x
0
, es posible construir algo an alogo a un intervalo de conanza, conocido
como intervalo de prediccion. Partiendo de que Y
x
0
Normal ( + x
0
,
2
), si los tres parametros
fuesen conocidos, entonces
Y
x
0
E(Y
x
0
)
_
V(Y
x
0
)
=
Y
x
0
( +x
0
)

2
Normal (0, 1) , (31)
y si z es el cuantil
1+
2
de la distribuci on Normal (0, 1) entonces se puede armar que
= P
_
z <
Y
x
0
( +x
0
)

2
< z
_
= P
_
+x
0
z

2
< Y
x
0
< +x
0
+z

2
_
, (32)
y entonces se le llama intervalo de prediccion 100 % para Y
x
0
al siguiente:
_
+x
0
z

2
, +x
0
+z

2
_
. (33)
Pero si (, ,
2
) son desconocidos y se pretende utilizar en su lugar a los estimadores ( ,

,

2
),
entonces la distribucion de probabilidad involucrada para obtener el intervalo de prediccion cambia
a t-Student con n 2 grados de libertad, como veremos a continuacion. Como x = x
0
es un nuevo
valor (distinto a x
1
, . . . , x
n
) y los estimadores ( ,

,

2
) s olo dependen de (Y
x
1
, . . . , Y
xn
) entonces la
variable aleatoria Y
x
0
Normal ( +x
0
,
2
) y el vector aleatorio ( ,

,

2
) son independientes.
11
De (27) ya sabemos que +

x
0
se distribuye Normal con los par ametros que ah se indican, por
lo que la diferencia Y
x
0
( +

x
0
) tambien se distribuye Normal, con media
E
_
Y
x
0
( +

x
0
)
_
= E(Y
x
0
) E( +

x
0
) = +x
0
( +x
0
) = 0 , (34)
y varianza
V
_
Y
x
0
( +

x
0
)
_
= V(Y
x
0
) +V( +

x
0
) +2Cov(Y
x
0
, +

x
0
) =
2
+
2
_
1
n
+ d
1
(x
0
x)
2
_
, (35)
ya que Cov(Y
x
0
, +

x
0
) = 0 dada la independencia de Y
x
0
y ( ,

,

2
). Es decir,
Y
x
0
( +

x
0
) Normal
_
0 ,
2
_
1 +
1
n
+ d
1
(x
0
x)
2
_
_
. (36)
Haremos ahora lo an alogo a (31) pero sustituyendo a (, ) por ( ,

) y a
2
por

2
_
1 +
1
n
+ d
1
(x
0
x)
2
_
:
Y
x
0
( +

x
0
)
_

2
_
1 +
1
n
+ d
1
(x
0
x)
2
_
=
Yx
0
( +

x
0
)E(Yx
0
( +

x
0
))
V(Yx
0
( +

x
0
))
_

2
/
2
,

Normal (0, 1)
_

2
n2
/ (n 2)
t
n2
, (37)
en donde la independencia de numerador y denominador esta garantizada por la independencia de

2
respecto a Y
x
0
y ( ,

). Si q es el cuantil
1+
2
de la distribuci on t-Student con n 2 grados de
libertad, entonces
= P
_
q <
Y
x
0
( +

x
0
)
_

2
_
1 +
1
n
+ d
1
(x
0
x)
2
_
< q
_
, (38)
de donde se obtiene el intervalo de prediccion 100 % para Y
x
0
:
_
+

x
0
q
_

2
_
1 +
1
n
+ d
1
(x
0
x)
2
_
, +

x
0
+q
_

2
_
1 +
1
n
+ d
1
(x
0
x)
2
_
_
. (39)
N otese que (30) y (39) s olo dieren en el 1 que aparece en las races cuadradas de (39).
4. Analisis residual y el coeciente de determinacion
Se han presentado ya los principales resultados de inferencia estadstica (estimaci on puntual y
por intervalo, pruebas de hip otesis, predicci on) que son v alidos para el modelo de regresion lineal
simple {Y
i
= +x
i
+
i
: i = 1, . . . , n} PERO bajo los supuestos de que
1
, . . . ,
n
son variables
aleatorias independientes e identicamente distribudas Normal con esperanza E(
i
) = 0 y
varianza constante V(
i
) =
2
, y que los valores dados x
1
, . . . , x
n
corresponden a una variable
12
explicativa. Con mucha frecuencia se cuenta con los datos (x
1
, y
1
), . . . , (x
n
, y
n
) mas no con informaci on
que garantice que las observaciones y
1
, . . . , y
n
provienen de variables aleatorias Y
i
que cumplen los
supuestos anteriores, razon por la cual surge la inquietud de analizar, con base en dichos datos,
posibles violaciones de los supuestos siguientes:
Normalidad.
Independencia.
Varianza constante.
Que x
1
, . . . , x
n
efectivamente corresponden a una variable explicativa (validez del modelo).
Los tres primeros supuestos tienen que ver directa y claramente con las variables aleatorias
i
,
pero indirectamente tambien el cuarto supuesto, como se vera m as adelante. Sabemos que

i
= Y
i
( +x
i
) = Y
i
E(Y
i
) Normal (0,
2
) , (40)
pero al ser y par ametros desconocidos, no contamos con observaciones de las variables
i
para
analizar, debido a que son de la forma y
i
( + x
i
) . En su lugar, de forma natural surge la idea
de analizar los valores observados y
i
(a +b x
i
) , ver (2), que de hecho corresponden a las variables
aleatorias que a continuacion se denen:
Denici on 4. A las variables aleatorias e
1
, . . . , e
n
denidas
e
i
:= Y
i


E(Y
i
) = Y
i
( +

x
i
) , i = 1, . . . , n,
se les denomina variables aleatorias residuales del modelo clasico del regresion lineal simple. A
las observaciones y
i
(a+b x
i
) de dichas variables aleatorias residuales se les denominara residuos.
6
N otese que, sin haberlas llamado por su nombre, las variables aleatorias residuales se ocupan
para obtener el estimador insesgado de
2
en (4). Bajo el supuesto de Normalidad sabemos que Y
i
se distribuye Normal, por el Teorema 4 los estimadores y

tambien tienen distribuci on Normal,
y como de combinacion lineal de variables aleatorias Normales resulta tambien una variable aleato-
ria Normal, tenemos entonces que las variables aleatorias residuales e
i
tambien tienen distribuci on
Normal, con esperanza:
E(e
i
) = E(Y
i
) E( +

x
i
) = 0 , (41)
y con varianza:
V(e
i
) = V(Y
i
) + V( +

x
i
) 2Cov(Y
i
, +

x
i
) ,
=
2
+
2
_
1
n
+ d
1
(x
i
x)
2
_
2
_
Cov(Y
i
, ) + x
i
Cov(Y
i
,

)
_
,
=
.
.
.
.
.
.
.
.
.
=
2
_
1
1
n
d
1
(x
i
x)
2
_
. (42)
6
La palabra residuo es un sustantivo, en contraste con residual que es un adjetivo. En idioma ingles, las traduccio-
nes son residue y residual, respectivamente, aunque residue ha cado en desuso debido a que en ese idioma tambien
se acepta utilizar residual como sustantivo. Seber (1977), por ejemplo, cuando dene las variables aleatorias e
i
dice
que ellas are called the residuals. En libros en idioma espa nol sobre el tema, normalmente se utiliza unicamente la
palabra residuo, sin aclarar si se esta haciendo referencia a variables aleatorias o a sus observaciones. Es propuesta
de quien esto escribe hacer tal distincion, como en la Denicion 4.
13
Es decir,
e
i
Normal
_
0 ,
2
_
1
1
n
d
1
(x
i
x)
2
_
_
, i = 1, . . . , n. (43)
N otese que V(e
i
) <
2
= V(
i
). M as a un, como E(e
i
) = 0 entonces V(e
i
) = E(e
2
i
), y por lo tanto:
E
_
n

i=1
e
2
i
_
=
n

i=1
E(e
2
i
) =
2
n

i=1
_
n 1
n
d
1
(x
i
x)
2
_
=
2
(n 2) , (44)
de donde se obtiene (4). Adem as, para i = j :
Cov( e
i
, e
j
) = E( e
i
e
j
) E(e
i
)E(e
j
) ,
=
2
_
d
1
(x
i
x)(x
j
x) +
1
n
_
= 0 . (45)
En pocas palabras, las variables aleatorias residuales e
1
, . . . , e
n
tienen distribuci on Normal, pero
resulta que no son independientes, no tienen varianza constante y por tanto no son identicamente
distribudas a un cuando
1
, . . . ,
n
s cumplan los supuestos! Ante la imposibilidad de tener acceso
a observaciones de las variables aleatorias
i
para analizar si se viola normalidad, independencia
y varianza constante, usualmente se pretende que las variables aleatorias residuales e
i
, que s son
observables, seran un buen sustituto, pero si de entrada las e
i
ya violan algunos de los supuestos
que se desea analizar, pues es, al menos, cuestionable hacerlo de esta manera.
En defensa de la utilizaci on de las variables aleatorias residuales para el an alisis de supuestos del
modelo, podra argumentarse, por ejemplo, que el que no tengan varianza constante no es tan grave
porque la variabilidad de acuerdo a (42) se puede considerar insignicante para valores grandes
de n ya que (x
i
x)
2
es tan solo uno de los n sumandos de

n
j =1
(x
j
x)
2
y por tanto la cantidad
d
1
(x
i
x)
2
puede considerarse despreciable. En cuanto a la no independencia, Neter et al. (1996)
comentan lo siguiente:
Los residuales e
i
no son variables aleatorias independientes [. . . ] Cuando el tama no de
muestra es grande en comparacion con el n umero de par ametros en el modelo de regresi on,
el efecto de la dependencia entre las e
i
es relativamente poco importante y puede ser
ignorada para la mayora de los prop ositos.
Desafortunadamente Neter et al. (1996) no proporcionan en su libro elementos o referencias que den
sustento a tal armacion, si es que esto realmente fuese posible. De acuerdo a (45), si n es muy
grande entonces Cov( e
i
, e
j
) estara muy cerca de cero, pero a un Cov( e
i
, e
j
) = 0 NO IMPLICA
INDEPENDENCIA! A un cuando e
i
y e
j
sean variables aleatorias Normales con covarianza igual a
cero, es posible que exista una grado de dependencia relevante. Por ejemplo, considerese una variable
aleatoria Z
1
Normal (0, 1) y defnase la variable aleatoria
Z
2
:=
1
_

1 2(Z
1
)

_
,
en donde es la funci on de distribucion (acumulativa) de una variable aleatoria Normal (0, 1).
Entonces Z
2
tambien se distribuye Normal (0, 1) y ademas Cov(Z
1
, Z
2
) = 0 a pesar de que existe
una evidente dependencia, por denici on, entre Z
1
y Z
2
: si Z
1
= z entonces Z
2
reporta el valor
especco
1
(|1 2(z)|) con probabilidad 1! De hecho, se puede demostrar que utilizando una
14
medida de dependencia
7
como la de Schweizer y Wol (1981), el grado de dependencia en este caso
es de 0.5 en una escala de 0 a 1, lo cual sera bastante cuestionable considerar poco importante e
ignorarlo como proponen Neter et al. (1996).
Si a un bajo el supuesto de que las variables aleatorias
i
sean independientes, las variables aleato-
rias residuales e
i
no lo son ni hay claridad respecto a que tan lejos estan de serlo, estrictamente no
se les debiera utilizar en pruebas estadsticas basadas en este supuesto, como es el caso de muchas
pruebas para Normalidad, bondad de ajuste en general, heteroscedasticidad (varianza no constante),
etc. Es entonces la falta de independencia entre las variables aleatorias residuales, bajo el supuesto
de que las
i
s lo sean, lo que lleva a cuestionar su utilidad para validar supuestos en el modelo de
regresi on lineal simple.
Coeciente de determinacion
Este concepto est a asociado al interes de analizar la bondad del ajuste o validez del modelo como
tal, de acuerdo a la informaci on de los datos. Dicho de otro modo, analizar si los valores conoci-
dos x
1
, . . . , x
n
tienen una capacidad relevante para explicar el comportamiento de las variables
aleatorias de respuesta Y
1
, . . . , Y
n
, bajo el modelo de regresi on lineal simple.
Para este n, se toma como punto de referencia a la media muestral Y (ver denici on en Teorema
1) de las variables aleatorias Y
i
. De este modo, Y se ubica en el centro de las variables Y
i
ya
que

n
i =1
(Y
i
Y ) = 0, esto es, se tendran valores de Y
i
que sean mayores y menores que Y ,
cuyas diferencias, positivas y negativas, tienen suma cero. Si se elimina el efecto del signo en dichas
diferencias, digamos mediante (Y
i
Y )
2
, se estara midiendo otro aspecto: la dispersion de las variables
Y
i
respecto a su media muestral.
En el caso particular del modelo de regresion lineal simple, denominaremos suma total de
cuadrados (STC) a

n
i =1
(Y
i
Y )
2
. Se busca analizar la proporcion de la variabilidad total (STC)
que puede ser explicada por el modelo ajustado

E(Y
i
) = +

x
i
, y esto se logra descomponiendo
STC de la siguiente forma:
STC =
n

i =1
(Y
i
Y )
2
=
n

i =1
(Y
i

E(Y
i
) +

E(Y
i
) Y )
2
,
=
n

i =1
_
(Y
i

E(Y
i
))
2
+ (

E(Y
i
) Y )
2
+ 2(Y
i

E(Y
i
))(

E(Y
i
) Y )
_
,
=
n

i =1
(Y
i

E(Y
i
))
2
+
n

i =1
(

E(Y
i
) Y )
2
,
=
n

i =1
e
2
i
+
n

i =1
(

E(Y
i
) Y )
2
, (46)
donde

n
i =1
(Y
i

E(Y
i
))(

E(Y
i
) Y ) = 0, despues de algunas manipulaciones algebraicas, ver Calero
(1998).

n
i =1
(

E(Y
i
)Y )
2
representa la parte de variabilidad que logra explicar el modelo ajustado,
7
Entre las caractersticas que se pide a una medida numerica de asociacion entre dos variables aleatorias para
ser considerada medida de dependencia, esta el que = 0 si y solo si las variables aleatorias son independientes, y
por ello medidas como el coeciente de correlacion lineal de Pearson no son apropiadas para medir dependencia en
general, vease por ejemplo Nelsen (1999), Embrechts et al. (1999) o Erdely (2009).
15
misma que denominaremos suma de cuadrados de la regresion (SCR). Como consecuencia,

e
2
i
representa la parte de la variabilidad que no logra explicar el modelo. Lo anterior motiva la
siguiente:
Denicion 5. El coeciente de determinacion (CD) asociado a un modelo de regresion lineal
simple es la proporcion SCR/STC.
Como STC =

e
2
i
+ SCR entonces necesariamente 0 CD 1 y se le da la siguiente inter-
pretaci on: en la medida en que el valor observado del CD sea m as cercano a 1 se dice que el modelo
explica mejor el comportamiento de la variable de respuesta. Con toda intenci on se evito la notacion
usual R
2
que surge porque el valor observado del CD coincide con el cuadrado de la formula para la
estimaci on muestral del coeciente de correlaci on lineal de Pearson aplicado a (x
1
, y
1
), . . . , (x
n
, y
n
),
para detalles vease Calero (1998), pero conceptualmente no se justica la relacion entre uno y otro,
porque en el caso del modelo de regresion lineal simple los valores x
1
, . . . , x
n
est an jados a priori
(no se consideran observaciones de una variable aleatoria), vease Gujarati (1997).
Sin embargo, el CD es esencialmente una medida descriptiva que no aprovecha el supuesto de
Normalidad del modelo de regresi on lineal simple. Analicemos ahora la proporcion relativa de SCR y

e
2
i
. Valores grandes de SCR/

e
2
i
daran cuenta de un mejor ajuste del modelo, pero habra que
tener alg un criterio para decidir cuanto es grande en este caso. Afortunadamente esto es posible,
analizando el cociente
F =
SCR

e
2
i
/(n 2)
=

E(Y
i
) Y )
2

e
2
i
/(n 2)
. (47)
Primero notemos que

e
i
=

(Y
i


x
i
) =

Y
i
n

x
i
= 0 ,
en donde la ultima igualdad es consecuencia de que = Y

x, ver Teorema 1, y por lo tanto
n =

Y
i

x
i
. Luego,
Y = +

x +e = +

x
ya que e =
1
n

e
i
= 0. Entonces

E(Y
i
) Y =

(x
i
x) y la suma
SCR =

E(Y
i
) Y )
2
=

(x
i
x)
2
=

2
d
1
.
Esto ultimo junto con el hecho de que

e
2
i
/(n 2) =

2
, ver (4), nos permite reexpresar (47) como
F =

2
d
1

2
= V
2
(48)
que es el cuadrado del estadstico de prueba (22) bajo H
0
: = 0 . Recordemos que = 0 implica
que el modelo (particularmente los valores x
1
, . . . , x
n
) no explica el comportamiento de la variable
de respuesta, y de acuerdo a (22) y (24) se rechazara tal hip otesis para valores de |V | que excedan
un umbral q (de acuerdo al tama no de prueba deseado). Como V
2
= F y V se distribuye t-Student
con n 2 grados de libertad, es un conocido resultado de probabilidad, ver Mood et al. (1974), que
entonces F tiene distribucion de Fisher con 1 y n 2 grados de libertad. Aqu el asunto relevante
16
es la congruencia entre lo que se buscaba medir con (47), en terminos de la variabilidad explicada
por el modelo en proporci on a la variabilidad no explicada, y la validez o no del modelo al poder
rechazar o no la hipotesis H
0
: = 0, ya sea mediante el estadstico V con distribucion t-Student o
mediante el estadstico F de Fisher. Por lo tanto, en el caso del modelo de regresi on lineal simple, la
bondad de ajuste del modelo se mide con base en el resultado de la prueba de hip otesis (21).
5. Ejemplo - resumen
Actualmente, el analisis estadstico de datos, a un a un nivel descriptivo, no se concibe ya sin
la ayuda de programas computacionales (software) dise nados para tal n, ver Chambers (2008),
Dalgaard (2002) o Gentle (2002). Haremos uso del software libre R (www.r-project.org), que se
ha convertido en un est andar internacional en el analisis estadstico de datos, para aplicar la teora
descrita en las secciones anteriores y que esto nos permita resumir e ilustrar los principales resultados.
Se incluyen las instrucciones tal cual se ingresan en dicho programa computacional en este tipo
de letra.
Analizaremos datos generados mediante simulaci on, bajo los supuestos del modelo cl asico de
regresi on lineal simple bajo Normalidad, para poder comparar las estimaciones versus los valores
te oricos. Esto es, jaremos primero valores para , ,
2
y x
1
, . . . , x
n
, y luego simularemos con ayuda
de R observaciones y
i
a partir de las variables aleatorias independientes no identicamente distribudas
Normal ( + x
i
,
2
). Lo anterior s olo con nes ilustrativos y de comparaci on, en el entendido de
que al trabajar con datos reales, por lo general, s olo se cuenta con los datos (x
i
, y
i
), y los verdaderos
valores te oricos de los parametros no se podr an conocer, s olo estimar.
Paso -1: Denir los valores = 2, = 3,
2
= 300, n = 31 y los valores x
i
: 10, 11, 12, . . . , 40 :
> alfa.t <- 2 ; beta.t <- 3; sigma2.t <- 300 ; n <- 31
> x.i <- seq(from=10,to=40,length=31)
Paso 0: Simular valores
i
iid Normal (0,
2
) y con ellos los valores y
i
= +x
i
+
i
:
> epsilon.i <- rnorm(n,0,sqrt(sigma2.t))
> y.i <- alfa.t + beta.t*x.i + epsilon.i
Paso 1: Es aqu donde usualmente comenzara el analisis de los datos (x
1
, y
1
), . . . , (x
n
, y
n
). Ajustamos el
modelo cl asico de regresi on lineal simple bajo Normalidad, utilizando la instruccion lm (linear
model ), y luego se solicita un summary (resumen) del modelo ajustado:
> regresion <- lm(y.i~x.i)
> summary(regresion)
Call:
lm(formula = y.i ~ x.i)
Residuals:
Min 1Q Median 3Q Max
-32.148 -12.850 -3.834 11.347 38.860
17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.6356 9.8146 0.982 0.334
x.i 2.7213 0.3696 7.362 4.13e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 18.41 on 29 degrees of freedom
Multiple R-squared: 0.6514, Adjusted R-squared: 0.6394
F-statistic: 54.2 on 1 and 29 DF, p-value: 4.128e-08
Interpretacion: Las estimaciones puntuales para y , ver (2), son a = 9.6356 y b = 2.7213,
respectivamente. El p-value para H
0
: = 0 es 4.13 10
8
, ver (21) y (24), esto es, la
probabilidad de rechazar H
0
: = 0 erroneamente es tan peque na como 4.13 10
8
, y por
tanto decidimos rechazar que = 0. N otese que esto coincide con el p-value del F-statistic al
nal de la tabla anterior, lo cual era de esperarse en concordancia con lo comentado en la secci on
anterior respecto a la equivalencia entre F y V
2
, ver (48), y por lo lo tanto se valida el modelo.
La probabilidad de rechazar err oneamente la hip otesis H
0
: = 0 puede ser hasta de 0.334
y por lo tanto no es recomendable rechazarla, as que la estimacion puntual a = 9.6356 no es
conable. Multiple R-squared: 0.6514 es el valor observado del coeciente de determinacion.
La estimacion puntual de
2
se obtiene mediante la f ormula (4) y la instruccion:
> sum((residuals(regresion))^2)/(n-2)
[1] 338.8523
Paso 2: C alculo de intervalos de conanza 95 % para los par ametros del modelo. De acuerdo a las
f ormulas (17), (19) y (20), requerimos los siguientes valores:
> s <- sum((residuals(regresion))^2)/(n-2)
> a <- coefficients(regresion)[1] ; b <- coefficients(regresion)[2]
> d1 <- (sum((x.i-mean(x.i))^2))^(-1) ; d3 <- d1*(mean(x.i)^2) + 1/n
Los intervalos de conanza para y se obtienen directamente mediante:
> confint(regresion,level=0.95)
2.5 % 97.5 %
(Intercept) -10.437587 29.708758
x.i 1.965338 3.477337
Y para
2
:
> q1 <-qchisq((1-0.95)/2,df=(n-2))
> q2 <-qchisq((1+0.95)/2,df=(n-2))
> (n-2)*s*c(1/q2,1/q1) # Intervalo:
> [1] 214.9218 612.3682
18
Paso 3: Generar una graca con los valores (x
i
, y
i
), la recta ajustada y = a+bx, intervalos de conanza
95 % para la respuesta media (se aprecian como bandas de conanza), e intervalos (bandas
tambien) de predicci on 95 %.
> plot(c(0,50),c(-50,200),main="Regresion lineal simple",
xlab="Variable explicativa x.i",ylab="Variable de respuesta y.i",type="n")
> points(x.i,y.i) # Graficar las observaciones (x.i,y.i)
> f <- function(x) 1/n + d1*((x-mean(x.i))^2) # factor para calcular bandas
> q <- qt((1+0.95)/2,df=(n-2)) # cuantil de t-Student (n-2 g.l.)
> x <- seq(from=0,to=50,length=1000) # valores de x a graficar
> lines(x,a+b*x,lwd=3) # recta ajustada y = a + bx (linea gruesa)
> lines(x,a+b*x-q*sqrt(s*(0+f(x)))) # banda inferior de confianza para E(Yx)
> lines(x,a+b*x+q*sqrt(s*(0+f(x)))) # banda superior de confianza para E(Yx)
> lines(x,a+b*x-q*sqrt(s*(1+f(x)))) # banda inferior de prediccion para Yx
> lines(x,a+b*x+q*sqrt(s*(1+f(x)))) # banda superior de prediccion para Yx
0 10 20 30 40 50

5
0
0
5
0
1
0
0
1
5
0
2
0
0
Regresin lineal simple
Variable explicativa x.i
V
a
r
i
a
b
l
e

d
e

r
e
s
p
u
e
s
t
a


y
.
i
La recta en lnea gruesa corresponde a y = a + bx, que son las estimaciones de E(Y
x
) para
distintos valores de x. Las dos bandas que est an m as cerca de la lnea recta gruesa corresponden
a los intervalos de conanza 95 % para la respuesta media E(Y
x
) para distintos valores de x,
de acuerdo a la formula (30). Las dos bandas m as distantes de la lnea gruesa corresponden a
los intervalos de predicci on 95 % para Y
x
, para distintos valores de x, de acuerdo a la f ormula
(39).
19
Bibliografa
Calero, A. (1998) Estadstica (Tomo II), IPN (Mexico D.F).
Casella, G., Berger, R.L. (2002) Statistical Inference, Duxbury (Pacic Grove).
Chambers, J.M. (2008) Software for Data Analysis, Springer (Nueva York).
Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall/CRC (Boca Raton).
Crawley, M.J. (2007) The R book, Wiley (Chichester).
Dalgaard, P. (2002) Introductory Statistics with R, Springer (Nueva York).
DasGupta, A. (2008) Asymptotic Theory of Statistics and Probability, Springer (Nueva York).
Embrechts, P., McNeil, A.J., Straumann, D. (1999) Correlation: pitfalls and alternatives. Risk Maga-
zine 5, 6971.
Erdely, A. (2009) C opulas y dependencia de variables aleatorias: Una introducci on. Miscelanea Mate-
m atica 48, 728.
Everitt, B.S. (2006) A Handbook of Statistical Analyses Using R, Chapman & Hall/CRC (Boca Rat on).
Galton, F. (1886) Family Likeness in Stature. Proceedings of The Royal Society (Londres) 40, 4263.
Gentle, J.E. (2002) Elements of Computational Statistics, Springer (Nueva York).
Gujarati, D.N. (1997) Econometra, McGraw-Hill (Bogota).
Kotz, S., Balakrishnan, N., Read, C.B., Vidakovic, B., Johnson, N.L. (2006) Encyclopedia of Statistical
Sciences, Second edition (16 vol umenes), Wiley (Hoboken).
Lehmann, E.L. (1986) Testing Statistical Hypothesis, Springer (Nueva York).
Lehmann, E.L., Casella, G. (1998) Theory of Point Estimation, Springer (Nueva York).
Mood, A.M., Graybill, F.A., Boes, D.C. (1974) Introduction to the theory of statistics, McGraw-Hill
(Nueva York).
Nelsen, R.B. (1999) An introduction to copulas, Springer (Nueva York).
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996) Applied Linear Statistical Models,
McGraw-Hill (Boston).
Schweizer, B., Wol, E.F. (1981) On nonparametric measures of dependence for random variables.
Annals of Statistics 9, 879885.
Seber, G.A.F. (1977) Linear Regression Analysis, Wiley (Nueva York).
Sering, R.J. (1980) Approximation Theorems of Mathematical Statistics, Wiley (Nueva York).
Ugarte, M.D., Militino, A.F., Arnholt, A.T. (2008) Probability and Statistics with R, Chapman &
Hall/CRC (Boca Rat on).
van der Vaart, A.W. (1998) Asymptotic Statistics, Cambridge University Press (Cambridge UK).
20

You might also like