Professional Documents
Culture Documents
1.
Modelo de regresi
on
Un modelo de regresion esta especificado por una formula estocastica como la siguiente: Y = 0 + 1 X + , donde Y es la variable respuesta y X es la variable
explicativa, este modelo tiene el nombre de modelo de regresion lineal simple. Fijemonos que Y es un vector al igual que X. El vector es un vector de errores aleatorios
para el modelo. De dichos errores se requiere que tengan una distribucion normal con
media cero y varianza constante ( N(0, 2 )). Este vector es el que da al modelo
la caracterstica de estocastico. La forma matricial de este modelo estara dada por
Y = X + donde las matrices estan formadas como se muestra a continuacion
y1
y2
Y = ..
(1)
.
yn
1 x1
1 x2
X = ..
(2)
1 xn
1
2
(3)
= ..
.
n
Editado en LATEX, ASoftware
libre, claro!
X = .. ..
(4)
..
..
.
.
. .
.
.
.
1 xn1 xn2 . . . xnp
y por ende el vector de parametros sera = (0 1 . . . n ) . Este modelo es llamado
un modelo de regresion lineal m
ultiple. Cada elemento en el vector Y esta dado por la
siguiente expresion yi = 0 + 1 xi1 + 2 xi2 + + p xip para i = 1, 2, 3 . . . , n
1.1.
Mnimos cuadrados
.. . .
.
c = (X X)1 = ...
(6)
. ..
.
c00 c11 . . . cpp
1.2.
Estimaci
on de 2
Como se dijo con anterioridad 2 es la varianza del error (), dicho valor por lo
general no se conoce pero se puede estimar de acuerdo a la formula
s2 =
SSE
SSE
=
n n
umero de parametros del modelo
n (p + 1)
(7)
donde SSE es la suma de los cuadrados del error es decir la suma de los cuadrados de
las entradas del vector = Y E(Y) = Y (X)
2
tiene una
La razon SSE
2
n distribuci
o onn cono = n (p + 1) grados de libertad, de
manera que E(s2 ) = E
2 2
n(p+1)
as se ve que E(s2 ) = 2 .
e-mail:luis.salazar.ramirez@gmail.com
2
n(p+1)
Editado en LATEX, ASoftware
libre, claro!
1.3.
i
expresion t = si
donde s es el estimador de . Dicho intervalo estara estimado a un
cii
nivel de (1 )100 %. As el intervalo esta dado como
(8)
i (t/2 )s cii
i
i
= =
s cii
si
error estandar estimado de i
i
(9)
1.4.
Cuando un modelo contiene muchos terminos, las pruebas t no son la mejor eleccion
para verificar que tan idoneo es el mismo. Alternativamente existe un escalar que permite evaluar la bondad, a manera global, del modelo y es el coeficiente de determinaci
on
m
ultiple
SSE
R2 = 1
(10)
SSyy
P
donde SSyy = (yi y)2 . Notese que y es el promedio del vector Y. En la medida en
que R2 1 significa que Y es mejor explicado por X en el modelo.
Una prueba que es de utilidad que se desea realizar es H0 : 0 = 1 = = p = 0
contra Ha : al menos uno de los parametros (i ) es distinto de cero, la cual evaluara la
utilidad del modelo a nivel global. La estadstica de prueba que se usa en este caso es
F =
(11)
en donde n es el n
umero de puntos de datos, p es el n
umero de variables en el modelo
y p + 1 es el n
umero de parametros a estimar; SSE(Modelo) = SSyy SSE. Otra
expresion equivalente es
R2 /p
(12)
F =
(1 R2 )/(n (p + 1))
Para determinar que tan grande debe ser F antes que podamos llegar a la conclusion,
con un valor dado de , de que el modelo es u
til para predecir y, establecemos la region
de rechazo como sigue: Si F > F se rechaza la hipotesis nula (H0 ) siendo 1 = p gl y
2 = n (p + 1) gl.
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
1.5.
(n 1) SSE
n1
=1
(1 R2 )
n (p + 1) SSyy
n (p + 1)
(13)
1.6.
Verificaci
on de supuestos: An
alisis de residuales
a nivel grafico,
En este momento se centra la antencion en la expresion = Y Y
estos valores permiten modificar o mejorar el modelo de regresion.
1.6.1.
Detecci
on de un modelo mal especificado
Detecci
on de varianzas desiguales: heterocedasticidad
Editado en LATEX, ASoftware
libre, claro!
b
b
residuales
x
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
Detecci
on de la falta de normalidad
Detecci
on de datos fuera de intervalo
Se sabe que casi todos los datos estan en el intevalo ( 3, + 3), si alg
un dato
esta por fuera de dichos lmites es conveniente revisarlo. Una forma es construir un
par de lneas en los diagramas de residuales que esten precisamente a esta distancia,
cualquier dato por encima o por debajo de dichas lneas debe ser analizado con cuidado.
1.6.5.
Errores correlacionados
Uno de los supuestos era que los errores aleatorios son independientes es violado
cuando los datos para el modelamiento provienen de una serie de tiempo.
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
1.7.
Ejemplo
55
50
45
40
35
30
25
10
11
12
13
14
15
16
Figura 4: Ejemplo1
reacomodar la matriz a la forma mostrada en la ecuacion 1, es decir,
1 7
1 8
X = .. ..
. .
1 16
Pasemos a definirlos en matlab como sigue
Y=[27 33 36 32 40 36 44 43 50 58]
X=[ones(10,1); [7 8 9 9 10 10 10 12 13 16]]
una vez all podemos estimar los parametros (los betas) de la siguiente forma:
[betas]=regress(Y,X)
lo que nos devuelve
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
betas =
5.0000
3.3558
de igual manera ubiesemos obtenido esta estimacion a traves de la expresion dada en
la seccion 1.1, es decir:
betas=inv(X*X)*X*Y
que devolvera algo como
betas =
5.0000
3.3558
esto significa que 0 = 5 y que 1 = 3,3558, luego nuestro modelo queda Y = 5 +
3,3558X + de tal manera que el vector de error es
1,4904
1,1538
0,7981
3,2019
1,4423
= Y X
2,5577
5,4423
2,2692
1,3750
0,6923
que en matlab quedara:
xi=Y-X*betas
el primer termino del error es el resultado de 1 = 27 (5 + 3,3558 7), el segundo
2 = 33 (5 + 3,3558 8) y as sucesivamente.
Hallemos ahora la suma de cuadrados SS = :
>>SSE=xi*xi
SSE=
60.2019
Hallemos ahora la estimacion de s2
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
>>s2=SSE/(size(X,1)-2)
s2=
7.5252
>>s=sqrt(s2)
s =
2.7432
que nos da un valor para la desviacion estandar del modelo de s = 7,5252 = 2,7432.
Vamos a necesitar la siguiente matriz c = (X X)1 para hallar los errores estandar
de los estimadores
>> c=inv(X*X)
c =
1.8333
-0.1667
-0.1667
0.0160
Hallemos ahora los intervalos de confianza para los estimadores, primero 0 bajo la
hipotesis nula H0 : 0 = 0 contra Ha : 0 6= 0, as entonces el t estimado es
>>t_0=betas(1)/(s*sqrt(c(1,1)))
t_0 =
1.3461
(los subndices de los vectores y las matrices no empiezan en 0 sino en 1). Buscamos en
la tabla el valor correspondiente para t0,025 con 8 gl y se encuentra que t0,025 = 2,306,
como nuestro t0 < t0,025 entonces no se rechaza la hipotesis nula, es decir que 0 = 0.
Establezcamos el intervalo de confianza al 95 % para t0 .
>> betas(1)+2.306*s*sqrt(c(1,1))
ans =
13.5651
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
>> betas(1)-2.306*s*sqrt(c(1,1))
ans =
-3.5651
de manera que con 95 % de confianza cuando el 0 se encuentra entre 3,5651 y 13,5651,
es decir 3,5651 0 13,5651 se puede considerar como 0.
Hallemos el t correspondiente para el parametro 1
>> t_1=betas(2)/s*sqrt(c(2,2))
t_1 =
9.6711
con este valor vemos que t1 > t/2 de modo que se rechaza la hipotesis nula y se
considera que 1 es distindo de cero con 95 % de confianza; y su intervalo de confianza
respectivo es 2,5550 1 4,1566, como lo entrega matlab
>> betas(2)+2.306*s*sqrt(c(2,2))
ans =
4.1566
>> betas(2)-2.306*s*sqrt(c(2,2))
ans =
2.5550
lo que nos indica que con un 95 % de confianza el 1 es distinto de cero si esta entre
2,5550 1 4,1566.
Veamos ahora la idoneidad del modelo, hallemos R2 . Necesitamos la cantidad SSyy
que la calculamos como
SSyy=(Y-mean(Y))*(Y-mean(Y))
SSyy =
762.9000
ahora procedamos a calcular el R2 :
e-mail:luis.salazar.ramirez@gmail.com
Editado en LATEX, ASoftware
libre, claro!
>> R2=1-SSE/SSyy
R2 =
0.9211
Probemos globalmente si alguno de los es cero, para esto hallamos el valor F de la
manera siguiente:
>> F=(R2/1)/((1-R2)/8)
F =
93.3788
Vemos en la tabla que el valor F = F0,05 = 5,32 luego nuestro estadstico de prueba es
mayor y por ende se rechaza la hipotesis nula H0 : 0 = 1 = 0 contra Ha : al menos
un beta es distinto de cero y contribuye a explicar el comportamiento de y.
Por otro lado el Ra2 es
Rajus=1-(9*SSE)/(8*SSyy)
Rajus =
0.9112
Tanto R2 como Ra2 son valores bastante cercanos a 1 lo que indica que el modelo es
idoneo.
veamos ahora un par casos una interpolacion y una extrapolacion, elijamos un par de
n
umeros: 14 y 18, en el primer caso estamos interpolando, en el segundo extrapolamos.
Antes de comenzar definamos el vector a = (14) que en matlab sera
>> a=[1 4]
a =
1
14
Editado en LATEX, ASoftware
libre, claro!
Editado en LATEX, ASoftware
libre, claro!
6
5
4
3
2
1
0
1
2
3
4
10
11
12
13
14
15
16
Figura 5: Residuales
Tendramos alg
un valor fuera de intervalo si los residuales estuvieran fuera del
intervalo (8,2297 8,2297) resulatante de (3s, 3s), pero como lo muestra la grafica el
valor maximo y mnimo respectivamente son 5.44 y -3.2
e-mail:luis.salazar.ramirez@gmail.com