You are on page 1of 13

Guia Series de Tiempo

Luis Jaime Salazar R.


Las series de tiempo son importantes en el analisis de mercados para proyecciones
de datos que han sido tomados en diversos puntos de tiempo. Se requiere que dichos
datos estan igualmente espaciados para tener un mejor tratamiento de los mismos, sin
embargo en el caso contrario se han desarrollado metodos para el analisis los que se
escapan a los alcances de este documento.
Cuando se tienen datos en series de tiempo es necesario realizar un analisis previo
referente a los modelos de regresion.

1.

Modelo de regresi
on

Un modelo de regresion esta especificado por una formula estocastica como la siguiente: Y = 0 + 1 X + , donde Y es la variable respuesta y X es la variable
explicativa, este modelo tiene el nombre de modelo de regresion lineal simple. Fijemonos que Y es un vector al igual que X. El vector es un vector de errores aleatorios
para el modelo. De dichos errores se requiere que tengan una distribucion normal con
media cero y varianza constante ( N(0, 2 )). Este vector es el que da al modelo
la caracterstica de estocastico. La forma matricial de este modelo estara dada por
Y = X + donde las matrices estan formadas como se muestra a continuacion

y1
y2

Y = ..
(1)
.
yn

1 x1
1 x2

X = ..
(2)

1 xn

1
2

(3)
= ..
.
n


Editado en LATEX, ASoftware
libre, claro!

y es el vector columna = (0 1 ) . Para el caso en que existan mas variables


(digamos p variables) la matriz de variables explicativas quedara

1 x11 x12 . . . x1p


1 x21 x22 . . . x2p

X = .. ..
(4)
..
..
.
.
. .
.
.
.
1 xn1 xn2 . . . xnp
y por ende el vector de parametros sera = (0 1 . . . n ) . Este modelo es llamado
un modelo de regresion lineal m
ultiple. Cada elemento en el vector Y esta dado por la
siguiente expresion yi = 0 + 1 xi1 + 2 xi2 + + p xip para i = 1, 2, 3 . . . , n

1.1.

Mnimos cuadrados

Por el metodo de mnimos cuadrados se tiene que la estimacion de parametros


esta dada por la ecuacion
= (X X)1 X Y
(5)
= .
cumple, ademas, con la siguiente propiedad E()
Los errores estandar y la covarianza de los estimadores 0 , 1 , . . . y p se determinan
mediante los elementos de la matriz (X X)1 es decir

c00 c11 . . . c0p

.. . .
.
c = (X X)1 = ...
(6)
. ..
.
c00 c11 . . . cpp

de manera que 0 = c00 , 1 = c11 , . . . , p = cpp y la covarianza de los


estimadores esta dada por Cov(i, j ) = cij 2 para i 6= j

1.2.

Estimaci
on de 2

Como se dijo con anterioridad 2 es la varianza del error (), dicho valor por lo
general no se conoce pero se puede estimar de acuerdo a la formula
s2 =

SSE
SSE
=
n n
umero de parametros del modelo
n (p + 1)

(7)

donde SSE es la suma de los cuadrados del error es decir la suma de los cuadrados de
las entradas del vector = Y E(Y) = Y (X)
2
tiene una
La razon SSE
2
n distribuci
o onn cono = n (p + 1) grados de libertad, de
manera que E(s2 ) = E

2 2
n(p+1)

as se ve que E(s2 ) = 2 .

e-mail:luis.salazar.ramirez@gmail.com

2
n(p+1)

E(2 ) pero E(2 ) = = n (p + 1)


Editado en LATEX, ASoftware
libre, claro!

1.3.

Intervalos de confianza y pruebas de hip


otesis para

Para establecer un intervalo de confianza para cada i podemos utilizar la siguiente

i
expresion t = si
donde s es el estimador de . Dicho intervalo estara estimado a un
cii
nivel de (1 )100 %. As el intervalo esta dado como

(8)
i (t/2 )s cii

o lo que es lo mismo, i t/2 (s cii ) i i + t/2 (s cii ) donde t/2 se basa en el


n
umero de grados de libertad asociados a s, es decir n (p + 1).
La estadstica de prueba para probar la hipotesis nula H0 : i = 0 es
t=

i
i
= =
s cii
si
error estandar estimado de i
i

(9)

Para los casos en que la hipotesis alternativa es de la forma Ha : i > 0 o Ha : i < 0, se


rechaza la hipotesis nula si t > t . Por otro lado si |t| > t/2 es rechazada la hipotesis
nula cuando la hipotesis alternativa es Ha : i 6= 0

1.4.

Idoneidad del modelo

Cuando un modelo contiene muchos terminos, las pruebas t no son la mejor eleccion
para verificar que tan idoneo es el mismo. Alternativamente existe un escalar que permite evaluar la bondad, a manera global, del modelo y es el coeficiente de determinaci
on
m
ultiple
SSE
R2 = 1
(10)
SSyy
P
donde SSyy = (yi y)2 . Notese que y es el promedio del vector Y. En la medida en
que R2 1 significa que Y es mejor explicado por X en el modelo.
Una prueba que es de utilidad que se desea realizar es H0 : 0 = 1 = = p = 0
contra Ha : al menos uno de los parametros (i ) es distinto de cero, la cual evaluara la
utilidad del modelo a nivel global. La estadstica de prueba que se usa en este caso es
F =

Cuadrado medio del modelo


SS(Modelo)/p
=
Cuadrado medio del error
SSE/(n (p + 1))

(11)

en donde n es el n
umero de puntos de datos, p es el n
umero de variables en el modelo
y p + 1 es el n
umero de parametros a estimar; SSE(Modelo) = SSyy SSE. Otra
expresion equivalente es
R2 /p
(12)
F =
(1 R2 )/(n (p + 1))
Para determinar que tan grande debe ser F antes que podamos llegar a la conclusion,
con un valor dado de , de que el modelo es u
til para predecir y, establecemos la region
de rechazo como sigue: Si F > F se rechaza la hipotesis nula (H0 ) siendo 1 = p gl y
2 = n (p + 1) gl.
e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

Otra prueba que es de utilidad, y que algunos analistas prefieren, es el coeficiente


de determinacion m
ultiple ajustado denotado como Ra2 . Este coeficicente tiene la caracterstica de que no se deja afectar por el incremento en el n
umero de parametros
2
del modelo, cosa que s sucede con R . Esta definido como
Ra2 = 1

1.5.

(n 1) SSE
n1
=1
(1 R2 )
n (p + 1) SSyy
n (p + 1)

(13)

Intervalo de confianza para yi

Una vez obtenido el modelo interesa realizar algunas proyecciones o interpolaciones


de los datos y es, por ende, necesario calcular un intervalo de confianza para dichos
valores. Nos interesa hallar una combinacion lineal de los parametros E(yi ) = xi 0 0 +
xi 1 1 + + xi p p , conocidos xi 0 , xi j para j = 1, 2, . . . , p, y donde por lo general
xi 0 = 1.
Un intervalo de confianza para E(y) (interpolacion) de (1 )100 % es
p
y (t/2 )s a (X X)1 a
(14)
con a = (1 xi 1 . . . xi p ) y yi = 0 + xi 1 1 + + xi p p , notese la prima del subndice
i esto significa que los valores tomados ya no son los iniciales sino valores cualquiera
interpolados.
Un intervalo de confianza con (1 )100 % de confianza para extrapolaciones es el
siguiente
p
(15)
y t/2 s 1 + a (X X)1 a

1.6.

Verificaci
on de supuestos: An
alisis de residuales

a nivel grafico,
En este momento se centra la antencion en la expresion = Y Y
estos valores permiten modificar o mejorar el modelo de regresion.
1.6.1.

Detecci
on de un modelo mal especificado

El metodo consiste en graficar los residuales contra la o las variables independientes,


es decir si hay mas de dos variables independientes, se toma cada una por separado.
Si al graficar los residuales se encuentra alg
un tipo de patron es evidencia de que hay
problemas en la especificacion del modelo. Vease la figura 1.
1.6.2.

Detecci
on de varianzas desiguales: heterocedasticidad

Si se encuentra un patron como el de la figura 2 se evidencia varianzas desiguales.


El patron anterior (figura 2) corresponde a un patron Poisson, otros como el de la
figura 3 corresponde a una binomial. En los casos en los que se cree que la grafica

de los residuales tiene un comportamiento Poisson se utiliza la transformacion y;


si se encuentra que el patron corresponde a una variable binomial la transformacion
e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

b
b

residuales

x
b
b

Figura 1: Patron cuadratico en los residuales

b
b

b
b

b
b

b
b

b
b
b
b

Figura 2: Patron heterocedastico

b
b

b
b

b
b

b
b
b

b
b

b
b

b
b

Figura 3: Patron heterocedastico binomial

e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

adecuada es sin1 (y), expresado en radianes; si se encuentra un patron multiplicativo


la transformacion adecuada es log(y).
1.6.3.

Detecci
on de la falta de normalidad

De los cuatro supuestos de la regresion estandar realativos al error aleatorio ,


el supuesto de que tiene una distribucion normal es el menos restrictivo cuando
aplicamos el analisis de regresion en la practica . . . desviaciones moderadas respecto
al supuesto de normalidad afectan muy poco a las pruebas estadsticas, intervalos de
confianza e intervalos de prediccion1
Una de las formas de reconocer si los datos violan el supuesto de normalidad es
construir un histograma de frecuencia relativa o un diagrama de tallos y hojas de los
residuales, si la distribucion tiene forma de joroba y no esta muy sesgada se puede estar
razonablemente seguro de que las inferencias sobre el modelo son validas. En el caso
en que las muestras son peque
nas un diagrama de cajas puede ser mas conveniente.
1.6.4.

Detecci
on de datos fuera de intervalo

Se sabe que casi todos los datos estan en el intevalo ( 3, + 3), si alg
un dato
esta por fuera de dichos lmites es conveniente revisarlo. Una forma es construir un
par de lneas en los diagramas de residuales que esten precisamente a esta distancia,
cualquier dato por encima o por debajo de dichas lneas debe ser analizado con cuidado.
1.6.5.

Errores correlacionados

Uno de los supuestos era que los errores aleatorios son independientes es violado
cuando los datos para el modelamiento provienen de una serie de tiempo.

MENDENHALL y SINCICH, Probabilidad y estadstica para ingenieros. p


ag. 656

e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

1.7.

Ejemplo

Veamos un ejemplo: supongamos que tenemos los siguientes vectores


Y = (27 33 36 32 40 36 44 43 50 58)
y
X = (7 8 9 9 10 10 10 12 13 16)
cuya grafica la podemos ver en la figura 4. Como puede apreciarse los datos tienen
una tendencia lineal, la cual vamos a modelar. Para realizar este modelo es preciso
60

55

50

45

40

35

30

25

10

11

12

13

14

15

16

Figura 4: Ejemplo1
reacomodar la matriz a la forma mostrada en la ecuacion 1, es decir,

1 7
1 8

X = .. ..
. .
1 16
Pasemos a definirlos en matlab como sigue
Y=[27 33 36 32 40 36 44 43 50 58]
X=[ones(10,1); [7 8 9 9 10 10 10 12 13 16]]
una vez all podemos estimar los parametros (los betas) de la siguiente forma:
[betas]=regress(Y,X)
lo que nos devuelve

e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

betas =
5.0000
3.3558
de igual manera ubiesemos obtenido esta estimacion a traves de la expresion dada en
la seccion 1.1, es decir:
betas=inv(X*X)*X*Y
que devolvera algo como
betas =
5.0000
3.3558
esto significa que 0 = 5 y que 1 = 3,3558, luego nuestro modelo queda Y = 5 +
3,3558X + de tal manera que el vector de error es

1,4904
1,1538

0,7981

3,2019

1,4423
= Y X

2,5577

5,4423

2,2692

1,3750
0,6923
que en matlab quedara:
xi=Y-X*betas
el primer termino del error es el resultado de 1 = 27 (5 + 3,3558 7), el segundo
2 = 33 (5 + 3,3558 8) y as sucesivamente.
Hallemos ahora la suma de cuadrados SS = :
>>SSE=xi*xi
SSE=
60.2019
Hallemos ahora la estimacion de s2
e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

>>s2=SSE/(size(X,1)-2)
s2=

7.5252
>>s=sqrt(s2)
s =
2.7432

que nos da un valor para la desviacion estandar del modelo de s = 7,5252 = 2,7432.
Vamos a necesitar la siguiente matriz c = (X X)1 para hallar los errores estandar
de los estimadores
>> c=inv(X*X)
c =
1.8333
-0.1667

-0.1667
0.0160

Hallemos ahora los intervalos de confianza para los estimadores, primero 0 bajo la
hipotesis nula H0 : 0 = 0 contra Ha : 0 6= 0, as entonces el t estimado es
>>t_0=betas(1)/(s*sqrt(c(1,1)))
t_0 =
1.3461
(los subndices de los vectores y las matrices no empiezan en 0 sino en 1). Buscamos en
la tabla el valor correspondiente para t0,025 con 8 gl y se encuentra que t0,025 = 2,306,
como nuestro t0 < t0,025 entonces no se rechaza la hipotesis nula, es decir que 0 = 0.
Establezcamos el intervalo de confianza al 95 % para t0 .
>> betas(1)+2.306*s*sqrt(c(1,1))
ans =
13.5651

e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

>> betas(1)-2.306*s*sqrt(c(1,1))
ans =
-3.5651
de manera que con 95 % de confianza cuando el 0 se encuentra entre 3,5651 y 13,5651,
es decir 3,5651 0 13,5651 se puede considerar como 0.
Hallemos el t correspondiente para el parametro 1
>> t_1=betas(2)/s*sqrt(c(2,2))
t_1 =
9.6711
con este valor vemos que t1 > t/2 de modo que se rechaza la hipotesis nula y se
considera que 1 es distindo de cero con 95 % de confianza; y su intervalo de confianza
respectivo es 2,5550 1 4,1566, como lo entrega matlab
>> betas(2)+2.306*s*sqrt(c(2,2))
ans =
4.1566
>> betas(2)-2.306*s*sqrt(c(2,2))
ans =
2.5550
lo que nos indica que con un 95 % de confianza el 1 es distinto de cero si esta entre
2,5550 1 4,1566.
Veamos ahora la idoneidad del modelo, hallemos R2 . Necesitamos la cantidad SSyy
que la calculamos como
SSyy=(Y-mean(Y))*(Y-mean(Y))
SSyy =
762.9000
ahora procedamos a calcular el R2 :

e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

>> R2=1-SSE/SSyy
R2 =
0.9211
Probemos globalmente si alguno de los es cero, para esto hallamos el valor F de la
manera siguiente:
>> F=(R2/1)/((1-R2)/8)
F =
93.3788
Vemos en la tabla que el valor F = F0,05 = 5,32 luego nuestro estadstico de prueba es
mayor y por ende se rechaza la hipotesis nula H0 : 0 = 1 = 0 contra Ha : al menos
un beta es distinto de cero y contribuye a explicar el comportamiento de y.
Por otro lado el Ra2 es
Rajus=1-(9*SSE)/(8*SSyy)
Rajus =
0.9112
Tanto R2 como Ra2 son valores bastante cercanos a 1 lo que indica que el modelo es
idoneo.
veamos ahora un par casos una interpolacion y una extrapolacion, elijamos un par de
n
umeros: 14 y 18, en el primer caso estamos interpolando, en el segundo extrapolamos.
Antes de comenzar definamos el vector a = (14) que en matlab sera
>> a=[1 4]
a =
1

14

En el primer caso se tiene que y = 5 + 3,3558(14) = 51,9808 como se puede ver


adelante
>>yinterp=a*betas
ans =
51.9808
e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

establezcamos el intervalo de confianza para esta interpolacion,


>> yinterp+2.306*s*sqrt(a*c*a)
ans =
55.4897
>> yinterp-2.306*s*sqrt(a*c*a)
ans =
48.4718
as para la imagen a traves del modelo de x = 14 podemos decir que se encuentra entre
48,4718 y 55,4897 con una confianza de 95 %.
Para el caso del valor 18, extrapolacion, definimos el vector a1
>> yextra=a1*betas
yextra =
51.9808
y establezcamos el intervalo de confianza para dicha extrapolacion:
>> yextra+2.306*s*sqrt(1+sqrt(a1*c*a1))
ans =
60.9553
>> yextra+-.306*s*sqrt(1+sqrt(a1*c*a1))
ans =
50.7899
de modo que la extrapolacion para el valor x = 18 con una confianza del 95 % se
encuentra entre los valores 50,7899 y 60,9553
Veamos ahora la verificacion de supuestos. Realicemos la grafica de los residuales
contra x, que se puede ver en la grafica 5. Como se puede ver los residuales no presentan
un patron visible lo que nos deja ver que los errores son debidos a un comportamiento
aleatorio y estaramos verificando el supuesto de que los errores son aleatorios y no
correlacionados.
e-mail:luis.salazar.ramirez@gmail.com


Editado en LATEX, ASoftware
libre, claro!

6
5
4
3
2
1
0
1
2
3
4

10

11

12

13

14

15

16

Figura 5: Residuales
Tendramos alg
un valor fuera de intervalo si los residuales estuvieran fuera del
intervalo (8,2297 8,2297) resulatante de (3s, 3s), pero como lo muestra la grafica el
valor maximo y mnimo respectivamente son 5.44 y -3.2

e-mail:luis.salazar.ramirez@gmail.com

You might also like