D5 Time Series PDF

Anlisis de series temporales
Fernando Berzal, berzal@acm.org
Anlisis de series temporales

Caractersticas de las series temporales
Visualizacin de series temporales
Filtrado de series temporales
Medias mviles
Suavizado exponencial
Tcnicas de regresin
Regresin lineal
Coeficiente de correlacin de Pearson
Funcin de autocorrelacin
Caso prctico: Una sesin de anlisis
1
Caractersticas
Tendencias
Estacionalidad (comportamientos peridicos)
Ruido
Otros, p.ej. cambios bruscos de comportamiento
Ejemplos
Tendencia y estacionalidad
Concentracin de CO2
medida en el observatorio de Mauna Loa, Hawaii.
Hawaii. 3
Ejemplos
Variacin suave pero sin tendencia a largo plazo
Concentracin de gas a la salida de una caldera

4
Ejemplos
Tendencia no lineal
Coste de llamadas telefnicas de larga distancia (USA)

5
Ejemplos
Cambios bruscos de comportamiento
ndice Nikkei (Bolsa de Tokyo)

Tokyo)
6
Ejemplos
Conjuntos de datos reales
Estacionalidad a corto y largo plazo,
posibles cambios de comportamiento
y ruido
Llamadas diarias
a un call-
call-center
7
Visualizacin
Nmero anual de manchas solares durante 300 aos

Una relacin de aspecto incorrecta
8
hace difcil reconocer los detalles de cada ciclo.
Visualizacin
Banking [Banking to 45 degrees]
degrees]
Los cambios casi verticales de la figura anterior nos

cuesta trabajo apreciarlos. Sin embargo, reconocemos
mejor los cambios en una serie cuando se dibujan con
un ngulo de 45:
Ahora podemos apreciar que las subidas son ms

rpidas que las bajadas, aunque la figura es tan
pequea que apenas se pueden analizar detalles
9
Visualizacin
Stacking
Dividiendo el eje temporal en 3 fragmentos,

mantenemos el banking
banking y generar un grfico con
unas dimensiones ms razonables (p.ej. 4:3). 10

Medias mviles [moving averages]
averages]
IDEA: Reemplazar el punto central de una serie de un

nmero impar de nmeros consecutivos por su media
aritmtica (filtro paso bajo).
k
1
si =
2k + 1 j = k
xi + j
11
averages]
PROBLEMA: La presencia de un pico en la ventana [i-

[i-k,
i+k
i+k]] distorsiona la media mvil.
POSIBLE SOLUCIN: Utilizacin de pesos (menores en los

extremos de la ventana).
k k
si = w x
j = k
j i+ j donde w
j = k
j =1
Ejemplos: Gaussiana,
Gaussiana, ventana de Hamming
Hamming
12
http://en.wikipedia.org/wiki/Window_function#Hann_window

averages]
k=5
13
averages]
Limitaciones de las medias mviles:

Costosas de calcular: Cuando se utilizan pesos, el
clculo hay que hacerlo desde cero para cada valor.
Problemticas en los extremos de las series de datos
(dada la anchura de la ventana, no se pueden
extender hasta el final de la serie, que suele ser lo
ms interesante).
No se pueden definir fuera de la serie temporal, por lo
que no se pueden utilizar para realizar predicciones.
14

Suavizado exponencial [exponential smoothing]
smoothing]
Proporciona un filtrado fcil de calcular,

adems evita los problemas de las medias mviles:
Suavizado exponencial simple

(para series sin tendencia ni estacionalidad).
Suavizado exponencial doble
(para series con tendencia pero no estacionalidad).
Suavizado exponencial triple
(para series con tendencia y estacionalidad).
15
si = xi + (1 ) si 1
Los distintos mtodos de suavizado exponencial

actualizan el resultado del anterior valor con el ltimo
dato de la serie original (combinando la informacin
ya disponible con la aportada por el nuevo dato
mediante un parmetro, 0< 0<<1
<1).
).
16

Por qu se llama suavizado exponencial?
Si expandimos la recurrencia, obtenemos:

i
si = (1 ) j xi j
j =0
Todas las observaciones previas contribuyen al valor

suavizado, pero su contribucin se suprime por el
exponente creciente del parmetro .
17
Uso en prediccin: Si extendemos el suavizado ms

all del final de los datos disponibles, la prediccin es
extremadamente simple :- :- (
xi + h = si
Ante la presencia de tendencias, la seal suavizada

tiene ir retrasada con respecto a los datos originales
salvo que utilicemos un valor de cercano a 1.
18

si = xi + (1 )( si 1 + ti 1 )
ti = (si si 1 ) + (1 )ti 1
El suavizado exponencial doble retiene informacin

acerca de la tendencia: la seal suavizada si y la
tendencia suavizada ti.
El parmetro se utiliza para realizar un suavizado

exponencial sobre la tendencia. 19
Uso en prediccin:
Si extendemos el suavizado ms all del final de los

datos disponibles, la prediccin es la siguiente:
xi + h = si + hti
20

(a.k.a. mtodo de Holt-
Holt-Winters
Winters))
Una tercera cantidad se utiliza para describir la

estacionalidad, que puede ser aditiva o multiplicativa
segn nos interese.
NOTA:
pi modela el componente peridico de la seal,
donde k es el perodo observado.
21
Holt-Winters
Winters))
ESTACIONALIDAD ADITIVA
si = ( xi pi k ) + (1 )( si 1 + ti 1 )
ti = (si si 1 ) + (1 )ti 1
pi = (xi si ) + (1 ) pi k
xi + h = si + hti + pi k + h
22

Holt-Winters
Winters))
ESTACIONALIDAD MULTIPLICATIVA
xi
si = + (1 )( si 1 + ti 1 )
pi k
ti = (si si 1 ) + (1 )ti 1
xi
pi = + (1 ) pi k
si
xi + h = ( si + hti ) pi k + h 23
Suavizado exponencial [exponential smoothing]
smoothing]
Nmero mensual de pasajeros (en miles).

24
Tcnicas de regresin
La prediccin (numrica) es
Similar a la clasificacin:
Se construye un modelo a partir de un conjunto de
entrenamiento.
Se utiliza el modelo para predecir el valor de una
variable (continua u ordenada).
Diferente a la clasificacin:
El modelo define una funcin continua.
Mtodo ms empleado: Regresin

25
Tcnicas de regresin
Las tcnicas de regresin modelan la relacin entre

una o ms variables independiente (predictores
(predictores))
y una variable dependiente (variable de respuesta).
Mtodos de regresin
Regresin lineal
Regresin no lineal
rboles de regresin (p.ej. CART)

26
Tcnicas de regresin
Regresin lineal simple
Una nica variable independiente:
y = w0 + w1 x
donde w0 (desplazamiento
desplazamiento)) y w1 (pendiente
pendiente))
son los coeficientes de regresin.
regresin.
Mtodo de los mnimos cuadrados

(estima la lnea recta que mejor se ajusta a los datos):
datos):
|D|
(x i x )( y i y )
w = y w x w = i =1
0 1 1 |D|
(x x )2
i =1
i
27
Tcnicas de regresin
28
Tcnicas de regresin
El mtodo de los mnimos cuadrados minimiza la suma

de los cuadrados de los residuos i (las diferencias
entre las predicciones y los valores observados).
29
Tcnicas de regresin
OJO! Al utilizar regresin lineal, la recta y=f(x) que se

obtiene es distinta a la que obtenemos si x=f(y). 30
Tcnicas de regresin
Regresin lineal mltiple
Varias variables independientes:
y = w0 + w1 x1+ w2 x2 +
Resoluble por mtodos numricos de optimizacin

optimizacin..
Muchas funciones no lineales pueden transformarse en

una expresin lineal.
p.ej..
p.ej Un modelo de regresin polinomial
y = w0 + w1 x + w2 x2 + w3 x3
puede transformarse en un modelo lineal
definiendo las variables x2 = x2, x3= x3:
31
y = w0 + w1 x + w2 x2 + w3 x3
Tcnicas de regresin
Regresin lineal
Condiciones necesarias para aplicar regresin lineal:

Obviamente, la muestra ha de ser aleatoria.
El tipo de dependencia descrita ha de ser lineal.
Fijado un valor de la(s) variable(s) independiente(s),
la variable dependiente se distribuye segn una
distribucin normal.
Los errores han de tener la misma varianza
(nube de puntos homognea).
32
Tcnicas de regresin
1. Mediante un diagrama de dispersin, comprobamos

visualmente si existe una relacin lineal entre las
variables X (predictor
(predictor)) e Y (respuesta):
33
Tcnicas de regresin
2. Cuantificamos la relacin construyendo la recta que

resume la dependencia y damos una medida de cmo
se ajusta la recta a los datos (correlacin):
34
Tcnicas de regresin
Coeficiente de correlacin
r=+1 Dependencia lineal total en sentido positivo

(cuanto mayor es X, mayor es Y).
r=
r=--1 Dependencia lineal total en sentido negativo
(cuanto mayor es X, menor es Y ).
35
Tcnicas de regresin
r>0 Existe una dependencia positiva.

Cuanto ms se acerque a 1, mayor es sta.
r<0 Existe una dependencia negativa.
Cuanto ms se acerque a -1, mayor ser.
r=0 No podemos afirmar nada.
36
Tcnicas de regresin
37
Tcnicas de regresin
38
Tcnicas de regresin
El cuarteto de Anscombe
(4 conjuntos de datos con el mismo coeficiente de correlacin) 39
Tcnicas de regresin
Ventaja de r
No depende de las unidades usadas en la medicin.
Limitaciones de r
Slo mide dependencia lineal entre las variables.
OJO! La correlacin no implica causalidad
40
Tcnicas de regresin
"Correlation is not causation but it sure is a hint."

41
-- Edward Tufte
k
( x )( x
i i+k )
1
c(k ) = i =1

con =

x i
i
( x
i =1
) 2 i =1
42
Autocorrelacin para la salida de gas de una caldera

43
Autocorrelacin en las llamadas a un call-

call-center
44
Caso prctico
Conjunto de datos
Mediciones de CO2 en Mauna Loa (Hawaii
(Hawaii))
Adaptado de Philipp K. Jannert:

Jannert:
45
Intermezzo: A Data Analysis Session
Session [captulo 6]
Caso prctico
A partir de las mediciones mensuales (1959-
(1959-1991),
eliminamos las fechas del eje X
y hacemos que la serie empiece de cero:
46
Caso prctico
Tendencia: Apreciamos una tendencia no lineal:
Tendencia:
Intentamos ajustarla con una funcin de la forma xk
Nota: Todas las curvas de ese tipo pasan por (0,0) y (1,1)
Con k=2, tenemos 35*(x/350)^2, pero parece que

nos hemos pasado 47
Caso prctico
Afinamos un poco ms y usamos un valor menor:
OK!
k=1.35
48
Ajuste de la funcin f(x) = 35*(x/350)^1.35
Caso prctico
Para comprobar que no vamos mal,
calculamos los residuos (valor original aproximacin):
Residuos del ajuste f(x) = 35*(x/350)^1.35

49
Caso prctico
Si nuestro ajuste de la tendencia es correcto, los
residuos no deben exhibir tendencia alguna
(deberan aparecer balanceados en torno a y=0):
Suavizamos los residuos para comprobar si an existe

algn tipo de tendencia en los residuos 50
Caso prctico
Estacionalidad:
Estacionalidad:
Apreciamos una periodicidad anual (cada 12 valores)
Ajustamos con una funcin senoidad 3*sin(2*pi*x/12)

51
Caso prctico
Calculamos los residuos tras nuestras aproximaciones
(valor original tendencia estacionalidad)
52
Caso prctico
En la figura anterior no se ve mucho hacemos zoom:
Se sigue apreciando cierta periodicidad, por lo que

usamos un segundo armnico -0.75*sin(2*pi*x/6)
53
Caso prctico
Residuos tras eliminar la tendencia y los dos primeros
armnicos correspondientes a la estacionalidad:
54
Caso prctico
Aadimos lneas que nos ayuden a ver si los residuos
estn sesgados:
Parece sesgado hacia arriba,

por lo que aadimos un desplazamiento de +0.1 55
Caso prctico
Los residuos de nuestra aproximacin final:
f(x) = 315 + 35*(x/350)**1.35

+ 3*sin(2*pi*x/12) 0.75*sin(2*pi*x/6)
56
+ 0.1
Caso prctico
El ajuste que hemos realizado (1959-
(1959-1990):
57
Caso prctico
Nuestra prediccin del futuro (1991-
(1991-2010)
58
Ms tcnicas de anlisis
Forecasting
http://en.wikipedia.org/wiki/Forecasting
59
Bibliografa
Jiawei Han
& Micheline Kamber:
Kamber:
Data Mining:
Mining:
Concepts and Techniques [8.2]
Morgan Kaufmann
Kaufmann,, 2006.
ISBN 1558609016
Philipp K. Janert:
Janert:
Data Analysis
with Open Source Tools [Part I]
OReilly,, 2010.
OReilly
ISBN 0596802358 60

D5 Time Series PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

D5 Time Series PDF

Uploaded by

Copyright:

Available Formats

Anlisis de series temporales

Fernando Berzal, berzal@acm.org

Anlisis de series temporales

Estacionalidad (comportamientos peridicos)

Otros, p.ej. cambios bruscos de comportamiento

Concentracin de gas a la salida de una caldera

Coste de llamadas telefnicas de larga distancia (USA)

ndice Nikkei (Bolsa de Tokyo)

Nmero anual de manchas solares durante 300 aos

Los cambios casi verticales de la figura anterior nos

Ahora podemos apreciar que las subidas son ms

Dividiendo el eje temporal en 3 fragmentos,

Filtrado de series temporales

IDEA: Reemplazar el punto central de una serie de un

PROBLEMA: La presencia de un pico en la ventana [i-

POSIBLE SOLUCIN: Utilizacin de pesos (menores en los

Filtrado de series temporales

Limitaciones de las medias mviles:

Filtrado de series temporales

Proporciona un filtrado fcil de calcular,

Suavizado exponencial simple

Los distintos mtodos de suavizado exponencial

Filtrado de series temporales

Por qu se llama suavizado exponencial?

Si expandimos la recurrencia, obtenemos:

Todas las observaciones previas contribuyen al valor

Uso en prediccin: Si extendemos el suavizado ms

Ante la presencia de tendencias, la seal suavizada

Filtrado de series temporales

El suavizado exponencial doble retiene informacin

El parmetro se utiliza para realizar un suavizado

Si extendemos el suavizado ms all del final de los

Filtrado de series temporales

Una tercera cantidad se utiliza para describir la

Filtrado de series temporales

Nmero mensual de pasajeros (en miles).

Mtodo ms empleado: Regresin

Las tcnicas de regresin modelan la relacin entre

Mtodo de los mnimos cuadrados

El mtodo de los mnimos cuadrados minimiza la suma

OJO! Al utilizar regresin lineal, la recta y=f(x) que se

Resoluble por mtodos numricos de optimizacin

Muchas funciones no lineales pueden transformarse en

Condiciones necesarias para aplicar regresin lineal:

1. Mediante un diagrama de dispersin, comprobamos

2. Cuantificamos la relacin construyendo la recta que

r=+1 Dependencia lineal total en sentido positivo

r>0 Existe una dependencia positiva.

OJO! La correlacin no implica causalidad

"Correlation is not causation but it sure is a hint."

Autocorrelacin para la salida de gas de una caldera

Autocorrelacin en las llamadas a un call-

Adaptado de Philipp K. Jannert:

Con k=2, tenemos 35*(x/350)^2, pero parece que

Residuos del ajuste f(x) = 35*(x/350)^1.35

Suavizamos los residuos para comprobar si an existe

Ajustamos con una funcin senoidad 3*sin(2*pi*x/12)

Se sigue apreciando cierta periodicidad, por lo que

Parece sesgado hacia arriba,

f(x) = 315 + 35*(x/350)**1.35

You might also like

Ajustamos con una funcin senoidad 3sin(2pi*x/12)