You are on page 1of 14

1.1.

Planteamiento del problema.

Ejemplo 1.1 La Figura 2.1 (pg. 4), muestra una grca recoa a giendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de Cook and Weisberg (1982)). En abscisas se representa la duracin de las o erupciones. En ordenadas, el intervalo de tiempo transcurrido hasta la siguiente erupcin. o A la vista del grco, parece evidente que existe una relacin ena o tre ambas variables erupciones de duracin D corta son seguidas o de otras tras un intervalo de tiempo I ms reducido que en el caso a de erupciones largas. Podr interesarnos contrastar con criterio esa tad stico si tal relacin existe (en el caso presente, la relacin es tan o o n tida que el plantearse el contraste de hiptesis correspondiente no o tendr demasiado sentido). Ms interesante, en el caso presente, ser a a a llegar a una expresin del tipo I = f (D) relacionando el intervalo con o
ww w.

at

em

at ic a1

.c

om

Son frecuentes en la prctica situaciones en las que se cuenta con obsera vaciones de diversas variables, y es razonable pensar en una relacin entre o ellas. El poder determinar si existe esta relacin y, en su caso, una forma o funcional para la misma es de sumo inters. Por una parte, ello permitie r conocidos los valores de algunas variables, efectuar predicciones sobre los a, valores previsibles de otra. Podr amos tambin responder con criterio estae d stico a cuestiones acerca de la relacin de una variable sobre otra. o

Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.

Intervalo en minutos (I)

2.5

3.0

3.5

4.0

4.5

5.0

1.5

la duracin (ello nos permitir anticipar en qu momento se presentao a e r la siguiente erupcin, conocida la duracin D que se ha observado a o o en la anterior). Es claro que la relacin I = f (D) no puede ser exacta es dif o cil pensar en una funcin que pase precisamente por cada uno de los 272 o puntos en la Figura 2.1. Habremos de considerar ms bien funciones a del tipo I = f (D) + , en que el valor de I es una cierta funcin (deso conocida) de D ms una cantidad aleatoria inobservable . Decimos a que f (D) es una funcin de regresin de I sobre D, y nuestro objetivo o o es especicar su forma. Habitualmente realizamos para ello supuestos simplicadores, como el de que f (D) es una funcin lineal. o

ww

w.

50

at e

60

m at
70 80

ic a

2.0

1.c

om

90

Duracin en minutos (D)

Es de inters sealar que el ajuste de un modelo de regresin no se limita e n o a analizar la relacin entre dos variables; en general, buscaremos relaciones o del tipo Y = f (X0 , X1 , . . . , Xp1 ) + , relacionando de manera aproximada los valores de Y con los que toman otras variables, X0 , . . . , Xp1. Por simplicidad, limitaremos por el momento nuestra atencin a funciones f (X0 , . . . , Xp1 ) lineales; el modelo resultante es o el modelo de regresin lineal, que se examina en la Seccin 2.2 a continuacin. o o o Sealemos, nalmente, que el hecho de aislar una variable Y al lado izn quierdo y escribirla como funcin de otras ms una perturbacin aleatoria o a o no prejuzga ninguna relacin de causalidad en ningn sentido; slo postulao u o mos la existencia de una relacin cuya forma y alcance queremos investigar. o En el Ejemplo 2.1, el ajuste de un modelo del tipo I = f (D) + no implica que consideremos que la duracin D causa el subsiguiente intervalo I hasta o la prxima erupcin, sino slo que parece existir una relacin entre ambas o o o o variables.

Y siendo:

= 0 X0 + 1 X1 + + p1 Xp1 + ,

ww

w.

Consideramos una variable aleatoria Y (regresando, respuesta, o variable endgena) de la que suponemos que se genera as o :

at

em

at

1.2.

Notacin o

ic a

1.c

om

(1.1)

1. 0 , . . . , p1 , parmetros jos desconocidos. a 2. X0 , . . . , Xp1 , variables explicativas no estocsticas, regresores, cuyos a valores son jados por el experimentador. Frecuentemente X0 toma el valor constante uno. 3. una variable aleatoria inobservable. La ecuacin (2.1) indica que la variable aleatoria Y se genera como o combinacin lineal de las variables explicativas, salvo en una perturbacin o o aleatoria . En el Ejemplo 2.1, Y ser la variable I, y el unico regresor ser a a la variable D. Si decidimos ajustar un modelo con trmino constante 0 , e tendr amos como regresores D y X0 =uno. La funcin que aparece en (2.1) o ser entonces f (D) = 0 + 1 D. a El problema que abordamos es el de estimar los parmetros desconocidos a

la variable aleatoria Y , y de los correspondientes valores de las variables explicativas X. Como se ha dicho, es inobservable. La muestra nos permitir a escribir N igualdades similares a (2.1): y1 = 0 x1,0 + 1 x1,1 + + p1 x1,p1 + 1 y2 = 0 x2,0 + 1 x2,1 + + p1 x2,p1 + 2 . . . yN = 0 xN,0 + 1 xN,1 + + p1 xN,p1 + N . En forma matricial, escribiremos dichas N igualdades as : y = X + , siendo:
om

(1.2)

y el vector N 1 de observaciones de la variable aleatoria Y, X la matriz N p de valores de las variables explicativas. Su elemento xij denota el valor que la jsima variable explicativa toma en la i e sima observacin, e o

el vector N 1 de valores de la perturbacin aleatoria . o Denotaremos mediante al vector de estimadores de los parmetros, y a por al vector N 1 de residuos, denido por = y X ; es decir, los residuos recogen la diferencia entre los valores muestrales observados y ajustados de la variable aleatoria Y . Utilizamos minsculas para designar valores muestrales y maysculas pau u ra las correspondientes variables aleatorias (as por ejemplo, y denota el vector de valores observados de la variable aleatoria Y en una determina da experimentacin). El contexto aclarar, por otra parte, cuando y son o a variables aleatorias o valores muestrales. Adoptaremos para la estimacin el criterio m o nimo cuadrtico ordinario a o 2 (MCO). Por consiguiente, diremos que es ptimo si y X es m nimo, denotando la norma eucl dea ordinaria: y
2 def

ww

w.

el vector de parmetros (0 , . . . , p1) , a

at

em

at
=

ic

a1
i

.c
2 yi

Observacin 1.1 El suponer que los valores de los regresores o pueden ser jados por el analista (apartado 2, al comienzo de esta Seccin) nos coloca en una situacin de diseo experimental. De ah o o n que a la matriz X se la denomine matriz de diseo. n Muchas veces (notablemente en Ciencias Sociales) no es posible jar los valores de X, sino tan solo recolectar una muestra. Decimos entonces que estamos ante una situacin observacional (en oposicin o o a un dise o experimental). Ello no afecta a la teor que sigue; la n a inferencia sobre los parmetros , etc. es entonces condicional a los a valores observados de X.
2 es totalmente arbitrario. En el vector minimizando y X lugar de minimizar la norma eucl dea ordinaria, podr amos minimizar L1 (suma de los valores absolutos de los errores de apro||y X || ximacin, tambin llamada norma L1 ), o cualquier otra cosa. Si se o e emplea la norma eucl dea es por conveniencia matemtica y por ser a un criterio razonable desde diversos puntos de vista.

Observacin 1.2 El criterio de seleccionar como estimadores de o

at

em

Observacin 1.3 o Por qu introducir la norma euclidea y e no limitarnos a proponer como criterio la minimizacin de o

at

ic a

1.c

om

Si realizamos las demostraciones en trminos de normas, servirn sea e a cual fuere la norma que adoptemos. Muchos resultados sern as todo a terreno, trasladables de inmediato a problemas con supuestos diferentes a los realizados en la Seccin 2.3 a continuacin. Veremos en breve o o (Observacin 3.1, pg. 18) ventajas adicionales de plantear y resolver o a el problema en trminos de aproximacin vectorial, minimizando una e o norma.

1.3.

Supuestos.
y que la matriz X es no aleatoria,

Adems de suponer que Y = X + a requeriremos lo siguiente: 1. 2. E[ ] = 0. E[ ] = 2 I.

ww w.

yi 0 xi0 1 xi1 . . . p1 xi,p1

Nos referiremos a 1)3) en lo sucesivo como los supuestos habituales. El supuesto 1) no implica prdida de generalidad ni supone ninguna rese triccin, al menos en el caso en que X tiene entre sus columnas una cuyos o valores sean constantes (y sto suele suceder; t e picamente, la primera columna est formada por unos). En efecto, es claro que si: a Y = 0 1 + 1 x 1 + + p1 x p1 + (1.3)

y el vector de perturbaciones verica E[ ] = , entonces (2.3) puede reescribirse equivalentemente como: Y = (0 1 + ) + 1 x1 + + p1 xp1 + ( ), (1.4)

y (2.4) incorpora un vector de perturbaciones ( ) vericando el primero de nuestros supuestos. El supuesto 2), bastante ms restrictivo, requiere que las perturbacioa nes sean incorrelacionadas (covarianzas cero) y homoscedsticas (de idntica a e varianza). El supuesto 3) simplemente fuerza la independencia lineal entre las (p) columnas de X. El requerimiento N > p excluye de nuestra consideracin o el caso N = p, pues entonces y = X es un sistema de ecuaciones lineales determinado, y tiene siempre solucin para algn vector que hace los resio u duos nulos. Las estimaciones del vector se obtendr entonces resolviendo an dicho sistema. Veremos en lo que sigue que este caso particular carece de inters (se dice que no tiene grados de libertad). e Algunos de los supuestos anteriores sern relajados, y las consecuencias a que de ello se derivan estudiadas. Observacin 1.4 Nada impide que los regresores sean transforo
maciones adecuadas de las variables originales. Por ejemplo, si pensamos que la variable aleatoria Y depende del cuadrado de Xk y de otras variables, podr amos especicar un modelo de regresin as o : Y = 0 + 1 x1 + + k x2 + + p1 xp1 + . k
ww w.

Anlogamente, si pensramos que la variable aleatoria W se genera a a del siguiente modo: W = kz1 1 z2 2 ,

siendo una perturbacin aleatoria no negativa (por ejemplo, con o distribucin logar o tmico normal), nada impedir que tomramos loa a garitmos para obtener

at e

m at

ic a

1.c

om

en que xi = log(zi ), 0 = log(k) y = log(). Lo que realmente se requiere es que la expresin de la variable endgena o regresando Y o o sea lineal en los parmetros. a

1.4.

La estimacin m o nimo cuadrtica como a problema de aproximacin vectorial. o


= 0 x0 + + p1 xp1 + ,

La ecuacin matricial y = X + puede reescribirse as o : y (1.5)

1.5.

Proyecciones.

Aunque en lo que sigue se hace un tratamiento generalizable, impl citamente consideramos productos internos (vase Denicin A.1, pg. 229) e o a real-valorados, lo que simplica algunas frmulas. Hacemos tambin un uso o e bastante tosco del lenguaje y notacin, identicando vectores con matrices o columna, operadores lineales y matrices asociadas a ellos, etc. Lo inadecuado del formalismo puede ser fcilmente suplido por el lector, y evita notacin a o que podr hacerse agobiante. a Denicin 1.1 Sea H un espacio vectorial. Sea M H un subespacio del o mismo, e y H un vector cualquiera. Decimos que u es proyeccin de y o sobre M (y lo denotamos por u = PM y ) si: 1. 2. u M, u=y si y M,

ww

w.

at

donde x0 , . . . , xp1 denotan los vectores columna de la matriz X (x0 ser en a general una columna de unos, como se ha indicado). Hay diferentes posibilidades en cuanto a criterio de estimacin de los . Si adoptamos el criterio o MCO propuesto ms arriba, consistente en minimizar 2 , la ecuacin (2.5) a o muestra que el problema puede reformularse as Cuales son los coecien: tes 0 , . . . , p1 que hacen que la combinacin lineal 0 x0 + + p1 xp1 o aproxime ptimamente (en sentido m o nimo cuadrtico) el vector y ? Veremos a inmediatamente que esta combinacin lineal es lo que llamaremos proyeccin o o de y sobre el subespacio generado por las columnas x0 . . . , xp1 .

em

at

ic

a1

.c o

Figura 1.2: El vector PM y es la proyeccin de y sobre M (plano horizontal). o

.c o

Siempre existe (y es unica) la proyeccin de un vector en H sobre el o subespacio M, tal como establece el teorema siguiente1 . Teorema 1.1 Sea H un espacio vectorial, y M un subespacio del mismo. Para cualquier vector y H existe siempre un unico vector u = PM y , proyeccin de y sobre M. Se verica que: o y u
2

ww w.

at

em

at

ic a1

PM y

m n
zM

y z

(1.6)

La Fig. 2.2 ilustra en tres dimensiones la nocin de proyeccin, y hace o o intuitivamente evidente el Teorema 2.1. En dicha gura se ha considerado H = R3 y un subespacio M de dimensin dos representado como el plano o horizontal. Consideremos PM y : podr amos describirlo como el obtenido al dejar caer una plomada desde el extremo de y hasta hacer contacto con M. Es claro que = y PM y es ortogonal a M. Como consecuencia, para cualquier vector b = PM y en M, y b es la hipotenusa de un tringulo a
1

Estrictamente incorrecto. El Teorema E.1, pg. 254 es una versin ms elaborada del a o a

rectngulo, cuyos catetos son y el segmento b PM y . Por tanto, a y b


2

b PM y

>

lo que demuestra la propiedad de PM y de ser la mejor aproximacin de y en o M. (Una demostracin formal que va ms all de esta incompleta argumeno a a tacin puede encontrarse en la Seccin E.1, pg. 254.) o o a

1.6.

Lectura recomendada.
ic a1
.c om

Sobre la utilizacin de R. El primero de los libros citados, Faraway o (2005), ilustra tambin el modo de emplear R para hacer regresin; pero es e o demasiado escueto para servir de introduccin al lenguaje. R es una impleo mentacin de fuente libre del lenguaje estad o stico y grco S (ver por ejemplo a Becker et al. (1988), Chambers and Hastie (1992) o Chambers (1998)). Los textos introductorios sobre S son por ello utilizables con R. Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec co para R, Venables and Ripley (1999b)), Dalgaard (2002), o Ugarte et al. (2008). Hay documentos con extensin de libro disponibles en Internet, como Maindonald o (2000) o Kuhnert and Venables (2005).

ww

Sobre la teor a. Puede leerse como complemento a este cap tulo Faraway (2005), Cap. 1 y Cap. 2, Seccin 1 a 3, o los cap o tulos introductorios de la mir ada de buenos textos que existe sobre regresin lineal: Seber (1977), o Stapleton (1995), Arnold (1981), Draper and Smith (1998), Pea (2002), n Myers (1990), Searle (1971), Ryan (1997) o Trocniz (1987a) son algunos de o ellos.
w.

at

em

at

Complementos y ejercicios Algunos de los ejercicios que siguen requieren hacer uso de un ordenador y un programa especializado, tal como R. En la Seccin 2.6, pg. 11, se o a proporcionan referencias. 1.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo,
x <- 5 El valor de la variable puede ser utilizado en clculos subsiguientes; a tecleando x + 5 obtendr amos 10.
om

1.2 En R para crear un vector y asignarlo a la variable x haremos: x <- c(1,3,4)


ww

1.3 Para efectuar multitud de clculos en R empleamos funcioa


nes. Por ejemplo, para sumar varios n meros y asignar el resultado a u x podr amos escribir: x <- 5 + 7 + 12 o tambin e x <- sum(c(5,7,12)) que hace uso de la funcin sum. o

1.4 El producto interno eucl deo de dos vectores x e y puede calcularse as :


sum(x * y)

w.

at e

m at

ic a

1.c

x %*% y

1.5 En R rige la regla del reciclado, que permite operar con operandos disimilares. Por ejemplo, si:
a <- c(1,2,3) b <- 5 entonces, tecleando a + b obtendr amos el vector (6 7 8) . El argumento ms corto, b, se ha a usado repetidamente para construir un operando que pueda sumarse a a.

a a[1] a[1:2] a[c(1,2)] a[-1] a[-(1:2)] a[c(F,F,T)] a[a>6]

ww w.

entonces, tecleando las expresiones que aparece a la izquierda obtendr amos los resultados que se indican a la derecha:

at

em

produce: produce: produce: produce: produce: produce: produce: produce:

at
6 6 6 6 7 8 8 7

a <- c(6,7,8)

ic
7 8 7 7 8 8

Los sub ndices se ponen entre corchetes, [ ]. Un sub ndice negativo se interpreta como omitir el correspondiente valor. Adems de sub a ndices numricos, podemos emplear sub e ndices lgicos: F (falso) y T (cierto). o Podemos incluso, como en la ultima l nea, emplear expresiones que den como valor un vector lgico: a > 6 produce el vector F T T, que o empleado como sub ndices retorna los elementos de a mayores que 6.

1.7 La funcin help permite interrogar a R sobre el modo de o


empleo de cualquier funcin. Por ejemplo, para obtener la descripcin o o

a1

1.6 En R es muy fcil acceder a elementos aislados de un vector. a Por ejemplo, si:
.c om

help(sum) Emplese la funcin help para averiguar el cometido de las siguientes e o funciones de R: t, cbind, rbind, solve, scan, read.table, list, nrow, ncol. Obsrvese que tecleando e example(scan) podemos ejecutar los ejemplos que aparecen en la documentacin on o line sin necesidad de reteclearlos. Obsrvese tambin que el mandato e e help.start() abre una ventana de ayuda en un navegador si es que hay alguno instalado en la mquina que empleamos, lo que permite a navegar cmodamente por la documentacin. o o

1.8 Cuando escribimos expresiones como


om

sum(x * y)

que asigna a eucl la funcin especicada en el lado derecho. Para o invocarla con los vectores u y v, teclear amos: eucl(u,v). Una funcin puede emplearse como bloque constructivo de otras, o y esto hasta el nivel de complejidad que se desee. La norma eucl dea podr calcularse mediante una funcin denida as a o : norma.eucl <- function(x) { sqrt(eucl(x,x)) } que hace uso de eucl denida anteriormente. Tras esta denicin, o podemos calcular la norma eucl dea de un vector x tecleando simplemente: norma.eucl(x) En realidad, la denicin de una funcin como eucl es innecesaria: en o o R podemos emplear x %* % x (o alternativamente crossprod(x)) que

ww

eucl <- function(x,y) { sum(x*y) }

w.

at e

estamos empleando funciones predenidas (en este caso, sum). En R no necesitamos limitarnos a ellas; el lenguaje es extensible por el usuario. Podr amos denir una funcin eucl para realizar el producto interno o as :

m at

ic a

1.c

1.9 Recordemos que el producto eucl deo (o escalar ) de dos vectores x , y en R3 verica:
< x , y >= ||x ||||y || cos() siendo el ngulo que ambos vectores forman. Esta igualdad se extiena de a RN deniendo cos() convenientemente (vase Denicin A.3, e o pg. 229). Sea PM y la proyeccin de y sobre el subespacio M . Si a o ||x || = 1, del esquema a continuacin inmediatamente se deduce que o < x , y >= ||PM y ||, siendo M el subespacio generado por x . y

x
om

PM y

x e y , obtenga el vector proyeccin del segundo sobre el espacio (unio dimensional) generado por el primero. Comprubese que el vector z e resultante es efectivamente la proyeccin buscada, para lo cual es preo ciso ver: i) Que z es colineal con x , y ii) Que (y z ) x .

1.11 Demustrese que los siguientes cuatro vectores de R3 son e


un sistema generador de dicho espacio, pero no base. 1 1 1 1 0 , 0 , 1 , 1 1 0 1 0

1.12 ( 2.11) Seleccinese, de entre los cuatro vectores indicados o en el Problema 2.11, tres que formen base de R3 . 1.13 ( 2.10) Los siguientes dos vectores generan un subespacio 2-dimensional de R3 . Encuentrese por ejemplo, mediante el procedimiento de Gram-Schmidt una base ortonormal de dicho subespacio. 2 1 0 , 3

ww w.

at

1.10 Escr base una funcin que, dados dos vectores arbitrarios o

em

at

PM y =

< x,y > x < x,x >

ic

a1

Ded zcase que, en el caso general en que ||x || = 1, se verica: u


.c

1.14 Demustrese que la correspondencia PM : x y = PM x e es una aplicacin lineal. o 1.15 La estimacin de un modelo de regresin lineal o o realiza una aproximacin del vector respuesta Y similar a la que lleo var a cabo una red neuronal compuesta por una unica neurona. Sia milar porque en el caso de una red neuronal la estimacin (entrenao miento o aprendizaje) se realiza de ordinario mediante un proceso iterativo, cuyo resultado no necesariamente ha de coincidir exactamente con la estimacin MCO. Un excelente manual sobre redes neuronao les es Haykin (1998). Textos que tratan redes neuronales desde una perspectiva estad stica son Ripley (1996) y Bishop (1996).
Hay alternativas a la regresin lineal: regresin no o o lineal y regresin no paramtrica (en que se considera una relacin o e o entre regresores y regresando que no est constre ida a ser lineal ni de a n ninguna otra forma funcional prejada). En regresin no paramtrica o e se emplean principalmente tres mtodos: kernels, vecinos ms prxie a o mos y splines. Pueden consultarse, por ejemplo, Hastie et al. (2001) y Eubank (1988).

1.16

1.17 Como se ha indicado en la Observacin 2.2, pg. 7, o a hay alternativas al criterio MCO. En lugar de minimizar la suma de cuadrados de los residuos, podr amos minimizar la suma de sus valo res absolutos: N || (norma L1 del vector de residuos). Uno de sus i=1 atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande; pero es computacionalmente mucho ms costosa. a

ww

w.

M at

em

at ic

a1

.c

om

You might also like