R

An alisis de Regresi on.
Introducci on Te orica y Pr actica basada en R
Fernando Tusell
Bilbao, Octubre 2011
Indice general
Indice general Indice de guras Indice de cuadros 1 El modelo de regresi on lineal. 1.1. Planteamiento del problema. . . . . 1.2. Notaci on . . . . . . . . . . . . . . . 1.3. Supuestos. . . . . . . . . . . . . . . 1.4. MCO como aproximaci on vectorial 1.5. Proyecciones. . . . . . . . . . . . . 1.6. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I
IV
1 1 3 5 7 7 9 15 15 17 18 21 28 31 36 43 43 45 46 49 49 50
2 Estimaci on m nimo cuadr atica. 2.1. Obtenci on de los estimadores de los par ametros. 2.2. Una obtenci on alternativa . . . . . . . . . . . . . 2.3. Propiedades del estimador m nimo cuadr atico 2.4. Estimaci on de la varianza de la perturbaci on. . 2.5. El coeciente R2 . . . . . . . . . . . . . . . . . 2.6. Algunos lemas sobre proyecciones. . . . . . . . . 2.7. Lectura recomendada . . . . . . . . . . . . . . .
3 Identicaci on. Colinealidad exacta 3.1. Modelos con matriz de dise no de rango deciente. 3.2. Funciones estimables. . . . . . . . . . . . . . . . . 3.3. Restricciones de identicaci on. . . . . . . . . . . . 3.4. Multicolinealidad exacta y aproximada . . . . . . 3.5. Lectura recomendada. . . . . . . . . . . . . . . . 4 Estimaci on con restricciones
INDICE GENERAL 4.1. Planteamiento del problema. . . . . . . . . . . . . . . . . . . 4.2. Lemas auxiliares. . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Estimaci on condicionada. . . . . . . . . . . . . . . . . . . . . 5 Especicaci on inadecuada del modelo 5.1. Introducci on. . . . . . . . . . . . . . 5.2. Inclusi on de regresores irrelevantes. . 5.3. Omisi on de regresores relevantes. . . 5.4. Consecuencias de orden pr actico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii 50 51 53 60 60 60 63 64 65 65 72 80 81 83 83 85 90 97 105 106 si. . . . . . . . . . . . . . . . . . . . . . 106 111 112 114 119 122 122 123 125 127 130 131
6 Regresi on con perturbaciones normales. 6.1. Introducci on. . . . . . . . . . . . . . . . 6.2. Contraste de hip otesis lineales. . . . . . . 6.3. Intervalos de conanza para la predicci on 6.4. Lectura recomendada. . . . . . . . . . . 7 Regresi on con R 7.1. Tipolog a de variables explicativas. 7.2. Factores y dataframes. . . . . . . . 7.3. F ormulas . . . . . . . . . . . . . . . 7.4. La funci on lm. . . . . . . . . . . . . 7.5. Lectura recomendada. . . . . . . . . . . . . . . . . . . . . . .
8 Inferencia simult anea. 8.1. Problemas que plantea el contrastar m ultiples hip otesis mult aneas . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Desigualdad de Bonferroni. . . . . . . . . . . . . . . . . . 8.3. Intervalos de conanza basados en la m axima t. . . . . . 8.4. M etodo S de Sche e. . . . . . . . . . . . . . . . . . . . . 8.5. Empleo de m etodos de inferencia simult anea. . . . . . . . 9 Multicolinealidad. 9.1. Introducci on. . . . . . . . . . . . . . . . . . . 9.2. Una aproximaci on intuitiva . . . . . . . . . . 9.3. Detecci on de la multicolinealidad aproximada 9.4. Caracterizaci on de formas lineales estimables. 9.5. Varianza en la estimaci on de una forma lineal. 9.6. Elecci on optima de observaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 Regresi on sesgada. 136 10.1. Introducci on. . . . . . . . . . . . . . . . . . . . . . . . . . . 136 10.2. Una aproximaci on intuitiva. . . . . . . . . . . . . . . . . . . 137
INDICE GENERAL 10.3. Regresi on ridge. . . . . . . . . . . . . . 10.4. Regresi on en componentes principales. 10.5. Regresi on en ra ces latentes . . . . . . 10.6. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii 139 150 158 162
11 Evaluaci on del ajuste. Diagn osticos. 165 11.1. An alisis de residuos. . . . . . . . . . . . . . . . . . . . . . . 165 11.2. An alisis de inuencia. . . . . . . . . . . . . . . . . . . . . . . 170 11.3. An alisis gr aco de residuos . . . . . . . . . . . . . . . . . . . 174 12 Selecci on de modelos. 12.1. Criterios para la comparaci on. . . . . . . . . 12.2. Selecci on de variables. . . . . . . . . . . . . 12.3. El LASSO . . . . . . . . . . . . . . . . . . . 12.4. Modelos bien estructurados jer arquicamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 180 189 200 201
13 Transformaciones 204 13.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 13.2. Transformaciones de los regresores . . . . . . . . . . . . . . . 204 13.3. Transformaciones de la variable respuesta . . . . . . . . . . . 207 14 Regresi on con respuesta cualitativa 211 14.1. El modelo logit. . . . . . . . . . . . . . . . . . . . . . . . . . 211 A Algunos resultados en Algebra Lineal. 220 A.1. Resultados varios sobre Algebra Matricial. . . . . . . . . . . 220 A.2. C alculo diferencial con notaci on matricial . . . . . . . . . . . 222 A.3. Lectura recomendada . . . . . . . . . . . . . . . . . . . . . . 223 B Algunos prerrequisitos estad sticos. 224 2 B.1. Distribuciones y F descentradas . . . . . . . . . . . . . . 224 B.2. Estimaci on m aximo veros mil . . . . . . . . . . . . . . . . . 225 B.3. Contraste raz on generalizada de verosimilitudes . . . . . . . 226 C Regresi on en S-Plus y R. C.1. El sistema estad stico y gr aco S-Plus . . . . . . . . . . . . C.2. El sistema estad stico y gr aco R . . . . . . . . . . . . . . . C.3. Correspondencia de funciones para regresi on y ANOVA en S-Plus y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 227 227 234
D Procedimientos de c alculo. 235 D.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
D.2. Transformaciones ortogonales. . . . . . . . . . . . . . . . . . 235 D.3. Factorizaci on QR. . . . . . . . . . . . . . . . . . . . . . . . . 238 D.4. Bibliograf a . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 E Enunciados y demostraciones formales 241 E.1. Existencia y unicidad de proyecciones. . . . . . . . . . . . . 241 E.2. Proyecci on sobre subespacios h = M K (B ). . . . . . . . . 244 Bibliograf a 246
Indice de guras
1.1. Old Faithful Geyser: datos de 272 erupciones. . . . . . . . . . . 1.2. El vector PM y es la proyecci on de y sobre M (plano horizontal). es la proyecci 2.1. X on de y sobre M . R2 = cos2 . . . . . . . . . 2.2. En un ajuste sin t ermino constante, la pendiente depende de la elecci on arbitraria del origen . . . . . . . . . . . . . . . . . . . . 3.1. Regresi on en el caso de matrix X de rango deciente. . . . . . . 3.2. Caso de un vector parcialmente estimable. . . . . . . . . . . . 2 8 29 42 44 45
9.1. Multicolinealidad exacta (panel superior) y aproximada (panel inferior). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 (k) ) en el estimador ridge. Las l 10.1. Componentes del ECM ( neas de trazos y puntos representa respectivamente la varianza y (sesgo)2 (k) en funci (k) ]. de on de k . La curva s olida representa ECM [ MCO.143 La l nea horizontal es la varianza (y ECM) del estimador 10.2. Trazas ridge y GVC para los datos longley . . . . . . . . . . . 147 11.1. Una observaci on como a tiene residuo borrado muy grande, y gran inuencia en la pendiente de la recta de regresi on. . . . . . 171 11.2. Gr acos para contraste de normalidad . . . . . . . . . . . . . . 177 12.1. Valores de Cp y R para 141 modelos ajustados a los datos UScrime 194
2
iv
13.1. Disposici on de residuos sugiriendo una transformaci on cuadr atica del regresor Xi . . . . . . . . . . . . . . . . . . . . . . . . . . 205 D.1. Visualizaci on de la transformaci on de Householder. . . . . . . . 237
Indice de cuadros
C.1. Equivalencia de funciones para regresi on y ANOVA en S-Plus y R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Introducci on
Lo que sigue contiene una introducci on muy concisa al an alisis de regresi on, concebida como apoyo de las clases. Hay varios niveles de lectura: en un primer nivel, las Observaciones que jalonan el texto pueden en su mayor a omitirse, sin p erdida de continuidad. Ello proporciona una lectura bastante lineal. Si se desea una lectura m as detallada, con digresiones que, no siendo imprescindibles, pueden mejorar la comprensi on del conjunto, conviene leer tanto las observaciones como las secciones de Complementos y ejercicios al n de cada cap tulo: son parte integrante del texto a este segundo nivel y completan muchos detalles. A lo largo del texto, tanto en demostraciones como en ejercicios o complementos se ha hecho uso abundante del s mbolo de giro peligroso mostrado en el margen, popularizado por la obra cl asica Knuth (1986). Se trata de fragmentos que corresponder an a un tercer nivel, con detalles de inter es, extensiones de alguna idea, referencias a la literatura o ejercicios y demostraciones de mayor dicultad. La echa vertical remite a alg un ejercicio, observaci on o ejemplo que son requisito previo. Hay un mundo de diferencia entre saber c omo se hacen las cosas y saber hacerlas. Querr amos que los alumnos supieran hacerlas. La experiencia sugiere que lo que resulta de m as ayuda al lector es ver ejemplos de aplicaci on detallados, que pueda reproducir o modicar para resolver sus propios problemas. Intercalados entre la teor a hay fragmentos en R, que el lector puede ejecutar o tomar como modelo. Todos se han ejecutado con R versi on 2.13.2. No se ha buscado el c odigo m as terso ni la forma m as r apida o elegante de hacer las cosas, sino la que ilustra mejor la teor a.
vi
Cap tulo 1
El modelo de regresi on lineal.

1.1. Planteamiento del problema.
Son frecuentes en la pr actica situaciones en las que se cuenta con observaciones de diversas variables, y es razonable pensar en una relaci on entre ellas. El poder determinar si existe esta relaci on y, en su caso, una forma funcional para la misma es de sumo inter es. Por una parte, ello permitir a, conocidos los valores de algunas variables, efectuar predicciones sobre los valores previsibles de otra. Podr amos tambi en responder con criterio estad stico a cuestiones acerca de la relaci on de una variable sobre otra. Ejemplo 1.1 La Figura 1.1 (p ag. 2), muestra una gr aca recogiendo datos correspondientes a 272 erupciones del geyser Old Faithfull, en el Parque Nacional de Yellowstone (los datos proceden de Cook and Weisberg (1982)). En abscisas se representa la duraci on de las erupciones. En ordenadas, el intervalo de tiempo transcurrido hasta la siguiente erupci on. A la vista del gr aco, parece evidente que existe una relaci on entre ambas variables erupciones de duraci on D corta son seguidas de otras tras un intervalo de tiempo I m as reducido que en el caso de erupciones largas. Podr a interesarnos contrastar con criterio estad stico si tal relaci on existe (en el caso presente, la relaci on es tan n tida que el plantearse el contraste de hip otesis correspondiente no tendr a demasiado sentido). M as interesante, en el caso presente, ser a llegar a una expresi on del tipo I = f (D ) relacionando el intervalo con la duraci on (ello nos permitir a anticipar en qu e momento se presentar a la siguiente erupci on, conocida la duraci on D que se ha observado en la anterior). Es claro que la relaci on I = f (D ) no puede ser exacta es dif cil pensar en una funci on que pase precisamente por cada uno de los 272 1
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION Figura 1.1: Old Faithful Geyser: datos de 272 erupciones.
Intervalo en minutos (I)
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
50
60
70
80
90
Duracin en minutos (D)
puntos en la Figura 1.1. Habremos de considerar m as bien funciones del tipo I = f (D ) + , en que el valor de I es una cierta funci on (desconocida) de D m as una cantidad aleatoria inobservable . Decimos que f (D ) es una funci on de regresi on de I sobre D , y nuestro objetivo es especicar su forma. Habitualmente realizamos para ello supuestos simplicadores, como el de que f (D ) es una funci on lineal. Fin del ejemplo
Es de inter es se nalar que el ajuste de un modelo de regresi on no se limita a analizar la relaci on entre dos variables; en general, buscaremos relaciones del tipo Y = f (X0 , X1 , . . . , Xp1 ) + , relacionando de manera aproximada los valores de Y con los que toman otras variables, X0 , . . . , Xp1. Por simplicidad, limitaremos por el momento
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION
nuestra atenci on a funciones f (X0 , . . . , Xp1 ) lineales; el modelo resultante es el modelo de regresi on lineal, que se examina en la Secci on 1.2 a continuaci on. Se nalemos, nalmente, que el hecho de aislar una variable Y al lado izquierdo y escribirla como funci on de otras m as una perturbaci on aleatoria no prejuzga ninguna relaci on de causalidad en ning un sentido; s olo postulamos la existencia de una relaci on cuya forma y alcance queremos investigar. En el Ejemplo 1.1, el ajuste de un modelo del tipo I = f (D ) + no implica que consideremos que la duraci on D causa el subsiguiente intervalo I hasta la pr oxima erupci on, sino s olo que parece existir una relaci on entre ambas variables.
1.2.
Notaci on
Consideramos una variable aleatoria Y (regresando, respuesta, o variable end ogena) de la que suponemos que se genera as : Y siendo: 1. 0 , . . . , p1 , par ametros jos desconocidos. 2. X0 , . . . , Xp1 , variables explicativas no estoc asticas, regresores, cuyos valores son jados por el experimentador. Frecuentemente X0 toma el valor constante uno. 3. una variable aleatoria inobservable. La ecuaci on (1.1) indica que la variable aleatoria Y se genera como combinaci on lineal de las variables explicativas, salvo en una perturbaci on aleatoria . En el Ejemplo 1.1, Y ser a la variable I , y el u nico regresor ser a la variable D . Si decidimos ajustar un modelo con t ermino constante 0 , tendr amos como regresores D y X0 =uno. La funci on que aparece en (1.1) ser a entonces f (D ) = 0 + 1 D . El problema que abordamos es el de estimar los par ametros desconocidos 0 , . . . , p1. Para ello contamos con una muestra de N observaciones de la variable aleatoria Y , y de los correspondientes valores de las variables explicativas X . Como se ha dicho, es inobservable. La muestra nos = 0 X0 + 1 X1 + + p1 Xp1 + , (1.1)
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION permitir a escribir N igualdades similares a (1.1): y1 = 0 x1,0 + 1 x1,1 + + p1 x1,p1 + 1 y2 = 0 x2,0 + 1 x2,1 + + p1 x2,p1 + 2 . . . yN = 0 xN,0 + 1 xN,1 + + p1xN,p1 + N . En forma matricial, escribiremos dichas N igualdades as : y = X + , siendo: y el vector N 1 de observaciones de la variable aleatoria Y,
(1.2)
X la matriz N p de valores de las variables explicativas. Su elemento xij denota el valor que la j esima variable explicativa toma en la i esima observaci on, el vector de par ametros (0 , . . . , p1 ) , el vector N 1 de valores de la perturbaci on aleatoria . al vector de estimadores de los par Denotaremos mediante ametros, y por al vector N 1 de residuos, denido por = y X ; es decir, los residuos recogen la diferencia entre los valores muestrales observados y ajustados de la variable aleatoria Y . Utilizamos min usculas para designar valores muestrales y may usculas para las correspondientes variables aleatorias (as por ejemplo, y denota el vector de valores observados de la variable aleatoria Y en una determinada y experimentaci on). El contexto aclarar a, por otra parte, cuando son variables aleatorias o valores muestrales. Adoptaremos para la estimaci on el criterio m nimo cuadr atico ordina 2 es rio (MCO) . Por consiguiente, diremos que es optimo si y X m nimo, denotando la norma eucl dea ordinaria: y (ver Denici on A.2, p ag. 220). Observaci on 1.1 El suponer que los valores de los regresores
pueden ser jados por el analista (apartado 2, al comienzo de esta
2
def
2 yi i

Secci on) nos coloca en una situaci on de dise no experimental. De ah que a la matriz X se la denomine matriz de dise no . Muchas veces (notablemente en Ciencias Sociales) no es posible jar los valores de X , sino tan solo recolectar una muestra. Decimos entonces que estamos ante una situaci on observacional (en oposici on a un dise no experimental). Ello no afecta a la teor a que sigue; la inferencia sobre los par ametros , etc. es entonces condicional a los valores observados de X .
Observaci on 1.2 El criterio de seleccionar como estimadores minimizando y X 2 es totalmente arbitrario. de el vector En lugar de minimizar la norma eucl dea ordinaria, podr amos mini mizar ||y X ||L1 (suma de los valores absolutos de los errores de aproximaci on, tambi en llamada norma L1 ), o cualquier otra cosa. Si se emplea la norma eucl dea es por conveniencia matem atica y por ser un criterio razonable desde diversos puntos de vista. Observaci on 1.3 Por qu e introducir la norma euclidea y no limitarnos a proponer como criterio la minimizaci on de
0 xi0 1 xi1 . . . p1 xi,p1 yi
2
Si realizamos las demostraciones en t erminos de normas, servir an sea cual fuere la norma que adoptemos. Muchos resultados ser an as todo terreno, trasladables de inmediato a problemas con supuestos diferentes a los realizados en la Secci on 1.3 a continuaci on. Veremos en breve (Observaci on 2.1, p ag. 16) ventajas adicionales de plantear y resolver el problema en t erminos de aproximaci on vectorial, minimizando una norma.
1.3.
Supuestos.
Adem as de suponer que Y = X + y que la matriz X es no aleatoria, requeriremos lo siguiente: 1. 2. 3. E [ ] = 0. E [ ] = 2 I . rango(X ) = p < N .
Nos referiremos a 1)3) en lo sucesivo como los supuestos habituales. El supuesto 1) no implica p erdida de generalidad ni supone ninguna restricci on, al menos en el caso en que X tiene entre sus columnas una cuyos valores sean constantes (y esto suele suceder; t picamente, la primera columna est a formada por unos). En efecto, es claro que si: Y = 0 1 + 1 x 1 + + p1 x p1 + (1.3)
y el vector de perturbaciones verica E [ ] = , entonces (1.3) puede reescribirse equivalentemente como: Y = (0 1 + ) + 1 x1 + + p1 xp1 + ( ), (1.4)
y (1.4) incorpora un vector de perturbaciones ( ) vericando el primero de nuestros supuestos. El supuesto 2), bastante m as restrictivo, requiere que las perturbaciones sean incorrelacionadas (covarianzas cero) y homosced asticas (de id entica varianza). El supuesto 3) simplemente fuerza la independencia lineal entre las (p) columnas de X . El requerimiento N > p excluye de nuestra consideraci on es un sistema de ecuaciones lineael caso N = p, pues entonces y = X que hace los les determinado, y tiene siempre soluci on para alg un vector residuos nulos. Las estimaciones del vector se obtendr an entonces resolviendo dicho sistema. Veremos en lo que sigue que este caso particular carece de inter es (se dice que no tiene grados de libertad). Algunos de los supuestos anteriores ser an relajados, y las consecuencias que de ello se derivan estudiadas. Observaci on 1.4 Nada impide que los regresores sean transformaciones adecuadas de las variables originales. Por ejemplo, si pensamos que la variable aleatoria Y depende del cuadrado de Xk y de otras variables, podr amos especicar un modelo de regresi on as : Y = 0 + 1 x1 + + k x2 k + + p1 xp1 + .
An alogamente, si pens aramos que la variable aleatoria W se genera del siguiente modo: W = kz1 1 z2 2 ,
siendo una perturbaci on aleatoria no negativa (por ejemplo, con distribuci on logar tmico normal), nada impedir a que tom aramos logaritmos para obtener Y = log(W ) = 0 + 1 x1 + 2 x2 + ,

en que xi = log(zi ), 0 = log(k) y = log( ). Lo que realmente se requiere es que la expresi on de la variable end ogena o regresando Y sea lineal en los par ametros.
1.4.
La estimaci on m nimo cuadr atica como problema de aproximaci on vectorial.

y 0 x0 + + p1xp1 + = , (1.5)
+ La ecuaci on matricial y = X puede reescribirse as :
donde x0 , . . . , xp1 denotan los vectores columna de la matriz X (x0 ser a en general una columna de unos, como se ha indicado). Hay diferentes posibilidades en cuanto a criterio de estimaci on de los . Si adoptamos el criterio MCO propuesto m as arriba, consistente en minimizar 2 , la ecuaci on (1.5) muestra que el problema puede reformularse as : Cuales 0 x0 + son los coecientes 0 , . . . , p1 que hacen que la combinaci on lineal p1 xp1 aproxime + optimamente (en sentido m nimo cuadr atico) el vector y ? Veremos inmediatamente que esta combinaci on lineal es lo que llamaremos proyecci on de y sobre el subespacio generado por las columnas x0 . . . , xp1 .
1.5.
Proyecciones.
Aunque en lo que sigue se hace un tratamiento generalizable, impl citamente consideramos productos internos (v ease Denici on A.1, p ag. 220) real-valorados, lo que simplica algunas f ormulas. Hacemos tambi en un uso bastante tosco del lenguaje y notaci on, identicando vectores con matrices columna, operadores lineales y matrices asociadas a ellos, etc. Lo inadecuado del formalismo puede ser f acilmente suplido por el lector, y evita notaci on que podr a hacerse agobiante. Denici on 1.1 Sea H un espacio vectorial. Sea M H un subespacio del mismo, e y H un vector cualquiera. Decimos que u es proyecci on de y sobre M (y lo denotamos por u = PM y ) si: 1. 2. 3. u M, u=y si y M, si y / M. (y u ) M
Figura 1.2: El vector PM y es la proyecci on de y sobre M (plano horizontal).
PM y b
Siempre existe (y es u nica) la proyecci on de un vector en H sobre el subespacio M , tal como establece el teorema siguiente1 . Teorema 1.1 Sea H un espacio vectorial, y M un subespacio del mismo. Para cualquier vector y H existe siempre un u nico vector u = PM y , proyecci on de y sobre M . Se verica que: y u
2
m n
z M
y z
(1.6)
La Fig. 1.2 ilustra en tres dimensiones la noci on de proyecci on, y hace intuitivamente evidente el Teorema 1.1. En dicha gura se ha considerado H = R3 y un subespacio M de dimensi on dos representado como el plano horizontal. Consideremos PM y : podr amos describirlo como el obtenido al dejar caer una plomada desde el extremo de y hasta hacer contacto con M . Es claro que = y PM y es ortogonal a M . Como consecuencia, para cualquier vector b = PM y en M , y b es la hipotenusa de un tri angulo
Estrictamente incorrecto. El Teorema E.1, p ag. 242 es una versi on m as elaborada del Teorema 1.1.
1
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION rect angulo, cuyos catetos son y el segmento b PM y . Por tanto, y b
2
b PM y
>
lo que demuestra la propiedad de PM y de ser la mejor aproximaci on de y en M . (Una demostraci on formal que va m as all a de esta incompleta argumentaci on puede encontrarse en la Secci on E.1, p ag. 242.)
1.6.
Lectura recomendada.
Sobre la teor a. Puede leerse como complemento a este cap tulo Faraway (2005), Cap. 1 y Cap. 2, Secci on 1 a 3, o los cap tulos introductorios de la mir ada de buenos textos que existe sobre regresi on lineal: Seber (1977), Stapleton (1995), Arnold (1981), Draper and Smith (1998), Fox (2002), Pen a (2002), Myers (1990), Searle (1971), Ryan (1997) o Troc oniz (1987a) son algunos de ellos. Sobre la utilizaci on de R. El primero de los libros citados, Faraway (2005), ilustra tambi en el modo de emplear R para hacer regresi on (pero es demasiado escueto para servir de introducci on al lenguaje). R es una implementaci on de fuente libre del lenguaje estad stico y gr aco S (ver por ejemplo Becker et al. (1988), Chambers and Hastie (1992) o Chambers (1998)). Los textos introductorios sobre S son por ello utilizables con R. Buenos manuales incluyen Venables and Ripley (1999a) (con su complemento espec co para R, Venables and Ripley (1999b)), Dalgaard (2002), o Ugarte et al. (2008). Hay documentos con extensi on de libro disponibles en Internet, como Maindonald (2000) o Kuhnert and Venables (2005).
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION Complementos y ejercicios
10
Algunos de los ejercicios que siguen requieren hacer uso de un ordenador y un programa especializado, tal como R. En la Secci on 1.6, p ag. 9, se proporcionan referencias. 1.1 En R para asignar un valor a una variable podemos colocarla a la izquierda del operador <-. Por ejemplo,
x <- 5 El valor de la variable puede ser utilizado en c alculos subsiguientes; tecleando x + 5 obtendr amos 10.
1.2 En R para crear un vector y asignarlo a la variable x

haremos: x <- c(1,3,4)
1.3 Para efectuar multitud de c alculos en R empleamos funciones. Por ejemplo, para sumar varios n umeros y asignar el resultado a x podr amos escribir:
x <- 5 + 7 + 12 o tambi en x <- sum(c(5,7,12)) que hace uso de la funci on sum.
1.4 El producto interno eucl deo de dos vectores x e y puede

calcularse as : sum(x * y) o alternativamente:

x %*% y
11
1.5 En R rige la regla del reciclado, que permite operar con

operandos disimilares. Por ejemplo, si: a <- c(1,2,3) b <- 5 entonces, tecleando a + b obtendr amos el vector (6 7 8) . El argumento m as corto, b, se ha usado repetidamente para construir un operando que pueda sumarse a a.
1.6 En R es muy f acil acceder a elementos aislados de un vector. Por ejemplo, si: a <- c(6,7,8) entonces, tecleando las expresiones que aparece a la izquierda obtendr amos los resultados que se indican a la derecha: a a[1] a[1:2] a[c(1,2)] a[-1] a[-(1:2)] a[c(F,F,T)] a[a>6] produce: produce: produce: produce: produce: produce: produce: produce: 6 6 6 6 7 8 8 7 7 8 7 7 8
Los sub ndices se ponen entre corchetes, [ ]. Un sub ndice negativo se interpreta como omitir el correspondiente valor. Adem as de sub ndices num ericos, podemos emplear sub ndices l ogicos: F (falso) y T (cierto). Podemos incluso, como en la u ltima l nea, emplear expresiones que den como valor un vector l ogico: a > 6 produce el vector F T T, que empleado como sub ndices retorna los elementos de a mayores que 6.
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION 1.7 La funci on help permite interrogar a R sobre el modo de
empleo de cualquier funci on. Por ejemplo, para obtener la descripci on de sum podr amos teclear: help(sum) Empl eese la funci on help para averiguar el cometido de las siguientes funciones de R: t, cbind, rbind, solve, scan, read.table, list, nrow, ncol. Obs ervese que tecleando example(scan) podemos ejecutar los ejemplos que aparecen en la documentaci on on line sin necesidad de reteclearlos. Obs ervese tambi en que el mandato help.start() abre una ventana de ayuda en un navegador si es que hay alguno instalado en la m aquina que empleamos, lo que permite navegar c omodamente por la documentaci on.
12
1.8 Cuando escribimos expresiones como

sum(x * y) estamos empleando funciones predenidas (en este caso, sum). En R no necesitamos limitarnos a ellas; el lenguaje es extensible por el usuario. Podr amos denir una funci on eucl para realizar el producto interno as : eucl <- function(x,y) { sum(x*y) } que asigna a eucl la funci on especicada en el lado derecho. Para invocarla con los vectores u y v, teclear amos: eucl(u,v). Una funci on puede emplearse como bloque constructivo de otras, y esto hasta el nivel de complejidad que se desee. La norma eucl dea podr a calcularse mediante una funci on denida as : norma.eucl <- function(x) { sqrt(eucl(x,x)) } que hace uso de eucl denida anteriormente. Tras esta denici on, podemos calcular la norma eucl dea de un vector x tecleando simplemente: norma.eucl(x) En realidad, la denici on de una funci on como eucl es innecesaria: en R podemos emplear x %* % x (o alternativamente crossprod(x)) que cumplen an alogo cometido.
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION 1.9 Recordemos que el producto eucl deo (o escalar ) de dos
vectores x , y en R3 verica: < x , y >= ||x ||||y || cos() siendo el angulo que ambos vectores forman. Esta igualdad se extiende a RN deniendo cos() convenientemente (v ease Denici on A.3, p ag. 220). Sea PM y la proyecci on de y sobre el subespacio M . Si ||x || = 1, del esquema a continuaci on inmediatamente se deduce que < x , y >= ||PM y ||, siendo M el subespacio generado por x. y
13
PM y
Ded uzcase que, en el caso general en que ||x || = 1, se verica: PM y = < x,y > x < x,x >
1.10 Escr base una funci on que, dados dos vectores arbitrarios
x e y , obtenga el vector proyecci on del segundo sobre el espacio (unidimensional) generado por el primero. Compru ebese que el vector z resultante es efectivamente la proyecci on buscada, para lo cual es preciso ver: i) Que z es colineal con x , y ii) Que (y z ) x .
1.11 Demu estrese que los siguientes cuatro vectores de R3 son

un sistema generador de dicho espacio, pero no base.

1 1
1 0
1 1
1 0
dos en el Problema 1.11, tres que formen base de R3 .
1.12 ( 1.11) Selecci onese, de entre los cuatro vectores indica-
0 , 0 , 1 , 1
pacio 2-dimensional de R3 . Encuentrese por ejemplo, mediante el procedimiento de Gram-Schmidt una base ortonormal de dicho subespacio. 1 2 , 0 3 0 1
1.13 ( 1.10) Los siguientes dos vectores generan un subes-
LINEAL. CAP ITULO 1. EL MODELO DE REGRESION 1.14 Demu estrese que la correspondencia PM : x y =
14
PM x es una aplicaci on lineal.
1.15 La estimaci on de un modelo de regresi on lineal realiza una aproximaci on del vector respuesta Y similar a la que llevar a a cabo una red neuronal compuesta por una u nica neurona. Similar porque en el caso de una red neuronal la estimaci on (entrenamiento o aprendizaje ) se realiza de ordinario mediante un proceso iterativo, cuyo resultado no necesariamente ha de coincidir exactamente con la estimaci on MCO. Un excelente manual sobre redes neuronales es Haykin (1998). Textos que tratan redes neuronales desde una perspectiva estad stica son Ripley (1996) y Bishop (1996). 1.16 Hay alternativas a la regresi on lineal: regresi on no lineal y regresi on no param etrica (en que se considera una relaci on entre regresores y regresando que no est a constre nida a ser lineal ni de ninguna otra forma funcional prejada). En regresi on no param etrica se emplean principalmente tres m etodos: kernels, vecinos m as pr oximos y splines. Pueden consultarse, por ejemplo, Hastie et al. (2001) y Eubank (1988).
Como se ha indicado en la Observaci on 1.2, p ag. 5, hay alternativas al criterio MCO. En lugar de minimizar la suma de cuadrados de los residuos, podr amos minimizar la suma de sus valoN | (norma L1 del vector de residuos). Uno de sus res absolutos: i=1 | atractivos es que los resultados resultan menos afectados por observaciones con residuo muy grande; pero es computacionalmente mucho m as costosa.
1.17
Cap tulo 2
Estimaci on m nimo cuadr atica.

2.1. Obtenci on de los estimadores de los par ametros.
Si y es un vector N 1, consideremos H = RN y M = subespacio generado por las columnas de X . Si dotamos a H del producto interno eucl deo < v, w > = v w , de las Secciones 1.4 y 1.5 inmediatamente se deduce que el vector en M m as pr oximo a y (en el sentido de minimizar la norma al cuadrado del vector de residuos ) es la proyecci on de y sobre M . Por consiguiente, ha de vericarse que (y X ) M . Como M es el subespacio generado por las columnas de X , ) X 0 (y X ) X 1 (y X . . . . . . ) X p 1 (y X que podemos reunir en la igualdad matricial ) = 0 X (y X y de aqu se deduce que: = X y . X X (2.5) (2.1) (2.2) (2.3) (2.4)
La igualdad matricial anterior recoge las ecuaciones normales . Si, como suponemos, rango(X ) = p, entonces (X X ) es de rango completo, y posee inversa. Por tanto, el vector de estimadores de los par ametros ser a: = (X X ) 1 X y . 15 (2.6)
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.
16
Obs ervese que el supuesto de rango total de la matriz X y consiguientemente de (X X ) es requerido exclusivamente para pasar de (2.5) a (2.6). Las ecuaciones normales se verican en todo caso, y la proyecci on de y sobre M es tambi en u nica (Teorema 1.1, p ag. 8). El defecto de rango en X deja de estar un tiene tan solo por consecuencia que el vector vocamente determinado. Volveremos sobre esta cuesti on al hablar de multicolinealidad. De (2.6) se deduce tambi en que, en el caso de rango total, la proyecci on de y sobre M viene dada por P M y = X (X X ) 1 X y , y el vector de residuos por = = = = y X y X (X X ) 1 X y (I X ( X X ) 1 X ) y (I P M ) y . (2.8) (2.9) (2.10) (2.11) (2.7)
proyecci Observaci on 2.1 El ser X on de y sobre M garantiza sin m as que derivando es m nimo. Si hubi eramos obtenido
2
0 xi0 1 xi1 . . . p1 xi,p1 yi
e igualando las derivadas a cero (ver Observaci on 1.3, p ag. 5), ob tendr amos un del que todo lo que podr amos armar es que corresponde a un punto estacionario de la expresi on anterior (suma de cuadrados de los residuos). Para establecer que se trata de un m nimo, habr amos de tomar a un segundas derivadas y vericar el cumplimiento de las condiciones de segundo orden.
y Podemos ver X como las proyecciones de y sobre dos espacios mutuamente ortogonales: M y M . Las matrices PM e (I PM ) que, para aligerar la notaci on, denominaremos en lo sucesivo P e (I P ), sobreentendiendo el subespacio M , tienen algunas propiedades que detallamos a continuaci on. Teorema 2.1 Sean P e (I P ) las matrices de proyecci on denidas en el p arrafo anterior. Se verica lo siguiente: 1. Las matrices P e (I P ) son sim etricas e idempotentes. 2. rango(I P ) = N p.
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. 3. Se verica que (I P )X = 0. n: Demostracio
17
El apartado 1) es inmediato. En cuanto a 2), siendo (I P ) idempotente, su rango coincide con su traza (v ease Teorema A.1, p ag. 220). Por tanto: rango(I P ) = traza(I P ) = traza(I ) traza(P ) = N traza[X (X X )1 X ] = N traza[(X X )1 X X ] = N p. (2.12) (2.13) (2.14) (2.15) (2.16)
El apartado 3), por u ltimo, se prueba sin m as que efectuar el producto matricial indicado. Es adem as inmediato si reparamos en que la matriz (I P ) proyecta sobre el subespacio M , por lo que su producto por cualquiera de los vectores columna de X (pertenecientes a M ) da el vector 0.
2.2.
Una obtenci on alternativa
en la secci La obtenci on del vector de estimadores on precedente tiene muchos m eritos, y no es el menor el de proporcionar intuici on geom etrica acerca de la soluci on m nimo cuadr atica ordinaria (MCO). Tendremos ocasiones abundantes de explotar esta intuici on. Podemos seguir una v a alternativa para llegar al mismo resultado: plantear el problema en forma de minimizaci on respecto a de la expresi on:
N i=1
(yi 0 xi0 1 xi1 . . . p1 xi,p1 )2 ,
(2.17)
tal como suger a la Observaci on 2.1. Con notaci on matricial, el problema puede reescribirse as : m n (y X ) (y X ).

(2.18)
La suma de cuadrados anterior es una forma cuadr atica de matriz unidad. Haciendo uso de la f ormula (A.12), p ag. 222, obtenemos las condiciones de primer orden 2 X (y X ) = 0 , (2.19)
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. o equivalentemente X y = (X X ) ,
18
(2.20)
que son las ecuaciones normales (2.5). Es f acil comprobar tomando las segundas derivadas que la soluci on (o soluciones, si hay m as de una) del sistema de ecuaciones precedente corresponde a un m nimo y no a un m aximo o punto de silla: la matriz de segundas derivadas (X X ) es por construcci on (semi)denida positiva. Importa comprobar que esta aproximaci on al problema, a diferencia de la que hac a uso de la noci on de proyecci on, deja en la penumbra muchas , cosas que son de inter es: la ortogonalidad del vector de residuos = y X la idempotencia de algunas matrices, etc.
2.3.
Propiedades del estimador m nimo cua. dr atico
es un vector aleatorio. Aunque X se mantenga ja Notemos que cosa que podemos lograr, pues los valores de los regresores se jan por el experimentador: recu erdese los supuestos introducidos en la Secci on 1.2 , en experimentos repetidos obtendremos cada vez un diferente vector y de valores de la variable respuesta. En efecto, cada vez intervendr an en la formaci on de y diferentes perturbaciones. = (X X )1 X y por tanto es un vector aleatorio: hereda El vector su condici on de tal de y , que a su vez la obtiene de . Tiene por ello sentido preguntarse por su vector de valores medios y por su matriz de covarianzas. Recordemos que un estimador del par ametro se dice insesgado si E [ ] = . En el caso de estimar un vector de par ametros, la condici on an aloga es ] = . E [ Recordemos tambi en que la matriz de covarianzas de un vector aleatorio como se dene por: = E [ E ( )][ E ( )] , insesgado como estimador de se simplica expresi on que en el caso de ser de modo obvio a = E [ ][ ] .
19
La matriz de covarianzas tiene en su diagonal principal las varianzas de y fuera de la diagonal principal las covarianzas. los componentes del vector La insesgadez de un estimador es intuitivamente atrayente: supone que no incurrimos en derivas sistem aticas al estimar el par ametro objeto de inter es. Si repiti eramos el mismo experimento muchas veces y promedi aramos los valores del estimador insesgado obtenidos en cada experimento, esperar amos que este promedio se acercar a progresivamente m as a su objetivo (el verdadero valor del par ametro). disfruta de esta atractiva proAcontece que el vector de estimadores piedad de insesgadez. Adicionalmente, dentro de una clase particular de estimadores es el que exhibe menores varianzas en la diagonal principal de on el vector . y, en este sentido, es el que estima con mayor precisi El siguiente Teorema formaliza y demuestra estas propiedades. Teorema 2.2 Si se verican los supuestos habituales (Secci on 1.3, p ag. 5) se cumple tambi en que: es un estimador lineal insesgado de . 1. es = 2 (X X )1 . 2. La matriz de covarianzas de es el estimador m 3. (Gauss-Markov). Si nimo cuadr atico ordinario de , cualquier otro estimador de que sea lineal e insesgado tiene matriz de covarianzas con elementos diagonales no menores que los de . n: Demostracio Tomando valor medio en (2.6): ] = E [(X X )1 X y ] E [ = E [(X X )1 X (X + )] = + E [(X X )1 X ] = .
20
es insesgado. Por consiguiente, la matriz de covarianzas tendr a luego por expresi on:
= E ( )( )
= = = = =
E [(X X )1 X (X + ) ][(X X )1 X (X + ) ] E [(X X )1 X ][(X X )1 X ] E [(X X )1 X X (X X )1 ] (X X )1 X 2 IX (X X )1 2 (X X ) 1 .
alternativo a . Para demostrar 3), consideremos cualquier estimador Dado que restringimos nuestra atenci on a estimadores lineales, podemos es = C Y , siendo C una matriz de orden adecuado. Siempre podremos cribir expresar C as : C = (X X )1 X + D. (2.21)
Puesto que nos limitamos a considerar estimadores insesgados, ha de veri = EC Y = , y por tanto: E [(X X )1 X + D ]Y = . De aqu carse: E se deduce: E [(X X )1 X (X + ) + D (X + )] = , + DX = , (2.22) (2.23)
dado que E = 0. Como (2.23) se ha de vericar sea cual fuere , la implica DX = 0. insesgadez de es: La matriz de covarianzas de Pero: ) = [(X X )1 X + D ]Y (
1
)( ) ]. E [(
(2.24)
(2.25) (2.26) (2.27)
= [(X X ) X + D ](X + ) = [(X X )1 X + D ] .
donde (2.27) se ha obtenido haciendo uso de DX = 0. Llevando (2.27) a (2.24), obtenemos:

1 1 = E {[(X X ) X + D ] [(X X ) X + D ] }
(2.28)
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. que, de nuevo haciendo uso de que DX = 0, se transforma en:
1 2 1 + 2 DID = (X X ) X IX (X X )
21
(2.29) (2.30) (2.31)
= 2 (X X )1 + 2 DD 2 = + DD .
La matriz DD tiene necesariamente elementos no negativos en la diagonal principal (sumas de cuadrados), lo que concluye la demostraci on de 3). De forma completamente similar se puede demostrar una versi on ligeramente m as general: la estimaci on lineal insesgada con varianza m nima de , siendo el vector de estimadores m cualquier forma lineal c es c nimo cuadr aticos.
Observaci on 2.2 La insesgadez de un estimador es una propiedad en principio atrayente, pero de ning un modo indispensable. De hecho, un estimador insesgado de un par ametro puede incluso no existir. (Para una discusi on de la condici on de insesgadez y de sus implicaciones puede verse Lehmann (1983), Cap. 2.) En el Cap tulo 10 comprobaremos que, en ocasiones, podemos optar con ventaja por utilizar estimadores sesgados.
2.4.
Estimaci on de la varianza de la perturbaci on.
El Teorema 2.2 proporciona la matriz de covarianzas del vector de esti, = 2 (X X )1 . Pero mientras que (X X ) es conocida, 2 es madores un par ametro que necesita ser estimado. Veamos como hacerlo. Denici on 2.1 Denominamos SSE o suma de cuadrados de los residuos al cuadrado de la norma del vector de residuos, SSE
def
y X
Teorema 2.3 Una estimaci on insesgada de la varianza de la perturbaci on viene proporcionada por SSE 2 = N p
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. n: Demostracio Como = P Y = X (X X ) 1 X Y , X tenemos que ) = (I P )Y (Y X
22
(2.32)
(2.33) (2.34) (2.35)
= (I P )(X + ) = (I P ) ,
y por tanto SSE = Y (I P ) (I P ) Y = (I P ) (I P ) . En virtud de la simetr a e idempotencia de (I P ), SSE = (I P ) = traza (I P ) = traza (I P ) . Tomando valor medio en (2.38) tenemos: E (SSE ) = traza (I P )( 2 I ) = 2 (N p). (2.39) (2.36) (2.37) (2.38)
(El u ltimo paso ha hecho uso de la propiedad traza(I P ) = N p, Teorema 2.1, p ag. 16.) De (2.39) se deduce entonces que E
def
SSE = 2 N p
y 2 = SSE/(N p) es por tanto un estimador insesgado de 2 .
Observaci on 2.3 En lo que sigue, SSE denotar a tanto la variable aleatoria denida m as arriba como su valor en una experimentaci on concreta, contra la convenci on habitual con otras variables en que se emplean min usculas para denotar sus valores en una experimentaci on. El contexto aclarar a si nos estamos reriendo a una variable aleatoria o a un valor experimental de la misma.
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. Observaci on 2.4 El Teorema 2.3 muestra que para obtener
una estimaci on insesgada de la varianza de la perturbaci on debemos dividir la suma de cuadrados de los residuos, no entre el n umero de residuos N , sino entre los grados de libertad N p. Que el n umero de par ametros estimado debe tomarse en consideraci on en el denominador del estimador es intuitivamente plausible. Despu es de todo, si aument aramos el n umero de regresores (y par ametros estimados) p hasta que p = N , SSE ser a id enticamente cero. (Estar amos ante un problema sin grados de libertad.) Sin llegar a este extremo, es claro que aumentando el n umero de regresores incrementamos nuestra capacidad de aproximar y (y de reducir SSE), y esto ha de ser contrapesado reduciendo tambi en el denominador.
23
Observaci on 2.5 El Teorema 2.3 subsume y ampl a un resultado que habitualmente aparece sin demostraci on en los cursos elementales de Estad stica: un estimador insesgado de la varianza de una poblaci on, dada una muestra i.i.d. de la misma, viene dada por 2 =
N i=1 (Yi
Y )2 . N 1
(2.40)
Este resultado puede obtenerse como caso particular del Teorema 2.3 si reparamos en lo siguiente: podemos imaginar las Yi como generadas por Yi = 0 + i , en que 0 es la media y i una perturbaci on de media cero y misma varianza que Yi . Si regres aramos las observaciones Y1 , . . . , YN sobre una columna de unos, 1 , el u nico par ametro estimado ser a: 0 = (X X )1 X Y = (1 1 )1 1 Y = N 1
N
Yi = Y
i=1
El mejor ajuste que puede hacerse de las Yi en t erminos de este u nico 0 1 y la suma de cuadrados de los residuos es por tanto regresor es N N 2 2 on (2.40) coincide por i=1 (Yi 0 1 ) = i=1 (Yi Y ) . La expresi tanto, en este caso particular, con la dada por el Teorema 2.3.
R: Ejemplo 2.1 (c alculo de los estimadores MCO)

El siguiente listado crea articialmente una matriz X y el vector respuesta y . A continuaci on, realiza la regresi on de dos formas. En la primera, se realizan los c alculos de modo expl cito. En la segunda, se recurre a la funci on lsfit predenida en R, que simplica considerablemente el trabajo. Existen funciones alternativas m as avanzadas que se introducen m as adelante.

Al margen de la comodidad, lsfit realiza los c alculos de un modo mucho m as eciente en tiempo y estable num ericamente que el sugerido por la teor a: no se invierte la matriz (X X ) sino que se emplea la factorizaci on QR (ver Secci on D.2, p ag. 235, o Lawson and Hanson (1974)). Se trata de detalles que no necesitan preocuparnos por el momento. Generamos en primer lugar los datos y realizamos la estimaci on aplicando la teor a de modo m as directo. Primero, la matriz de dise no, > X <- matrix(c(1, 1, 1, 1, + 1, 1, 1, 4, 12, 1, 4, + 13, 0, 6, 7, 0, 2, 2), + 6, 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
24
A continuaci on, jamos un vector > beta <- c(2, 3, 4) Finalmente, generamos los valores de la variable respuesta del modo que prescribe el modelo lineal: > y <- X %*% beta + rnorm(6) (La funci on rnorm(n) genera n variables aleatorias N (0, 1).) A continuaci on, obtenemos los estimadores resolviendo las ecuaciones normales (2.5), p ag, 15. Se muestran varias formas alternativas de hacerlo. Podemos por ejemplo escribir > b <- solve(t(X) %*% X, t(X) %*% + y) > b

[,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329 (la funci on solve(A,b) proporciona una soluci on, si existe, del sistema de ecuaciones lineales Ax = b ). Una forma m as r apida de calcu lar (X X ) y X y la proporciona la funci on crossprod. Podr amos sustituir lo anterior por > b <- solve(crossprod(X), + crossprod(X, y)) > b [,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329 Podemos tambi en escribir: > XXinv <- solve(crossprod(X)) > b <- XXinv %*% crossprod(X, + y) > b [,1] [1,] 2.3517 [2,] 2.8129 [3,] 4.2329 Hemos obtenido separadamente (X X )1 (que puede servirnos para estimar la matriz de covarianzas de los estimadores, 2 (X X )1 ). La funci on solve con un u nico argumento matricial proporciona la , la matriz inversa. De cualquiera de las maneras que calculemos obtenci on de los residuos es inmediata: > e <- y - X %*% b > e
25

[,1] 0.42097 -0.29124 0.15416 -0.61805 0.53689 -0.20272
26
[1,] [2,] [3,] [4,] [5,] [6,]
Podemos comprobar la ortogonalidad de los residuos a las columnas de la matriz X : > t(e) %*% X [,1] [,2] [1,] -2.6379e-13 -8.3933e-13 [,3] [1,] -5.9686e-13 > crossprod(e, X) [,1] [,2] [1,] -2.6379e-13 -8.3933e-13 [,3] [1,] -5.9686e-13 > round(crossprod(e, X)) [1,] [,1] [,2] [,3] 0 0 0
La suma de cuadrados de los residuos y una estimaci on de la varianza de la perturbaci on pueden ahora obtenerse con facilidad: > s2 <- sum(e * e)/(nrow(X) + ncol(X)) > s2 [1] 0.33238 Fin del ejemplo
R: Ejemplo 2.2 Todos los c alculos anteriores pueden hacerse

con mucha mayor comodidad mediante funciones de regresi on especializadas. Por ejemplo,

> ajuste <- lsfit(X, y, intercept = FALSE) hace todo lo anterior y algunas cosas m as de modo mucho m as eciente. La funci on lsfit (least squares t) devuelve una lista u objeto compuesto conteniendo en sus componentes los estimadores de los par ametros, los residuos y algunos resultados auxiliares asociados al m etodo de c alculo empleado (la factorizaci on QR aludida m as arriba). Ve amoslo: > ajuste $coefficients X1 X2 X3 2.3517 2.8129 4.2329 $residuals [1] 0.42097 -0.29124 0.15416 [4] -0.61805 0.53689 -0.20272 $intercept [1] FALSE $qr $qt [1] -75.33003 [4] -0.66854 $qr X1 X2 [1,] -2.44949 -14.28869 [2,] 0.40825 11.95129 [3,] 0.40825 -0.63322 [4,] 0.40825 0.28718 [5,] 0.40825 0.03616 [6,] 0.40825 -0.71690 X3 [1,] -6.940221 [2,] 3.583992 [3,] -5.655823 [4,] -0.375532 [5,] -0.004607 [6,] 0.047314
27
48.78812 -23.94068 0.42874 -0.60529

$qraux [1] 1.4082 1.0362 1.9256 $rank [1] 3 $pivot [1] 1 2 3 $tol [1] 1e-07 attr(,"class") [1] "qr" > resid <- ajuste$residuals > resid [1] 0.42097 -0.29124 0.15416 [4] -0.61805 0.53689 -0.20272 El argumento intercept=FALSE indica a la funci on lsfit que no debe agregarse a la matriz de dise no X una columna de unos (porque ya gura entre los regresores). Ordinariamente ello no suceder a, y podremos prescindir de especicar el argumento intercept, con lo que tomar a el valor por omisi on TRUE. Fin del ejemplo
28
2.5.
El coeciente R2
Hay una relaci on interesante entre SSE y otras dos sumas de cuadrados que denimos a continuaci on. Sea y el vector N 1 siguiente: y=

etica de las observaciones en y . Denamos: en que y denota la media aritm SST = SSR = y y y X
2 2
y . . .
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. es la proyecci Figura 2.1: X on de y sobre M . R2 = cos2
29
X y
Se verica entonces el Teorema a continuaci on. Teorema 2.4 Si y pertenece al subespacio M generado por las columnas de la matriz X lo que acontece, por ejemplo, siempre que dicha matriz tiene una columna de unos, se verica: SST = SSR + SSE n: Demostracio SST = = y y
2 2
(2.41)
(2.42)
+ X y y X (2.43) ) + (X y ) > (2.44) ) + (X y ), ( y X = < (y X 2 + X y 2 + 2 < y X , X y > = y X (2.45) y ) M , y como quiera que ) M , el = (y X Pero si y M, (X u ltimo producto interno es nulo. Por consiguiente (2.45) se reduce a (2.41). Denimos R2 = SSR/SST ; se denomina a R coeciente de correlaci on 2 m ultiple. Claramente, 0 R 1, siempre que X contenga una columna
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. constante, ya que de (2.41) se obtiene: SSR SSE SST = + , SST SST SST
30
luego 1 = R2 + SSE , y como ambos sumandos son no negativos (son cocientes SST de sumas de cuadrados), R2 necesariamente ha de tomar valores entre 0 y 1. La igualdad (2.41) es f acil de visualizar con ayuda de la ilustraci on esquem atica en la Fig. 2.1; es una generalizaci on N -dimensional del teorema de Pit agoras. Obs ervese que si y no perteneciera a M , que hemos represen y) tado como el plano horizontal, ya no podr a asegurarse que y (X son ortogonales. Observaci on 2.6 En la Figura 2.1 puede visualizarse R2 como el coseno al cuadrado del angulo que forman los vectores (y y) y ). Un valor peque no de R2 signica que este coseno es y (X peque no, y el angulo correspondiente grande; es decir, que y est a 2 muy elevado sobre el plano M . Por el contrario, R grande implica que el angulo referido es peque no, y que y est a pr oximo a su proyecci on en M .
Observaci on 2.7 Si regresamos y solamente sobre una columna de unos, obtenemos un u nico coeciente de regresi on estimado, o en la Observaci on 2.5, 0 que resulta ser igual a y (se comprob p ag. 23). SST puede interpretarse como la suma de cuadrados de los residuos de este modelo m nimo. Si regresamos y sobre varios regresores incluyendo la columna de unos obtenemos una suma de cuadrados de los residuos igual a SSE que nunca puede ser superior a SST . En efecto: al a nadir regresores el ajuste no puede empeorar (por qu e?). El coeciente R2 puede verse como una medida de la mejora en el ajuste atribuible a los regresores distintos de la columna de unos. En efecto, el numerador de R2 es SST SSE , diferencia de suma de cuadrados entre el modelo ampliado y el m nimo. El denominador SST meramente normaliza el numerador anterior para que tome valores entre 0 y 1. Un valor grande de R2 podemos interpretarlo como una mejora sustancial del modelo m nimo al incluir regresores distintos de la columna de unos. Obs ervese que para que esta interpretaci on sea v alida, uno de los modelos (el m nimo) ha de estar anidado en el otro, es decir, su u nico regresor (la columna de unos) ha de estar entre los regresores del otro.
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. Observaci on 2.8 Si ajustamos un modelo sin columna deunos
podemos encontrarnos con que R2 denido como en el Teorema 2.4 puede ser menor que cero. Es f acil de entender: puede que los regresores ensayados no den cuenta de la variabilidad de y , y SSE sea por tanto grande. Si acontece que y tiene poca variabilidad en torno a su media, SST ser a en cambio peque no, y SST SSE puede f acilmente ser negativo.
31
Observaci on 2.9 Cuando no hay columna de unos algunos

programas de ordenador autom aticamente sustituyen SST por ||y ||2 (suma de cuadrados de las desviaciones respecto del origen en lugar de respecto a la media). Ello da lugar a una denici on alternativa de R2 que evita que pueda ser negativa.
2.6.
Algunos lemas sobre proyecciones.
Los siguientes resultados, de muy sencilla prueba en la mayor a de los casos, resultan u tiles en demostraciones posteriores. Lema 2.1 Sea H un espacio vectorial, y M un subespacio. Todo y H tiene expresi on u nica en la forma: y = u + v, con u M y v M . n: Demostracio Es una consecuencia inmediata de la unicidad de la proyecci on (Teorema 1.1, p ag. 8).
Lema 2.2 Prejadas las bases en H y M H , la aplicaci on lineal que proyecta sobre M tiene por asociada una u nica matriz PM . n: Demostracio Es una especializaci on del resultado seg un el cual, prejadas las bases en ambos espacios, la matriz que representa una aplicaci on lineal de uno en otro es u nica. La proyecci on es una aplicaci on lineal (v ease soluci on al Ejercicio 1.14).
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. Lema 2.3 La matriz de proyecci on sobre M puede ser expresada as : PM = T T ,
32
siendo T una matriz cuyas columnas forman una base ortonormal de M H. n: Demostracio Sea N la dimensi on de H y p la dimensi on de M . Sea v1 , . . . , vp una base de M formada por vectores ortonormales, y T la matriz N p siguiente: T = v1 | v2 | . . . | vp Siempre podemos completar {v1 , . . . , vp } con N p vectores adicionales {vp+1 , . . . , vN } hasta obtener una base de H (v ease por ej. Grafe (1985), p ag. 79). Adem as, los N p vectores adicionales pueden tomarse ortogonales entre s y a los de T , y normalizados (por ejemplo, utilizando el procedimiento de ortogonalizaci on de Gram-Schmidt; v ease Grafe (1985), p ag. 93). Entonces, para cualquier y H tendremos:
p N
y =
i=1
ci vi
M
+
j =p+1
cj vj ,
M
(2.46)
siendo ci (i = 1, . . . , N ) las coordenadas de y en la base escogida. Premultiplicando ambos lados de (2.46) por vi (i = 1, . . . , p), obtenemos: vi y = vi
N N
cj vj =
j =1 j =1
cj (vi vj ) = ci ,
(2.47)
en virtud de la ortonormalidad de los vectores {vi }. Entonces, u = PM y puede escribirse as :
33
u = PM y
p
=
i=1
(vi y )vi
v1 | v2 | | vp
v1 y v2 y . . . vp y

v1 | v2 | | vp
= T T y
v1 v2 . y . . vp
Lema 2.4 La matriz PM es sim etrica idempotente. n: Demostracio La matriz PM es u nica (Lema 2.2) y puede expresarse siempre como T T (Lema 2.3). Entonces:
PM = (T T ) = T T = P M P M P M = T T T T = T (T T )T = T T = P M .
Lema 2.5 Denotamos por R(C ) el subespacio generado por las columnas de C , siendo C una matriz cualquiera. PM denota la matriz de proyecci on sobre un cierto subespacio M . Entonces: R(PM ) = M.
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. n: Demostracio Claramente R(PM ) M . Por otra parte, para todo x M , PM x = x = M R(PM ).
34
Lema 2.6 Si PM es la matriz asociada al operador de proyecci on sobre M , (I PM ) es sim etrica, idempotente, y est a asociada al operador de proyecci on sobre M . n: Demostracio Es consecuencia inmediata de los Lemas 2.1 y 2.4.
Lema 2.7 Toda matriz sim etrica idempotente P representa una proyecci on ortogonal sobre el subespacio generado por las columnas de P . n: Demostracio Consideremos la identidad y = P y + (I P )y . Claramente, (I P )y P y y adem as (I P )y = y P y es ortogonal a P y . Por tanto, P y es proyecci on de y sobre un cierto subespacio, que, de acuerdo con el Lema 2.5, es el generado por las columnas de P .
Denici on 2.2 Sea D una matriz cualquiera, de orden m n. Decimos que D es una pseudo-inversa (o inversa generalizada) de D si: DD D = D (2.48)
En general, D as denida no es u nica. En el caso particular de que D sea una matriz cuadrada de rango completo, D = D 1 . Lema 2.8 Sea D una matriz m n cualquiera. Sea c una matriz m 1 y z un vector de variables. Si el sistema: Dz = c (2.49)
es compatible, una soluci on viene dada por z = D c, siendo D una pseudoinversa.
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. n: Demostracio De (2.48) deducimos: DD Dz = c y sustituyendo (2.49) en (2.50): DD c = c D ( D c) = c lo que muestra que D c es soluci on de (2.49).
35
(2.50)
(2.51) (2.52)
En realidad, es posible probar un resultado algo m as fuerte1 ; toda soluci on de (2.49) puede expresarse como D c para alguna elecci on de D . Lema 2.9 Si M = R(X ), entonces PM = X (X X ) X . n: Demostracio Sea y un vector cualquiera. Su proyecci on sobre R(X ) ha de ser de la forma X , y vericar las ecuaciones normales (2.5) en la p ag. 15: = X y X X (2.53)
, y c = X y , el lema anterior garantiza Identicando D = X X , z = (no necesariamente u que (X X ) X y ser a una posible soluci on para nica, ya que hay m ultiples (X X ) en general); no obstante, X (X X ) X y es la u nica proyecci on de y sobre M , y X (X X ) X es la u nica matriz de proyecci on. La unicidad de la proyecci on se demostr o en el Teorema 1.1, p ag. 8. La unicidad de la matriz de proyecci on, fue objeto del Lema 2.2.
Como se ha indicado, hay en general m ultiples inversas generalizadas D , cada una de las cuales da lugar a una diferente soluci on del sistema (2.51)(2.52).
1
Cf. Searle (1971), Teorema 8, p ag. 26.
36
2.7.
Lectura recomendada
Sobre la teor a. Seber (1977), Cap. 3 cubre completamente la materia de este cap tulo. Para las cuestiones de algebra matricial, proyecciones, etc. Draper and Smith (1998) tiene un cap tulo completo (el 20) mostrando el problema de la estimaci on MCO desde un punto de vista geom etrico, similar al empleado aqu ; Searle (1982), Searle (1971) y Abadir and Magnus (2005) son buenas referencias. Sobre matrices inversas generalizadas, en particular, pueden verse, adem as de Searle (1982), Ben-Israel and Greville (1974), Rao and Mitra (1971) y Yanai et al. (2011). Sobre R. Son de utilidad las referencias indicadas en el Cap tulo precedente. Espec camente sobre regresi on con R, Cornillon and MatznerLober (2011) y Faraway (2005). Como se indic o, hay mucha documentaci on on line sobre R, como Venables et al. (1997) (hay traducci on castellana, Venables et al. (2000), un poco desfasada), Maindonald (2000) o Kuhnert and Venables (2005); una relaci on actualizada puede obtenerse en http://cran.r-project.org/.
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. Complementos y ejercicios

cambios en la 2.1 Que efecto tienen sobre los estimadores escala de los regresores en X ?. Demu estrese.
37
2.2 Haciendo uso del mismo argumento empleado (en (2.39), p ag. 22) para mostrar que SSE/(N p) es un estimador insesgado de 2 , compru ebese que, dada una muestra aleatoria simple Z1 , . . . , Zn , el estimador de la varianza
2 = Z
1 n
n i=1
(Zi Z )2
no es insesgado.
2.3 Exti endase el teorema de Gauss-Markov, para probar la armaci on hecha al nal de la Secci on 2.4 (p ag. 21): si c es cualquier forma lineal, en el caso de rango completo el estimador inses. gado de varianza m nima de c es c 2.4 La Denici on 2.2, p ag. 34, no individualiza una u nica inversa generalizada, salvo cuando D es cuadrada de rango completo. Las siguientes condiciones, la primera de las cu ales coincide con (2.48), proporcionan una u nica denici on de inversa generalizada (la inversa de Moore-Penrose):
DD D = D ; D DD = D ; D D y DD sim etricas.
A la u nica matriz D as especicada se la denomina inversa de Moore-Penrose. Sobre inversas generalizadas e inversas de MoorePenrose puede consultarse Searle (1971) y Rao and Mitra (1971)
2.5 ( 2.4) Cuando la funci on lsfit de R encuentra una matriz de dise no de rango incompleto, proporciona no obstante una , haciendo un c = soluci on de omputo en esencia equivalente a (X X ) X y . Podemos llevar a cabo el c alculo de la inversa generalizada de Moore-Penrose mediante la funci on ginv del paquete MASS (asociado al libro Venables and Ripley (1999a))
> library(MASS) > XX <- matrix(c(2, 0, 0, 0), + 2, 2) > XX

[,1] [,2] [1,] 2 0 [2,] 0 0 > XXig <- ginv(XX) > XXig [1,] [2,] [,1] [,2] 0.5 0 0.0 0
38
Observemos que las condiciones que denen a la inversa de MoorePenrose se verican. > XX %*% XXig %*% XX [1,] [2,] [,1] [,2] 2 0 0 0
> XXig %*% XX %*% XXig [1,] [2,] [,1] [,2] 0.5 0 0.0 0
> XXig %*% XX [1,] [2,] [,1] [,2] 1 0 0 0
> XX %*% XXig [,1] [,2] [1,] 1 0 [2,] 0 0
uso de regresi on lineal. (Ayuda: basta normalizar el primer vector y regresar el segundo sobre el. El vector de residuos de esta regresi on es ortogonal al primero.) ma 2.6 de un modo completamente general: debe admitir como u nico argumento una matrix de rango completo cuyas columnas contengan los vectores a ortonormalizar, y devolver una matrix de las mismas dimensiones cuyas columnas sean los vectores ortonormalizados.
2.6 ( 1.13) Resu elvase el problema 1.13, p ag. 13, haciendo
2.7 ( 2.6) Escr base una funci on en R que resuelva el proble-
M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. 2.8 Justif quese la armaci on hecha en la Observaci on 2.7,
p ag. 30, de acuerdo con la cual el ajuste, medido en t erminos de SSE , no puede empeorar al a nadir regresores.
39
2.9 Cu ando incluir y cu ando no una columna de unos? En

general, siempre convendr a hacerlo. Las u nicas situaciones en que no ser a conveniente son aqu ellas en que la columna de unos crear a una dependencia lineal exacta entre las columnas de la matriz X . El no incluir columna de unosfuerza a la recta (o hiperplano) de regresi on a pasar por el origen. Salvo que haya buenos motivos para ello, no querremos forzar tal cosa en nuestra regresi on, especialmente si, como sucede en multitud de ocasiones, el origen es arbitrario. vestigador est a interesado en dilucidar si la velocidad de sedimentaci on de un uido (y , medida en unidades adecuadas) est a inuida por la temperatura (X1 , medida en grados cent grados). Cuenta con las siguientes observaciones: 5,8 4,7 y = 4,9 3,8 2,1

2.10 ( 2.1)( 2.9) Pensemos en la siguiente situaci on: un in-
Imaginemos que ajusta una regresi on a dichos datos. Los resultados pueden verse en el siguiente fragmento en R: > + > + > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(X, y, intercept = FALSE) ajuste$coefficients
10 6,2 X1 = 2,5 3,0 4,6
X -0.44798 El coeciente que afecta a la u nica variable es negativo (= 0,447984), lo que estar amos tentados de interpretar as : por cada grado que aumenta la temperatura, disminuye en 0.447984 la velocidad de sedimentaci on. (Quedar a por ver si la estimaci on del coeciente de regresi on es de ar, cuesti on que abordaremos m as adelante.) Supongamos ahora que otro investigador repite el mismo an alisis, pero en lugar de expresar las temperaturas en grados cent grados (C )

lo hace en grados Fahrenheit (F) cuya relaci on con los cent grados 9 5 alculos, viene dada por C = 9 (F 32) ( F = 5 C + 32). Los c siempre haciendo una regresi on pasando por el origen, ser an ahora: > + > + > > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) X <- (9/5) * X + 32 ajuste <- lsfit(X, y, intercept = FALSE) ajuste$coefficients
40
X 0.12265 Ahora el coeciente afectando a la variable temperatura es positivo, dando la impresi on de una asociaci on directa entre temperatura y velocidad de sedimentaci on! Claramente, tenemos motivo para preocuparnos si llegamos a conclusiones diferentes dependiendo de nuestra elecci on de los sistemas de medida enteramente convencionales ambos. El problema desaparece si incluimos una columna de unos en ambos an alisis, para dar cuenta de los diferentes or genes. > + > + > > y <- c(5.8, 4.7, 4.9, 3.8, 2.1) X <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(X, y) ajuste$coefficients X -0.20667
Intercept 3.80119
> X <- (9/5) * X + 32 > ajuste <- lsfit(X, y) > ajuste$coefficients Intercept 7.47538 X -0.11482
> ajuste$coefficients[2] * + (9/5) X -0.20667

Los coecientes de X no son ahora iguales (porque los grados Fahrenheit son m as peque nos), pero si relacionados por un factor de escala y dar an lugar a la misma conclusi on de asociaci on inversa entre ambas magnitudes. La inversi on del signo del coeciente se explica comparando en la Figura 2.2 los puntos muestrales (en escalas comparables) y las respectivas rectas de regresi on. Dichas rectas de regresi on y las gr acas se han generado mediante > + + > > + > + > > > > + > > > > > > + > > > > postscript(file = "demo2d.eps", horizontal = FALSE, width = 5, height = 10) par(mfcol = c(2, 1)) y <- c(5.8, 4.7, 4.9, 3.8, 2.1) C <- c(-10, -6.2, -2.5, 3, 4.6) ajuste <- lsfit(C, y, intercept = FALSE) par(xlim = c(-25, 5)) par(ylim = c(-0.5, 6)) plot(C, y, ylim = c(-0.5, 6), xlim = c(-25, 5)) title(main = "Ajuste en grados centigrados") abline(a = 0, b = ajuste$coefficients) text(x = 0, y = 0, labels = "(0,0)") F <- (9/5) * C + 32 ajuste <- lsfit(F, y, intercept = FALSE) plot(F, y, ylim = c(-0.5, 6), xlim = c(-13, 41)) title(main = "Ajuste en grados Fahrenheit") text(x = 0, y = 0, labels = "(0,0)") abline(a = 0, b = ajuste$coefficients) scratch <- dev.off()
41
Puede verse que el forzar a ambas a pasar por el origen las obliga a tener pendiente de signo opuesto para aproximar la nube de puntos.
42
Figura 2.2: En un ajuste sin t ermino constante, la pendiente depende de la elecci on arbitraria del origen
Ajuste en grados centigrados

6 y 1 2 3 4 5
(0,0)
0 25
20
15
10 C
Ajuste en grados Fahrenheit

6 y 1 2 3 4 5
(0,0)
0 10
10 F
20
30
40
Cap tulo 3
Identicaci on. Colinealidad exacta

3.1. Modelos con matriz de dise no de rango deciente.
Uno de los que hemos llamado supuestos habituales (Secci on 1.3, p ag. 5, apartados 1 a 3) es que el rango de la matriz de dise no X coincide con el n umero de sus columnas, p. Cuando esto no ocurre, sigue habiendo una u nica proyecci on de y sobre M = R(X ), tal como ha quedado demostrado. (Recu erdese que R(X ) designa el subespacio generado por las columnas de = (X X ) X y no es u X .) Ocurre sin embargo (Lema 2.9) que nico. La Figura 3.1 resulta iluminante a este respecto; el plano horizontal representa M , y en el yacen los vectores X0 , . . . , Xp1 que lo generan. La es u proyecci on X nica. Si X0 , . . . , Xp1 son linealmente independientes, 0 , . . . , p1 que forman base del espacio que generan, y los coecientes permiten expresar PM y como combinaci on lineal de dichos vectores son u nicos. Si, como acontece en el caso de rango deciente de la matriz X , los vectores X0 , . . . , Xp1 no son linealmente independientes, hay innidad de maneras de expresar PM y como combinaci on lineal de ellos. No hay por tanto una u nica estimaci on m nimo cuadr atica del vector . Se dice que hay multicolinealidad exacta entre las columnas de la matriz de dise no X . Una matriz de dise no de rango deciente es demasiado pobre para deslindar todos los efectos de inter es: no podemos con la informaci on disponible deslindar la relaci on de cada uno de los regresores con la variable respuesta, pero puede ocurrir que si lo podamos deslindar con algunos. El Ejemplo 3.1 a continuaci on lo ilustra. 43
COLINEALIDAD EXACTA CAP ITULO 3. IDENTIFICACION. Figura 3.1: Regresi on en el caso de matrix X de rango deciente.
44
X p 1
X1 X0
Ejemplo 3.1 Imaginemos una matriz de dise no como
1 1 2 2 1 1
2 2 4 4 2 2
3 5 1 . 7 8 4
Observemos que la primera columna, X0 , es igual a la segunda, X1 , dividida entre dos. La Figura 3.2 ilustra una situaci on similar. Puede verse que X0 y X1 yacen uno sobre otro, diriendo s olo en el m odulo. En un caso as , la proyecci on, PM y , puede expresarse de manera u nica como combinaci on lineal de X 2 y uno de los vectores X 0 o X 1 . Podemos estimar 2 , pero no 0 o 1 : no es posible adscribir a uno de ellos la parte de PM y colineal con la direcci on com un de X 0 y X 1. Fin del ejemplo
COLINEALIDAD EXACTA CAP ITULO 3. IDENTIFICACION. Figura 3.2: Caso de un vector parcialmente estimable.
45
X2 X0 X1 PM y
La noci on de funci on estimable a continuaci on permite caracterizar situaciones como la mostrada en el ejemplo anterior.
3.2.
Funciones estimables.
un Incluso aunque el vector no sea estimable por no estar vocamente determinado, puede haber algunos par ametros o combinaciones lineales de par ametros que s puedan estimarse. Denici on 3.1 Decimos que una funci on lineal de los par ametros a es estimable si existe un vector c de constantes tal que: E [c Y ] = a El Teorema a continuaci on permite caracterizar las funciones estimables. Teorema 3.1 La funci on lineal a es estimable si a R(X ). n: Demostracio
COLINEALIDAD EXACTA CAP ITULO 3. IDENTIFICACION. a = E [c Y ] = E [c (X + )] = c X
46 (3.1)
Como (3.1) ha de vericarse para cualesquiera valores de , ha de existir c tal que: c X = a , lo que demuestra que a R(X ).
Observaci on 3.1 El teorema anterior incluye como caso particular el de par ametros aislados, i . En efecto, podemos ver i como la funci on lineal e i+1 , en que e i es un vector de ceros con un 1 en posici on i esima. Entonces, i es estimable si e i R(X ). La totalidad de los par ametros ser an estimables si {e 1 , . . . , e p } (que son linealmente independientes) est an en R(X ). Esto requiere que la dimensi on de R(X ) sea p, es decir, que X sea de rango completo. Observaci on 3.2 El enunciado del Teorema 3.1 tiene gran contenido intuitivo. Son estimables aqu ellas combinaciones lineales de los par ametros cuyos coecientes coinciden con los dados por las de X . En efecto, si queremos estimar a y a coincide con la j - esima la xj de la matriz X , es claro que Yj ser a un estimador insesgado de a , pues:
E [Yj ] = E [xj + j ] = E [a + j ] = a . De manera an aloga se demuestra que si a puede expresarse como combinaci on lineal de las de X , la combinaci on lineal an aloga de observaciones en el vector Y es un estimador insesgado de a .
3.3.
Restricciones de identicaci on.
Hemos visto que la inestimabilidad de los par ametros es consecuencia de la indeterminaci on del sistema de ecuaciones normales: = X y (X X ) Si contamos con informaci on adicional sobre que podamos imponer sobre , podemos a el vector de estimadores nadir al anterior sistema ecuaciones adicionales que reduzcan o resuelvan la indeterminaci on. Por ejemplo, si supi eramos que A = c, podr amos formar el sistema: = X y (X X ) = c A (3.2) (3.3)
y, dependiendo del rango de X X y A, obtener estimaciones u nicas de . Se dice entonces que las relaciones A = c son restricciones de identicaci on.
COLINEALIDAD EXACTA CAP ITULO 3. IDENTIFICACION. Ejemplo 3.2 Retomemos el Ejemplo 3.1. Vimos que era parcialmente estimable, y que el problema resid a en que la componente de PM y colineal con la direcci on (com un) de X0 y X1 no puede ser distribuida entre ambos. Si, no obstante, supi eramos que 0 = 1, el problema dejar a de existir. Por tanto, A = 1 con A= 1 0 0 es una restricci on de identicaci on. Fin del ejemplo
47
Una matriz de dise no de rango incompleto se puede presentar por falta de cuidado al dise nar el experimento, pero, m as frecuentemente, es intencional. El Ejemplo 3.1 ilustra este punto. R: Ejemplo 3.1 Supongamos que se investiga el efecto de
tres diferentes tratamientos t ermicos sobre la dureza de un acero. Podemos pensar en el modelo: Y = 1 X1 + 2 X2 + 3 X3 + ; (3.4)
Habremos de realizar mediciones de la dureza con varias probetas de acero elaborado con los distintos tratamientos, y estimar dicho lmodelo. La variable explicativa o regresor i- esimo tomar a el valor 1 cuando se emplee el tratamiento i- esimo, y cero en caso contrario. Con esta especicaci on i , (i = 1, 2, 3), se interpretar a como la dureza estimada derivada de utilizar el tratamiento i- esimo. Consideremos los datos siguientes: > cbind(X, y) [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [,1] [,2] [,3] [,4] 1 0 0 4.8150 1 0 0 4.3619 1 0 0 4.3579 0 1 0 4.8403 0 1 0 5.2419 0 1 0 6.2087 0 0 1 3.9853 0 0 1 4.0601 0 0 1 3.4247
Podemos estimar los par ametros mediante
COLINEALIDAD EXACTA CAP ITULO 3. IDENTIFICACION.

> ajuste1 <- lsfit(X, y, intercept = FALSE) > ajuste1$coefficients X1 X2 X3 4.5116 5.4303 3.8234 > ajuste1$residuals [1] [6] 0.30342 -0.14972 -0.15371 -0.58995 -0.18841 0.77837 0.16193 0.23672 -0.39865
48
> SSE <- sum(ajuste1$residuals^2) > SSE [1] 1.3687 Podr amos pensar, sin embargo, en adoptar una diferente parametrizaci on: (3.5) Y = 0 + 1 X1 + 2 X2 + 3 X3 + ; En esta nueva parametrizaci on, 0 ser a una dureza media y 1 a 3 recoger an el efecto diferencial (respecto de dicha dureza media) resultado de emplear cada uno de los tres tratamientos. Para introducir en el modelo 0 multiplicando a una columna de unos, basta omitir el argumento intercept=FALSE, con lo que obtenemos: > ajuste2 <- lsfit(X, y, intercept = TRUE) > ajuste2$coefficients Intercept 3.82339 X1 0.68824 X2 1.60690 X3 0.00000
> ajuste2$residuals [1] [6] 0.30342 -0.14972 -0.15371 -0.58995 -0.18841 0.77837 0.16193 0.23672 -0.39865
> SSE <- sum(ajuste1$residuals^2) > SSE [1] 1.3687 Observemos que los dos ajustes son id enticos, como muestran los residuos, que son iguales, y SSE =1.3687, igual en los dos casos; resultado l ogico, dado que los subespacios que generan X1 , . . . , X3 y estos tres vectores m as la columna de unos son id enticos. Las proyecciones han de serlo tambi en.
COLINEALIDAD EXACTA CAP ITULO 3. IDENTIFICACION.

En el segundo ajuste, lsfit ha proporcionado una estimaci on de los par ametros, a pesar de que el rango de la matriz X ampliada con una columna de unos es incompleto. lsfit ha tomado una restricci on identicadora arbitraria ha hecho 3 = 0 y proporcionado una de las innitas soluciones equivalentes. La restricci on adoptada hace 3 = 0. El tratamiento 3 pasa as a convertirse en caso de referencia y la dureza atribuible al mismo 0 =3.8234. Los valores estimados 1 y 2 miden viene medida por as las diferencias de dureza de los tratamientos 1 y 2 respecto del caso de referencia, o tratamiento 3. Podr amos adoptar restricciones de identicaci on diferentes. Una muy habitual ser a, en el caso que nos ocupa, 1 + 2 + 3 = 0. Esto equivale a forzar que los efectos diferenciales de los tres tratamientos no puedan ser todos positivos o negativos. Con esta restricci on, 0 tendr a la interpretaci on de dureza media y 1 , 2 , 3 ser an desviaciones respecto de esta dureza media. Fin del ejemplo
49
3.4.
Multicolinealidad exacta y aproximada
La existencia de dependencia lineal exacta entre las columnas de la matriz de dise no X , es, como se ha visto, fruto habitualmente de una decisi on consciente. Escogemos un dise no de rango incompleto, pero lo suplementamos con restricciones de identicaci on que solventan el problema de la estimaci on y dotan a los par ametros de la interpretaci on que deseamos. En la medida en que la matriz X sea de nuestra elecci on, siempre podemos eludir el problema. Si, por el contrario, no podemos dise nar nuestro experimento y nos vemos obligados a utilizar unos datos X, y dados, puede ocurrir que la matriz X , aunque no precisamente de rango incompleto, proporcione una matriz (X X ) casi singular. Esto se traduce en dicultades num ericas para resolver las ecuaciones normales, dicultades para seleccionar un modelo adecuado, grandes varianzas de los estimadores y otros inconvenientes a los que nos referiremos en el Cap tulo 9.
3.5.
Pueden verse Seber (1977), Secci on 3.8, o Draper and Smith (1998), Secci on 20.4, por ejemplo.
Cap tulo 4
Estimaci on con restricciones

4.1. Planteamiento del problema.
En ocasiones deseamos imponer a las estimaciones de los par ametros ciertas condiciones, ya para hacer el modelo interpretable ya porque as lo imponen criterios extra-estad sticos. N otese que no nos estamos reriendo exclusivamente a restricciones de identicaci on. Puede que el conjunto de restricciones que impongamos sea tal que, junto con las ecuaciones normales, determine un u nico vector de es, en un problema que previamente admit timadores a m ultiples soluciones (como suced a en el Ejemplo 3.2). En tal caso, todo se reduce a resolver el sistema (3.3). Las restricciones se han limitado a remover la indeterminaci on presente en las ecuaciones normales. En otras ocasiones, sin embargo, partimos de un modelo ya identicable (con soluci on u nica para las ecuaciones normales), pero no obstante deseamos imponer una restricci on que viene dictada al margen de los datos, como ilustra el ejemplo a continuaci on. Ejemplo 4.1 Si quisi eramos estimar los par ametros de una funci on de producci on Cobb-Douglas Q = L K , podr amos desear que las estimaciones de los par ametros y vericaran la condi+ ci on = 1 (rendimientos constantes a escala). Con tres o m as observaciones es perfectamente posible estimar , y ; la restricci on es innecesaria desde el punto de vista de la estimabilidad de los par ametros. No obstante, puede formar parte de la especicaci on que deseamos: no queremos ajustar cualquier funci on de producci on Cobb-Douglas a nuestros datos, sino una con rendimientos constantes a la escala. Fin del ejemplo
50
CON RESTRICCIONES CAP ITULO 4. ESTIMACION De un modo general, nos planteamos el problema siguiente: m n y X
2
51
=c condicionado a: A
(4.1)
Est a claro que no podemos esperar obtener la soluci on de este problema resolviendo un sistema como (3.3), que en general ser a incompatible. Hay al menos dos v as para resolver un problema como el indicado. Podemos recurrir a resolver el problema de optimizaci on condicionada (4.1) escribiendo el lagrangiano,
N
L(0 , . . . , p1) =
i=1
c); (yi 0 xi0 . . . p1 xi,p1 )2 (A
derivando respecto a 0 , . . . , p1 y a los multiplicadores de Lagrange en el vector , e igualando las derivadas a cero, obtendr amos una soluci on que mediante las condiciones de segundo orden podr amos comprobar que corresponde a un m nimo. Resolveremos el problema por un procedimiento diferente, an alogo al seguido con el problema incondicionado: proyectando y sobre un subespacio adecuado. Para ello habremos de transformar el problema en otro equivalente, que nos permita utilizar la t ecnica de la proyecci on. Previamente precisamos algunos resultados instrumentales, de algunos de los cuales nos serviremos repetidamente en lo que sigue.
4.2.
Lemas auxiliares.
Lema 4.1 Si K (C ) designa el n ucleo de la aplicaci on lineal representada por la matriz C , se tiene: K (C ) = [R(C )] n: Demostracio x K (C ) Cx = 0 x C = 0 x R(C )
Lema 4.2 Si h M H , y Ph , PM son las matrices de proyecci on sobre los subespacios respectivos, se verica: PM Ph = Ph PM = Ph
CON RESTRICCIONES CAP ITULO 4. ESTIMACION n: Demostracio Para cualquier v H , Ph v h M PM Ph v = Ph v PM Ph = Ph
52
La simetr a de PM y Ph (Lema 2.4) implica entonces que: Ph = Ph = Ph PM = Ph PM .
Lema 4.3 Si h M H , se tiene: PM Ph = PM h n: Demostracio Partimos de la identidad, P M v = P h v + (P M v P h v ) en la que Ph v h M mientras que (PM v Ph v ) M . Por otra parte, < Ph v, (PM v Ph v ) > = v Ph (PM v Ph v ) = v (P h P M P h ) v = 0, la u ltima igualdad en virtud del Lema 4.2. Por consiguiente, (PM Ph ), que es sim etrica idempotente, proyecta sobre un subespacio ortogonal a h e inclu do en M ; lo denotaremos mediante M h .
Lema 4.4 Sea B una matriz cualquiera, y K (B ) el n ucleo de la aplicaci on lineal que representa. Sea M un subespacio de H y h = M K (B ). Entonces, M h = R(PM B ). La demostraci on puede hallarse en el Ap endice E.2, p ag. 244.
CON RESTRICCIONES CAP ITULO 4. ESTIMACION
53
4.3.
Estimaci on condicionada.
Los Lemas anteriores proporcionan todos los elementos para obtener de forma r apida el estimador condicionado que buscamos. (Supondremos X y A de rango completo, pero es f acil generalizar el tratamiento reemplazando las inversas por inversas generalizadas.) Aunque el desarrollo formal es algo farragoso, la idea es muy simple. Vamos a transformar el modelo de modo que las restricciones A = c se conviertan en A = 0 . Lo haremos mediante la transformaci on y = y X = , (4.2) (4.3)
siendo una soluci on cualquiera de A = c (de no existir tal soluci on, no tendr a sentido el problema; estar amos imponiendo condiciones a los par ametros imposibles de satisfacer). Se tiene entonces que: y A = X + = y X = X X + = y = X + = c = A( + ) = c = A = c A = A = 0
2
y el problema original (4.1) puede ahora reescribirse as : m n y X o, alternativamente, m n y X

2
condicionado a
A = 0,
condicionado a:
A(X X )1 X (X ) = 0.
(4.4)
Qu e ventajas presenta la expresi on (4.4) del problema comparada con la original? Una importante: muestra que el X buscado no es sino la proyecci on de y sobre un cierto subespacio: h = M K (A(X X )1 X ). Hay garant a de que h es un subespacio porque M y K (A(X X )1 X ) lo son. Basta proyectar y sobre h para obtener X y, si X es de rango completo, ; y esta proyecci on se puede obtener f acilmente con ayuda de los Lemas anteriores. Si denotamos por h las estimaciones m nimo cuadr aticas condicionadas o restringidas por A = 0, tenemos que: X h = Ph y = (PM PM h ) y 1 = [X (X X ) X PM h ] y (4.5) (4.6) (4.7)
54
en que el paso de (4.5) a (4.6) ha hecho uso del Lema 4.3. Pero es que, de acuerdo con el Lema 4.4, M h = R[X (X X )1 X X (X X )1 A ] = R[X (X X )1 A ]
PM B Z
Por consiguiente, PM h es, de acuerdo con el Lema 2.9, p ag. 35, PM h = Z (Z Z )1 Z , ecuaci on que, llevada a (4.7), proporciona: X h = X (X X )1 X y X (X X )1 A [A(X X )1 A ]1 A(X X )1 X y 1 1 1 = X X (X X ) A [A(X X ) A ] A , (4.9) (4.8)
en que es el vector de estimadores m nimo-cuadr aticos ordinarios al regresar y sobre X . Si X es de rango total, como venimos suponiendo, de (4.9) se deduce: (v ease el Ejercicio 4.3.) Hay algunas observaciones interesantes que hacer sobre las ecuaciones (4.9) y (4.10). En primer lugar, el lado izquierdo de (4.9) es una proyecci on. Ello garantiza de manera autom atica que y X h 2 es m nimo1 . Adem as, el tratamiento anterior se generaliza de modo inmediato al caso de modelos de rango no completo, sin m as que reemplazar en los lugares procedentes matrices inversas por las correspondientes inversas generalizadas. En segundo lugar, dado que los estimadores m nimo cuadr aticos ordinarios estiman insesgadamente los correspondientes par ametros, tomando valor medio en (4.10) vemos que: lo que muestra que h es un estimador insesgado de si A = 0. Es decir, la insesgadez se mantiene si los par ametros realmente verican las condiciones impuestas sobre los estimadores. En tercer lugar, si denimos: G = (X X )1 A [A(X X )1 A ]1 A tenemos que: h = (I G) . Por consiguiente, h = = = =
(I G) (I G ) (I G) 2 (X X )1 (I G ) 2 [(X X )1 G(X X )1 (X X )1 G + G(X X )1 G ] 2 [(X X )1 G(X X )1 G ]
h = (X X )1 A [A(X X )1 A ]1 A .
(4.10)
E [ h ] = (X X )1 A [A(X X )1 A ]1 A
Si hubi eramos llegado al mismo resultado minimizando una suma de cuadrados por el procedimiento habitual (derivando un lagrangiano) tendr amos a un que mostrar que el punto estacionario encontrado es un m nimo y no un m aximo.
55
que muestra, dado que el segundo sumando tiene claramente elementos no negativos en su diagonal principal (la matriz (X X )1 es denida no negativa), que h tiene en la diagonal principal varianzas no mayores que las correspondientes en on . Podemos concluir, pues, que la imposici de restricciones lineales sobre el vector de estimadores nunca incrementa su varianza, aunque eventualmente, si las restricciones impuestas no son vericadas por los parametros a estimar, puede introducir alg un sesgo. Hemos razonado en las l neas anteriores sobre el modelo transformado. Podemos sustituir sin embargo (4.3) en (4.10) y obtener la expresi on equivalente en t erminos de los par ametros originales: h = (X X )1 A [A(X X )1 A ]1 (A c) R: Ejemplo 4.1 (estimaci on condicionada)
No hay en R una funci on de prop osito general para realizar estimaci on condicionada. La extensibilidad del lenguaje hace sin embargo extraordinariamente f acil el denirla. El fragmento a continuaci on ilustra el modo de hacerlo y como utilizarla. No se ha buscado la eciencia ni elegancia sino la correspondencia m as directa con la teor a expuesta m as arriba. Denimos en primer lugar una funci on para uso posterior: > lscond <- function(X, y, A, d, beta0 = TRUE) { + ajuste <- lsfit(X, y, intercept = beta0) + betas <- ajuste$coefficients + xxinv <- solve(t(X) %*% X) + axxa <- solve(A %*% xxinv %*% t(A)) + betas.h <- betas - xxinv %*% t(A) %*% + axxa %*% (A %*% betas - d) + betas.h <- as.vector(betas.h) + names(betas.h) <- names(ajuste$coefficients) + return(list(betas = betas, betas.h = betas.h, + ajuste.inc = ajuste)) + } Generamos a continuaci on los datos y realizamos la estimaci on cin endonos a la teor a del modo m as directo. X es la matriz de dise no, beta contiene los par ametros e y la variable respuesta: > X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X
(4.11)

[,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
56
[1,] [2,] [3,] [4,] [5,] [6,]
> beta <- c(2, 3, 4) > y <- X %*% beta + rnorm(6) Especicamos la restricci on lineal 1 = 2 tomando la matriz A y vector d siguientes: > A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE) > d <- 0 y a continuaci on realizamos la estimaci on condicionada: > resultado <- lscond(X, y, A = A, d = d, + beta0 = FALSE) > resultado$betas.h X1 X2 X3 2.8392 3.2647 3.2647 > resultado$betas X1 X2 X3 2.8037 3.0526 3.7138
Fin del ejemplo
CON RESTRICCIONES CAP ITULO 4. ESTIMACION Complementos y ejercicios 4.1 Sea un espacio vectorial M cualquiera, de dimensi on nita. Compru ebese que siempre existe una matriz C tal que M = K (C ). (Ayuda: consid erese una matriz cuyas las fueran una base de M ). 4.2 ( 4.1) Pru ebese la igualdad (E.15), p ag. 244. 4.3 Justif quese el paso de (4.9) a (4.10). 4.4 El Ejemplo 4.1 se sale del marco conceptual en el que nos movemos. Los regresores (K y L, o log(K ) y log(L) al linealizar la funci on de producci on) no pueden ser jados por el experimentador: dependen de los agentes econ omicos. Estamos ante datos observados en oposici on a datos experimentales. Faraway (2005), Sec. 3.8, contiene una di afana discusi on de los problemas que ello conlleva. Es tambi en interesante, aunque de m as dif cil lectura, Wang (1993).
Las restricciones que hemos discutido en la Secci on 4.3 son exactas. Los par ametros las verican de modo exacto. En ocasiones se recurre a restricciones estoc asticas, llevando a los par ametros a vericarlas de forma aproximada. Es muy f acil introducirlas. Recordemos que, al hacer estimaci on m nimo-cuadr atica, los par ametros se jan de modo que la suma de cuadrados de los residuos sea la m nima posible. Si tenemos restricciones A = c que queremos imponer de modo aproximado basta que a nadamos las las de A a la matriz X y los elementos correspondientes de c al vector y para obtener: y c = X + A
57
4.5
y hagamos m nimos cuadrados ordinarios con la muestra ampliada (las las a nadidas se denominan en ocasiones pseudo-observaciones ). La idea es que las las a nadidas funcionan como observaciones y, c por tanto, el procedimiento de estimaci on tender a a hacer A (para que los residuos correspondientes c A sean peque nos). A un m as: podemos graduar la importancia que damos a las pseudoobservaciones (y por tanto el nivel de aproximaci on con que deseamos imponer las restricciones estoc asticas): basta que las multipliquemos por una constante adecuada k para estimar y kc = X + . kA (4.12)

Obs ervese que ahora los residuos de las pseudo-observaciones ser an k(c A ) y si tomamos k elevado el m etodo m nimo cuadr atico c se verique tendr a que prestar atenci on preferente a que A con gran aproximaci on (porque los cuadrados de los residuos correspondientes entran en SSE afectados de un coeciente k2 ). Cuando k nos acercamos al efecto de restricciones exactas.
58
4.6 ( 4.5) Un caso particular de inter es se presenta cuando en el problema anterior se toma A = I y c = 0 . Se dice entonces que estamos ante el estimador ridge de par ametro k. En 10.3, p ag. 139, abordamos su estudio y justicaci on con detalle. 4.7 ( 4.5) La estimaci on de (4.12) haciendo uso de las ecuaciones normales proporciona
= (X X + k2 A A)1 (X y + k2 A c ), (4.13)
que admite una interpretaci on bayesiana. Supongamos que a priori N ( 0 , 0 ). Dado , Y se distribuye como N (X , 2 I ). La densidad a posteriori de es entonces f ( |y , 2 , 0 , 0 ) exp
1 (y X ) (y X ) 2 2 1 1 exp ( 0 ) 0 ( 0 ) 2 1 = exp 2 (y X ) (y X ) 2
1 2 ( 0 ) 0 ( 0 )
Tomando el logaritmo neperiano e igualando a cero su derivada respecto a tenemos entonces 1 1 (2X (y X ) + 2 2 0 ( 0 ) = 0 , 2 2
que proporciona
1 2 1 (X X + 2 0 ) X y 0 0 = 0 ,
y por tanto la moda de la distribuci on a posteriori (que f acilmente se comprueba es normal multivariante) es: = (X X + 2 1 )1 (X y + 2 1 0 ). 0 0 (4.14)

Comparando (4.14) con (4.13) vemos que son id enticas cuando kA = 0 2 y kc = 0 2 0 : para obtener el estimador bayesiano con informaci on a priori como la indicada, basta por tanto con obtener el estimador MCO en una muestra ampliada con pseudo-observaciones.
1 1
59
Cap tulo 5
Especicaci on inadecuada del modelo

5.1. Introducci on.
En lo que antecede hemos dado por supuesto que el modelo lineal que se estima es el correcto, es decir, que la variable aleatoria Y efectivamente se genera de la siguiente manera: Y = 0 X0 + 1 X1 + . . . + p1 Xp1 + . (5.1)
En la pr actica, sin embargo, no tenemos un conocimiento preciso del mecanismo que genera las Y s. Tenemos, todo lo m as, una lista de variables susceptibles de formar parte de la ecuaci on (5.1) en condici on de regresores. De ordinario, por ello, incurriremos en errores en la especicaci on, que pueden ser de dos naturalezas: 1. Incluir en (5.1) regresores irrelevantes. 2. Omitir en (5.1) regresores que hubieran debido ser incluidos. Estudiamos en lo que sigue el efecto de estos dos tipos de mala especicaci on.
5.2.
Inclusi on de regresores irrelevantes.

Y = X + 60 (5.2)
Supongamos que
INADECUADA DEL MODELO CAP ITULO 5. ESPECIFICACION pese a lo cual decidimos estimar el modelo Y = X + Z +
61
(5.3)
Qu e ocurre con los estimadores de los par ametros ? Al estimar el modelo sobreparametrizado (5.3) obtendr amos: = X X X Z Z X Z Z
1
X Y Z
(5.4)
En el caso particular de columnas Z ortogonales a las columnas en X , los estimadores de proporcionados por (5.3) son id enticos a los que se obtendr an de (5.2). En efecto, si existe tal ortogonalidad, la matriz inversa en = (X X ) 1 X Y . (5.4) es una matriz diagonal por bloques y Fuera de este caso particular, los estimadores de procedentes de (5.4) son diferentes a los que se obtendr a de estimar (5.2). Sin embargo, (5.4) proporciona estimadores insesgados, sean cuales fueren los regresores irrelevantes a nadidos1 . En efecto, sustituyendo (5.2) en (5.4) tenemos: = = X X X Z Z X Z Z
1
X Z
1
X Z X . Z
+ 0
(5.5) (5.6)
X X X Z + Z X Z Z 0
Al tomar valor medio en la ecuaci on anterior obtenemos: ] = , E [ E [ ] = 0. (5.7) (5.8)
De la misma ecuaci on (5.6) obtenemos que la matriz de covarianzas del vector ( ) es: =
2
X X X Z Z X Z Z
(5.9)
El bloque superior izquierdo de (5.9) es la matriz de covarianzas de los obtenidos en el modelo sobreparametrizado. Debemos comparar dicho obtenidos al estimar bloque con 2 (X X )1 , matriz de covarianzas de los el modelo (5.2).
De los que lo u nico que supondremos es que no introducen combinaciones lineales exactas que hagan inestimables los par ametros.
1
INADECUADA DEL MODELO CAP ITULO 5. ESPECIFICACION
62
Haciendo uso del Teorema A.3, p ag. 221, vemos que el bloque que nos 2 interesa de (5.9) es multiplicado por (X X )1 + (X X )1 X Z [Z Z Z X (X X )1 X Z ]1 Z X (X X )1 . Por simple inspecci on vemos que el segundo sumando es una matriz denida no negativa2, y por tanto la expresi on anterior tendr a en su diagonal principal elementos no menores que los de la diagonal principal de (X X )1 . En consecuencia, la inclusi on de regresores irrelevantes no disminuye, y en general incrementa, las varianzas de los estimadores de los par ametros relevantes. No afecta sin embargo a su insesgadez. De cuanto antecede se deduce que Y X Z L = = (5.10)
es un vector aleatorio de media cero. Denominando, X Z , ,
un desarrollo enteramente similar al que realizaremos en el Teorema 6.1, p ag. 68, muestra que en el modelo sobreparametrizado SSE = Y (I L(L L)1 L )Y = (I L(L L)1 L ) (5.11)
es, bajo los supuestos habituales m as normalidad, una forma cuadr atica con distribuci on 2 2 , en que p y q son respectivamente los rangos de X N (p+q ) y Z . La consecuencia que de ello nos interesa ahora es que 2 = SSE N (p + q ) (5.12)
es un estimador insesgado de 2 . (Recu erdese que el valor medio de una v.a. con distribuci on 2 es k , el n u mero de grados de ibertad.) El u nico efecto k adverso de la inclusi on de los q regresores irrelevantes ha sido la p erdida de otros tantos grados de libertad.
Llamemos G a dicho segundo sumando. Para mostrar que es denida no negativa, basta ver que para cualquier a se verica a Ga 0. Pero a Ga = b (Z Z olo tenemos que comprobar que Z X (X X )1 XZ )1 b con b = Z X (X X )1 a; ya s (Z Z Z X (X X )1 XZ )1 es denida no negativa, o equivalentemente que (Z Z Z X (X X )1 XZ ) lo es. Esto u ltimo es inmediato: (Z Z Z X (X X )1 XZ ) = Z (I X (X X )1 X )Z , y d Z (I X (X X )1 X )Z d puede escribirse como e (I X (X X )1 X )e con e = Z d . La matriz de la forma cuadr atica en e es la conocida matriz de coproyecci on, denida no negativa por ser idempotente (con valores propios cero o uno).
2
63
5.3.
Omisi on de regresores relevantes.
. . X2 ) una matriz de dise no particionada en sendos bloques Sea X = (X1 . . de p y r columnas. Sea = ( 1 . . 2 ) el correspondiente vector de p + r par ametros. Consideremos el caso en que el modelo correcto es Y = X + = X1 1 + X2 2 + , (5.13)
pese a lo cual estimamos el modelo escaso Y = X1 1 + . (5.14)
Estimar (5.14) es lo mismo que estimar (5.13) junto con las restricciones h : 2 = 0, expresables as : 0 0 0 I 1 2 = 0 0 (5.15)
En consecuencia, podemos deducir cuanto necesitamos saber haciendo uso de los resultados en la Secci on 4.3. Las siguientes conclusiones son as inmediatas:
(h) 1 El estimador obtenido en el modelo escaso (5.14) es, en general, sesgado. El sesgo puede obtenerse haciendo uso de (4.11). Tenemos as que (h) 1 0
1 1 1 1 2 (X X ) A [A(X X ) A ] (A 0),
y en consecuencia
(h) 1 E [ 1 ] = (X X )1 A [A(X X )1 A ]1
0 2
(5.16)
(p1)
en que [M ](pq) designa el bloque superior izquierdo con p las y q columnas de la matriz M . La ecuaci on (5.16) muestra que el sesgo introducido depende de la magnitud de los par ametros asociados a los regresores omitidos. La ecuaci on (5.16) muestra tambi en que hay un caso particular en que (h) 1 es insesgado para 1 ; cuando las columnas de X1 y las de X2 son ortogonales, X1 X2 = 0, la matrix (X X )1 es diagonal por bloques, y (X X )1 A =
X1 X1 0 0 X2 X2 1
0 0 0 I
(5.17)
64
tiene sus primeras p las de ceros. Ello hace que el bloque considerado en (5.16) est e formado por ceros. El estimador de la varianza de la perturbaci on
(h) (h) 1 1 ( Y X1 ) ( Y X1 ) SSE = = N p N p 2
(5.18)
no es insesgado. En efecto, puede verse que no es de aplicaci on a (5.18) el Teorema 2.3, p ag. 21, porque los residuos no tiene media cero.
5.4.
Consecuencias de orden pr actico
Los resultados de las dos Secciones anteriores pueden ayudarnos a tomar decisiones a la hora de especicar un modelo. Hemos visto que sobreparametrizar no introduce sesgos: tan s olo incrementa la varianza de los estimadores y resta grados de libertad. Errar por exceso tendr a por ello en general consecuencias menos graves, y tanto menos importantes cuanto mayor sea el tama no muestral. La p erdida de un grado de libertad adicional originada por la inclusi on de un par ametro es menos importante cuando los grados de libertad restantes (N p) siguen siendo muchos. La s ola circunstancia en que la inclusi on de un regresor innecesario puede perjudicar gravemente la estimaci on se presenta cuando la muestra es muy peque na o el par ametro adicional es aproximadamente combinaci on lineal de los ya presentes. A esta u ltima cuesti on volveremos en el Cap tulo 9. Omitir regresores relevantes tiene consecuencias en general m as graves (h) y que no se aten uan al crecer el tama no muestral: el sesgo de 1 en el modelo escaso (5.14) no decrece hacia cero al crecer N . En este cap tulo hemos rastreado las consecuencias de dos posibles errores de especicaci on puros: falta o sobra de regresores. En la pr actica los dos tipos de errores se pueden presentar conjuntamente y sus efectos se combinan. Conocidos los problemas de una mala especicaci on se plantea el problema de c omo lograr una buena. Esta cuesti on se trata en el Cap tulo 12. Algunas t ecnicas de an alisis gr aco de residuos que pueden ser de ayuda en la especicaci on de modelos se consideran en la Secci on 13.2.
Cap tulo 6
Regresi on con perturbaciones normales.

6.1. Introducci on.
Si a los supuestos habituales (Secci on 1.3, p ag. 5) a nadimos1 el de que N (0, 2 I ), todos los resultados anteriores se mantienen; obtendremos no obstante muchos adicionales, relativos a la distribuci on de diferentes estad sticos. Podremos tambi en efectuar contrastes de hip otesis diversas. Buena parte de estos resultados son consecuencia casi inmediata de alguno de los siguientes lemas. Lema 6.1 Si u N (0, 2 I ) y A es una matriz sim etrica idempotente de 2 orden n y rango r , entonces: u Au . 2 r n: Demostracio Sea D la matriz diagonalizadora de A. Siendo A sim etrica, D es una matriz ortogonal cuyas columnas son vectores propios de A, veric andose: D AD = , en que es una matriz en cuya diagonal principal aparecen los valores propios de A. Como A es idempotente, es de la forma r (n r ) I 0 , 0 0
El s mbolo denotar a en lo sucesivo que el lado izquierdo es una variable aleatoria con la distribuci on que especica el lado derecho.
en que I es una matriz unidad de rango r , y los bloques de ceros que la circundan son de ordenes adecuados para completar una matriz cuadrada de orden n n.
1
65
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 66 Si hacemos el cambio de variable v = D u ( u = Dv), el nuevo vector v sigue tambi en una distribuci on N (0, 2 I ). Entonces, u Au v D ADv v I 0 v = = = 2 2 0 0
2 vi . 2 i=1 r
(6.1)
Pero el lado derecho de (6.1) es una suma de cuadrados de r variables aleatorias N (0, 1) independientes, y por tanto sigue una distribuci on2 2 r.
Lema 6.2 Sea B una matriz sim etrica nn y P una matriz sim etrica idempotente del mismo orden y rango r . Sea u un vector aleatorio n-variante, u N (0, 2 I ), y supongamos que se verica BP = 0. Entonces, u Bu y u P u son variables aleatorias independientes. n: Demostracio Sea D la matriz diagonalizadora de P . Al igual que antes, denamos v = D u, (lo que implica u = Dv ). Tenemos que: BP = 0 D BDD P D = 0 r (n r ) I 0 0 0 (6.2) (6.3) =0 (6.4) (6.5) (6.6)
D BD
D BD tiene sus r primeras columnas nulas Por tanto: r (n r ) r (n r ) 0 L12 0 L22
D BD =
=0
(6.7)
Como, adem as, D BD es sim etrica, L12 ha de ser tambi en un bloque de ceros, y: r (n r ) 0 0 v 0 L22
u Bu = v D BDv = v
2
(6.8)
El rec proco es tambi en cierto; v ease en Searle (1971), Teorema 2, pag. 57 una versi on m as potente de este teorema.
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 67 Por otra parte: r (n r ) I 0 v 0 0
u P u = v D P Dv = v
(6.9)
De (6.8) y (6.9) se deduce que ambas formas cuadr aticas consideradas dependen de distintas componentes del vector v , y son por tanto independientes.
Lema 6.3 Sea M una matriz sim etrica idempotente de rango r y dimensiones n n. Sea A una matriz que verica AM = 0, y u N (0 , 2 I ). Entonces Au y u Mu son variables aleatorias independientes. n: Demostracio Sea D la matriz que diagonaliza M . Al igual que antes, denamos v = D u ( u = Dv ). Como AM = 0, y D MD es una matriz diagonal con r unos y (n r ) ceros en la diagonal principal, se verica que AM = ADD MD = 0 AD =
r (n r ) 0 | L2 ,
(6.10)
es decir, AD tiene sus primeras r columnas de ceros. Por consiguiente, Au = ADv = Como r (n r ) I 0 v, 0 0 r (n r ) 0 | L2 v. (6.11)
u Mu = v D MDv = v
(6.12)
deducimos de (6.11) y (6.12) que ambas variables aleatorias consideradas dependen de distintas componentes de v, y son consecuentemente independientes.
Podemos ahora, con ayuda de los Lemas precedentes, demostrar el siguiente resultado:
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 68 Teorema 6.1 Si Y = X + , N (0, 2 I ), y X es de orden N p y rango p, se verica: 1. 2. 3. 4. N ( , 2 (X X ) 1 ) ) (X X )( ) 2 2 ( p (N p) 2 = SSE 2 2 N p y 2 son variables aleatorias independientes.
n: Demostracio El apartado 1) es inmediato. Si se verican los supuestos habituales, fue es un estimador insesgado de ya demostrado (Teorema 2.2, p ag. 19) que es una combinaci con la matriz de covarianzas indicada. Como, adem as, on lineal de variables aleatorias normales e independientes, es tambi en normal. El apartado 2) es consecuencia inmediata del Lema 6.1, una vez que 1 ) N (0 , 2 I ). observamos que (X X ) 2 ( Para demostrar el apartado 3) observemos que: SSE 2 = = = = = = ) (Y X ) (Y X 2 (Y X (X X ) 1 X Y ) (Y X (X X ) 1 X Y ) 2 Y [I X (X X )1 X ]Y 2 (X + ) [I X (X X )1 X ](X + ) 2 [I X (X X )1 X ] 2 M 2 (6.13) (6.14) (6.15) (6.16) (6.17) (6.18) (6.19)
2 N p ,
donde (6.19) es consecuencia inmediata del Lema 6.1, ya que M es sim etrica idempotente y de rango N p. Para probar 4), basta invocar el Lema 6.3, ya que = (X X ) 1 X Y , 2 = SSE Y [I X (X X )1 X ]Y = . N p N p

(6.20) (6.21)
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 69 = De la ecuaci on (6.20) deducimos (sustituyendo Y por X + ) que 1 + (X X ) X . La misma sustituci on en (6.21) muestra que 2 = Como (X X ) 1 X [ I X (X X ) 1 X ] = 0 , el Lema 6.3, p ag. 67, demuestra la independencia de las formas lineal y cuadr atica anteriores y por tanto de (6.20) y (6.21). [I X (X X )1 X ] . N p
R: Ejemplo 6.1 (ejemplo de simulaci on)

El c odigo que sigue tiene por objeto ilustrar c omo examinar amos emp ricamente la concordancia entre lo que la teor a predice y lo que podemos obtener en la pr actica. Lo que se hace es generar m ultiples muestras articiales, obtener de ellas m ultiples observaciones del es) y examinar el ajuste de la distribuci tad stico de inter es (aqu , on emp rica de los mismos a la te orica. Generemos en primer lugar la matriz de dise no X , vector de par ametros y los valores medios de la respuesta X : > X <- matrix(c(1, 1, 1, 1, 1, 1, 9, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 9 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
> beta <- c(2, 3, 4) > Ey <- X %*% beta Deniremos ahora una matriz b de dimensiones 100 3, cada una con una muestra de cuyas las guardar a los par ametros estimados articial diferente
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 70

> muestras <- 100 > b <- matrix(0, muestras, 3) e iteremos, generando en cada pasada del bucle for un nuevo vector de perturbaciones (mediante rnorm), un nuevo vector de valores de de los par la variable respuesta y y nuevas estimaciones ametros (fit$coefficients, que se almacenan en b[i,]): > for (i in 1:muestras) { + y <- Ey + rnorm(6) + fit <- lsfit(X, y, intercept = FALSE) + b[i, ] <- fit$coefficients + } La distribuci on te orica de los betas es Normal, con vector de medias (2, 3, 4) y matriz de covarianzas (X X )1 (la varianza de las perturbaciones generadas por rnorm es 1 si no se especica otra cosa). > cov.betas <- solve(t(X) %*% X) Por consiguiente, un modo de vericar que los resultados emp ricos son congruentes con la teor a consistir a en tipicar las estimaciones de los par ametros y comparar su distribuci on con una N (0, 1). Podemos por ejemplo comparar la media y varianza emp ricas con las te oricas, > beta1.tipif <- (b[, 1] - beta[1])/sqrt(cov.betas[1, + 1]) > mean(beta1.tipif) [1] 0.19871 > var(beta1.tipif) [1] 1.1125 dibujar el histograma > hist(beta1.tipif, ylab = "Frecuencia absoluta", + main = "Histograma de beta1.tipif")
Histograma de beta1.tipif
Frecuencia absoluta
10
15
0 beta1.tipif
o llevar a cabo alg un contraste de normalidad especializado: > ks.test(beta1.tipif, "pnorm") One-sample Kolmogorov-Smirnov test data: beta1.tipif D = 0.1036, p-value = 0.2334 alternative hypothesis: two-sided > shapiro.test(beta1.tipif) Shapiro-Wilk normality test data: beta1.tipif W = 0.9874, p-value = 0.4679 Lo que antecede ilustra, reducido a sus rasgos esenciales, el llamado m etodo de Monte-Carlo. Puede parecer un ejercicio ocioso en a que el caso que nos ocupa (ya sab amos c omo se distribuye viene comprobarlo mediante una simulaci on?). Sin embargo, tiene una enorme aplicaci on pr actica por varias razones:

1. En ocasiones no conocemos la distribuci on te orica de los estad sticos de inter es para muestras nitas. Todo lo que podemos obtener te oricamente es la distribuci on asint otica (la distribuci on cuando el tama no muestral tiende a innito). En este caso, la simulaci on permite ver si la aproximaci on asint otica es aceptable para un cierto tama no muestral. 2. En otras ocasiones, ni siquiera la distribuci on asint otica es obtenible anal ticamente. Este es el caso m as frecuente en la pr actica. De nuevo el m etodo de Monte-Carlo proporciona un m etodo para obtener aproximaciones a la distribuci on de cualquier estad stico. El uso del m etodo de Monte-Carlo reposa en la posibilidad de generar mediante un ordenador n umeros aleatorios con la distribuci on que deseemos. En este ejemplo, se ha empleado rnorm para generar variables aleatorias normales. (R ofrece generadores de n umeros aleatorios de las distribuciones m as usuales, como casi cualquier otro paquete estad stico.) Fin del ejemplo
6.2.
Contraste de hip otesis lineales.
El problema que nos planteamos es el siguiente: dado el modelo lineal Y = X + con los supuestos habituales m as normalidad, queremos, con ayuda de una muestra, contrastar la siguiente hip otesis lineal h : A = c ( rango de A = q < p), (6.22)
siendo A de dimensiones q p. Cualquier hip otesis lineal sobre los par ametros se puede expresar en la forma (6.22). En particular, mediante adecuada elecci on de A se pueden hacer contrastes de nulidad de uno o varios par ametros, de igualdad de dos o m as de ellos, etc. Observaci on 6.1 Llamamos hip otesis lineales a las que pueden expresarse del modo (6.22); multitud de hip otesis de inter es admiten tal expresi on, como se ver a en lo que sigue. Hay hip otesis, sin embargo, que no pueden escribirse de tal forma. Por ejemplo, restricciones de no negatividad sobre los par ametros (i > 0) o sobre el 2 + 2 = 1). m odulo de (cosas como 1 2
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 73 La forma de efectuar el contraste es la habitual. Se busca un estad stico que bajo la hip otesis nula h siga una distribuci on conocida; si el valor obtenido en el muestreo de dicho estad stico es raro de acuerdo con lo esperable cuando h es cierta, rechazaremos la hip otesis nula. El estad stico de contraste y su distribuci on se deducen del siguiente teorema: h el vector de estimaTeorema 6.2 Sea h : A = c una hip otesis lineal, h 2 dores m nimo cuadr aticos condicionados por h, y SSEh = Y X Bajo los supuestos habituales m as el de normalidad en las perturbaciones, se verica: 1. 2. c ) [A(X X )1 A ]1 (A c ) SSEh SSE = (A Si h : A = c es cierta, Qh = (SSEh SSE )/q Fq,N p SSE/(N p)
en que q p es el rango de A. n: Demostracio
SSEh SSE
= = = = =
), (X X h ) > +2 < (Y X X h 2 X h ) (X X )( h ). (
h 2 Y X 2 Y X (6.23) 2 2 + X X h Y X Y X (6.24) 2 2 + X X h Y X 2 Y X
(6.25) (6.26) (6.27)
Se ha hecho uso en el paso de (6.25) a (6.26) de que es ortogonal a toda combinaci on lineal de las columnas de X , lo que garantiza la nulidad del producto interno en (6.25). Haciendo uso de la ecuaci on (4.11), p ag. 55, la expresi on (6.27) se convierte en: c ) [A(X X )1 A ]1 (A c ). SSEh SSE = (A = + (X X )1 X , (6.28)
Esto naliza la demostraci on del primer apartado. Por otra parte, como
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 74 tenemos que, cuando se verica la hip otesis h, c) = (A A ) = A(X X )1 X , (A resultado que llevado a (6.28) proporciona: SSEh SSE = X (X X )1 A [A(X X )1 A ]1 A(X X )1 X
G h
(6.29) Esta expresi on muestra que SSEh SSE es una forma cuadr atica en variables normales (las ) de matriz G que f acilmente comprobamos es idempotente. Por tanto, seg un el Lema 6.1, p ag. 65, SSEh SSE sigue una dis2 2 tribuci on q , con grados de libertad q iguales al rango de G (= rango(A)). Tenemos adem as (Teorema 6.1) que: SSE = Y (I PM )Y 2 2 N p (6.30)
Para demostrar que Qh en el enunciado es una variable aleatoria con distribuci on F de Snedecor, s olo resta comprobar que numerador y denominador son independientes: pero esto es inmediato, ya que (I PM ) X (X X )1 A [A(X X )1 A ]1 A(X X )1 X = 0.
G
El Lema 6.2 garantiza por tanto la independencia.
Observaci on 6.2 Hay cuestiones de inter es sobre el Teorema

6.2. En primer lugar, es claro que, para un nivel de signicaci on , la regi on cr tica estar a formada por valores mayores que Fq,N p . En efecto, son grandes discrepancias entre SSEh y SSE las que cabe considerar evidencia contra h. Desde otro punto de vista, el apartado 1) del Teorema 6.2 muestra que el estad stico tiene en su numerador de c. una forma cuadr atica que crece al separarse A
Observaci on 6.3 La presentaci on es puramente heur stica; se

ha propuesto el estad stico Qh y encontrado su distribuci on, indic andose, sin otro apoyo que el sentido com un, qu e valores debemos considerar en la regi on cr tica. Podr amos llegar a un resultado an alogo si construy eramos un estad stico de contraste basado en la raz on generalizada de verosimilitudes: = m ax g ( ; y, X ) h ; y, X ) m ax g(
h

h aquellos vericando h : A = c. Ello proporciona una siendo justicaci on al estad stico anterior.
Observaci on 6.4 Del enunciado del teorema anterior se sigue

con facilidad que cuando h no es cierta (y en consecuencia A c = d = 0, Qh sigue una distribuci on F de Snedecor no central, con ease Ap endice B.1), siendo par ametro de no centralidad 2 = t t (v t = [A(X X )1 A ] 2 (A c ). Ello permite calcular f acilmente la potencia de cualquier contraste frente a alternativas prejadas, si se dispone de tablas o abacos de la F de Snedecor no central. En R se dispone de la funci on pf que admite un par ametro de no centralidad. Alternativamente, puede estimarse la potencia por simulaci on.
1
R: Ejemplo 6.2 (contraste de una hip otesis lineal)

Veamos el modo en que contrastar amos una hip otesis lineal general sobre los par ametros de un modelo de regresi on lineal. Nos serviremos de la funci on lscond para realizar estimaci on condicionada presentada en el Ejemplo 4.1, p ag. 55. > lscond <- function(X, y, A, d, beta0 = TRUE) { + ajuste <- lsfit(X, y, intercept = beta0) + betas <- ajuste$coefficients + xxinv <- solve(t(X) %*% X) + axxa <- solve(A %*% xxinv %*% t(A)) + betas.h <- betas - xxinv %*% t(A) %*% + axxa %*% (A %*% betas - d) + betas.h <- as.vector(betas.h) + names(betas.h) <- names(ajuste$coefficients) + return(list(betas = betas, betas.h = betas.h, + ajuste.inc = ajuste)) + } Deniremos ahora una nueva funci on, contraste.h, que calcula SSE , SSEh (utilizando lscond), el estad stico Qh y su nivel de signicaci on. > contraste.h <- function(X, y, A, d, beta0 = TRUE) { + lscond.result <- lscond(X, y, A, d, + beta0 = beta0) + betas <- lscond.result$betas

+ + + + + + + + + + } betas.h <- lscond.result$betas.h SSE <- sum((y - X %*% betas)^2) SSE.h <- sum((y - X %*% betas.h)^2) numer <- (SSE.h - SSE)/nrow(A) denom <- SSE/(nrow(X) - ncol(X)) Qh <- numer/denom p.value <- 1 - pf(Qh, nrow(A), nrow(X) ncol(X)) return(list(Qh = Qh, p.value = p.value))
Generemos datos articiales: > X <- matrix(c(1, 1, 1, 1, 1, 1, 1, 4, + 12, 1, 4, 13, 0, 6, 7, 0, 2, 2), 6, + 3) > X [1,] [2,] [3,] [4,] [5,] [6,] [,1] [,2] [,3] 1 1 0 1 4 6 1 12 7 1 1 0 1 4 2 1 13 2
> beta <- c(2, 3, 4) > y <- X %*% beta + rnorm(6) Sabemos, porque los datos han sido articialmente generados, que 1 = 3 y 2 = 4. Probaremos a continuaci on a contrastar la hip otesis 1 = 2 , que debiera ser rechazada. La matriz A y vector c especicando dicha hip otesis pueden construirse as : > A <- matrix(c(0, 1, -1), 1, 3, byrow = TRUE) > d <- 0 El contraste puede entonces llevarse a cabo as : > result <- contraste.h(X, y, A = A, d = d, + beta0 = FALSE) > result$Qh

[1] 161.11 > result$p.value [1] 0.0010548 Rechazar amos por consiguiente la hip otesis contrastada para cualquier nivel de signicaci on > 0.0010548. Frecuentemente podemos obtener las sumas de cuadrados requeridas para el contraste de hip otesis de inter es de manera m as simple. En el caso que nos ocupa, si realmente 1 = 2 , Y = 0 X0 + 1 X1 + 2 X2 + es equivalente a Y = 0 X0 + 1 (X1 + X2 ) + (6.32) (6.31)
y las sumas de cuadrados SSE y SSEh podr an obtenerse as : > > > > + SSE <- sum(lsfit(X, y)$residuals^2) Xmod <- cbind(X[, 1], X[, 2] + X[, 3]) SSE.h <- sum(lsfit(Xmod, y)$residuals^2) Qh <- ((SSE.h - SSE)/1)/(SSE/(nrow(X) ncol(X)))
Puede verse que el valor de Qh as calculado es id entico al obtenido m as arriba: > Qh [1] 161.11 Esta t ecnica de calcular las sumas de cuadrados SSE y SSEh en dos regresiones ad-hoc puede ser muy frecuentemente utilizada. En el caso frecuente de hip otesis de exclusi on (alguno o varios betas iguales a cero), puede obtenerse SSEh de una regresi on en que los regresores correspondientes est an ausentes. Si en nuestro ejemplo quisi eramos contrastar h : 1 = 2 = 0, podr amos obtener SSE de la regresi on (6.31) y SSEh de la regresi on Y = 0 X0 + , para calcular el estad stico Qh as :

> > > + > SSE <- sum(lsfit(X, y)$residuals^2) SSE.h <- sum(lsfit(X[, 1], y)$residuals^2) Qh <- ((SSE.h - SSE)/2)/(SSE/(nrow(X) ncol(X))) Qh
[1] 16956 El valor que dicho estad stico Qh deja en a su derecha en la distribuci on de referencia, > 1 - pf(Qh, 2, nrow(X) - ncol(X)) [1] 8.3193e-07 permite rechazar contundentemente la hip otesis h : 1 = 2 = 0 contrastada. Fin del ejemplo
Contraste sobre coecientes i aislados.

El Teorema 6.2 permite obtener como casos particulares multitud de contrastes frecuentemente utilizados. Por ejemplo, la hip otesis h : i1 = 0 puede contrastarse tomando c = 0 y A = 0 1 0 , ocupando el u nico uno la posici on i- esima (recu erdese que los par ametros se numeran a partir de 0 ). En tal caso, Qh puede escribirse as : Qh =
1 1 i1 0) [(X X ) ( ii ] (i1 0) 2
(6.33)
1 1 donde (X X ) on i- esima ii = [A(X X ) A ] designa el elemento en la posici 1 de la diagonal principal de (X X ) . Bajo la hip otesis h, (6.33) sigue una 1 2 2 distribuci on F1,N p , y como (X X )ii = tenemos que:
i1
Qh =
i1 i1
F1,N p tN p
(6.34)
La regla de decisi on que se deduce de (6.34) es:
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 79 Rechazar h : i1 = 0 al nivel de signicaci on si i1 /2 > tN p . i1 i1 / El estad stico | stico t o t-ratio. i1 | recibe el nombre de estad De forma an aloga se contrasta la hip otesis h : i1 = c.
Contraste de signicaci on conjunta de la regresi on.

Otra hip otesis frecuentemente de inter es es: h : 1 = = p1 = 0 es decir, nulidad de todos los par ametros, salvo el correspondiente a la columna de unos, 0 . En este caso,
N
SSEh =
i=1
(Y i Y )2
y la hip otesis h puede expresarse en la forma A = c siendo: 0 0 A= . . .
1 0 . . .
0 1 . . .
0 0 . . .
0 0 0 0 1
0 0 = 0|I . . .
una matriz con (p 1) las y p columnas, y: c = 0 0 0 Pero SSEh en este caso particular es lo que hemos denido (Teorema 2.4, p ag. 28) como SST . Por tanto, (SST SSE )/(p 1) SSE/(N p) N p (SST SSE ) p1 SSE N p R2 p1 (1 R2 )
Qh = = =
siendo R el coeciente de correlaci on m ultiple denido en el Teorema 2.4, p ag. 29. El contraste de h requiere solamente conocer R2 . Cuando h es cierta, Qh se distribuye como una Fp1,N p.
6.3.
Construcci on de intervalos de conanza para la predicci on.
Supongamos de nuevo que trabajamos sobre el modelo Y = X + con los supuestos habituales m as el de normalidad en las perturbaciones. Frecuentemente es de inter es, adem as de la estimaci on de los par ametros, la utilizaci on del modelo con nalidad predictiva. Sea x un vector p 1 de valores a tomar por los regresores. La corres del valor a tomar por pondiente Y ser a: Y = x + . Una predicci on Y la Y es: Y = x . Teorema 6.3 Se verica lo siguiente: 1. 2. ) = 0 E (Y Y )2 = 2 (1 + x (X X )1 x ) E (Y Y
n: Demostracio El apartado 1) se sigue inmediatamente de las ecuaciones (6.35) y (6.36) a continuaci on, consecuencia la primera de los supuestos habituales, y la (Teorema 2.2, p segunda de la insesgadez de ag. 19). E (Y ) = E (x + ) = x ) = x ) = E (x E (Y (6.35) (6.36)
es una predicci Se dice que Y on insesgada de Y . Observemos que: ]2 )2 = E [x + x E (Y Y ) + ]2 = E [x (

2
(6.37) (6.38)
2
)] + E [ ] = E [x ( )( ) x ] + E [ ]2 = E [x ( 2 = x x + = x 2 (X X )1 x + 2 = 2 [1 + x (X X )1 x ]
(6.39) (6.40) (6.41) (6.42) (6.43)
En el paso de (6.38) a (6.39) se ha hecho uso de la circunstancia de que depende solamente de , y es perturbaci y son independientes ( on de una observaci on adicional, distinta de las que han servido para estimar e independiente de ellas).
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 81 El examen de (6.43) muestra dos cosas. Una, que la varianza del error de predicci on es mayor o igual que la varianza de la perturbaci on (ya 1 que x (X X ) x es una forma cuadr atica semidenida positiva). Esto es incorpora l ogico: es del todo impredecible, y, adem as, la predicci on Y en lugar de . una fuente adicional de error, al emplear Por otra parte, (6.43) muestra que la varianza del error de predicci on depende de x . Habr a determinadas Y cuya predicci on ser a m as precisa que la de otras. En el Cap tulo 9 volveremos sobre el particular.
6.4.
Sobre la teor a. Pueden ser consultados los manuales repetidamente citados: Seber (1977), Cap. 4, Draper and Smith (1998) Cap. 8, Stapleton (1995) Sec. 3.8, Pe na (2002) Sec. 7.7 son unos cuantos. Sobre generadores de n umeros aleatorios, pueden consultarse Knuth (1968), Kennedy (1980), Lange (1998), Thisted (1988) y, en general, cualquier texto sobre computaci on estad stica. Sobre el contraste raz on generalizada de verosimilitudes, puede verse Cox and Hinkley (1974) p. 313 y para su aplicaci on al contraste de hip otesis lineales generales, Stapleton (1995) Sec. 3.8. Sobre la utilizaci on de R. En el Ejemplo 4.1, p ag. 55 y siguientes, se han denido las funciones lscond y contraste.h por motivos did acticos. En R hay funciones en varios paquetes que proporcionan an aloga funcionalidad. Puede consultarse por ejemplo la documentaci on de linear.hypothesis (paquete car) y glh.test (paquete gmodels). Por lo que hace a intervalos de conanza, que tambi en pueden obtenerse f acilmente de acuerdo con la teor a esbozada en la Secci on 6.3, puede ser de utilidad la funci on confint (paquete stats). El empleo de dichas funciones, sin embargo, presupone familiaridad con la funci on lm, que es objeto de atenci on en el Cap tulo 7 a continuaci on.
CON PERTURBACIONES NORMALES. CAP ITULO 6. REGRESION 82 Complementos y ejercicios 6.1 Demu estrese que si G es la matriz denida en (6.29) con A y (X X ) ambas de rango completo, entonces rango(G) = rango(A).
Cap tulo 7
Estimaci on del modelo de regresi on lineal con R.

En los cap tulos anteriores han aparecido fragmentos de c odigo ilustrando el modo de llevar a cabo diversos c alculos en R. Se presenta aqu la funci on lm y algunas otras, para ilustrar tanto los conceptos te oricos adquiridos como la potencia del entorno de modelizaci on proporcionado por R. Este cap tulo es eminentemente pr actico y puede ser omitido sin p erdida de continuidad por lectores que no est en interesados en utilizar R como herramienta de c alculo.
7.1.
Tipolog a de variables explicativas.
Interesar a distinguir dos tipos de variables: cualitativas (tambi en llamadas categ oricas) y num ericas. Las variables cualitativas se desglosan a su vez en nominales y ordinales. Una variable cualitativa nominal especica una caracter stica o atributo que puede tomar un n umero entero (y habitualmente peque no) de niveles o estados. Por ejemplo, una variable Zona podr a tomar los niveles o estados: Europa, Africa, Asia, America y Ocean a. Requeriremos que las categor as sean exhaustivas, de forma que todo caso muestral pueda recibir un valor. Si es preciso, podemos crear una categor a especial como Otros o Resto. Una variable cualitativa ordinal se diferencia u nicamente de una nominal en que hay una ordenaci on natural entre las categor as. Por ejemplo, en una variable como Nivel de estudios podr amos tener categor as como: Sin estudios, Primarios, Secundarios, Superiores. La diferencia 83
CON R CAP ITULO 7. REGRESION
84
esencial con las variables nominales es que hay una ordenaci on entre los distintos niveles: cada una de las categor as en el orden en que se hay escrito implica m as estudios que la categor a precedente. No hab a, en cambio, en el ejemplo anterior una ordenaci on natural entre las zonas geogr acas. Las variables que hemos denominado num ericas pueden en principio ponerse en correspondencia con un intervalo de n umeros reales. Ser a el caso de variables como Peso o Temperatura (aunque en la pr actica el n umero de estados que pueden tomar es nito a causa de la precisi on tambi en nita de los instrumentos de medida que empleamos). En cierto sentido, los tres tipos de variables, en el orden en que se han descrito, reejan una mayor nura o contenido informativo: una variable num erica puede convertirse en ordinal jando intervalos: por ejemplo, Temperatura podr a convertirse en una variable ordinal con niveles Fr o, Templado y Caliente, al precio de un cierto sacricio de informaci on: dos temperaturas de, por ejemplo, 80C y 93C podr an ambas convertirse en Caliente, perdi endose la informaci on de que la segunda es superior a la primera. An alogamente, una variable ordinal puede tratarse como nominal, haciendo abstracci on de su orden, tambi en al precio de sacricar cierta informaci on. Observaci on 7.1 En general, no interesar a degradar una variable trat andola como un tipo inferior, aunque en algunos casos, puede convenirnos hacerlo. Por ejemplo, si examinamos la inuencia de la renta sobre el consumo de un cierto bien en una muestra de familias, medir la renta en euros da al coeciente asociado la interpretaci on de Incremento de consumo asociado a un incremento de renta de un euro. T picamente, tendr a un valor muy peque no. Adem as, el suponer una dependencia lineal del consumo sobre la renta ser a en la mayor a de los casos poco realista. En tal caso, podr a convenirnos redenir la variable renta en categor as. Los coecientes estimados ser an m as f acilmente interpretables, y tendremos un modelo m as exible, que no fuerza una relaci on lineal entre renta y consumo. (Adicionalmente, si la variable se obtiene por encuestaci on, los sujetos podr an ser m as veraces al encuadrarse en intervalos amplios de renta que al responder directamente sobre su valor.)
85
7.2.
Factores y dataframes.
R ofrece excelentes facilidades para tratar variables de diferentes tipos como regresores. En la jerga de R, una variable cualitativa se denomina factor. Hay factores ordinarios, que permiten manejar variables cualitativas nominales, y factores ordenados (ordered factors), para variables cualitativas ordinales. El Ejemplo 7.1 a continuaci on ilustra la manera de operar con ellos. R: Ejemplo 7.1 Para que una variable sea un factor, hay que
especicarlo. Observemos el siguiente fragmento de c odigo: > Zona.chr <- c("Europa", "Europa", "Asia", + "Africa", "America", "Oceana", "Asia") > Zona <- as.factor(Zona.chr) > Zona.chr [1] "Europa" "Europa" "Asia" [5] "America" "Ocean a" "Asia" > Zona [1] Europa Europa Asia Africa America [6] Ocean a Asia Levels: Africa America Asia Europa Ocean a Obs ervese que Zona.chr y Zona se imprimen de manera similar, aunque uno es una cadena de caracteres y otro un factor. La diferencia estriba en las comillas en el primer caso y la l nea adicional especicando los niveles en el segundo. Podemos preguntar la clase de objeto con la funci on class o ver la structura con la funci on str para ver la diferencia: > class(Zona.chr) [1] "character" > class(Zona) [1] "factor" > str(Zona.chr) chr [1:7] "Europa" "Europa" "Asia" ... "Africa"

> str(Zona) Factor w/ 5 levels "Africa","America",..: 4 4 3 1 2 5 3 Un factor tiene denidos niveles, en tanto una cadena de caracteres no: > levels(Zona.chr) NULL > levels(Zona) [1] "Africa" "America" "Asia" [5] "Ocean a" "Europa"
86
Veamos ahora como denir un factor ordenado: > Estudios <- ordered(c("Superiores", "Medios", + "Medios", "Primarios", "Ningunos")) Si no se especica lo contrario, el orden de los niveles se determina por el orden alfab etico de sus denominaciones. Esto har a que en Estudios el nivel Medios precediera a Ningunos, y este a Primarios, lo que es indeseable: > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos 4 Levels: Medios < Ningunos < ... < Superiores Para especicar un orden, podemos crear el objeto Estudios as : > Estudios <- ordered(c("Superiores", "Medios", + "Medios", "Primarios", "Ningunos", + "Medios", "Primarios"), levels = c("Ningunos", + "Primarios", "Medios", "Superiores")) > Estudios [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Ningunos < Primarios < ... < Superiores

Podemos de modo an alogo reordenar los niveles. Si, por ejemplo, queremos revertir el orden, podemos hacerlo as :
87
> Estudios.1 <- ordered(Estudios, levels = c("Superiores", + "Medios", "Primarios", "Ningunos")) o, mas simplemente podemos revertir el orden de los niveles mediante la funcion rev, sin necesidad de enumerarlos. Comprobemos a continuaci on que obtenemos en ambos casos el mismo objeto con el orden de los niveles deseado: > Estudios.2 <- ordered(Estudios, levels = rev(levels(Estudios))) > Estudios.1 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < ... < Ningunos > Estudios.2 [1] Superiores Medios Medios Primarios [5] Ningunos Medios Primarios 4 Levels: Superiores < Medios < ... < Ningunos Una manipulaci on que deseamos hacer de ordinario con factores no ordenados es la de poner en primer lugar uno de los niveles, el nivel de referencia. Podemos lograrlo c omodamente con la funci on relevel > Zona [1] Europa Europa Asia Africa America [6] Ocean a Asia Levels: Africa America Asia Europa Ocean a > Zona <- relevel(Zona, ref = "Asia") > Zona [1] Europa Europa Asia Africa America [6] Ocean a Asia Levels: Asia Africa America Europa Ocean a Veremos en el Ejemplo 7.5 la utilidad de esto. Denamos ahora dos variables num ericas:

> Ingresos <- c(13456, 12345, 3456, 1234, + 6789, 4567, 2300) > Mortalidad <- c(0.003, 0.004, 0.01, 0.02, + 0.006, 0.005, 0.015) Podemos reunir variables de diferentes tipos en una dataframe. A todos los efectos, es como una matriz, pero presenta la peculiaridad de que sus columnas pueden ser de diferentes tipos: > Datos <- data.frame(Zona, Estudios, Ingresos, + Mortalidad) > Datos 1 2 3 4 5 6 7 Zona Estudios Ingresos Mortalidad Europa Superiores 13456 0.003 Europa Medios 12345 0.004 Asia Medios 3456 0.010 Africa Primarios 1234 0.020 America Ningunos 6789 0.006 Ocean a Medios 4567 0.005 Asia Primarios 2300 0.015
88
> str(Datos)
data.frame: $ Zona : $ Estudios : $ Ingresos : $ Mortalidad:
7 obs. of 4 variables: Factor w/ 5 levels "Asia","Africa",..: 4 4 1 2 3 5 1 Ord.factor w/ 4 levels "Ningunos"<"Primarios"<..: 4 3 3 2 1 3 2 num 13456 12345 3456 1234 6789 ... num 0.003 0.004 0.01 0.02 0.006 0.005 0.015
Una dataframe tiene la misma representaci on interna que una lista. Podemos referirnos a sus t erminos como a los elementos de una lista, o proporcionando ndices de la y columna: > Datos$Ingresos [1] 13456 12345 > Datos[[3]] [1] 13456 12345 3456 1234 6789 4567 2300 3456 1234 6789 4567 2300
> Datos[, "Ingresos"] [1] 13456 12345 3456 1234 6789 4567 2300

> Datos[3, 2:3] 3 Estudios Ingresos Medios 3456
89
Fin del ejemplo
Una dataframe provee un entorno de evaluaci on. Muchas funciones en R admiten un argumento data que permite especicar la dataframe en la que es preciso buscar las variables que se nombran. Adicionalmente, la instrucci on attach hace que las columnas en una dataframe sean accesibles como variables denidas en el espacio de trabajo. El Ejemplo 7.2, continuaci on del Ejemplo 7.1, lo ilustra. R: Ejemplo 7.2 Comencemos por eliminar del espacio de trabajo algunas variables: > rm(Zona, Estudios, Ingresos, Mortalidad) Si ahora tecle aramos el nombre de alguna de ellas obtendr amos un error. No obstante, tras invocar la funci on attach sus columnas son visibles como si variables en el espacio de trabajo se tratase: > attach(Datos) > Zona [1] Europa Europa Asia Africa America [6] Ocean a Asia Levels: Asia Africa America Europa Ocean a La funci on detach revierte el efecto de attach: > detach(Datos) Si un objeto existe en el espacio de trabajo, su valor oculta el de la columna del mismo nombre en una dataframe attacheada: > Zona <- c("a", "b", "c") > attach(Datos)

The following object(s) are masked _by_ .GlobalEnv: Zona > Zona [1] "a" "b" "c" Fin del ejemplo
90
7.3.
F ormulas
Bastantes funciones en R hacen uso de f ormulas. Permiten, entre otras cosas, especicar de modo simple modelos de regresi on, simplemente nombrando a la izquierda del s mbolo ~ la variable respuesta, y a la derecha las variables regresores. Una f ormula puede proporcionarse como argumento directamente para estimar un modelo de regresi on lineal ordinaria (mediante la funci on lm; un ejemplo en la Secci on 7.4), regresi on lineal generalizada (mediante la funci on glm) o regresi on no lineal (mediante la funci on nlme en el paquete del mismo nombre). Por razones did acticas, sin embargo, exploraremos primero el modo en que los diferentes tipos de variables son tratados en una f ormula por la funci on model.matrix. La funci on model.matrix recibe como argumentos una f ormula y, opcionalmente, una dataframe en la que los t erminos de la f ormula son evaluados. Proporciona la matriz de dise no asociada al modelo que especicamos en la f ormula. R: Ejemplo 7.3 Supongamos que deseamos investigar la relaci on entre la variable Mortalidad y la variable Ingresos. Podemos construir la matriz de dise no as : > X <- model.matrix(Mortalidad ~ Ingresos, + data = Datos) > X 1 2 3 4 (Intercept) Ingresos 1 13456 1 12345 1 3456 1 1234

5 1 6 1 7 1 attr(,"assign") [1] 0 1 6789 4567 2300
91
Como podemos ver, se ha a nadido autom aticamente una columna de unos. Si esto fuera indeseable por alg un motivo, podr amos evitarlo incluyendo como regresor -1. > X <- model.matrix(Mortalidad ~ -1 + Ingresos, + data = Datos) > X Ingresos 1 13456 2 12345 3 3456 4 1234 5 6789 6 4567 7 2300 attr(,"assign") [1] 1 Obs ervese que la variable Mortalidad no juega ning un papel en la conformaci on de la matriz de dise no. Podr amos omitirla y dar s olo el lado derecho de la f ormula, as : > X <- model.matrix(~Ingresos, data = Datos) > X (Intercept) Ingresos 1 1 13456 2 1 12345 3 1 3456 4 1 1234 5 1 6789 6 1 4567 7 1 2300 attr(,"assign") [1] 0 1

Fin del ejemplo
92
La comodidad que proporciona la utilizaci on de f ormulas se hace m as evidente, sin embargo, cuando tenemos regresores cualitativos. El Ejemplo 7.4 lo ilustra. R: Ejemplo 7.4 Consideremos un modelo que tiene como regresores Zona, Ingresos y Estudios. Podemos construir su matriz de dise no as :
> X <- model.matrix(~Zona + Estudios + Ingresos, + data = Datos) Las variables Zona y Estudios son cualitativas. Requieren ser tratadas de manera especial, y la funci on model.matrix as lo hace. Veamos la matriz de dise no que proporciona: > X 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 (Intercept) ZonaAfrica ZonaAmerica ZonaEuropa 1 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 ZonaOcean a Estudios.L Estudios.Q Estudios.C 0 0.67082 0.5 0.22361 0 0.22361 -0.5 -0.67082 0 0.22361 -0.5 -0.67082 0 -0.22361 -0.5 0.67082 0 -0.67082 0.5 -0.22361 1 0.22361 -0.5 -0.67082 0 -0.22361 -0.5 0.67082 Ingresos 13456 12345 3456 1234 6789 4567 2300

attr(,"assign") [1] 0 1 1 1 1 2 2 2 3 attr(,"contrasts") attr(,"contrasts")$Zona [1] "contr.treatment" attr(,"contrasts")$Estudios [1] "contr.poly" La variable Ingresos (num erica) ha sido dejada tal cual. La variable Zona es cualitativa nominal, y requiere ser desglosada en tantas columnas como niveles tiene (as , el asociado a cada columna recoge el efecto del correspondiente nivel). Eso es lo que ha hecho model.matrix, salvo que se ha omitido uno de los niveles (el primero) para evitar la multicolinealidad exacta que se hubiera producido de otro modo. El nivel omitido (Asia) pasa as a formar parte del caso de referencia: la funci on relevel (ver Ejemplo 7.1) permitir a cambiar f acilmente el nivel que forma parte del caso de referencia. El tratamiento de las variables ordinales como Estudios es algo m as elaborado. En una variable ordinal hay una noci on natural de proximidad entre niveles: el nivel de estudios Medios est a m as cerca del nivel Superiores que el nivel Primarios. Lo que hace model.matrix es conceptualmente equivalente a lo siguiente (detalles en la Observaci on 7.2, p ag. 94): 1. Asignar a cada nivel de Estudios un valor entero, respetando el orden de la variable: Ningunos=1, Primarios=2, Medios=3 y Superiores=4. 2. Con la variable Estudios as codicada, crear tantas columnas para la variable Estudios como niveles tenga, de la forma: (Estudios)0 , (Estudios)1 , (Estudios)2 , (Estudios)3 . La primera columna, que es constante, es autom aticamente desechada si en la matriz de dise no existe columna de unos, para evitar la multicolinealidad. Las restantes son rotuladas con las letras L (Linear), Q (Quadratic), C (Cubic), y as sucesivamente. Si empleamos todas las columnas que model.matrix crea para una variable ordinal, obtenemos exactamente el mismo subespacio que habr amos obtenido con columnas de ceros y unos como las empleadas para una variable nominal: la ventaja de utilizar una base de dicho subespacio como la que model.matrix construye, es que permite en ocasiones realizar una modelizaci on m as simple: podemos, a voluntad, emplear en un modelo de regresi on algunas, varias o todas
93

las columnas como regresores, para modelizar un efecto m as o menos suave sobre la variable respuesta. Fin del ejemplo
94
Observaci on 7.2 Se indica en el Ejemplo 7.4 que el efecto de

una variable ordinal se recoge de modo conceptualmente equivalente a construir potencias de orden creciente de la variable ordinal codicada por valores enteros que respetan el orden. Ayudar a representar gr acamente las columnas correspondientes de la matriz X frente a los enteros codicando los niveles de la variable Estudios. Para ello, eliminamos primero niveles duplicados y representaremos los restantes: > > > + + > > x <- as.numeric(Datos[, "Estudios"]) i <- !duplicated(x) plot(x[i], X[i, "Estudios.L"], type = "b", pch = "L", xaxp = c(1, 4, 3), xlab = "x", ylab = "Estudios.{L,Q,C}") points(x[i], X[i, "Estudios.Q"], pch = "Q") points(x[i], X[i, "Estudios.C"], pch = "C")
95
0.6
C Q
L Q
0.4
Estudios.{L,Q,C}
0.2
0.0
0.2
0.4
Q 0.6 L 1 2 x
Q C 3 4
Hemos dibujado una l nea uniendo las L para destacar su crecimiento lineal. Las Q puede verse que se sit uan sobre una par abola y las C sobre una funci on c ubica. Un vistazo al gr aco anterior muestra, sin embargo, que el t ermino lineal, por ejemplo, no toma los valores 1, 2, 3 4, ni el cuadr atico 1, 4, 9, 16. En efecto, > X[i, 6:8] 1 2 4 5 Estudios.L Estudios.Q Estudios.C 0.67082 0.5 0.22361 0.22361 -0.5 -0.67082 -0.22361 -0.5 0.67082 -0.67082 0.5 -0.22361
En realidad se han rescalado las columnas y se han ortogonalizado: > round(crossprod(X[i, 6:8])) Estudios.L Estudios.Q Estudios.C Estudios.L 1 0 0

Estudios.Q Estudios.C 0 0 1 0 0 1
96
Ello se hace por razones de conveniencia num erica y de interpretaci on. Aunque por razones did acticas hemos construido primero la matriz de dise no y extraido luego un subconjunto de las y columnas para ver como se codicaba la variable Estudios, R proporciona un modo m as simple de hacerlo: > contrasts(Datos[, "Estudios"]) .L .Q .C [1,] -0.67082 0.5 -0.22361 [2,] -0.22361 -0.5 0.67082 [3,] 0.22361 -0.5 -0.67082 [4,] 0.67082 0.5 0.22361
Observaci on 7.3 El anterior es el comportamiento por omisi on de la funci on model.matrix. Podemos alterarlo especicando distintos modos de desdoblar los factores y factores ordenados. Ello se hace invocando la funci on options de modo similar al siguiente:
options(contrasts=c("contr.treatment","contr.poly")) La primera opci on en el argumento contrasts se aplica a los factores, la segunda a los factores ordenados. Por ejemplo, para los factores podemos especicar que se desdoblen en tantas columnas como niveles haya, sin incluir ning un nivel en el caso de referencia. Para ello, deberemos proporcionar contr.sum como primer valor de contrasts: options(contrasts=c("contr.sum","contr.poly")) V ease la documentaci on de contrasts para m as detalles. Adicionalmente, podemos invocar directamente las funciones contr.sum, contr.treatment, contr.poly, contr.helmert para obtener informaci on sobre el diferente modo en que quedar a codicado un factor. Por ejemplo, > NivelEstudios <- levels(Datos[, "Estudios"]) > contr.sum(NivelEstudios)

[,1] [,2] [,3] Ningunos 1 0 0 Primarios 0 1 0 Medios 0 0 1 Superiores -1 -1 -1 > contr.treatment(NivelEstudios) Ningunos Primarios Medios Superiores Primarios Medios Superiores 0 0 0 1 0 0 0 1 0 0 0 1
97
> contr.poly(NivelEstudios) .L .Q .C [1,] -0.67082 0.5 -0.22361 [2,] -0.22361 -0.5 0.67082 [3,] 0.22361 -0.5 -0.67082 [4,] 0.67082 0.5 0.22361 Obs ervese que mientras contrasts se invoca tomando como argumento un factor, las funciones contr.sum y similares toman como argumento el vector de niveles de un factor.
7.4.
La funci on lm.
La funci on lm es un instrumento potente y c omodo de utilizar para el an alisis de regresi on lineal. Puede utilizarse con tan solo dos argumentos: una f ormula y una dataframe que suministra los valores para evaluar las expresiones en dicha f ormula. Por ejemplo, as : ajuste <lm(y ~ x1 + x2 + x4, data=datos)
La funci on lm construye entonces la matriz de dise no mediante la funci on model.matrix y estima el modelo deseado, suministrando un c umulo de informaci on sobre la estimaci on. El Ejemplo 7.5 a continuaci on proporciona detalles. R: Ejemplo 7.5 Veamos en primer lugar los datos que utilizaremos. Se trata de datos correspondientes a 47 estados en EE.UU. y referidos al a nos 1960. Forman parte del paquete MASS (soporte

del libro Venables and Ripley (1999b)) que hemos de cargar (mediante una instrucci on library(MASS)). Tras hacerlo, podemos obtener informaci on detallada sobre los datos tecleando help(UScrime). > library(MASS) > UScrime[1:3, 1:5] M So Ed Po1 Po2 1 151 1 91 58 56 2 143 0 113 103 95 3 142 1 89 45 44 > str(UScrime)
98
data.frame: $ M : int $ So : int $ Ed : int $ Po1 : int $ Po2 : int $ LF : int $ M.F : int $ Pop : int $ NW : int $ U1 : int $ U2 : int $ GDP : int $ Ineq: int $ Prob: num $ Time: num $ y : int
47 obs. of 16 variables: 151 143 142 136 141 121 127 131 157 140 ... 1 0 1 0 0 0 1 1 1 0 ... 91 113 89 121 121 110 111 109 90 118 ... 58 103 45 149 109 118 82 115 65 71 ... 56 95 44 141 101 115 79 109 62 68 ... 510 583 533 577 591 547 519 542 553 632 ... 950 1012 969 994 985 964 982 969 955 1029 ... 33 13 18 157 18 25 4 50 39 7 ... 301 102 219 80 30 44 139 179 286 15 ... 108 96 94 102 91 84 97 79 81 100 ... 41 36 33 39 20 29 38 35 28 24 ... 394 557 318 673 578 689 620 472 421 526 ... 261 194 250 167 174 126 168 206 239 174 ... 0.0846 0.0296 0.0834 0.0158 0.0414 ... 26.2 25.3 24.3 29.9 21.3 ... 791 1635 578 1969 1234 682 963 1555 856 705 ...
La funci on str permite ver la estructura de cualquier objeto en R. Lo que muestra en el fragmento anterior es que UScrime es una dataframe . En este caso, todas las variables son num ericas, algunas reales (num) y otras enteras (int). Vemos tambi en que tiene 47 las (=observaciones) y 16 columnas (=posibles regresores). Probemos ahora a hacer una regresi on1 . La variable y (tasa de criminalidad) podemos relacionarla con la desigualdad(Ineq), probabilidad de ser encarcelado (Prob) y con un indicador de Estado sure no (So):
No se arma que el modelo que ensayamos sea el mejor en ning un sentido: es s olo una ilustraci on. El Cap tulo 12 abordar a la cuesti on de c omo seleccionar modelos.
1

> fit <- lm(y ~ Ineq + Prob + So, data = UScrime) > fit Call: lm(formula = y ~ Ineq + Prob + So, data = UScrime) Coefficients: (Intercept) 1538.36 So 242.99
99
Ineq -1.58
Prob -8698.46
El objeto fit, al imprimirlo, proporciona una informaci on muy sumaria: apenas la descripci on del modelo ajustado y los coecientes estimados. El empleo de la funci on summary, sin embargo, proporciona un estadillo con informaci on mucho m as completa. > summary(fit) Call: lm(formula = y ~ Ineq + Prob + So, data = UScrime) Residuals: Min 1Q Median -662.8 -163.8 -56.1
3Q Max 82.5 1057.4
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1538.36 345.84 4.45 6e-05 Ineq -1.58 1.95 -0.81 0.4220 Prob -8698.46 2725.42 -3.19 0.0026 So 242.99 169.48 1.43 0.1589 (Intercept) *** Ineq Prob ** So --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 353 on 43 degrees of freedom Multiple R-squared: 0.22, Adjusted R-squared: 0.166 F-statistic: 4.05 on 3 and 43 DF, p-value: 0.0127

Desmenucemos la salida anterior. Se imprime, en primer lugar, el modelo ajustado y unos estad sticos sobre los residuos (m nimo, m aximo y cuartiles, es decir, valores dejando a su izquierda el 25 %, 50 % y 75 % de los residuos; el segundo cuartil es la mediana). A continuaci on, tenemos un estadillo proporcionando para cada regresor mencionado al margen: i (bajo Estimate). 1. Su 2. Su i (bajo Std. Error). 3. Su estad stico t, i i
100
(bajo t value). 4. La probabilidad bajo la hip otesis nula H0 : i = 0 de obtener un valor del estad stico t tan o m as alejado de cero que el obtenido (bajo Pr(>|t|)). A continuaci on tenemos SSE , N p
(Residual standard error), que estima , los grados de libertad 2 N p, (43 degrees of freedom), R2 (que toma el valor 0.22) y R (Adjusted R-squared; este u ltimo estad stico ser a introducido en el Cap tulo 12). Finalmente, tenemos el estad stico Qh para contrastar signicaci on conjunta de la regresi on, como se indica en la Secci on 6.2 (F-statistic). Aqu toma el valor 4.05. Dicho valor deja a su derecha en una distribuci on F3,43 una cola de probabilidad 0.0127, que es el nivel de signicaci on conjunto de la regresi on ajustada. El objeto compuesto fit contiene la informaci on que ha permitido imprimir todos los anteriores resultados y mucha otra, cuyos nombres son autoexplicativos: > attributes(fit) $names [1] "coefficients" [3] "effects" [5] "fitted.values" [7] "qr" [9] "xlevels" [11] "terms" $class [1] "lm" "residuals" "rank" "assign" "df.residual" "call" "model"

Podemos referirnos a los componentes de fit y emplearlos en c alculos subsiguientes. Por ejemplo, para obtener la suma de cuadrados de los residuos, SSE, podr amos hacer: > SSE <- sum(fit$residuals^2) > SSE [1] 5363970 El estadillo anterior suger a que el regresor Prob era muy signicativo, en tanto los restantes no lo eran. Podemos contrastar la hip otesis H0 : Ineq = So = 0 del modo sugerido al nal del Ejemplo 6.2, p ag. 77: ajustamos una segunda regresi on eliminando los regresores Ineq y So, > fit.h <- lm(y ~ Prob, data = UScrime) calculamos la suma de cuadrados de sus residuos, > SSE.h <- sum(fit.h$residuals^2) y a continuaci on el estad stico Qh asociado a la hip otesis y los grados de libertad del mismo: > > > > > N <- nrow(UScrime) q <- 2 p <- 4 Qh <- ((SSE.h - SSE)/q)/(SSE/(N - p)) Qh
101
[1] 1.0417 La probabilidad que el valor 1.0417 del estad stico deja en la cola a su derecha es > 1 - pf(Qh, q, N - p) [1] 0.3616 lo que sugiere que podemos prescindir de dichos dos regresores. La instrucci on anova proporciona una descomposici on de la suma de cuadrados de los residuos correpondiente a cada regresor cuando se introducen en el orden dado. Comp arese por ejemplo,

> anova(fit) Analysis of Variance Table
102
Response: y Df Sum Sq Mean Sq F value Pr(>F) Ineq 1 220530 220530 1.77 0.1907 Prob 1 1040010 1040010 8.34 0.0061 ** So 1 256417 256417 2.06 0.1589 Residuals 43 5363970 124743 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 con: > fit2 <- lm(y ~ Prob + Ineq + So, data = UScrime) > anova(fit2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Prob 1 1257075 1257075 10.08 0.0028 ** Ineq 1 3466 3466 0.03 0.8684 So 1 256417 256417 2.06 0.1589 Residuals 43 5363970 124743 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Fin del ejemplo
No hay ninguna necesidad ni aparente ventaja en hacerlo as , pero a efectos puramente ilustrativos re-estimaremos la regresi on anterior convirtiendo previamente la variable indicadora So (Estado del Sur) en una variable nominal y la variable Ineq en una variable ordinal (o factor ordenado). Para lo primero, basta que reemplacemos la columna So de la dataframe del siguiente modo:
> UScrime[, "So"] <- factor(UScrime[, "So"], + labels = c("Norte", "Sur"))
103
Para la segunda variable, dividiremos su recorrido en tres intervalos, y a continuaci on denimos un factor ordenado con tres categor as:
> Temp <- ordered(cut(UScrime[, "Ineq"], + breaks = 3), labels = c("Baja", "Media", + "Alta")) > UScrime[, "Ineq"] <- Temp
Podemos ahora repetir la estimaci on anterior: R: Ejemplo 7.6 (continuaci on del Ejemplo 7.5)
> fit3 <- lm(y ~ Prob + Ineq + So, data = UScrime) > summary(fit3) Call: lm(formula = y ~ Prob + Ineq + So, data = UScrime) Residuals: Min 1Q Median -641.9 -195.5 -55.4
3Q Max 124.3 1059.5
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1212.4 134.8 8.99 2.4e-11 Prob -9013.8 2717.7 -3.32 0.0019 Ineq.L -143.2 132.7 -1.08 0.2866 Ineq.Q -10.6 110.4 -0.10 0.9238 SoSur 284.8 184.3 1.55 0.1298 (Intercept) *** Prob ** Ineq.L Ineq.Q SoSur --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.232, Adjusted R-squared: 0.159 F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229

La variable ordinal Ineq da lugar a tres t erminos (constante, omitido por colineal con la columna de unos, lineal y cuadr atico). La variable nominal So se desglosa tambi en en dos: el nivel Norte se integra en el caso de referencia y el par ametro restante mide el efecto deferencial del nivel Surrespecto al nivel Norte. A t tulo ilustrativo, podemos ajustar la anterior regresi on empleando un diferente desdoblamiento del regresor cualitativo So: > options(contrasts = c("contr.sum", "contr.poly")) > fit4 <- lm(y ~ Prob + Ineq + So, data = UScrime) > summary(fit4) Call: lm(formula = y ~ Prob + Ineq + So, data = UScrime) Residuals: Min 1Q Median -641.9 -195.5 -55.4
104
3Q Max 124.3 1059.5
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1354.7 151.0 8.97 2.6e-11 Prob -9013.8 2717.7 -3.32 0.0019 Ineq.L -143.2 132.7 -1.08 0.2866 Ineq.Q -10.6 110.4 -0.10 0.9238 So1 -142.4 92.1 -1.55 0.1298 (Intercept) *** Prob ** Ineq.L Ineq.Q So1 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 355 on 42 degrees of freedom Multiple R-squared: 0.232, Adjusted R-squared: 0.159 F-statistic: 3.17 on 4 and 42 DF, p-value: 0.0229 (V ease la Observaci on 7.3.) Vemos un s olo regresor asociado a So1, el primer nivel de So; el asociado al segundo nivel es su opuesto, ya que contr.sum fuerza los coecientes asociados a un regresor nominal a sumar cero.

Si observamos los dos ajustes, vemos que son id enticos. Lo u nico que se altera es la interpretaci on de los par ametros. En fit3, el tratarse de un Estado del Sur ten a como efecto incrementar la tasa de criminalidad en 284.8, respecto de la tasa prevalente en un Estado del Norte de an alogas caracter sticas. La parametrizaci on en el model fit4 expresa lo mismo de otro modo: en un Estado del Norte, la criminalidad desciende en -142.4 sobre el nivel promedio de Norte y Sur, mientras que en un Estado del Sur aumenta en 142.4. La diferencia entre ambos niveles contin ua siendo 284.8. Puede encontrarse una discusi on exhaustiva de las diferentes opciones de parametrizaci on disponibles en Venables and Ripley (1999a), Sec. 6.2.
105
Fin del ejemplo
7.5.
Sobre R. Son ya bastantes las obras que es posible consultar sobre la utilizaci on de R como herramienta para los c alculos que requiere la regresi on lineal. Una excelente referencia es Venables and Ripley (1999a). Exclusivamente orientado a modelos lineales es Faraway (2005).
Cap tulo 8
Inferencia simult anea.

8.1. Problemas que plantea el contrastar m ultiples hip otesis simult aneas
Evidencia contra una hip otesis

Si examinamos la teor a sobre contrastes de hip otesis presentada en la Secci on 6.2 veremos que el m etodo ha sido el habitual en Estad stica no bayesiana. Los pasos se pueden esquematizar as : 1. Fijar una hip otesis H0 sobre los par ametros de un modelo. 2. Seleccionar un estad stico cuya distribuci on sea conocida cuando H0 es cierta y que se desv a de modo predecible de dicha distribuci on cuando H0 no es cierta. 3. Calcular el valor del estad stico en una determinada muestra. 4. Si el valor de dicho estad stico es an omalo respecto de lo que esperar amos bajo H0 , rechazar H0 . La l ogica subyacente es: Como cuando H0 es cierta es dif cil que se de un valor del estad stico como el observado, lo m as plausible es que H0 no sea cierta. Cuando el estad stico que empleamos en el contraste tiene una distribuci on continua, todos los valores posibles tienen probabilidad cero. No obstante, podemos ordenarlos de m as a menos raros de acuerdo con su densidad respectiva.
106
CAP ITULO 8. INFERENCIA SIMULTANEA. Ejemplo 8.1 Para una muestra X1 , . . . , Xn procedente de una
107
distribuci on N (, 2 ), todos los posibles valores del estad stico X tienen probabilidad cero. No obstante, la distribuci on de dicho estad stico una N (, 2 /n) genera de modo frecuente observaciones en las cercan as de , y s olo raramente valores en las colas. Consideraremos a estos u ltimos raros y favoreciendo el rechazo de H0 . Tienen densidad menor que los cercanos a . Fin del ejemplo
Tendr a inter es en lo que sigue la noci on de nivel de signicaci on emp rico 1 . Denici on 8.1 Llamamos nivel de signicaci on emp rico asociado al valor observado de un estad stico a la probabilidad de obtener en el muestreo (bajo H0 ) valores tan o m as raros que el obtenido. Ejemplo 8.2 En el Ejemplo 8.1, supongamos que H0 : = 0. Supongamos conocida 2 = 1. Sea una muestra con n = 100, e imaginemos que obtenemos un valor de X de 0.196 (= 1,96 1001 ). El nivel de signicaci on emp rico (u observado ) ser a 0.05, porque bajo H0 hay probabilidad 0.05 de observar valores de X igual o m as alejados de que el que se ha presentado.
Fin del ejemplo
Si en ocasiones al abordar un contraste de hip otesis prejamos de antemano el nivel de signicaci on que deseamos utilizar (y la regi on cr tica), es muy frecuente realizar el contraste sin una regi on cr tica preespecicada y tomar el nivel de signicaci on emp rico como una medida del acuerdo (o desacuerdo) de la evidencia con la hip otesis de inter es. Niveles de signicaci on emp ricos muy peque nos habr an as de entenderse como evidencia contra la hip otesis nula objeto de contraste.
C omo de raro ha de ser algo para ser realmente raro?

El siguiente ejemplo2 ilustra que un resultado aparentemente muy raro puede no serlo tanto.
1 2
O p-value , en la literatura inglesa. Par afrasis de un c elebre comentario de Bertrand Russell.
CAP ITULO 8. INFERENCIA SIMULTANEA. Ejemplo 8.3 Consideremos un mono frente a una m aquina de
escribir. Imaginemos que tras un periodo de tiempo observamos el conjunto de folios tecleados por el mono y constatamos que ha escrito sin una s ola falta de ortograf a Hamlet ! Bajo la hip otesis nula H0 : mono irracional, tal resultado es absolutamente inveros mil. La probabilidad de que golpeando al azar el teclado un mono logre tal cosa es rid culamente baja. Supongamos que una obra como Hamlet requiriera, entre blancos y caracteres, de 635000 digitaciones. Supongamos que hay 26 letras m as caracteres de puntuaci on, etc. totalizando 32 posibilidades de digitaci on. Componer Hamlet totalmente al azar consistir a en apretar la tecla correcta sucesivamente 635.000 veces, algo que, suponiendo las 32 posibilidades de digitaci on equiprobables, tendr a probabilidad: p= 1 32
635000
108
5,804527 10955771 .
(8.1)
La observaci on de un mono que teclea Hamlet ser a pr acticamente imposible bajo H0 : habr amos de rechazar H0 y pensar en alguna alternativa (quiz a Shakespeare reencarnado en un mono?) Imaginemos ahora una multitud de monos a los que situamos frente a m aquinas de escribir, haci endoles teclear a su entero arbitrio 635.000 digitaciones. Espec camente, imaginemos 10955771 monos. Supongamos que examinando el trabajo de cada uno de ellos, nos topamos con que el mono n- esimo ha compuesto Hamlet ! Lo separar amos de sus cong eneres para homenajearlo como reencarnaci on de Shakespeare? Claramente no; porque, entre tantos, no es extra no que uno, por puro azar, haya tecleado Hamlet. De hecho, si todos los conjuntos de 635.000 digitaciones son equiprobables, del trabajo de 10955771 monos esperar amos obtener en torno a 5,8045 transcripciones exactas de Hamlet. Lo observado no es raro en absoluto. Fin del ejemplo
El ejemplo anterior, deliberadamente extremo e inveros mil, ilustra un punto importante. Algo, aparentemente lo mismo, puede ser raro o no dependiendo del contexto. Observar un mono tecleando Hamlet es rar simo, pero si seleccionamos el mono entre una mir ada de ellos precisamente porque ha tecleado Hamlet, ya no podemos juzgar el suceso observado del mismo modo. Hemos seleccionado la observaci on por su rareza, no podemos extra narnos de que sea rara! Cuando seleccionamos la evidencia, hemos de tenerlo en cuenta al hacer inferencia. De otro modo, estaremos prejuzgando el resultado.
CAP ITULO 8. INFERENCIA SIMULTANEA.
109
An alisis exploratorio e inferencia

Es importante entender lo que el Ejemplo 8.3 intenta transmitir. El error, frecuente en el trabajo aplicado, es seleccionar la evidencia e ignorar este hecho al producir armaciones o resultados de tipo inferencial como rechazar tal o cual hip otesis con nivel de signicaci on p, construir tal o cual intervalo con conanza (1 p). Es el valor de p que reportamos el que resulta completamente irreal a menos que corrijamos el efecto de la selecci on. Ejemplo 8.4 Regresemos al Ejemplo 8.3. Imaginemos la segunda situaci on descrita en que uno entre los 10955771 monos examinados compone Hamlet. Ser a incorrecto rechazar la hip otesis H0 : Los monos son irracionales. atribuyendo a esta decisi on un nivel de signicaci on de 5,804525 10955771 . Por el contrario, la probabilidad de que ninguno de los monos hubiera tecleado Hamlet ser a:
p0 = (1 p)10
955771 955770 635000 10
1 = 1 32 0,0030138,
el u ltimo valor calculado haciendo uso de una aproximaci on de Poisson (con media = 5,804527). Por tanto, la probabilidad de observar una o m as transcripciones de Hamlet (un suceso tan raro o m as raro que el observado, bajo H0 ) es tan grande como 1 0,0030138 = 0,9969862! Dif cilmente considerar amos evidencia contra la hip otesis nula algo que, bajo H0 , acontece con probabilidad mayor que 0.99. Fin del ejemplo
Nada nos impide, sin embargo, hacer an alisis exploratorio: examinar nuestros datos, y seleccionar como interesante la evidencia que nos lo parezca. Ejemplo 8.5 De nuevo en el Ejemplo 8.3, no hay nada reprobable en examinar el trabajo de cada uno de los monos y detenernos con toda atenci on a examinar al animal que produce Hamlet. Seguramente le invitar amos a seguir escribiendo. Ser a del mayor inter es que ese mono produjera a continuaci on Macbeth. Lo que es reprobable es seleccionar el u nico mono que teclea Hamlet y reportar el hallazgo como si ese mono fuera el u nico observado.
Fin del ejemplo
110
Inferencia simult anea y modelo de regresi on lineal ordinario

Pero qu e tiene esto que ver con el modelo de regresi on lineal, objeto de nuestro estudio? Bastante. En ocasiones, hemos de hacer uso de modelos con un n umero grande de par ametros. Cuando ello ocurre, hay muchas hip otesis que podemos plantearnos contrastar. Si lo hacemos, hemos de ser conscientes de que algunas hip otesis ser an objeto de rechazo con una probabilidad mucho mayor que el nivel de signicaci on nominal empleado para contrastar cada una de ellas. El siguiente ejemplo lo aclara. Ejemplo 8.6 Supongamos el modelo
Y = 0 X 0 + 1 X 1 + . . . + 99 X 99 + .
Supongamos, por simplicidad, normalidad de las perturbaciones y ortogonalidad de las columnas de la matriz de dise no. Dicho modelo tiene su origen en nuestra completa ignorancia acerca de cu al de las cien variables regresoras consideradas, si es que alguna, inuye sobre la respuesta. Si quisi eramos contrastar la hip otesis H0 : i = 0, i = 0, . . . , 99, podr amos (si se verican los supuestos necesarios) emplear el contraste presentado en la Secci on 6.2, p ag. 79. Podr amos ser m as ambiciosos e intentar al mismo tiempo ver cu al o cuales i son distintos de cero. Ser a incorrecto operar as : 1. Contrastar las hip otesis H0i : i = 0 al nivel de signicaci on /2 comparando cada t-ratio en valor absoluto con tN p . 2. Si alg un t-ratio excede tN p , rechazar la hip otesis H0i , y por consiguiente H0 , reportando un nivel de signicaci on . Es f acil ver por qu e es incorrecto. Bajo H0 hay probabilidad tan s olo /2 de que un t-ratio prejado exceda en valor absoluto de tN p . Pero la probabilidad de que alg un t-ratio exceda de tN p es3 Prob(Alg un i = 0) = 1 (1 )p . (8.2)
/2 /2
mayor (en ocasiones mucho mayor ) que . Tomemos por ejemplo el caso examinado en que p = 100 y supongamos = 0,05. La probabilidad de obtener alg un t-ratio fuera de l mites es 1 0,95100 =
Bajo la hip otesis de independencia entre los respectivos t-ratios, hip otesis que se verica por la normalidad de las perturbaciones y la ortogonalidad entre las columnas de la matriz de dise no.
3

0,9940. Lejos de tener un nivel de signicaci on de = 0,05, el que tenemos es de 0,9940. Contrastar la hip otesis H0 de este modo tiene una probabilidad de falsa alarma de 0.9940. Si nuestro prop osito fuera puramente exploratorio, nada debe disuadirnos de estimar el modelo con los cien regresores y examinar luego las variables asociadas a t-ratios mayores, quiz a estimando un modelo restringido con muestra adicional. Lo que es inadmisible es dar un nivel de signicaci on incorrectamente calculado.
111
Fin del ejemplo
El problema de inferencias distorsionadas es grave y muchas veces indetectable. Pensemos en el investigador que hace multitud de regresiones, quiz a miles, a cu al m as descabellada. Por puro azar, encuentra una pocas culo y lo publica. Si el experimento es recon R2 muy alto, escribe un art producible, cabe esperar que otros investigadores tratar an de replicarlo y, al 2 no lograrlo el R alto era casualidad, la supercher a quedar a al descubierto. Pero si la investigaci on versa sobre, por ejemplo, Ciencias Sociales, en que con frecuencia una y s olo una muestra est a disponible, todo lo que sus colegas podr an hacer es reproducir sus resultados con la u nica muestra a mano. A menos que el primer investigador tenga la decencia de se nalar 2 que el alto R obtenido era el m as alto entre miles de regresiones efectuadas (lo que permitir a calcular correctamente el nivel de signicaci on y apreciar de un modo realista su valor como evidencia), es f acil que su trabajo pase por ciencia. De nuevo es preciso insistir: no hay nada objetable en la realizaci on de miles de regresiones, quiz a con car acter exploratorio. Tampoco es objetable el concentrar la atenci on en la u nica (o las pocas) que parecen prometedoras. Al rev es, ello es muy sensato. Lo que es objetable es reportar dichas regresiones como si fueran las u nicas realizadas, el resultado de estimar un modelo prejado de antemano, dando la impresi on de que la evidencia muestral sustenta una hip otesis o modelo pre-establecidos, cuando lo cierto es que la hip otesis o modelo han sido escogidos a la vista de los resultados.
8.2.
Desigualdad de Bonferroni.
Consideremos k sucesos, Ei , (i = 1, . . . , k ), cada uno de ellos con probabilidad (1 ). Designamos por E i el complementario del suceso Ei . La probabilidad de que todos los sucesos Ei , (i = 1, . . . , k ) acaezcan simult aneamente es:
112
k k Prob{k i=1 Ei } = 1 Prob{i=1 Ei } = 1 Prob{i=1 Ei } 1 k (8.3)
Se conoce (8.3) como desigualdad de Bonferroni de primer orden. Es una igualdad si los Ei son disjuntos. Muestra que la probabilidad conjunta de varios sucesos puede, en general, ser muy inferior a la de uno cualquiera de ellos. Por ejemplo, si k = 10 y Prob{Ei } = 0,95 = 1 0,05, la desigualdad anterior solo permite garantizar que Prob{k i=1 Ei } 1 10 0,05 = 0,50. Consideremos ahora el modelo Y = X + y los siguientes sucesos:
/2 1 E1 : [( 1 tN p ) . . . /2 k Ek : [( t ) k N p
cubre 1 ]
(8.4) (8.5)
cubre k ]
(8.6)
Cada Ei por separado es un suceso cuya probabilidad es 1 . De acuerdo con (8.3), sin embargo, todo cuanto podemos asegurar acerca de Prob{k i=1 Ei } es que su probabilidad es superior a 1 k. Las implicaciones son importantes. Si regres aramos Y sobre X0 , . . . , Xp1 y quisi eramos obtener intervalos de conanza simult aneos para los par ametros 0 , , p1 , ser a claramente incorrecto emplear los que aparecen en (8.4)(8.6). Si actu asemos de este modo, el nivel de conanza conjunto no ser a el deseado de 1 , sino que tan s olo podr amos armar que es mayor que 1 k. Si queremos intervalos de conanza simult aneos al nivel 1 , podr amos construir intervalos para cada uno de los par ametros con un nivel de conanza = . Haciendo esto, tendr amos que la probabilidad de que k todos los i fueran cubiertos por sus respectivos intervalos, ser a mayor, de ) = 1 . Ello se logra, sin embaracuerdo con (8.3), que 1 k = 1 k ( k go, al coste de ensanchar el intervalo de conanza correspondiente a cada i quiz a m as de lo necesario. En lo que sigue veremos procedimientos para lograr el mismo resultado con intervalos en general m as estrechos.
8.3.
Intervalos de conanza basados en la m axima t.
Supongamos que tenemos k variables aleatorias independientes, t1 , . . . , tk con distribuci on t-Student, y n umero com un n de grados de libertad. La
113
variable aleatoria m ax{|t1 |, . . . , |tk |} sigue una distribuci on que se halla 4 tabulada . Sea u on, es decir, un valor que k,n el cuantil 1 de dicha distribuci resulta superado con probabilidad por m ax{|t1 |, . . . , |tk |}. Entonces,
Prob{k i=1 [|ti | uk,n ]} = 1 ,
dado que si u aximo, acota simult aneak,n acota con probabilidad 1 al m mente con la misma probabilidad la totalidad de las variables aleatorias. Si ai / ai otesis nula (i = 1, . . . , k ) fueran independientes, y la hip h : ai = 0 (i = 1, . . . , k ) fuera cierta, tendr amos que:
a =1 i u Prob k,n ai i=1
k
(8.7)
ai Es claro que ai / (i = 1, . . . , k ) no son independientes. Sin embargo, la distribuci on aludida del m aximo valor absoluto de k variables t de Student est a tambi en tabulada cuando dichas variables tienen correlaci on por pares. (Esto sucede en algunos casos particulares, como el de ciertos dise nos de An alisis de Varianza equilibrados: la correlaci on entre parejas de t-ratios es la misma, y f acil de calcular.) A un cuando la correlaci on por pares de t-ratios no sea siempre la misma, (8.7) es de utilidad. Suministra intervalos simult aneos de conanza aproximada 1 . En caso de que conozcamos , podemos emplear la expre si on (8.7) con u do este u ltimo de la tabla k,n reemplazado por uk,n, , extra correspondiente; en caso de que no conozcamos , o esta no sea constante, podemos utilizar u k,n,=0 , lo que hace en general los intervalos calculados con ayuda de (8.7) conservadores (es decir, la probabilidad conjunta en el lado izquierdo de (8.7) es mayor que 1 ). Es importante se nalar que, si nuestro objetivo es contrastar una hip otesis del tipo h : A = c con rango(A) > 1, tenemos que emplear un contraste como el descrito en la Secci on 6.2, p ag. 72. El comparar cada una de las /2 (i = 1, . . . , k ) con una tN p supone variables aleatorias (ai ci )/ ai emplear un nivel de signicaci on mayor que . Como caso particular, es inadecuado contrastar la hip otesis h : 1 = = p = 0 comparando cada /2 uno de los t-ratios con tN p ; tal contraste tendr a un nivel de signicaci on sensiblemente superior a , en especial si p es grande. En el caso de que el contraste conjunto rechace h : A = c y queramos saber qu e las de A son culpables del rechazo, podr amos comparar
4
V ease, por ej., Seber (1977), Ap endice E.
114
ci )/ umero de las de A). N o(ai ai (i = 1, . . . , k ) con uk,n (k = n tese que es perfectamente posible rechazar la hip otesis conjunta y no poder rechazar ninguna de las hip otesis parciales correspondientes a las las de A.
8.4.
M etodo S de Sche e.
Este m etodo permite la construcci on de un n umero arbitrario de intervalos de conanza simult aneos, de manera muy simple. Necesitaremos el siguiente lema: Lema 8.1 Sea L una matriz sim etrica de orden k k denida positiva, y c, b vectores k -dimensionales cualesquiera. Se verica que: sup
c =0
[c b] c Lc
b L1 b
(8.8)
n: Demostracio Siendo L denida positiva, existe una matriz R cuadrada no singular tal que: L = RR . Si denimos: v = R c u = R b y tenemos en cuenta que por la desigualdad de Schwarz, < u, v >2 u 2 v 2 1 (8.11)
1
(8.9) (8.10)
entonces sustituyendo (8.9) y (8.10) en (8.11) obtenemos (8.8).
Podemos ahora abordar la construcci on de intervalos de conanza simult aneos por el m etodo de Sche e. Supongamos que tenemos k hip otesis lineales hi : ai = ci (i = 1, . . . , k ) cuyo contraste conjunto deseamos efectuar. Si denominamos: a1 a A= 2 ak

c1 c c= 2 ck
(8.12)
115
dichas k hip otesis se pueden escribir como h : A = c. Cuando h es cierta, sabemos (Secci on 6.2) que: c) [A(X X )1 A ]1 (A c) (A Fq,N p q 2 (8.13)
siendo q = m n(d, p), en que d = rango A y p = rango (X X ). Las inversas pueden ser inversas generalizadas, si los rangos de las matrices as lo exigen. . Bajo h, sabemos que: Llamemos c a A 1 = =
Prob ( c c ) [A(X X )1 A ]1 ( c c ) q 2 Fq,N p (8.14) Prob ( c c ) L1 ( c c ) q 2 Fq,N p
(8.15)
en que L = [A(X X )1 A ]. Teniendo en cuenta el Lema 8.1, obtenemos:

2
1 = =
2 La ecuaci on (8.17) muestra que (q 2 Fq,N p ) es un valor que acota con probabilidad 1 un n umero arbitrariamente grande de cocientes como:
h =0 Prob h =0
Prob sup
[h ( c c )] q 2 Fq,N p h Lh h ( c c) h
Lh
1 2
(8.16)
1 2 (q Fq,N p ) 2
(8.17)
h ( c c) h Lh
(8.18)
Por consiguiente, cuantos intervalos para h c construyamos de la forma: h c

(h Lh )(q 2 Fq,N p )
(8.19)
tendr an conanza simult anea 1 . Esto es m as de lo que necesitamos pues s olo quer amos intervalos de conanza simult aneos para c1 , . . . , ck . El m etodo de Sche e proporciona intervalos de conanza conservadores (m as amplios, en general, de lo estrictamente necesario). Obs ervese que, en el caso particular en que A = Ipp , los intervalos de conanza en (8.19) se reducen a:
116
2 Fp,N (h (X X )1 h )(p p )
(8.20)
expresi on que ser a frecuente en la pr actica. Cuando el conjunto de hip otesis simult aneas que se contrastan congure una matriz A de rango q < p, ser a sin embargo conveniente tener en cuenta este hecho, ya que obtendremos intervalos menos amplios. R: Ejemplo 8.1 (uso del m etodo de Sche e)
El siguiente c odigo implementa el m etodo de Sche e para contrastar la igualdad entre todas las parejas de par ametros intervinientes en un modelo. La matriz de dise no es una matriz de ceros y unos. Si, por ejemplo, Xkl fuera uno cuando la k- esima parcela se siembra con la variedad l- esima de semilla y la variable respuesta recogiera las cosechas obtenidas en las diferentes parcelas, los par ametros i ser an interpretables como la productividad de las diferentes variedades de semilla (suponemos que no hay otros factores en juego; las parcelas son todas homog eneas). En una situaci on como la descrita tendr a inter es contrastar todas las hip otesis del tipo: hij : i j = 0. Aquellas parejas para las que no se rechazase corresponder an a variedades de semilla no signicativamente diferentes. F acilmente se ve que el contraste de todas las hip otesis de inter es agrupadas (h : A = c ) no es de gran inter es: no nos interesa saber si hay algunas variedades de semilla diferentes, sino cu ales son. F acilmente se ve tambi en que, incluso para un n umero moderado de variedades de semilla, hay bastantes parejas que podemos formar y el realizar m ultiples contrastes como hij : i j = 0 requerir a el uso de m etodos de inferencia simult anea. Comencemos por construir una matriz de dise no y generar articialmente las observaciones: > X <- matrix(c(rep(1, 5), rep(0, 25)), + 25, 5) > X [1,] [2,] [3,] [4,] [5,] [,1] [,2] [,3] [,4] [,5] 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0

[6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [21,] [22,] [23,] [24,] [25,] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
117
> b <- c(3, 4, 4, 5, 5) > y <- X %*% b + rnorm(25, sd = 0.1) Construyamos la matriz deniendo la hip otesis conjunta A = c : > > > > p <- ncol(X) N <- nrow(X) A <- cbind(1, diag(-1, p - 1)) A [,1] [,2] [,3] [,4] [,5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1
[1,] [2,] [3,] [4,]
> q <- nrow(A) Aunque por motivos did acticos hemos constru do A del modo que se ha visto, hay funciones standard que permiten hacerlo con mayor comodidad.

> A <- t(contrasts(as.factor(1:5))) > A [1,] [2,] [3,] [4,] 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 5 -1 -1 -1 -1
118
que es equivalente a la A precedente. 1) compaHabiendo p betas a comparar, habr a un total de p(p2 raciones a efectuar. Construimos una matriz cada una de cuyas las corresponde a una comparaci on: > > > + + + + > H <- matrix(0, p * (p - 1)/2, p) j <- 0 for (i in ((p - 1):1)) { H[(j + 1):(j + i), (p - i):p] <- cbind(1, diag(-1, i)) j <- j + i } H [,1] [,2] [,3] [,4] [,5] 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 1 0 0 0 -1 0 1 -1 0 0 0 1 0 -1 0 0 1 0 0 -1 0 0 1 -1 0 0 0 1 0 -1 0 0 0 1 -1
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
El siguiente fragmento de c odigo construye ahora todos los intervalos de la forma dada por (8.20) y los imprime: > > > > fit <- lsfit(X, y, intercept = FALSE) betas <- fit$coefficients s2 <- sum(fit$residuals^2)/(N - p) qsf <- q * s2 * qf(0.05, q, N - p)

> xxi <- solve(t(X) %*% X) > for (i in 1:nrow(H)) { + cat("Intervalo comp. ", H[i, ]) + z <- sqrt(t(H[i, ]) %*% xxi %*% H[i, + ] * qsf) + d <- t(H[i, ]) %*% betas + cat(" es: (", d - z, " , ", d + z, + ")") + if ((d - z < 0) && (d + z > 0)) + cat("\n") + else cat(" * \n") + } Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo Intervalo comp. comp. comp. comp. comp. comp. comp. comp. comp. comp. 1 1 1 1 0 0 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 0 0 0 0 -1 1 -1 0 0 1 0 -1 0 1 0 0 -1 0 1 -1 0 0 1 0 -1 0 0 1 -1 es: es: es: es: es: es: es: es: es: es: ( ( ( ( ( ( ( ( ( ( -1.0463 , -0.94141 ) * -1.0631 , -0.95825 ) * -2.0886 , -1.9837 ) * -2.067 , -1.9622 ) * -0.069268 , 0.035591 ) -1.0947 , -0.98989 ) * -1.0732 , -0.96834 ) * -1.0779 , -0.97305 ) * -1.0564 , -0.9515 ) * -0.030881 , 0.073979 )
119
Vemos que la mayor a de intervalos de conanza simult aneos no cubren el cero. Los correspondientes a 2 3 y 4 5 si lo hacen, como esper abamos, ya que en ambas parejas los par ametros han sido jados al mismo valor. Fin del ejemplo
8.5.
Empleo de m etodos de inferencia simult anea.
Si el desarrollo anterior es formalmente simple, puede no ser obvio, en cambio, en que situaciones es de aplicaci on. Las notas siguientes esbozan algunas ideas sobre el particular5 .
5
Puede consultarse tambi en Troc oniz (1987a) Cap. 5 y Cox and Hinkley (1974), Sec.
7.4.
120
Emplearemos inferencia simult anea cuando a priori, y por cualquier motivo, estemos interesados en m ultiples contrastes (o intervalos de conanza) y queramos que el nivel de signicaci on conjunto sea 1 . Esta situaci on se presenta con relativa rareza en la pr actica estad stica. M as importante, emplearemos los m etodos anteriores cuando la elecci on de hip otesis o par ametros objeto de contraste o estimaci on se haga a la vista de los resultados. Esta situaci on es muy frecuente en el an alisis exploratorio. Ser a incorrecto, por ejemplo, estimar una ecuai con el m ci on con veinte regresores, seleccionar aquel aximo t-ratio, y comparar dicho t-ratio con una t de Student con grados de libertad i de inter adecuados. Dado que hemos seleccionado el es como el de mayor t-ratio, hemos de comparar este con los cuantiles de la distribuci on del m aximo de k (k = 20 en este caso) variables aleatorias con distribuci on t de Student (u 20,N 20 ). Por u ltimo, conviene resaltar la diferencia entre el contraste de varias hip otesis simult aneas ai = ci agrupadas en A = c mediante Qh (Secci on 6.2) y el que hace uso de (8.7). El primero es perfectamente utilizable; el segundo ser a, en general, conservador menos rechazos de los que sugiere el nivel de signicaci on nominal, pero tiene la ventaja de arrojar luz sobre cuales de las subhip otesis ai = ci son responsables del rechazo, caso de que se produzca. Esta informaci on queda sumergida al emplear Qh .
CAP ITULO 8. INFERENCIA SIMULTANEA. Complementos y ejercicios 8.1 Un investigador sospecha que la concentraci on de una toxina en la sangre puede estar relacionada con la ingesta de alg un tipo de alimento. Realiza un completo estudio en que para N = 500 sujetos mide la concentraci on de dicha toxina y las cantidades consumidas de 200 diferentes tipos de alimento. Cree razonable proponer como modelo explicativo,
Y = 0 + 1 X1 + . . . + 200 X200 + .
121
Tras estimar los 201 par ametros del mismo, se plantea contrastar la hip otesis como H0 : 1 = . . . = 200 y considera las siguientes posibilidades: i / Comparar cada uno de los t-ratios con el cuantil tN p ;/2 .
i
Juzga los diferentes procedimientos, e indica con cu al (o cu ales) de ellos tendr amos garantizada una probabilidad de error de tipo I no superior al prejado.
Idem con el cuantil correspondiente de una distribuci on del m aximo de k variables t de Student, con grados de libertad apropiados. 1 , . . . , 200 = 0 Calcular el estad stico Qh para la hip otesis H0 : y comparar con F200,500201; .
8.2 Preocupado por el posible impacto de las antenas de telefon a m ovil sobre la salud de los ni nos, un pol tico solicita un listado completo de las 15320 escuelas del pa s a menos de 500 metros de una antena. Investiga la probabilidad de contraer leucemia y la probabilidad de que por puro azar se presenten los casos de leucemia que se han registrado en dichas escuelas. Aparece un caso llamativo: en la escuela X con 650 ni nos hay tres que han contraido la enfermedad, lo que, de acuerdo con los c alculos realizados por nuestro pol tico, asistido por un epidemi ologo, acontecer a por azar con probabilidad 0,0003. Al d a siguiente acude al Parlamento y pide la dimisi on del Ministro de Sanidad: Hay dice evidencia concluyente de que las antenas de telefon a m ovil inuyen en la prevalencia de la leucemia entre la poblaci on infantil. Un evento como el registrado en la escuela X s olo se presentar a por azar con probabilidad 0,0003. Comenta.
Cap tulo 9
Multicolinealidad.
9.1. Introducci on.
Hemos visto (Cap tulo 3) que, en presencia de multicolinealidad exacta entre las columnas de la matriz de dise no X , la proyecci on de y sobre M = R(X ) sigue siendo u nica, pero no hay una u nica estimaci on de . Dec amos entonces que el vector de par ametros no estaba identicado. Este Cap tulo1 analiza esta cuesti on con mayor detalle. En particular, aborda las siguientes cuestiones: 1. Es estimable una cierta combinaci on lineal c de los par ametros? al es la varianza de la estimaci on?. De qu e de2. Si c es estimable, cu pende la precisi on con que pueden estimarse distintas combinaciones lineales de los par ametros? 3. C omo escoger la matriz de dise no X u observaciones adicionales a la misma si el objetivo es estimar determinadas combinaciones lineales c con varianza m nima? Responder a la primera requiere que caractericemos las formas lineales estimables. N otese que cuando c es un vector de ceros con un 1 en una u nica posici on, la primera cuesti on incluye, como caso particular, la de si un par ametro concreto es estimable. La segunda cuesti on introducir a la idea de multicolinealidad aproximada. Mientras que desde un punto de vista formal la matriz de dise no es de rango deciente o no lo es, en la pr actica interesa distinguir aqu ellas situaciones en que la matriz de dise no es de rango casi deciente. Cuando esto ocurra,
1
Basado en Silvey (1969).
122
CAP ITULO 9. MULTICOLINEALIDAD.
123
en un sentido que se aclarar a m as abajo, todo es estimable, pero algunas formas lineales c lo son con gran imprecisi on: la varianza de su mejor estimador lineal insesgado depende de la direcci on del vector c en R(X X ). La tercera cuesti on hace referencia a un tema de gran inter es; el de dise no optimo. Admitido que algunas formas lineales quiz a s olo pueden ser estimadas con gran varianza c omo habr a que escoger o ampliar X en los casos en que somos libres de ampliar la muestra? El principal hallazgo al responder a las dos primeras cuestiones ser a que combinaciones lineales c con c aproximadamente colineal a un vector propio de (X X ) de valor propio asociado peque no, son las de estimaci on m as imprecisa. La consecuencia ser a que haremos lo posible en nuestros dise nos experimentales para que, si c es una forma lineal de inter es, no haya vectores propios de (X X ) con valor propio peque no aproximadamente en la misma direcci on de c . Recurriremos para ello a ampliar la muestra, si podemos hacerlo, o a procedimientos ad-hoc de manipulaci on de dichos valores propios peque nos para obtener estimadores diferentes del MCO. Esta cuesti on se estudia en el Cap tulo 10. Realizaremos un an alisis formal de la multicolinealidad en las Secciones 9.4 y siguientes. Previamente ser a de inter es abordar la cuesti on desde una perspectiva informal (en la Secci on 9.2) y examinar los s ntomas que evidencian problemas de multicolinealidad en una matriz de dise no (Secci on 9.3).
9.2.
Una aproximaci on intuitiva
La Figura 9.1 recoge sendas situaciones de multicolinealidad exacta (en el panel superior) y multicolinealidad aproximada (en el inferior). En el panel superior, PM y = 5,3 1,9 X0 = 2,65 0,95 X1 = 1,325 0,475 (9.1)
Puede comprobarse que X0 = 2 X1 , por lo que la matriz de dise no que tuviera a ambos vectores por columnas ser a de rango deciente. Consecuentemente, los estimadores MCO de los par ametros 0 y 1 no est an un vocamente determinados. Puede comprobarse que 0 X0 + 1 X1 PM y = (9.2)
0 = 2 y 1 = 0 0 = 0 y 1 = 4, por ejemplo. De se verica con o con hecho, cualesquiera 0 , 1 vericando 0 +21 = 2 son una soluci on de (9.2).
124
Figura 9.1: Multicolinealidad exacta (panel superior) y aproximada (panel inferior).
X0 X1 PM y
X0 X1 PM y
CAP ITULO 9. MULTICOLINEALIDAD. En el panel inferior de la Figura 9.1, PM y = 5,3 1,9 X0 = 2,75 0,75 X1 = 1,525 ; 0,675
125
(9.3)
puede comprobarse que ahora PM y = 0,9544X0 +1,7544X1 . Si, no obstante, PM y fuera ligeramente diferente, con los mismos regresores, PM y = 5,4 1,8 X0 = 2,75 0,75 X1 = 1,525 0,675 (9.4)
tendr amos que la soluci on u nica ser a PM y = 1,263X0 +1,2632X1 . Una peque na perturbaci on en PM y ha originado un cambio dr astico en los valores de los estimadores. Si examinamos el panel inferior de la Figura 9.1, podemos entender f acilmente lo que sucede: los regresores son linealmente independientes y generan el plano horizontal, pero tienen una colinealidad acusada. Un leve cambio en la posici on de PM y hace que sea mucho m as colineal con un regresor que con otro, y provoca una dr astica modicaci on en los valores de 0 y 1 . Tenemos as que si en situaciones de multicolinealidad exacta los par ametros (o algunos de entre ellos) son radicalmente inestimables, cuando el rango de la matrix X es completo, pero algunas de sus columnas son acusadamente colineales, la estimaci on es posible, pero imprecisa. Decimos que estamos ante una situaci on de multicolinealidad aproximada . La multicolinealidad aproximada es, en esencia, una matriz de dise no pobre, que no permite deslindar con precisi on el efecto de cada regresor sobre la variable respuesta. Es una situaci on muy frecuente en la pr actica, a medio camino entre la multicolinealidad exacta y la ortogonalidad entre los regresores. La Secci on que sigue detalla algunos s ntomas que permiten percibir su existencia.
9.3.
Detecci on de la multicolinealidad aproximada
Hay algunos indicios y estad sticos que pueden ayudar en el diagn ostico de multicolinealidad. Elevado R2 y todos los par ametros no signicativos. La multicolinealidad aproximada se pone de maniesto en elevadas varianzas de los
126
par ametros estimados que, como consecuencia, son de ordinario no signicativos y frecuentemente toman signos contrarios a los previstos. Una situaci on t pica es aqu ella, aparentemente parad ojica, en que todos los par ametros en son no signicativos y sin embargo R2 es muy elevado. Parece que ning un regresor ayuda a ajustar el regresando, y sin embargo todos en conjunto lo hacen muy bien! Ello se debe a que la multicolinealidad no permite deslindar la contribuci on de cada regresor. Valores propios y n umero de condici on de (X X ). La existencia de relaciones lineales aproximadas entre las columnas de X se traduce en relaciones lineales aproximadas entre las columnas de (X X ). Los m etodos usuales para examinar el condicionamiento de una matriz en an alisis num erico son por tanto de aplicaci on. En particular, puede recurrirse a calcular los valores propios de la matriz (X X ); uno o mas valores propios muy peque nos (cero, en caso de multicolinealidad perfecta) son indicativos de multicolinealidad aproximada. A menudo se calcula el n umero de condici on de la matriz (X X ), denido como 1 /p ; n umeros de condici on grandes evidencian gran disparidad entre el mayor y menor valor propio, y consiguientemente multicolinealidad aproximada. Hay que notar, sin embargo, que se trata de un indicador relativo, que, en particular, depende de la escala en que se miden las respectivas columnas de la matriz X algo perfectamente arbitrario. Factores de incremento de varianza (VIF). Otra pr actica muy usual consiste en regresar cada columna de X sobre las restantes; un R2 muy elevado en una o m as de dichas regresiones evidencia una relaci on lineal aproximada entre la variable tomada como regresando y las tomadas como regresores. Llamemos R2 (i) al R2 resultante de regresar X i sobre las restantes columnas de X . Se dene el factor de incremento de varianza (variance ination factor) VIF(i) as : VIF(i) =
def
1 ; 1 R2 (i)
(9.5)
valores de VIF(i) mayores que 10 (equivalentes a R2 (i) > 0,90) se consideran indicativos de multicolinealidad afectando a X i junto a alguna de las restantes columnas de X . Observaci on 9.1 El nombre de factores de incremento de
varianza tiene la siguiente motivaci on. Supongamos que X tiene

sus columnas normalizadas de modo que (X X ) es una matriz de i es correlaci on (elementos diagonales unitarios). La varianza de 2 ii ii (X X ) , en que (X X ) denota el elemento en la la y columna i de la matriz (X X )1 . Si X tuviera sus columnas ortogonales, (X X ) (y por tanto i ) = 2 ; por tanto, (X X )ii (X X )1 ) ser an matrices unidad y Var( i ) respecto de la recoge el factor en que se modica en general Var( situaci on de m nima multicolinealidad (= regresores ortogonales). Se puede demostrar que (X X )ii = (1 R2 (i))1 , lo que muestra que se trata precisamente del VIF(i).
127
9.4.
Caracterizaci on de formas lineales estimables.
Teorema 9.1 La forma lineal c es estimable si, y solo si, c es una combinaci on lineal de los vectores propios de X X asociados a valores propios no nulos. n: Demostracio Observemos que el enunciado no es sino una par afrasis del Teorema 3.1, p ag. 45. La siguiente cadena de implicaciones, que puede recorrerse en ambas direcciones, establece la demostraci on. c estimable d : c = E [d Y ]

(9.6) (9.7) (9.8) (9.9) (9.10) (9.11) (9.12)
c = d X c = d X
c = X d c R (X ) c R (X X ) c = 1 v1 + + pj vpj
siendo v1 , . . . , vpj los vectores propios de (X X ) asociados a valores propios no nulos. El paso de (9.10) a (9.11) hace uso del hecho de que tanto las columnas de X como las de X X generan el mismo subespacio2 de Rp . La
Es inmediato ver que R(X X ) R(X ), pues si v R(X X ) a : v = X Xa = X d, siendo d = Xa. Por otra parte, R(X X ) no es subespacio propio de R(X ), pues ambos tienen la misma dimensi on. Para verlo, basta comprobar que toda dependencia lineal entre las columnas de X X es una dependencia lineal entre las columnas de X . En efecto, X X b = 0 b X X b = d d = 0 d = 0 X b = 0.
2
128
equivalencia entre (9.11) y (9.12) hace uso del hecho de que los vectores propios de R(X X ) asociados a valores propios no nulos generan R(X X ).
Hay una forma alternativa de llegar al resultado anterior, que resulta interesante en s misma y u til para lo que sigue. Sea V la matriz diagonalizadora de X X , y denamos: Z = XV = V
(9.13) (9.14)
Entonces, como V V = I tenemos que: X = XV V = Z (9.15)
y por consiguiente el modelo Y = X + se transforma en: Y = Z + . El cambio de variables y par ametros ha convertido la matriz de dise no en una matriz de columnas ortogonales: Z Z = (XV ) (XV ) = V X XV = (9.16)
siendo una matriz cuya diagonal principal contiene los valores propios de X X . Sin p erdida de generalidad los supondremos ordenados de forma que los p j primeros s son no nulos, y los restantes j son cero: p = p1 = = pj +1 = 0. Observemos que de (9.14) se deduce, dado que V es ortogonal, que = V . Por consiguiente, es equivalente el problema de estimar al de estimar , pues el conocimiento de un vector permite con facilidad recuperar el otro. Las ecuaciones normales al estimar son: (Z Z ) = = Z y o en forma desarrollada:
(9.17)
1 0 0 2 . . . . . . 0 0 0 0 . . . . . . 0 0
... ... .. .
0 0 . . .
. . . p j . . . ... 0 ... . .. . . . ... 0 ...
... 0 . . . 0 . . . . . .
0 = Z y 0 . . . 0
(9.18)
129
El sistema (9.18) es indeterminado; solo los (p j ) primeros s pueden obtenerse de el. Obs ervese adem as que de (9.18 ) se deduce que var( i) 1/i , (i = 1, . . . , p j ). Consideremos una forma lineal cualquiera c . Tenemos que: c = c V V = ( c V ) = (V c ) (9.19)
vendr y consiguientemente una estimaci on de c a dada por (V c ) . Por tanto, c ser a estimable si es estimable, o si c depende s olo de aquellos s que pueden ser estimados. Es decir, en el caso de rango (p j ) correspondiente a las ecuaciones normales (9.18), c podr a estimarse si (V c) tiene nulas sus u ltimas j coordenadas, lo que a su vez implica: c vp c vp1 . . . c vpj +1 (9.20) (9.21) (9.22) (9.23)
on Para que c sea estimable, c debe poder escribirse como combinaci lineal de los vectores propios de (X X ) que no guran en (9.20)(9.23): c = 1 v1 + + pj vpj . Toda forma estimable debe por tanto ser expresable as : c = (1 v1 + + pj vpj ) , (9.24)
resultado al que hab amos llegado. Recapitulemos: una forma lineal c es estimable si c = 1 v1 + + pj vpj , es decir, no depende de vectores propios de (X X ) asociados a valores propios nulos. Tal como suger a la Secci on 9.2, podemos sin embargo esperar que formas lineales que son estrictamente estimables lo sean muy imprecisamente, en situaciones de multicolinealidad aproximada. La Secci on que sigue formaliza esta intuici on, mostrando que si c depende de vectores propios de valor propio cercano a cero, la forma lineal c ser a estimable s olo con gran varianza.
130
9.5.
Varianza en la estimaci on de una forma lineal.
= Si premultiplicamos ambos lados de las ecuaciones normales (X X ) X Y por vi , (i = 1, . . . , p j ), tenemos: = vi X Y vi (X X ) = vi X Y i vi y tomando varianzas a ambos lados:
2 var(vi X Y ) i var(vi ) = = vi X 2 IXvi = vi X Xvi 2 = i 2
(9.25)
De la igualdad (9.25) se deduce que: ) = var(vi Adem as, para cualquier i = j se tiene: vj ) = vi vj cov(vi , = = = = vi (X X )1 vj 2 vi j 1 vj 2 2 j 1 vi vj 0 2 i (9.26)
(9.27)
La varianza de cualquier forma estimable c , teniendo en cuenta que puede escribirse como en (9.24), y haciendo uso de (9.26) y (9.27), ser a: ) = var(c ] var[(1 v1 + + pj vpj ) 2 ) + + 2 var(vpj ) = 1 var(v1 p j
2 = 1
= 2
2 2 2 + + p j 1 p j 2 2 1 + + p j 1 p j
(9.28)
131
La expresi on (9.28) es reveladora; la varianza en la estimaci on de c depender a de la varianza de la perturbaci on 2 y de la direcci on de c. Si c no puede expresarse como combinaci on lineal de los vectores propios con valor propio no nulo, c no es estimable. Si c = 1 v1 + + pj vpj y los s multiplicando a vectores propios con reducido valor propio son sustanciales, los correspondientes sumandos tender an a dominar la expresi on (9.28). En denitiva, la varianza en la estimaci on de una forma lineal c depende, fundamentalmente, de cu an colineal es c con vectores propios de reducido valor propio. Hemos razonado en esta Secci on y la precedente en el caso de que j valo res propios de X X son exactamente cero. Es claro que si todos los valores propios son mayores que cero, todas las formas lineales ser an estimables, con varianza: ) = var(c ] var[(1 v1 + + pj vpj ) 2 ) + + 2 var(vp ) = 1 var(v1 p
2 = 1 2 2 2 + + p 1 p 2 2 1 ++ p 1 p
(9.29)
= 2
(9.30)
9.6.
Elecci on optima de observaciones.
La expresi on (9.28) y comentario posterior muestran que, para guarecernos de varianzas muy grandes en la estimaci on de algunas formas lineales, debemos actuar sobre los valores propios m as peque nos de (X X ), increment andolos3 . En lo que sigue, examinamos esta cuesti on con m as detalle. Supongamos que tenemos un conjunto de N observaciones (y | X ), y nos planteamos ampliar X con una la adicional xN +1 (e y con el correspondiente valor observado de Y ) de modo que se reduzca al m aximo la varianza en la estimaci on de una determinada forma lineal c en que estamos interesados. Supondremos tambi en en lo que sigue (X X ) de rango completo, aunque quiz a con acusada multicolinealidad4 . Emplearemos los sub ndices N + 1 y N para designar estimaciones respectivamente con y sin esta observaci on
O suprimi endolos. Los m etodos de regresi on sesgada del Cap tulo 10 hacen expl cita esta idea. 4 Los resultados se pueden generalizar al caso en que (X X ) es de rango deciente, y s olo mediante la nueva la xN +1 se hace c estimable.
3
CAP ITULO 9. MULTICOLINEALIDAD. adicional. Tenemos entonces que:

2 1 N = (X X )
132
(9.31)
1
N +1 = (X X + xN +1 xN +1 )
2 2 1 c N = c (X X ) c
(9.32) (9.33) (9.34)
2 1 2 c N +1 = c (X X + xN +1 xN +1 ) c
Entonces,
2 2 2 1 c (X X + xN +1 xN +1 )1 ]c N c N +1 = c [(X X )
(9.35)
y el problema es encontrar xN +1 maximizando esta expresi on. Sea V la matriz que diagonaliza a (X X ). Denominemos: a = V c z = V xN +1 D = V (X X )V Entonces, (9.35) puede transformarse as :
2 1 2 2 (X X + xN +1 xN +1 )1 ]V V c c N +1 = c V V [(X X ) N c
(9.36) (9.37) (9.38)
= 2 a [D 1 V (X X + xN +1 xN +1 )1 V ]a = 2 a [D 1 (V (X X + xN +1 xN +1 )V )1 ]a = 2 a [D 1 (D + z z )1 ]a D 1 z z D 1 1 + z D 1 z
(9.39)
Pero (v ease Teorema A.2, p ag. 221): (D + z z ) 1 = D 1 Sustituyendo (9.40) en (9.39):

2 c N
(9.40)
2 c N +1
= a
D 1 z z D 1 a 1 + z D 1 z
2
(9.41)
= 2
ai zi i i 2 zi 1+ i i
(9.42)
Obs ervese que el problema de maximizar (9.35) carece de sentido si no imponemos restricciones, pues la expresi on equivalente (9.42) es mon otona
133
creciente al multiplicar z por una constante k mayor que la unidad5 . Ne2 cesitamos una restricci on del tipo z z = i zi = K 2 para obtener una soluci on u nica. Formando entonces el lagrangiano, ai zi i i 2 zi 1+ i i
2 2 zi K2
(z ) = 2
(9.43)
y derivando respecto a zi , (i = 1, . . . , p), obtenemos p igualdades de la forma: ai zi ai 1+ i i 1+

i 2 zi i 2 zi
ai zi i
zi i
zi = 0
(9.44)
Denominando: A =
i
ai zi i
i 2 zi i
(9.45) (9.46)
B =
1+
las p igualdades anteriores toman la forma: ai A zi A2 zi 2 =0 2 i B i B (9.47)
Multiplicando por zi cada una de las anteriores igualdades y sum andolas, puede despejarse: = A2 2 K 2B 2 (9.48)
y por consiguiente de (9.47) se obtiene: zi A2 A2 ai A zi = 0 i B i B 2 K 2 B 2 zi

5
(i = 1, . . . , p) (i = 1 , . . . , p )
(9.49) (9.50)
1 1 + 2 i K
B ai A i
Observemos que al multiplicar z por k el numerador queda multiplicado por k 2 , en tanto s olo una parte del denominador lo hace. Es pues claro que el numerador crece m as que el denominador, y el cociente en consecuencia aumenta.
CAP ITULO 9. MULTICOLINEALIDAD. o sea: zi i ai 1 + 1 i K2 = ai i 1+ K 2
134
(9.51)
para i = 1, . . . , p. Las anteriores p igualdades pueden expresarse en notaci on matricial as : z (I + K 2 D ) 1 a (9.52)
Por tanto, la la a a nadir a X para mejorar al m aximo la estimaci on de c ser a: xN +1 = (por (9.52)) = (por (9.36)) = = = Vz V (I + K 2 D ) 1 a V (I + K 2 D ) 1 V V a V (I + K 2 D ) 1 V c [V (I + K 2 D )V ]1 c [I + K 2 (X X )]1 c
Recordemos que hemos obtenido una soluci on u nica para z (y en consecuencia xN +1 ) s olo mediante la imposici on de una restricci on de escala 2 2 on de z , pero no su i zi = K . Es decir, podemos determinar la direcci norma. El examen de (9.42) hace evidente que una norma tan grande como sea posible es lo deseable. Cabe hacer dos comentarios sobre esta u ltima armaci on. El primero, que es l ogico que as sea. Si 2 es ja, es claro que siempre preferiremos las de m odulo muy grande, pues si: Yi = mi + i = 0 + + p1 xi,p1 + i (9.53)
incrementar el m odulo de xN +1 equivale a incrementar |mi |; y haciendo |mi | i podemos reducir en t erminos relativos el peso de i en yi . En la pr actica, sin embargo, hay un l mite al valor de |mi |, cuyo crecimiento desaforado podr a llevarnos a regiones en las que las Yi dejan de ser una funci on aproximadamente lineal de los regresores. Por ejemplo, si el modelo intenta ajustar una constante biol ogica como funci on lineal de ciertos tipos de nutrientes, hay un l mite pr actico a los valores que pueden tomar los regresores: el impuesto por las cantidades que los sujetos bajo estudio pueden ingerir. En denitiva, el desarrollo anterior suministra la direcci on en que debe tomarse una observaci on adicional para mejorar al m aximo la varianza en
135
la estimaci on de c . Tomaremos xN +1 tan grande como sea posible en dicha direcci on. Si no tuvi eramos una forma estimable u nica como objetivo, una estrategia sensata consistir a en tomar observaciones de forma que se incrementasen los menores valores propios de la matriz (X X ). Podr amos tambi en aceptar como criterio el de maximizar el determinante de (X X ). Este criterio se conoce como de D-optimalidad6.
V ease Silvey (1980), una monograf a que trata el tema de dise no optimo.
Cap tulo 10
Regresi on sesgada.
10.1. Introducci on.
De acuerdo con el teorema de Gauss-Markov (Teorema 2.2, p ag. 19), los estimadores m nimo cuadr aticos ordinarios (MCO) son los de varianza m nima en la clase de los estimadores lineales insesgados. Cualesquiera otros que consideremos, si son lineales y de varianza menor, habr an de ser sesgados. Si consideramos adecuado como criterio en la elecci on de un estimador def c su error cuadr atico medio, ECM = E [ c c]2 , y reparamos en que: E [ c c]2 = E [ c E [ c] + E [ c] c]2 = E [ c E [ c]]2 + E [E [ c] c]2 + 2 E [ c E [ c]] [E [ c] c]
=0
var( c) + ( sesgo c )
(10.1)
podemos plantearnos la siguiente pregunta: Es posible reducir el ECM en la estimaci on tolerando un sesgo? Si la respuesta fuera armativa, podr amos preferir el estimador resultante que, aunque sesgado, tendr a un ECM menor, producido por una disminuci on en la varianza capaz de compensar el segundo sumando en (10.1). El Cap tulo 9 pon a de maniesto que vectores propios de (X X ) con valor propio asociado nulo o muy peque no eran responsables de la inestimabilidad (en el caso extremo de valores propios exactamente cero) o estimaci on muy imprecisa de formas lineales c en los par ametros. Analizaremos ahora las implicaciones del an alisis realizado. Si los valores propios peque nos son causantes de elevada varianza en las estimaciones, caben varias soluciones: 1. Incrementarlos mediante observaciones adicionales, seg un se indic o en la Secci on 9.6, p ag. 131. 136
SESGADA. CAP ITULO 10. REGRESION
137
2. Incrementarlos mediante procedimientos ad-hoc, que no requieren la toma de observaciones adicionales (ridge regression). 3. Prescindir, simplemente, de ellos (regresi on en componentes principales y regresi on en ra ces latentes). Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para reducir la varianza de los estimadores. De acuerdo con los comentarios anteriores, los procedimientos que dise nemos habr an perdido la condici on de insesgados. Observaci on 10.1 De ah la denominaci on colectiva de m etodos de regresi on sesgada. Denominaciones alternativas son regresi on regularizada o m etodos de estimaci on por encogimiento (shrinkage estimators), est au ltima abarcando un conjunto de estimadores mucho m as amplio que el considerado aqu .
Si se utilizan, es con la fundada creencia de que, en presencia de multicolinealidad acusada, la reducci on de varianza que se obtiene compensa la introducci on de sesgo. Existe incluso un resultado (Teorema 10.1, p ag. 142) que demuestra la existencia de un estimador sesgado que domina (en t erminos de ECM) al MCO; su aplicaci on pr actica est a limitada por el hecho de que no es inmediato saber cu al precisamente es este estimador.
10.2.
Una aproximaci on intuitiva.
Antes de introducir los estimadores sesgados m as utilizados en la pr actica, es u til ver sobre un ejemplo simple las ideas que explotan. Ejemplo 10.1 Consideremos la siguiente situaci on. Tenemos 2, 2 . dos poblaciones con media com un y varianzas respectivas 1 2 Nuestro objetivo es estimar , para lo que contamos con dos observaciones, una de cada poblaci on. Sean estas X1 , X2 . Sabemos adem as 2 es mucho mayor que 2 . que 2 1 Es claro que 1 (10.2) = (X1 + X2 ) 2 2 /4 + es un estimador insesgado de . Su varianza ser a Var( ) = 1 2 2 /4. Es de m nima varianza? No; y en general puede ser sumamente 2 = 1 y 2 = 99; entonces, ineciente. Imaginemos, por ejemplo, que 1 2 2 + 2 )/4 = (1 + 99)/4 = 25, mientras que = X1 , por Var( ) = (1 2 ejemplo, ser a tambi en insesgado con Var( ) = 1.

La conclusi on a la que llegamos es que es mejor prescindir de la observaci on X2 dando muy imprecisa informaci on acerca del valor de que utilizarla en pie de igualdad con X1 . Si examinamos el ejemplo con m as cuidado, se nos hace evidente que podemos hacerlo mejor: si nos limitamos a estimadores lineales por simplicidad cualquier estimador insesgado ser a de la forma
= X + X 1 1 2 2
138
con 1 + 2 = 1 (pues de otro modo al tomar valor medio en (10.3), no obtendr amos , como requiere la condici on de insesgadez). Podemos a continuaci on plantearnos cu ales son 1 y 2 = 1 1 optimos. De (10.3) deducimos que
2 2 2 2 2 Var( ) = 1 1 + 2 2 = 99 1981 + 1001 2 1 + (1 1 )2 99 = 1
Derivando respecto a 1 e igualando a cero obtenemos 1 = 99/100 y consecuentemente 2 = 1/100. F acilmente se comprueba que se trata de un m nimo. El estimador insesgado de varianza m nima es por tanto: 1 99 X1 + X2 . = 100 100 El resultado parece l ogico; debemos ponderar las dos observaciones dando m as peso a la m as able. La segunda conclusi on a que llegamos es que cuando tengamos observaciones con grado de precisi on muy variable, convendr a ponderarlas de forma inversamente proporcional a sus respectivas varianzas. Fin del ejemplo
El ejemplo anterior pretende ilustrar dos principios, que se resumen en uno: es mejor prescindir de informaci on imprecisa que hacerle demasiado caso. El primer estimador construido, , prescind a directamente de X2 ; el segundo, , se serv a de dicha observaci on pero haci endole poco caso. Se ha razonado sobre estimadores a los que hemos impuesto la condici on de ser insesgados, por mantener el ejemplo simple, pero esta condici on es inesencial. (De hecho, como veremos a continuaci on, todav a ser a posible mejorar en t erminos de ECM si tolerasemos un sesgo.) Qu e implicaciones tiene lo anterior sobre la estimaci on de (o, en general, de c ) en un modelo lineal? Recordemos la discusi on en la Secci on 9.5.
139
El estimador de cualquier forma lineal c puede escribirse como combina v , ...,v ci on lineal de v 1 , un muestra (9.29), p ag. 131. Adem as, 2 p , seg 1 v i para i = 1, . . . , p son variables aleatorias incorreladas con varianzas ) = 2 /i , (9.26), p respectivas Var(vi ag. 130. Tenemos pues c puede escribirse como combinaci on lineal de observa ciones v i con varianzas muy diferentes. Al igual que en el Ejemplo 10.1 al estimar , podemos tener inter es en prescindir de algunas de estas observa ciones v i , o atenuarlas, si sus varianzas son muy grandes; ello acontecer a cuando los valores propios i sean muy peque nos. Los estimadores que se presentan a continuaci on hacen precisamente esto. El estimador en componentes principales de la Secci on 10.4 prescin; el estimador ridge de la Secci de de algunas v i on 10.3 aten ua las v i m as inestables. Volveremos de nuevo sobre la cuesti on en la Secci on 10.4, p ag. 153.
10.3.
Regresi on ridge.
Error cuadr atico medio del estimador m nimo cuadr atico ordinario
Dado que hay varios par ametros a estimar, deniremos como ECM del estimador MCO: ) = E [( ) ( )] ECM( (10.3)
que podemos ver tambi en como el valor medio del cuadrado de la distancia y . Supondremos (X X ) de rango total, y por eucl dea ordinaria entre ] = tanto que (X X )1 existe (este supuesto se puede relajar). Como E [ 2 1 y = (X X ) , tenemos que: ) = E [ traza ( ) ( )] ECM( )( ) ] = E [ traza ( = 2 traza (X X )1 = 2 traza (X X )1 V V = 2 traza V (X X )1 V p 1 2 , = i=1 i (V = diagonalizadora de (X X )1 )
(10.4)
Independientes, si se verica el supuesto de normalidad.
140
en que los i son los valores propios de la matriz (X X ). (Recu erdese que 1 los vectores propios de las matrices (X X ) y (X X ) son los mismos, y los valores propios de una los inversos de los de la otra.)
Clase de estimadores ridge

Denici on 10.1 Deniremos el estimador ridge de par ametro k as : (k) = (X X + kI )1 X Y siendo k una constante positiva a determinar. El estimador ridge es id entico al MCO en el caso particular en que k = 0. La relaci on entre ambos para un valor arbitrario de k queda de maniesto en la siguiente cadena de igualdades: (k) = (X X + kI )1 (X X )(X X )1 X Y = (X X + kI )1 (X X ) = = (X X )1 (X X + kI ) I + k (X X ) 1
1 1
(10.5)
(10.6)
= Z
def
1
siendo Z = [I + k (X X )1 ] . El Teorema 10.1, que muestra la superioridad del estimador ridge sobre el MCO para alg un valor de k , es consecuencia del Lema 10.1 a continuaci on. Lema 10.1 El error cuadr atico medio del estimador ridge de par ametro k viene dado por la expresi on (k) ] ECM [ = 2
p 2 k 2 i i + 2 2 i=1 (i + k ) i=1 (i + k ) p
(10.7)
en que los i son los valores propios de la matrix (X X ) y = V , siendo V una matriz cuyas columnas son vectores propios de (X X ). n: Demostracio
SESGADA. CAP ITULO 10. REGRESION El ECM del estimador ridge que habremos de comparar con (10.4) es: (k) ] = E [( (k) ) ( (k) )] ECM [ ) (Z )] (por (10.6)) = E [(Z
141
Z + Z ) (Z Z + Z )] = E [(Z Z ) (Z Z )] + (Z ) (Z ) = E [(Z
(a) (b)
(10.8) Obs ervese que el primer t ermino (a) es la suma de varianzas de los elementos (k ) de , mientras que (b) es la suma de los sesgos al cuadrado de dichos elementos. Examinemos por separado los dos sumandos de la expresi on anterior: ) Z Z ( )] (a) = E [( ) Z Z ( )} ] = E [traza{(
)( ) Z Z } ] = E [traza{( )( ) Z Z } = traza{E ( = 2 traza [(X X )1 Z Z ] = 2 traza (X X )1 I + k (X X )1

1
(10.9) I + k (X X ) 1
1 1
= 2 traza (X X ) + kI + kI + k 2 (X X )1 = 2 traza (X X ) + 2kI + k 2 (X X )1

1
VV (10.10) (10.11) (10.12)
= 2 traza V [(X X ) + 2kI + k 2 (X X )1 ]1 V = 2 =

2
1 1 2 i=1 i + 2k + i k i . 2 i=1 (i + k )
p
La obtenci on de la expresi on (10.9) hace uso de el habitual intercambio de los operadores de traza y valor medio, as como del hecho de que si es el estimador MCO y X X es de rango completo, E [( )( )] = 2 (X X )1 (Teorema 2.2, p ag. 19). En el paso de (10.10) a (10.11) se ha empleado el hecho de que si V diagonaliza a (X X ) diagonaliza tambi en a cada una de las matrices en el corchete, y por consiguiente a la matriz inversa de la contenida en el corchete.
SESGADA. CAP ITULO 10. REGRESION Tomando ahora el segundo t ermino de (10.8), (b) = (Z ) (Z ) = (Z I ) (Z I ) = = k 2 ( + kI )2 = = traza k ( + kI )
2 k 2 i 2 i=1 (i + k ) p 2 2
142
I + k (X X ) 1
I + k (X X ) 1
I (10.13)
(10.14)
El paso a (10.13) desde la expresi on anterior hace uso de que = V . Sustituyendo (10.12) y (10.14) en (10.8) se obtiene (10.7)
El Teorema 10.1 se sigue casi inmediatamente del resultado anterior. (k) ] dado por Teorema 10.1 Hay alg un valor de k > 0 para el que ECM [ (10.7) es estrictamente menor que el ECM del estimador MCO dado por (10.4). n: Demostracio (k) coinHemos visto m as arriba que cuando k = 0, el estimador ridge cide con el MCO. Por consiguiente, para k = 0 la expresi on (10.7) debe coincidir con (10.4), como en efecto puede comprobarse que sucede. Derivando (10.7) respecto de k , es f acil comprobar que la derivada en k = 0 p 2 2 existe y es 2 i=1 i , claramente negativa. Por consiguiente, siempre podremos (incrementando ligeramente k ) lograr que: (k) ] < ECM [ (0) ] = ECM [ ] ECM [ lo que demuestra el teorema. (10.15)
Una percepci on intuitiva del resultado anterior la proporciona la comparaci on de las expresiones (10.4) y (10.8), valores medios respectivamente de ) y ( (k) ) ( (k) ). Se observa que (10.4) puede hacerse ( ) ( arbitrariamente grande si i 0 para alg un i. La expresi on (10.12) est aa
143
(k) ) en el estimador ridge. Las l Figura 10.1: Componentes del ECM ( neas 2 (k) de trazos y puntos representa respectivamente la varianza y (sesgo) de (k) ]. La l en funci on de k . La curva s olida representa ECM [ nea horizontal es la varianza (y ECM) del estimador MCO.
0.35
0.30
ECM ridge (a) + (b)
ECM, varianza y (sesgo)2
0.20
0.25
ECM MCO
Sesgo ridge (b)
0.05
0.10
0.15
Var ridge (a)
0.00 0.00
0.02
0.04 k
0.06
0.08
0.10
cobijo de tal eventualidad, pues ninguno de los sumandos puede crecer por encima de i /k 2 . La Figura 10.1 muestra en un caso concreto c omo var an en funci on de k los componentes (a) y (b) de (10.8), y su suma. Como t ermino de comparaci on se ha representado mediante una l nea horizontal la varianza MCO (igual a su varianza, puesto que es insesgado). Puede verse que, del (k) ) tal como el Teorema 10.1 establece, hay valores de k en que el ECM ( ); ocurre para valores de k menores que desciende por debajo del ECM ( 0.039 aproximadamente.
144
Elecci on de k
Sabemos que existe un k (de hecho, un intervalo de valores de k ) mejorando el ECM del estimador MCO; pero nada en la discusi on anterior nos permite decidir cu al es su valor. En la pr actica, se recurre a alguna o varias de las siguientes soluciones: Uso de trazas ridge. Se prueban diversos valores de k represent andose las diferentes estimaciones del vector (trazas ridge) ; se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. La idea es intuitivamente atrayente: peque nos incrementos de k partiendo de cero tienen habitualmente un efecto dr astico sobre , al coste de introducir alg un sesgo. Incrementaremos k por tanto hasta que parezca que su inuencia sobre se aten ua hasta que las trazas ridge sean casi horizontales. El decidir d onde ocurre esto es, no obstante, bastante subjetivo. Elecci on de k por validaci on cruzada. La idea es tambi en muy simple, aunque computacionalmente algo laboriosa. Sea y (i),k la predicci on que hacemos de la observaci on yi cuando empleamos el estimador ridge de par ametro k obtenido con una muestra de la que excluimos la observaci on i- esima. Denamos
N
CV (k ) =
i=1
(y i y (i),k )2 ;
es decir, CV (k ) es la suma de cuadrados de los residuos obtenidos al ajustar cada observaci on con una regresi on que la ha dejado fuera al estimar los par ametros. Entonces, kCV = arg m n CV (k ),
k
y la idea es emplear este valor kCV . En principio, calcular CV (k ) para un valor de k requerir a llevar a cabo N regresiones, excluyendo cada vez una observaci on distinta. En la pr actica, el c alculo puede agilizarse de modo considerable. Elecci on de k por validaci on cruzada generalizada (GCV). Es un criterio estrechamente emparentado con el anterior. Sean A(k ) = X ((X X ) + kI )1 X (k) = A(k )y ; y = X
SESGADA. CAP ITULO 10. REGRESION entonces, elegimos kGCV = arg m n

k
145
||(I A(k ))y ||2 . [traza(I A(k ))]2
(10.16)
Sobre la justicaci on de dicha elecci on puede verse Eubank (1988) o Brown (1993), por ejemplo; no podemos entrar aqu en detalles. Baste decir que la expresi on que se minimiza en (10.16) se reduce a SSE/(N p)2 cuando k = 0 (m nimos cuadrados ordinarios), como resulta inmediato de la denici on de A(k ); una expresi on cuya minimizaci on parece razonable. Para otros valores de k el numerador de (10.16) contin ua siendo una suma de cuadrados de los residuos y el denominador el cuadrado del n umero de grados de libertad equivalentes. Otros criterios. Nos limitamos a mencionarlos. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes. kHKB = (p 2) 2 / (10.17)
(X X ) ) kLW = (p 2) 2 traza(X X )/(p 2 i i k + k2 kM U R = arg m n 2 2 k i ( i + k ) i i ( i + k )
(10.18) (10.19)
El criterio (10.17) fue propuesto por Hoerl et al. (1975) y tiene una justicaci on bayesiana. El criterio (10.18) fue propuesto en Lawless and Wang (1976). El criterio (10.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimaci on. Observaci on 10.2 En las ecuaciones (10.17)(10.19), p es el orden y rango de la matrix (X X ). En caso de que (X X ) sea de rango deciente r , r < p, puede sustituirse este por p tomando como el estimador m nimo cuadr atico de m nima longitud; ver detalles en Brown (1993), p ag. 63.
Comentarios adicionales
Es evidente que la forma del ECM propuesto pondera por igual las discrepancias en la estimaci on de un i cuyo valor real es muy grande que aqu ellas en la estimaci on de uno cuyo valor real es muy peque no. Por ello, es aconsejable antes de emplear el procedimiento normalizar los regresores. Alternativamente podr a reproducirse el desarrollo anterior empleando como
146
) M ( ), siendo M una matriz ECM una expresi on del tipo: ( 2 ). denida positiva adecuada tipicando los ( Es habitual no s olo normalizar sino tambi en centrar tanto las columnas de X como y . El par ametro 0 se sustrae as al proceso de estimaci on ridge, restaur andolo al nal. Finalmente, es de inter es se nalar que el estimador ridge puede verse desde distintos puntos de vista. Uno de ellos lo interpreta como un estimador bayesiano, en la l nea esbozada en los Ejercicios 4.6 y 4.7, p ag. 58. R: Ejemplo 10.1 (ejemplo de regresi on ridge)
El siguiente c odigo muestra el uso de regresi on ridge sobre un conjunto de datos acusadamente colineal. La Figura 10.2 muestra las trazas ridge de los seis par ametros estimados y el valor del criterio GCV para distintos valores de k. En ambas gr acas, que comparten la escala de abscisas, se ha trazado una recta vertical al nivel de kGCV . Los valores de kHKB y kLW son tambi en output de la funci on lm.ridge y podr an haberse utilizado. El primero es pr acticamente id entico a kGCV y no se ha representado en la Figura 10.2; el segundo s . > > > > > > options(digits = 4) options(columns = 40) library(MASS) data(longley) names(longley)[1] <- "y" longley[1:3, ] y GNP 83.0 234.3 88.5 259.4 88.2 258.1 Population 107.6 108.6 109.8 Unemployed Armed.Forces 235.6 159.0 232.5 145.6 368.2 161.6 Year Employed 1947 60.32 1948 61.12 1949 60.17
1947 1948 1949 1947 1948 1949
> longley.mco <- lm(y ~ ., longley) > summary(longley.mco) Call: lm(formula = y ~ ., data = longley)
Es decir, empleando una m etrica distinta de la eucl dea ordinaria para medir la y ; M = (X X ) ser discrepancia entre a una elecci on natural.
2
SESGADA. CAP ITULO 10. REGRESION Figura 10.2: Trazas ridge y GVC para los datos longley
147
Trazas ridge
kGCV 20 i 10 0.00 0 10
0.02
0.04 k
0.06
0.08
0.10
Criterio GCV
kGCV kLW
GCV
0.120 0.00
0.130
0.140
0.02
0.04 k
0.06
0.08
0.10

Residuals: Min 1Q Median -2.009 -0.515 0.113 Coefficients:
148
3Q 0.423
Max 1.550
Estimate Std. Error t value (Intercept) 2946.8564 5647.9766 0.52 GNP 0.2635 0.1082 2.44 Unemployed 0.0365 0.0302 1.21 Armed.Forces 0.0112 0.0155 0.72 Population -1.7370 0.6738 -2.58 Year -1.4188 2.9446 -0.48 Employed 0.2313 1.3039 0.18 Pr(>|t|) (Intercept) 0.614 GNP 0.038 * Unemployed 0.258 Armed.Forces 0.488 Population 0.030 * Year 0.641 Employed 0.863 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.19 on 9 degrees of freedom Multiple R-squared: 0.993, Adjusted R-squared: 0.988 F-statistic: 203 on 6 and 9 DF, p-value: 4.43e-09 N otese la fuerte multicolinealidad, aparente en los reducidos t-ratios y elevada R2 . Probemos ahora regresi on ridge con valores de k (= lambda) entre 0 y 0.1 variando de mil esima en mil esima. Imprimiremos a continuaci on las estimaciones correspondientes a los tres primeros valores de k ensayados. Cuando k = 0, deben coincidir las estimaciones con las obtenidas por MCO. > longley.rr <- lm.ridge(y ~ ., longley, + lambda = seq(0, 0.1, 0.001)) > summary(longley.rr) Length coef 606 scales 6 Inter 1 Class -none-none-noneMode numeric numeric numeric

lambda 101 ym 1 xm 6 GCV 101 kHKB 1 kLW 1 -none-none-none-none-none-nonenumeric numeric numeric numeric numeric numeric
149
> coef(longley.rr)[1:3, ] GNP Unemployed Armed.Forces 0.000 2947 0.2635 0.03648 0.011161 0.001 1896 0.2392 0.03101 0.009372 0.002 1166 0.2210 0.02719 0.008243 Population Year Employed 0.000 -1.737 -1.4188 0.23129 0.001 -1.644 -0.8766 0.10561 0.002 -1.565 -0.5011 0.03029 La funci on select aplicada al objeto que devuelve lm.ridge devuelve los valores optimos de tres de los criterios mencionados m nas arriba. > select(longley.rr) modified HKB estimator is 0.006837 modified L-W estimator is 0.05267 smallest value of GCV at 0.006 Podemos seleccionar el k o ptimo de acuerdo, por ejemplo, al criterio GCV, y hacer regresi on ridge con el: > nGCV <- which.min(longley.rr$GCV) > lGCV <- longley.rr$lambda[nGCV] > lm.ridge(y ~ ., longley, lambda = lGCV) -3.144e+02 Armed.Forces 6.565e-03 Employed -5.812e-02 GNP 1.765e-01 Population -1.328e+00 Unemployed 1.937e-02 Year 2.556e-01
El c odigo a continuaci on genera las gr acas en la Figura 10.2.

> > + + > > > > + + > > > >
150
par(mfrow = c(2, 1)) matplot(longley.rr$lambda, t(longley.rr$coef), type = "l", xlab = expression(k), ylab = expression(beta[i])) abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) title(main = "Trazas ridge") plot(longley.rr$lambda, longley.rr$GCV, type = "l", xlab = expression(k), ylab = "GCV", main = "Criterio GCV") abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) abline(v = longley.rr$kLW) mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)
Fin del ejemplo
10.4.
Regresi on en componentes principales.
Descripci on del estimador

Consideraremos, por conveniencia notacional, el modelo habitual en que la columna de unos, si existe, ha sido segregada, y los restantes regresores han sido centrados y normalizados. Esto tiene por u nico efecto multiplicar los par ametros y sus estimadores por constantes respectivamente iguales a la norma de las columnas de X afectadas. Con este convenio, el modelo de regresion lineal que consideramos se puede escribir as : y = 10 + W + (10.20)
Supondremos, consistentemente con la notaci on anterior, que es un vector (p 1) 1, y W una matriz N (p 1). La matriz W W es una matriz con unos en la diagonal principal, sim etrica, y denida no negativa. Existe siempre una diagonalizadora ortogonal V tal que: V (W W )V = ( W W = V V ) (10.21)
151
Sean v1 , . . . , vp1 los vectores columna de V . Llamaremos componentes principales de W a los vectores u1 , . . . , up1 denidos as : u1 u2 u p 1 o abreviadamente: U = WV (10.23) = W v1 = W v2 . . . = W vp1 (10.22)
La matriz U es N (p 1), con columnas combinaci on lineal de las de W . Es adem as aparente que las columnas de U son ortogonales: U U = V (W W )V = , y que generan el mismo subespacio de RN que las de W . Siendo V ortogonal, (10.20) puede transformarse as : y = 10 + W + = 10 + W V V + = 10 + U + (10.24) (10.25) (10.26)
Teniendo en cuenta (ver Problema 10.2) que 1 ui , (i = 1, . . . , p 1), el vector de estimadores puede escribirse as : 0 y y = (U U ) 1 U y = 1 U y (10.27)
Todo lo que hemos hecho hasta el momento es tomar una diferente base del espacio de proyecci on la formada por las columnas de U en lugar de la formada por las columnas de W . Llegados a este punto, tenemos que recuperar los estimadores de los par ametros originales a partir de . Si lo hacemos mediante = V estaremos obteniendo exactamente los estimadores MCO. La idea del es es emplear s timador en componentes principales olo algunos de los CP t erminos en : = V CP
( q) . 0
(10.28)
Necesitamos por tanto criterios para escoger los estimadores i que inclui mos en (q) y los que reemplazamos por cero en (10.28).
152
Estrategias de selecci on de componentes principales

Hay varias estrategias. Una discusi on m as pormenorizada que el resumen a continuaci on puede encontrarse en Brown (1993) o en Jollie (1986).
1 Elecci on basada en i . Como quiera que la varianza de i es 2 i (v ease (9.26), p ag. 130), una estrategia consistir a en tomar los i asociados a i m as grande (es decir, con menos varianza), despreciando los restantes. El n umero de componentes principales a retener (= el n umero de i s grandes) es en buena medida subjetivo. N otese que puede ocurrir que componentes asociadas a par ametros i con mucha varianza y por tanto desechados tengan no obstante gran poder predictivo de y . En este caso, podr a ser preferible emplear la estrategia a continuaci on.
Elecci on basada en el contraste de nulidad de los i . Se procede as : 1. Se calcula PU y

2
= U
2 = 1 u1
2 ++ p 1 u p 1
(10.29)
la u ltima igualdad haciendo uso de la ortogonalidad entre las columnas 2 . de U . Entonces, SSR = PU y 2 , y SSE = y y 2 U 2. Se contrasta la hip otesis de nulidad para cada uno de los par ametros, (H i : i = 0, i = 1, . . . , p 1), mediante el estad stico: Qi = 2 ui N p i 1 SSE
2
F1,N p
(10.30)
que sigue la distribuci on indicada bajo los supuestos habituales m as normalidad cuando Hi es cierta. Obs ervese que, gracias a ser ortogonales las columnas de U , la fracci on de SSR atribuible a cada regresor es independiente de los que pueda haber ya incluidos en la ecuaci on de regresi on; por tanto, la diferencia de suma de cuadrados explicada con y sin el regresor ui es precisamente i2 ui 2 . 3. Se introducen todos los regresores cuyo estad stico Qi supere un nivel prejado. Sin p erdida de generalidad, supondremos que estos son los q primeros, formando el vector ( . q)
SESGADA. CAP ITULO 10. REGRESION se obtienen mediante la transformaci 4. Los on (10.28). CP
153
N otese que mientras que la estrategia precedente consist a en desechar componentes principales asociadas a reducido i , la presente propone desechar las asociadas a reducido Qi ; frecuentemente, no suele haber conicto entre ambos objetivos: ui 2 = i 0 Qi 0 a menos que simult aneamente i 0. Puede ocurrir, sin embargo, que una componente principal asociada a un i muy peque no tenga apreciable valor predictivo (si i es grande). Proceder a incluir dicha componente principal como predictor si el valor de Qi lo justica y la predicci on es el objetivo del an alisis3 . Estrategia mixta. Propuesta por Jollie (1986), ordena los i de menor a mayor i y realiza en este orden un contraste como el del apartado anterior sobre cada uno de ellos. Cuando se encuentra el primer i signicativo, se retiene junto a todos los que le siguen (con i mayor, por tanto). Todos los i retenidos componen el vector ( q) . Validaci on cruzada. Computacionalmente muy laboriosa. Puede ocurrir que al omitir distintas observaciones, dos componentes principales permuten su orden. V eanse detalles en Brown (1993).
Propiedades del estimador en componentes principales

es: El sesgo de CP ] = E V E [ CP y su matriz de covarianzas: = V =
2 i=1 p 1 p 1 ( q) i vi V = 0 i=q +1
(10.31)
CP
2
q
I 0 Iq 0 1 q 0 0 0 0
(10.32) (10.33) (10.34) (10.35)
1 i vi vi
2
3
1 i vi vi i=1
= 2 (W W ) 1
Pero este criterio no es un animemente compartido. V ease Hocking (1976).
154
en que el s mbolo indica elementos no mayores en la diagonal principal. La diferencia entre la matriz de covarianzas de los estimadores MCO y la de los estimadores en componentes principales es:
p 1
2
i=q +1
1 i vi vi
(10.36)
y ser a importante si entre las componentes principales exclu das como regresores hay alguna asociada a un i muy peque no. Las expresiones (10.31) y (10.32)(10.35) muestran el conicto varianzasesgo en el caso de la regresi on en componentes principales. De (10.31) se deduce la siguiente expresi on para la suma de los sesgos al cuadrado: ) ] [E ( ) ] = [ E ( CP CP
p 1
( i )2
i=q +1
(10.37)
Es interesante comparar el estimador en componentes principales con el estimador ridge, y examinarlo a la luz del an alisis efectuado en el Cap tulo 9. En realidad, todo cuanto hace el estimador en componentes principales es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores de los par ametros originales despreciando informaci on (algunos i ) de gran varianza (si se sigue el criterio de despreciar sin m as componentes principales 2 con peque no i ) o de reducido Qi ( i ) i ; este u ltimo estad stico puede contemplarse como relaci on se nal/ruido. El estimador ridge no hace una elecci on tan dr astica sino que, mediante la introducci on del par ametro k , aten ua las componentes principales res. Esto se hace evidente si ponsables en mayor medida de la varianza de comparamos la siguiente expresi on: = V CP Iq 0 =V 0 0 Iq 0 1 U y 0 0 (10.38)
con la del estimador ridge equiparable4 : (k) = (W W + kI )1 W y = V V (W W + kI )1 V V W y = V ( + kI )1 U y (10.39) (10.40) (10.41)
En (10.38) s olo q columnas de U y se utilizan; en (10.41), todas, si bien las que corresponden a componentes principales con i m as peque no reciben
Es decir, tras haber centrado y normado los regresores y segregado la columna de unos.
4
155
una ponderaci on menor, al ser divididas por i + k en lugar de por i . Por ejemplo, si 1 = 5, 4 = ,002 y k = 0,01, la primera columna de U y ser a dividida por 5,01 5, mientras que la cuarta resultar a dividida por 0,012 0,002, es decir, su ponderaci on se reducir a a la sexta parte de la original. R: Ejemplo 10.2 (regresi on en componentes principales)
La funci on regCP que sigue traduce directamente de la teor a expuesta el m etodo para llevar a cabo estimaci on en componentes principales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos: tomar: Vector de ndices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar a las tres primeras. sig: Nivel de signicaci on de las componentes principales a retener. Se toman todas aqu ellas sea cual fuere su valor propio asociado signicativas al nivel sig. La funci on es ineciente, no hace comprobaci on de errores y tiene s olo inter es did actico. > regCP <- function(X, y, tomar = NULL, + sig = 0.05) { + X.c <- scale(X, scale = FALSE) + y.c <- scale(y, scale = FALSE) + W <- scale(X.c, center = FALSE)/sqrt(nrow(X) + 1) + WW <- crossprod(W) + factores.escala <- X.c[1, ]/W[1, ] + N <- nrow(X) + p <- ncol(X) + res <- eigen(WW) + V <- res$vectors + landas <- res$values + U <- W %*% V + gamas <- (1/landas) * t(U) %*% y.c + if (is.null(tomar)) { + fit <- lsfit(X.c, y.c, intercept = FALSE) + SSE <- sum(fit$residuals^2) + qi <- (N - p) * (gamas * landas)^2/SSE + tomar <- (1:p)[sig > (1 - pf(qi, + 1, N - p))] + } + betasCPstar <- V[, tomar] %*% gamas[tomar]

+ + + + + + + + + }
156
betasCP <- betasCPstar/factores.escala m.X <- apply(X, 2, mean) m.Y <- mean(y) beta0 <- m.Y - sum(m.X * betasCP) betasCP <- c(beta0, betasCP) names(betasCP) <- c("Intercept", dimnames(X)[[2]]) return(list(betasCP = betasCP, landas = landas, CP.usadas = tomar))
Veamos el modo de emplearla, con los datos longley, frecuentemente empleados como banco de pruebas por su muy acusada multicolinealidad: > > > > > library(MASS) data(longley) y <- longley[, 1] X <- as.matrix(longley[, -1]) regCP(X, y, tomar = 1:3) GNP 2.459e-02 Population 3.391e-01 Unemployed 9.953e-03 Year 4.967e-01
$betasCP Intercept -9.731e+02 Armed.Forces 1.553e-02 Employed 7.239e-01
$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 Una comprobaci on u til consiste en ver que el estimador en CP, cuando se utilizan todas las componente principales, coincide con el estimador MCO. Ve amoslo: > regCP(X, y, tomar = 1:ncol(X)) $betasCP Intercept GNP Unemployed

2946.85636 Armed.Forces 0.01116 Employed 0.23129 0.26353 Population -1.73703 0.03648 Year -1.41880
157
$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 4 5 6 > lsfit(X, y)$coefficients Intercept 2946.85636 Armed.Forces 0.01116 Employed 0.23129 GNP 0.26353 Population -1.73703 Unemployed 0.03648 Year -1.41880
Para que la funci on seleccione aquellas componentes principales con un nivel de signicaci on de sus par ametros asociados prejado, la invocamos as : > regCP(X, y, sig = 0.1) $betasCP Intercept -961.37468 Armed.Forces 0.01991 Employed 0.66205 GNP 0.02372 Population 0.33197 Unemployed 0.01373 Year 0.49223
$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 Fin del ejemplo
158
10.5.
Regresi on en ra ces latentes

y = 10 + W + (10.42)
Consideramos el modelo:
o alternativamente: y = W + (10.43)
en que tanto los regresores como la variable respuesta y han sido normali2 zados y centrados. Es decir, y = 1 (y y ) siendo 2 = N i=1 (yi y ) . Si constru mos la matriz N p siguiente: A = [y | W ] (10.44)
tenemos que la matriz (A A) es una matriz de correlaci on (tiene unos en la diagonal principal, es sim etrica y semidenida positiva). Sea V = (v1 | | vp ) la matriz que la diagonaliza: V (A A)V = V V = A A Entonces, utilizando (10.44), tenemos Avj = v0j y + W vj , d onde vj
(0) (0)
(10.45)
(j = 1 , . . . , p )
(10.46)
es vj desprovisto de su primer elemento: vj = v0j (0) . vj
Tomando norma al cuadrado de (10.46), Avj

2
= =
v0j yi + W vj
N i=1
(0) 2
p 1 i
y v0j
+
k =1 (0)
Wik vkj
(10.47)
en que vkj es la k - esima coordenada de vj . Como por otra parte Avj

2
= vj (A A)vj = j ,
(10.48)
SESGADA. CAP ITULO 10. REGRESION igualando (10.47) y (10.48) deducimos que si j 0
p 1 yi v0j
159
Wik vkj
k =1
i [1, . . . , N ]
(10.49)
Si, adem as, v0j = 0, podemos escribir:

1 y v0 j W vj (0) def
y ( j)
(10.50)
Como y = 1 (y y ), y = y + y y denominando
( y (j ) = y + y j)
(10.51)
tenemos:
(y y (j ) ) (y y (j ) ) = 2 (y y ( ( j ) ) (y y j)) = (v0j y v0j y ( ( j ) ) (v0j y v0j y j))
2 2 v0 j
= (Avj ) (Avj ) = j 2 2 v0 j
2 2 v0 j (10.52)
N otese que la aproximaci on de y en (10.50) y suma de cuadrados de los residuos en (10.52), hacen uso exclusivamente de una parte de la informaci on disponible; la de que j es aproximadamente cero para un determinado j . Podemos pensar en hacer uso de toda la informaci on disponible aproximando y mediante una combinaci on lineal de y (i) (i = 1, . . . , p), debidamente ponderadas por coecientes di a determinar:
p
y =
i=1 p
di y (i) di y + W (v0i 1 vi )
p (0)
[usando (10.50) y (10.51)] =
i=1 p
=
i=1
di y + W
di v0i 1 vi
i=1
(0)
Por otro lado, de (10.42) tenemos 0 1 + W
SESGADA. CAP ITULO 10. REGRESION que junto con la igualdad precedente proporciona: 0 = y =
p
160
di
i=1 p i=1
(10.53)
(0)
di v0i 1 vi
(10.54)
0 = y , y por tanto Como los regresores W est an centrados, es claro que p de (10.53) se deduce i=1 di = 1. Haciendo uso de (10.52), (10.53), y (10.54) obtenemos la suma de cuadrados de los residuos: (y y ) (y y ) = 2 (y y ) (y y )
p
y +W
i=1 p
(0) div0i 1 vi
y + W
i=1
di v0i 1 vi
(0)
= 2
i=1 p
di (0) (y v0i + W vi ) v0i di (0) (y v0i + W vi ) v0i di Avi v0i i d 2 i v0i 2 .

p i=1
=
2
i=1 p i=1 p
di Avi v0i (10.55)

p i=1
= 2
i=1
Podemos ahora minimizar la expresi on (10.55) sujeta a que El lagrangiano es:

p
d i = 1.
(d ) = 2
i=1
i d 2 i 2 v0i
i=1
di 1
(10.56)
cuyas derivadas (d ) d i i = 2 2 di v0i 2 =0 (i = 1, . . . , p) (10.57)
1 permiten (multiplicando cada igualdad en (10.57) por v0i 2 y sumando) i obtener:
= 2 2
2 v0 i i=1 i
(10.58)
SESGADA. CAP ITULO 10. REGRESION Llevando (10.58) a (10.57) obtenemos: 2 2 d i y por tanto: v2 di = 0i i
2 v0 i i=1 i p 1
161
i = = 2 2 2 v0 i
2 v0 i i=1 i
(10.59)
(10.60)
Los estimadores deseados se obtienen llevando (10.60) a (10.53)(10.54): 0 = y =

p i=1
(10.61) v0i v (0) i i 2 v0 p i i=1 i (10.62)
Podr amos detenernos aqu , pero hay m as. Cabe distinguir dos tipos de multicolinealidades entre las columnas de la matriz [y | W ]; aqu ellas en que v0i 0 que llamaremos (multicolinealidades predictivas), y aqu ellas en que v0i 0 (multicolinealidades no predictivas) ; las primeras permiten despejar y , y son aprovechables para la predicci on, en tanto las segundas son multicolinealidades fundamentalmente entre los regresores. (0) El estimador anterior pondera cada vi en proporci on directa a v0i e inversa a i . Es lo sensato: lo primero, prima las multicolinealidades predictivas sobre las que lo son menos; lo segundo, a las multicolinealidades m as fuertes (en que la igualdad aproximada (10.49) es m as ajustada). Pero podemos eliminar en (10.62) t erminos muy inestables, cuando v0i y i son ambos muy peque nos, para evitar que el sumando correspondiente en (10.62) reciba gran ponderaci on, si parece evidente que se trata de una multicolinealidad no predictiva. La relaci on (10.62) se transformar a entonces en: =
iP
v0i v (0) i i 2 v0 i iP i
(10.63)
siendo P un subconjunto de (1, . . . , p). La determinaci on de P es una tarea eminentemente subjetiva; se suele desechar una multicolinealidad cuando i < 0,10 y v0i < 0,10, si adem as (0) vi se aproxima a un vector propio de W W .
162
10.6.
Lectura recomendada
Sobre regresi on ridge, el trabajo original es Hoerl and Kennard (1970) (ver tambi en Hoerl et al. (1975)). Hay una enorme literatura sobre los estimadores ridge y en componentes principales. Pueden verse por ejemplo Brown (1993), Cap. 4, Troc oniz (1987a) Cap. 10 o Pe na (2002) Sec. 8.3.4, que relaciona el estimador ridge con un estimador bayesiano. Los m etodos de regresi on sesgada se contemplan a veces como alternativas a los m etodos de selecci on de variables en situaciones de acusada multicolinealidad: v ease por ejemplo Miller (2002), Cap. 3. De hecho, estudiaremos en el Cap tulo 12 estimadores como el LASSO y garrote no negativo que pueden tambi en verse como m etodos de regresi on sesgada. El trabajo original regresi on en ra ces latentes puede verse en Webster et al. (1974). Hay tambi en descripciones completas del m etodo en manuales como Troc oniz (1987a) (p ag. 247 y ss.) o Gunst and Mason (1980), Sec. 10.2.
SESGADA. CAP ITULO 10. REGRESION Complementos y ejercicios 10.1 Al nal de la Secci on 10.3 se propon a emplear un criterio
del tipo ) M ( ) (
163
con M = (X X ). D ese una justicaci on para esta elecci on de M .
10.2 Demu estrese que si ui es denida como en (10.22), se

verica que 1 ui .
10.3 Sea una muestra formada por n observaciones, X1 , . . . , Xn ,

generadas por una distribuci on con media. Demu estrese que, para alatico, g un c, cX es mejor estimador (en terminos de error medio cuadr ECM) que X . Es esto un caso particular de alguno de los procedimientos de estimaci on examinados en este cap tulo?
10.4 Es f acil realizar regresi on ridge incluso con programas

pensados s olo para hacer regresi on m nimo cuadr atica ordinaria. Basta prolongar el vector y con p ceros, y la matriz X con p las adi e y cionales: las de la matriz kIpp . Llamamos X a la matriz de regresores y vector respuesta as ampliados. Al hacer regresi on ordi obtenemos: naria de y sobre X = (X X )1 X y = (X X + kI ) = (X X + kI ) (k) =
1 1
(X y + kI 0 )
(10.64) (10.65) (10.66) (10.67)
X y
a Alternativamente, se puede formar X nadiendo a X las las de una matriz unidad, y realizar regresi on ponderada (dando a cada observaci on normal peso unitario y a las p seudo-observaciones a nadidas on de los pesos es habitualmente m as c omoda peso k). La alteraci que la creaci on de una nueva matriz de regresores. Este ser a de ordinario el m etodo a utilizar cuando hayamos de probar muchos valores diferentes de k y dispongamos de un programa para hacer regresi on m nimo cuadr atica ponderada. Las funciones lsfit y lm (disponibles en R) admiten ambas el uso de pesos y por tanto se prestan al uso descrito. La librer a MASS contiene no obstante la funci on lm.ridge, que hace estimaci on ridge de modo m as c omodo para el usuario.
10.5 Supongamos una muestra formada por pares de valores

(yi , xi ), i = 1, . . . , N . La variable Y es peso, la variable X es edad,

y las observaciones corresponden a N diferentes sujetos. Estamos interesados en especicar la evoluci on del peso con la edad. Podr amos construir la matrix de dise no
X=
164
1 1 1 . . .
x1 x2 x3
x2 1 x2 2 x2 3 x2 N
x3 1 x3 2 x3 3 . . . x3 N
1 . . . xp 1 p 1 . . . x2 1 . . . xp 3 . . . 1 . . . xp N
(10.68)
1 xN
y contrastar hip otesis tales como H0 : 2 = 3 = . . . = p1 = 0 (tendencia no m as que lineal), H0 : 3 = . . . = p1 = 0 (tendencia no m as que cuadr atica), etc. Sucede sin embargo, como es f acil comprobar, que una matriz como la anterior adolece de una acusada multicolinealidad, sean cuales fueren los valores x1 , . . . , xN . Podr amos ortogonalizar los vectores columna de la matriz de dise no (por ejemplo mediante el procedimiendo de Gram-Schmidt: v ease Grafe (1985) o cualquier libro de Algebra Lineal), para obtener una nueva matriz de dise no. Los nuevos vectores columna generan el mismo espacio y el contraste puede hacerse del mismo modo que con los originales, pero sin problemas de multicolinealidad. Otra posibilidad es sustituir las potencias creciente de xi en las columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977), Dahlquist and Bj orck (1974), o cualquier texto de An alisis Num erico). Ambos procedimientos tienen por nalidad encontrar una base ortogonal o aproximadamente ortogonal generando el mismo espacio que los vectores columna originales de la matriz de dise no.
10.6 ( 10.5) Por qu e, para la nalidad perseguida en el Ejercicio 10.5, no ser a de utilidad hacer regresi on en componentes principales?
Cap tulo 11
Evaluaci on del ajuste. Diagn osticos.

Ya hemos visto en lo que precede estad sticos para evaluar la bondad de ajuste de un modelo, como R2 ; pero se trata de estad sticos que dan una 2 idea global del ajuste. Puede ocurrir que un R encubra el hecho de que localmente para unas ciertas observaciones el ajuste es muy deciente. En lo que sigue abordaremos esta cuesti on, considerando instrumentos para examinar el ajuste localmente (para observaciones individuales). Examinaremos tambi en la cuesti on ntimamente relacionada de cu ando una observaci on (o varias) son muy inuyentes, en el sentido de condicionar de modo importante la estimaci on del modelo.
11.1.
An alisis de residuos.
En general, como se ha indicado ya en el Cap tulo 12, no conocemos la forma en que se generan los valores de la variable respuesta Y . Todos los modelos que ajustemos son en alguna medida provisionales, y su adecuaci on a los datos debe ser objeto de an alisis. El desarrollo que se hace a continuaci on sigue principalmente a Cook and Weisberg (1982). Otras referencias de utilidad son Hawkins (1980), Barnett and Lewis (1978), Belsley et al. (1980), Myers (1990) y Troc oniz (1987a). La forma m as natural de examinar el ajuste consiste en considerar los residuos = ( I X ( X X ) 1 X ) y = (I X ( X X ) 1 X ) = y X (11.1)
Podemos contemplar los i como estimaciones de las perturbaciones i (inobservables) que han intervenido en la generaci on de las Yi . Veremos sin 165
DEL AJUSTE. DIAGNOSTICOS. CAP ITULO 11. EVALUACION
166
embargo que, en general, s olo vagamente reproduce el comportamiento de . En particular, Teorema 11.1 Bajo los supuestos habituales se verica que: 1. Los residuos no son, en general, homosced asticos, incluso cuando las perturbaciones lo son. 2. Los residuos no son, en general, incorrelados, incluso cuando las perturbaciones lo son. n: Demostracio E ( ))( E ( )) ] = E [( Como E ( ) = 0, (11.2) se reduce a: E = E [(I X (X X )1 X )yy (I X (X X )1 X ) ] = (I X (X X )1 X ) 2 I = 2 (I P ),
(11.2)
(11.3) (11.4) (11.5)
que en general no tiene elementos iguales a lo largo de la diagonal principal. El apartado 2) del enunciado es inmediato a partir de (11.5), dado que (I P ) es una matriz no diagonal. Sea, pij = xi (X X )1 xj (11.6)
un elemento gen erico de la matriz P (xi denota la i- esima la de X ). De la igualdad (11.1) se deduce: i = (1 pii )i pij j
i=j
(11.7)
Por tanto, el residuo i- esimo es un promedio ponderado de la perturbaci on correspondiente a dicha observaci on y las de todas las dem as observaciones, con ponderaciones (1 pii ) y (pij ). Dependiendo de los valores que tomen estos coecientes, i recoger a con desigual delidad el valor de i . Los valores pij dependen s olo de la matrix de dise no y son del mayor inter es, como veremos m as abajo.
167
Residuos internamente studentizados.

Los residuos MCO denidos en (11.1) son, por causa de su heterocedasticidad, desaconsejables para la detecci on de observaciones anormales o diagn ostico de modelos de regresi on. Es sin embargo f acil corregir dicha heterocedasticidad. De (11.5) se deduce que una estimaci on de la varianza 2 de i viene dada por (1 pii ). Por tanto, ri = i + 2 (1 pii ) (11.8)
para i = 1, . . . , N son residuos de varianza com un. Se llama studentizaci on 2 a la eliminaci on del efecto de un par ametro de escala (aqu ) mediante divisi on por una estimaci on adecuada. Se denomina internamente studentizados a los residuos denidos en (11.8). Es de notar que, a pesar de su denominaci on, los ri no siguen una distribuci on t de Student, pues numerador y denominador no son independientes ( i ha intervenido en el c omputo de 2 ). Es f acil demostrar, sin embargo, que bajo los supuestos habituales m as el de normalidad en las perturbaciones, 1 1 2 ri /(N p) sigue una distribuci on beta B ( 2 , 2 (N p 1)). Al tener los ri la misma varianza, se prestan mejor a ser examinados gr acamente para identicar posibles observaciones an omalas o outliers.
Residuos externamente studentizados.

Denidos por: ti = i + 2 (i)(1 pii ) (11.9)
son formalmente id enticos a los ri , con la u nica salvedad de haberse tomado en el denominador un estimador 2 (i) de 2 que no hace uso de i . Mediante 2 una elecci on adecuada de (i) puede lograrse que ti siga una distribuci on t de Student con (N p 1) grados de libertad. Esto permite, entre otras cosas, hacer uso de la distribuci on del m aximo de k variables t de Student con correlaci on por pares (v ease Secci on 8.3, p ag. 112) para contrastar la presencia de outliers. Tomaremos, 2 (i) = i (1 pii )1 i (N p 1) (11.10)
lo que permite probar el siguiente,
168
Teorema 11.2 Con 2 (i) denido como en (11.10), bajo los supuestos habituales m as el de normalidad en las perturbaciones, los residuos ti denidos en (11.9) (externamente studentizados) siguen una distribuci on t de Student con (N p 1) grados de libertad. n: Demostracio Podemos escribir i = Gi (I P ) siendo Gi de dimensi on 1 N , con un u nico uno en posici on i- esima y ceros en los dem as lugares. Llamando A = Gi (I P ) tenemos que: i = A Por otra parte, de (11.10) deducimos: (N p 1) 2 (i) = [I Gi [Gi (I P )Gi ]1 Gi ] = (I P )[I Gi [Gi (I P )Gi]1 Gi ](I P )
B
(11.11)
= B
(11.12)
Es f acil comprobar que AB = 0, luego i y 2 (i) son independientes (Lema 6.3, p ag. 67). Por otra parte, es tambi en f acil comprobar que B es idempotente, con rango (= traza) (N p 1). Por consiguiente, i 2 (i)(1 pii ) = i / 2 (1 pii ) 2 (i)/ 2 i / 2 (1 pii ) B /(N p 1) 2 (11.13)
(11.14)
Pero en el numerador y denominador de (11.14) hay respectivamente una variable aleatoria N (0, 1) y una 2 dividida entre sus grados de libertad, ambas independientes, lo que demuestra el Teorema. Para contrastar la hip otesis de presencia de outliers, podemos comparar el mayor de los residuos externamente studentizados con el cuantil apropiado de la distribuci on del m aximo valor absoluto de k variables aleatorias t de Student (Secci on 8.3, p ag. 112). Supondremos que son incorrelados, salvo que podamos calcular f acilmente su correlaci on por pares, como sucede a menudo en An alisis de Varianza. El texto Seber (1977) reproduce en su Ap endice E tablas adecuadas. Alternativamente, podemos comparar el mayor residuo internamente studentizado con los valores cr ticos en las tablas de Lund (1975), o emplear la desigualdad de Bonferroni.
169
Residuos BLUS.
La studentizaci on, tanto interna como externa, elimina la heterocedasticidad de los residuos, pero no la mutua correlaci on. No es posible obtener un vector de N residuos incorrelados y ortogonales a las columnas de X . La raz on se ve f acilmente: R(X ) es un vector aleatorio de N coordenadas, pero constre nido a yacer en un subespacio (N p) dimensional. Su distribuci on en RN es degenerada, y su matriz de covarianzas de rango (N p) (supuesta X de rango completo). Ninguna transformaci on ortogonal puede convertir tal matriz en diagonal de rango N . Si es posible, sin embargo, obtener (N p) residuos incorrelados, homosced asticos, y de media 0; de hecho, hay multitud de maneras de hacerlo1 , dependiendo del subconjunto de (N p) residuos que escojamos. Tales residuos, denominados BLUS (o ELIO), son de utilidad para contrastar homoscedasticidad (suministrando una alternativa al conocido m etodo de Goldfeld-Quandt), normalidad, etc. Un tratamiento detallado puede encontrarse en Theil (1971), Cap. 5.
Residuos borrados.
Sean X(i) e Y (i) la matriz de dise no y vector respuesta desprovistos de la observaci on i- esima. Sea (i) el vector de estimadores de los par ametros 1 obtenido sin dicha observaci on, es decir, (i) = (X(i) X(i) ) X(i) Y (i) . Se llama residuos borrados (deleted residuals) a los di denidos as 2 : (i) di = yi xi (11.15)
Un di muy peque no o nulo indicar a que la observaci on i- esima no se separa en su comportamiento del recogido por la regresi on sobre las restantes N 1 observaciones. Lo contrario es cierto si di es muy grande. Hay una relaci on muy simple que permite calcular los di sin necesidad de realizar N regresiones diferentes sobre todos los conjuntos posibles de
V ease Theil (1971), p ag. 202 y ss. Una denominaci on alternativa frecuente en la literatura es la de residuos PRESS (predictive sum of squares residuals).
2 1
DEL AJUSTE. DIAGNOSTICOS. CAP ITULO 11. EVALUACION N 1 observaciones. En efecto, de (11.15) se deduce que: di = yi xi (X(i) X(i) )1 X(i) Y = yi xi [(X X ) xi xi ] = yi xi (X X )1 +
(i) 1
170
X(i) Y
(i)
(11.16)
(X X )1 xi xi (X X )1 X(i) Y (i) (11.17) 1 xi (X X )1 xi (1 pii )(X X )1 + (X X )1 xi xi (X X )1 = yi xi X(i) Y (i) 1 pii (1 pii )xi (X X )1 + pii xi (X X )1 = yi X(i) Y (i) 1 pii xi (X X )1 X(i) Y (i) yi 1 pii (1 pii )yi xi (X X )1 (X Y xi yi) 1 pii 1 yi xi (X X ) X Y 1 pii i 1 pii
= = = =
(11.18)
(11.19)
en que el paso de (11.16) a (11.17) hace uso del Teorema A.2, p ag. 221. Veremos en lo que sigue que di est a relacionado con la inuencia que la observaci on i- esima tiene sobre la estimaci on de los par ametros.
11.2.
An alisis de inuencia.
Es en general indeseable que la estimaci on de un par ametro dependa de modo casi exclusivo de una sola observaci on o de unas pocas, de manera que su eliminaci on conduzca a resultados completamente diferentes. En general, cuando esto ocurre, es necesario particionar la muestra o replantear el modelo. En todo caso, es necesario saber hasta que punto observaciones aisladas inuencian las estimaciones de los par ametros para obrar en consecuencia. Puede parecer que para determinar qu e observaciones inuyen m as en el resultado de la estimaci on basta mirar los residuos, brutos o studentizados. Ello es verdad, pero s olo en parte: puede haber observaciones extraordinariamente inuyentes que resulten muy bien ajustadas por la regresi on, como el ejemplo de la Fig. 11.1 pone de maniesto. Claramente, el punto a tiene una notable inuencia en la estimaci on de la pendiente de la recta, hasta el punto de que su omisi on dar a lugar
171
Figura 11.1: Una observaci on como a tiene residuo borrado muy grande, y gran inuencia en la pendiente de la recta de regresi on.
y 5
0
10
15
20
25
30
10
20 x
30
40
a un resultado completamente diferente (la recta dibujada con trazo discontinuo). Sin embargo, su residuo MCO es muy peque no; un ex amen de los residuos MCO o incluso de los residuos studentizados dif cilmente delatar a ninguna anormalidad. El examen de los residuos borrados detectar a una situaci on como la mencionada: a tendr a un residuo borrado grande. Pero todav a es posible un an alisis m as sosticado, que tenga en cuenta, en particular, los par ametros sobre los que una observaci on es muy inuyente. Abordamos este an alisis a continuaci on.
La curva de inuencia muestral.

La forma obvia de examinar la inuencia de la observaci on i- esima consiste en comparar los vectores de estimadores obtenidos con y sin dicha y (i) respectivamente. En consecuencia, denimos la curva observaci on: de inuencia muestral (SIC) as : (i) ). SICi = (N 1)( (11.20)
172
El factor (N 1) tiene por misi on corregir el efecto del tama no muestral: en igualdad de todo lo dem as, una observaci on altera la estimaci on tanto menos cuanto m as grande sea la muestra. La expresi on (11.20) es vector-valorada: recoge, debidamente amplicadas por (N 1), por la raz on apuntada, las diferencias que introduce la inclusi on de la observaci on i- esima sobre cada uno de los p par ametros estimados. Podemos relacionar (11.20) con el residuo borrado i- esimo haciendo uso del siguiente lema. Lema 11.1 Se verica que
1 i (i) ) = (X X ) xi = (X X )1 xi di . ( (1 pii )
(11.21)
n: Demostracio (i) ) = (X X )1 X Y ((X X ) xi xi )1 (X Y xi yi) ( = (X X )1 X Y (X X ) 1 + = (X X )1 xi yi (X X )1 xi xi (X X )1 (X Y xi yi) 1 1 xi (X X ) xi
(X X )1 xi xi (X X )1 X Y 1 pii 1 (X X ) xi xi (X X )1 xi yi + 1 pii 1 (X X ) xi + pii yi = (1 pii )yi xi 1 pii i = (X X )1 xi 1 pii
En consecuencia, (i) ) = (N 1)(X X )1 xi SICi = (N 1)( i 1 pii
y el c alculo de la curva de inuencia muestral SICi correspondiente a la observaci on i no requiere realizar una regresi on para cada i; todos los c alculos se se pueden hacer con ayuda de los residuos ordinarios y diagonal de la matriz de proyecci on correspondientes a la matriz de proyecci o n X (X X ) 1 X . Diferentes versiones de la curva de inuencia disponibles en regresi on lineal puede encontrarse en Cook and Weisberg (1982) y Belsley et al. (1980). Alternativas como la curva de inuencia emp rica EIC y otras, dieren de
173
la curva de inuencia muestral presentada en el grado en que se corrige i 2 (en la EIC se divide entre (1 pii ) , en lugar de entre (1 pii ) como en (11.22).
Distancia de Cook.
Tal y como se indica m as arriba, la curva de inuencia en cualquiera de sus versiones es, en nuestro caso, un vector p1 (p = n umero de par ametros). La coordenada k - esima de SICi proporciona informaci on sobre la inuencia de la observaci on i- esima en la estimaci on de k . Aunque esta informaci on pormenorizada sea u til, en ocasiones queremos una u nica medida resumen de la inuencia de una observaci on. Sea (i) el vector de estimadores obtenido sin hacer uso de la observaci on i- esima, y el computado con la muestra completa. Una posibilidad es ponderar las discrepancias en una u nica expresi on como: Di = (i) ) S ( (i) ) ( c (11.22)
siendo S una matriz denida no negativa y c una constante positiva. Puesto ( , 2 (X X )1 ), una elecci que on posible que aproximadamente nor maliza (11.22) es: S = (X X ) y c = p 2 . Con esta elecci on, la expresi on (11.22) se denomina distancia de Cook y es una medida global de la inuencia de la observaci on (xi , yi ). Hay otras posibles elecciones de S y c con diferencias, en general, s olo de matiz3 . Haciendo uso del Lema 11.1 tenemos que la distancia de Cook puede escribirse as : Di = i xi (X X )1 (X X )(X X )1 xi i 2 2 p (1 pii ) 1 2 pii = r p i 1 pii (11.23) (11.24)
siendo ri el i- esimo residuo internamente studentizado.
DFFITS.
Se denen as : DFFITi = ti
3
Una relaci on de las mismas puede verse en Cook and Weisberg (1982), p. 124.
pii 1 pii
(11.25)
DEL AJUSTE. DIAGNOSTICOS. CAP ITULO 11. EVALUACION Se suele considerar observaciones inusuales a aqu ellas con | DFFITi | > 2 p N
174
(11.26)
DFBETAS.
Se denen por: DFBETAij = j j,(i) ; (11.27)
1 (X X ) jj
Los estad sticos DFBETA permiten evaluar la inuencia de la observaci on i- esima sobre el par ametro j - esimo. En cierto modo desglosan la informaci on que la distancia de Cook resume en un u nico estad stico por observaci on. La motivaci on de la expresi on (11.27) es clara: la diferencia entre la estimaci on de j - esimo con y sin la observaci on i- esima se divide por una estimaci on de la desviaci on t pica de j . El criterio que se sigue es el de comparar |DFBETAij | con 2/ N . M as detalles en Belsley et al. (1980).
11.3.
An alisis gr aco de residuos
Al margen del uso que pueda hacerse de los residuos en cualquiera de sus variedades para, por ejemplo, contrastar hip otesis de presencia de outliers, etc., con frecuencia ser a conveniente construir algunos gr acos. Es mucha, en efecto, la informaci on que cabe obtener de ellos. Presentamos a continuaci on algunos de estos gr acos; otros aparecer an en contexto en los cap tulos dedicados a selecci on de modelos (Cap tulo 12) y transformaciones de las variables (cap tulo 13). Referencias u tiles para ampliar lo que se expone a continuaci on incluyen Troc oniz (1987a), Myers (1990), Ryan (1997) o Atkinson (1985).
Gr acos de residuos frente a ndice de observaci on (i, i)

Frecuentemente, el ndice de cada observaci on es el tiempo, es decir, las observaciones han sido tomadas secuencialmente una despues de otra. El representar i frente a i nos podr a poner de maniesto rupturas temporales por ejemplo, una brusca disminuci on del tama no de los residuos a partir de un cierto i. En ocasiones podemos ver tambi en en un gr aco de
175
esta naturaleza pautas como agrupamiento de residuos, que puede convenir investigar. Pueden emplearse residuos ordinarios o studentizados en cualquiera de sus variedades.
Gr acos de residuos frente a variables incluidas (xij , i)

Los residuos ordinarios son por construcci on ortogonales a cualquiera de los regresores. No obstante, un gr aco de esta naturaleza puede aportar informaci on acerca del modo en que un regresor interviene en la generaci on de la respuesta: por ejemplo, podr amos ver una pauta de relaci on no lineal entre i y xij , sugiriendo que xij debe suplementarse con un t ermino cuadr atico, entrar como funci on exponencial, etc.
Gr acos de residuos frente a variables excluidas (x i) ij ,

La idea es similar a la del apartado precedente, pero x ij son ahora los valores de una variable no incluida (y candidato a serlo) en la regresi on. Un gr aco de esta naturaleza permitir a ver si la parte no explicada de la respuesta (los residuos) tiene alguna relaci on evidente con la nueva variable. En su caso, dependiendo de la pauta que dibujaran los residuos, tendr amos pistas acerca de si dicha variable x j ha de incluirse tal cual o tras alguna transformaci on funcional.
Xj |Xj ) Gr acos de variable a nadida ( Y |Xj ,

La idea es similar a la del apartado anterior. Se dibujan los residuos de la regresi on de Y sobre todas las variables menos Xj sobre los residuos de regresar dicha variable sobre todas las dem as. Los residuos de ambas regresiones recogen, respectivamente, las partes de Y y Xj ortogonales al subespacio generado por las restantes variables. Si hubiera alguna pauta en dicha gr aca, podr amos interpretarla como relaci on entre Y y Xj eliminado en ambas el efecto de las restantes variables.
Gr acos de normalidad de residuos

Aunque, como se ha visto (Secci on 11.1 y siguiente), los residuos studentizados no siguen una distribuci on normal, a efectos pr acticos y para tama nos muestrales moderados (Troc oniz (1987a), p ag. 174, indica que suele bastar N > 20) la aproximaci on a la normalidad es muy buena, si las perturbaciones son a su vez normales.
176
Hay multitud de pruebas utilizables para contrastar ajuste a una distribuci on. La de Kolmogorov-Smirnov (v ease Troc oniz (1987b), p ag. 255) es de uso general con muestras grandes y distribuciones continuas lo que incluye a la normal. Hay contrastes como el de Shapiro-Wilk descrito en Shapiro and Wilk (1965) y Shapiro and Francia (1972), especializados en el contraste de la hip otesis de normalidad. Tan u til como pueda ser una prueba estadistica convencional de normalidad, en ocasiones es u til un instrumento que permita visualizar la naturaleza y alcance de la desviaci on respecto a la normalidad, si existe. Los gr acos en papel normal cumplen esta nalidad. El principio es muy simple: dada una muestra {xi }N i=1 , si procede de una distribuci on normal los puntos (1 (F (xi )), xi ), en que F (xi ) es la funci on de distribuci on emp rica de la muestra, deben estar aproximadamente alineados. V ease por ejemplo Troc oniz (1987b), p ag. 270. El gr aco puede hacerse manualmente sobre papel especial (papel normal) en que la escala vertical absorbe la transformaci on 1 (.); o puede hacerse mediante ordenador en cuyo caso basta facilitar los datos y vericar la linealidad del gr aco resultante. En cualquiera de los casos se cuenta con un instrumento que permite no s olo apreciar si hay desviaciones respecto de la normalidad, sino tambi en de qu e naturaleza son y a qu e puntos afectan. R: Ejemplo 11.1 (gr acos para contraste de normalidad de
residuos) La Figura 11.2 se genera mediante el fragmento de c odigo reproducido a continuaci on. Los dos primeros paneles recogen sendos gr acos de normalidad para una muestra normal y una muestra procedente de una F1,2 ; puede verse la llamativa desviaci on de la normalidad en este u ltimo caso. > > > > > > > > > + + par(mfrow = c(2, 2)) muestra <- rnorm(200) qqnorm(muestra, main = "Q_Q Plot de\n 200 obs. N(0,1)") muestra <- rf(200, 1, 2) qqnorm(muestra, main = "Q-Q Plot de\n 200 obs. F con 1,2 g.l.") rm(muestra) library(MASS) data(UScrime) modelo <- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Prob + Ineq, data = UScrime)
DEL AJUSTE. DIAGNOSTICOS. CAP ITULO 11. EVALUACION Figura 11.2: Gr acos para contraste de normalidad
Q_Q Plot de 200 obs. N(0,1)
3 Sample Quantiles Sample Quantiles 2 250
177
QQ Plot de 200 obs. F con 1,2 g.l.
1 0
0 50 3
150
1 0
Theoretical Quantiles
Q_Q Plot residuos int. studentizados

Sample Quantiles Sample Quantiles 2 2 2 0 1 3 2 0 1 2 1 0 1 2
Q_Q Plot residuos ext. studentizados
2 1
> qqnorm(stdres(modelo), main = "Q_Q Plot residuos\n int. studentizados > qqnorm(studres(modelo), main = "Q_Q Plot residuos\n ext. studentizado X11cairo 2 Los siguientes dos paneles muestran los gr acos de normalidad correspondientes a los residuos interna y externamente studentizados de un mismo modelo. Puede constatarse que son casi id enticos y que sugieren un buen ajuste de la muestra a la hip otesis de normalidad. Fin del ejemplo
178
Gr acos de residuos ordinarios frente a residuos borrados (di, i )

Un residuo borrado grande no necesariamente es indicativo de que una observaci on sea muy inuyente. Lo realmente sintom atico es una gran divergencia entre el residuo ordinario y el residuo borrado, pues ello indica que al omitir la observaci on correspondiente los resultados var an mucho, al menos en el ajuste de la observaci on i- esima. Por ello se propone como gr aco u til en el diagn ostico de un modelo el de i frente a di . En general, deber amos observar puntos aproximadamente sobre la bisectriz: di i . Puntos muy separados de la bisectriz corresponder an a observaciones que alteran sustancialmente la regresi on.
DEL AJUSTE. DIAGNOSTICOS. CAP ITULO 11. EVALUACION Complementos y ejercicios

1 1 , 2 (N p 1)). les m as normalidad, sigue una distribuci on beta, B ( 2 2 /(N p), bajo los supuestos habitua11.1 Demu estrese que ri
179
Cap tulo 12
Selecci on de modelos.
12.1. Criterios para la comparaci on.
En ocasiones, ajustamos un modelo de regresi on teniendo una idea clara de las variables que debemos incluir como regresores. Es m as frecuente, sin embargo, el caso en que s olo tenemos una idea aproximada de la forma adecuada para nuestro modelo, y debemos decidir con criterio estad stico qu e regresores deben ser incluidos. Para enfrentar este tipo de situaciones necesitamos, por una parte, criterios de bondad de ajuste, capaces de permitirnos comparar distintos modelos ajustados a una misma muestra. Por otra, necesitamos estrategias de selecci on de variables que construyan de manera autom atica o semi-autom atica subconjuntos de todos los modelos posibles susceptibles de incluir el mejor. Examinaremos en esta Secci on el primer punto. Es claro que no podemos preferir un modelo a otro simplemente porque su SSE es menor, dado que toda1 variable que incluyamos en la regresi on, tenga mucha o poca relaci on con la variable respuesta, reducir a SSE . Tenemos, pues, que buscar criterios m as elaborados.
Maximizaci on de Rp .
Se dene el coeciente de determinaci on corregido as :
2 Rp = 1 [1 Rp ]
1
Las u nicas excepciones son aquellas variables correspondientes a columnas de la matriz de dise no X ortogonales a y , o que son combinaci on lineal exacta de columnas correspondientes a variables ya presentes entre los regresores.
N 1 N p
(12.1)
180
DE MODELOS. CAP ITULO 12. SELECCION
181
haciendo referencia el sub ndice p al n umero de regresores presentes en el modelo. Si reescribimos la ecuaci on (12.1) en la forma:
2 1 Rp = [1 Rp ] 2
N 1 N p SSEp N 1 = SST N p
(12.2) (12.3)
vemos que mientras que el primer t ermino de la derecha de (12.3) es mon otono no creciente con p, el segundo es mon otono creciente. Por consiguiente, el producto de ambos2 puede crecer o decrecer al crecer p. 2 til, Es frecuente por ello utilizar Rp como criterio de ajuste. Aunque u veremos sin embargo que debe complementarse con otros criterios. Su exclusiva aplicaci on da lugar con gran probabilidad a modelos sobreparametrizados, como pone de maniesto el siguiente teorema. Teorema 12.1 El estad stico Rp crece con la introducci on de un par ametro en la ecuaci on de regresi on si el estad stico Qh asociado al contraste de signicaci on de dicho par ametro verica Qh > 1. n:3 Demostracio Para contrastar la signicaci on del (p + 1)- esimo par ametro, empleamos (Secci on 6.2, p ag. 72): Qh = = de donde:
2 2 2 (1 Rp +1 )Qh = (Rp+1 Rp )(N p 1) 2
SSEp SSEp+1 N p 1 SSEp+1 1

2 2 (Rp N p1 +1 Rp ) 2 1 Rp+1 1
(12.4) (12.5)
(12.6) (12.8)
2 2 Qh + (N p 1)Rp = Rp +1 [(N p 1) + Qh ]
2
2 2 2 Qh Qh Rp +1 = (N p 1)Rp+1 (N p 1)Rp (12.7)
Expresiones como la anterior con un t ermino funci on de la suma de cuadrados de los residuos y otro interpretable como penalizaci on por la introducci on de par ametros adicionales, son ubicuas en la literatura estad stica. La Cp de Mallows que se examina m as abajo tiene la misma forma, como muchos criterios de ajuste utilizados sobre todo en el an alisis de series temporales: Criterio de Informaci on de Akaike (AIC), FPE, BIC, etc. 3 Sigue a Haitovsky (1969).

2 Despejando Rp +1 tenemos: 2 Rp +1 = 2 Qh + (N p 1)Rp (N p 1) + Qh 1 2 Q + Rp N p 1 h Q 1 + N 1 p 1 h 2
182
(12.9) (12.10)
De (12.10) y de la denici on de Rp+1 se deduce que:

2 Rp+1 = 1 [1 Rp +1 ] 2
N 1 (N p 1)
(12.11)
Sustituyendo en esta expresi on (12.10) llegamos a:

2 Rp+1
= 1
N p1+Qh N p 1
2 [1 Rp ]
2 = 1 [1 Rp ]
N 1 N p 1 + Qh N p 2 N 1 = 1 [1 Rp ] N p N p 1 + Qh
Rp 2 2
2
N 1 N p1
(12.12) (12.13) (12.14)
Es evidente de (12.14) que Rp+1 Rp si Qh > 1, y viceversa4 . Ma2 ximizar Rp implica introducir en la ecuaci on de regresi on todos aquellos regresores cuyo estad stico Qh sea superior a la unidad; pero esto ocurre con probabilidad 0,50 incluso cuando h : i = 0 es cierta. Consecuentemente, el emplear este criterio en exclusiva conducir a con gran probabilidad al ajuste de modelos sobreparametrizados.
Criterio Cp de Mallows.
Supongamos que la variable aleatoria Y se genera realmente como prescribe el modelo Y = X + , no obstante lo cual ajustamos el modelo + con p par equivocado Y = X ametros. Una vez estimado, dicho modelo (p) . Un criterio para evaluar la adecuaci suministra las predicciones Y on del modelo estimado al real, ser a el error cuadr atico medio (p) X ) (Y (p) X ) ECM = E (Y (12.15)
Obs ervese que si el t ermino t en (12.14) fuera la unidad lo que acontece cuando 2 Qh = 1, el lado derecho ser a precisamente Rp . Si Qh > 1, t es menor que 1 y, como s olo multiplica al sustraendo en (12.14), el resultado es mayor que Rp .
2
183
(p) ) dentro de cada par que sumando y restando E (Y entesis podemos descomponer as : (p) E (Y (p) )) (Y (p) E (Y (p) )) ECM = E (Y (p) ) + (Sesgo)2 . = Var(Y El primer t ermino no ofrece dicultad. Como (p) = X (X X ) 1 X Y = X (X X ) 1 X (X + ), Y tenemos que y (p) E (Y (p) )) ((Y (p) E (Y (p) )) = X (X X ) 1 X X (X X ) 1 X ((Y (X X ) 1 X = X 2 2 p. Falta el t ermino de sesgo. Observemos que (p) ) (Y Y (p) )] = E (X X (X X ) 1 X X ) (X X (X X ) 1 X X ) E [(Y Y
SSE
(p) ) X ) (E (Y (p) ) X ) + E (E (Y
(12.16) (12.17)
(12.18)
(p) ] = X (X X ) 1 X X E [Y
(12.19)
+ Por consiguiente,
(X X ) X ) . E (I X (12.20)
(Sesgo)2 1
(Sesgo)2 = E [SSE ] E [ 2 2 N p ]. Sustituyendo en (12.17) tenemos entonces que

2 2 ECM = E SSE 2 2 N p + E p
(12.21) (12.22)
= E [SSE ] 2 (N p) + 2 p,
y por consiguiente: ECM SSE =E N + 2p. 2 2 Minimizar esta u ltima expresi on es lo mismo que minimizar E SSE + 2p, 2 (12.24) (12.23)
184
ya que N es constante. Como quiera que el valor medio en la expresi on anterior no puede ser calculado y es desconocida, todo lo que podemos hacer es reemplazar (12.24) por la expresi on an aloga, Cp = SSE + 2p. 2 (12.25)
A esta u ltima expresi on se la conoce como Cp de Mallows. Para que se verique la aproximaci on en (12.25) es preciso que 2 2 , lo que se consigue si la muestra es lo sucientemente grande y 2 = SSE (N pk) /(N p k ), estando entre los (p + k ) regresores inclu dos los p necesarios. Incluso aunque entre dichos (p + k ) regresores haya algunos innecesarios, 2 es insesgado; el precio que se paga por emplear m as par a2 metros de los debidos en la estimaci on de es una reducci on en el n umero de grados de libertad (v ease Secci on 5.2). De acuerdo con el criterio de Mallows, seleccionaremos el modelo que minimice Cp . La expresi on (12.25) es otro ejemplo de criterio de ajuste con penalizaci on. Cada nuevo par ametro que introducimos, reduce quiz a SSE , pero esta reducci on tiene un precio: el incremento del segundo sumando de (12.25) en 2. El efecto neto indica si el nuevo regresor es o no deseable. Observaci on 12.1 De acuerdo con el criterio Cp de Mallows,
dada una ecuaci on de regresi on con unos ciertos regresores presentes, introduciremos un nuevo regresor si este puede pagar su inclusi on reduciendo SSE en, al menos, dos veces 2 . La maximizaci on de 2 Rp , en cambio, requerir a en an aloga situaci on introducir el mismo regresor si disminuye SSE en al menos una vez 2 . El criterio Cp de Mallows es m as restrictivo5 .
Observaci on 12.2 Un estad stico se enfrenta con frecuencia a este dilema en su trabajo. Hasta d onde procede llevar la complejidad del modelo a emplear? Qu e mejora en el ajuste de un modelo a la muestra justica la adici on de un nuevo par ametro?. O, si se preere, Cu an alada debe ser la navaja de Ockham? En el caso del modelo de regresi on lineal, el criterio Cp suministra seguramente una navaja con el lo adecuado; argumentos alternativos llevan a criterios equivalentes o similares al Cp . Es un hecho notable y llamativo que por
La comparaci on es aproximada tan s olo. El valor de 2 que se emplea en el criterio Cp se obtiene, t picamente, ajustando el modelo m as parametrizado (esto minimiza el riesgo de introducir sesgos en la estimaci on de 2 , aunque seguramente nos hace despilfarrar 2 algunos grados de libertad). Por el contrario, al utilizar el criterio basado en Rp introducimos el nuevo regresor si Qh > 1 en (12.4), es decir, si la disminuci on SSEp SSEp+1 en la suma de cuadrados de los residuos es mayor que 2 = SSEp+1 /(N p 1), varianza estimada en el modelo con p + 1 regresores.
5

diversas v as se llegue siempre a an alogos resultados, que tienen en com un el medir la complejidad del modelo empleado como una funci on lineal o aproximadamente lineal del n umero de sus par ametros; m as sobre esto en la Secci on 12.1. En la Secci on 12.1 se introduce la idea de la validaci on cruzada, que proporciona una forma alternativa de evaluar la bondad de ajuste de un modelo soslayando el empleo de una penalizaci on basada en el n umero de par ametros.
185
Criterio AIC
Relacionado con el criterio Cp de Mallows, aunque v alido de modo mucho m as general y motivado de modo muy diferente, est a el criterio AIC (Akaikes Information Criterion, o An Information Criterion). Consiste en seleccionar el modelo minimizando ax verosimilitud(x , ) + 2p AIC (p) = 2 loge m
El primer t ermino en la expresi on anterior es, como en la Cp de Mallows, una medida de bondad de ajuste (disminuye al crecer el m aximo de la verosimilitud); el segundo penaliza el n umero de par ametros en . Puede verse una justicaci on en Akaike (1972) (y en Akaike (1974), Akaike (1991)). Una explicaci on simplicada que sigue esencialmente a de Leeuw (2000) puede encontrarse en Tusell (2003), Secci on ??. Cuando consideremos modelos de regresi on lineal con normalidad, el uso de los criterios AIC y Cp dar a resultados exactamente equivalentes si conoci eramos 2 (ambos criterios dieren en tal caso en una constante; ver Venables and Ripley (1999a), p ag. 185). Cuando 2 es desconocida y ha de ser estimada a partir de los datos, ambos criterios pueden diferir, pero son a efectos pr acticos intercambiables. El criterio AIC no obstante es de a mbito mucho m as general, y puede ser utilizado dondequiera que tengamos una verosimilitud, sea o no normal la distribuci on generadora de la muestra.
Residuos borrados y validaci on cruzada

Hemos visto que el problema de emplear como criterio para la selecci on de modelos alguno de los estad sticos de ajuste obvios (suma de cuadrados residual, R2 , o similar) estriba en que hay que tomar en consideraci on el diferente n umero de par ametros en cada modelo. El problema consiste en que, al incrementar el n umero de par ametros, el modelo puede seguir m as a la muestra, ajustando no s olo el comportamiento predecible sino incluso el puramente aleatorio Se adapta muy bien
186
a una muestra la que hemos empleado para estimarlo, pero quiz a no a otras. Una soluci on consistir a en estimar los modelos con una muestra (muestra de entrenamiento o aprendizaje) y evaluarlos examinando su comportamiento en la predicci on de otra diferente (muestra de validaci on). Actuando as , estar amos a salvo de impresiones excesivamente optimistas: la suma de cuadrados de los residuos o R2 que calcul aramos para cada modelo reejar a su capacidad de generalizaci on: su comportamiento con otras observaciones distintas de las que han servido para estimarlo. Lamentablemente, esto requiere dividir nuestra disponibilidad de observaciones en dos grupos: uno para estimar y otro para validar. El obtener un diagn ostico realista por este procedimiento requiere sacricar en aras de la validaci on una preciosa fracci on de muestra que habr a permitido, quiz a, estimar mejor. Realmente es esto as ? No; una vez que hemos decidido por el procedimiento anterior de fraccionar la muestra en dos para seleccionar el modelo mejor, podemos emplear todas las observaciones en reestimarlo. La idea de la validaci on cruzada incorpora una mejora adicional al planteamiento anterior. No tenemos necesariamente que usar s olo una fracci on de la muestra para validar. Podemos dividir la muestra en dos (o m as) partes y emplear todas ellas en la validaci on. El ejemplo que sigue detalla los pasos a seguir haciendo validaci on cruzada por mitades. Ejemplo 12.1 Consideremos una muestra de tama no N = 100. Tenemos una colecci on de K modelos Mi , i = 1, . . . , K , posiblemente con diferente n umero de par ametros, de entre los que queremos seleccionar uno. Podemos dividir la muestra en dos trozos, A y B , de tama nos respectivos NA = NB = 50, y proceder as :
1. Con la muestra A estimaremos cada uno de los modelos Mi . 2. Examinaremos el ajuste de los modelos as estimados a la muestra B , computando sumas de cuadrados residuales para cada (A) uno de los modelos, SSEi . 3. Con la muestra B estimaremos cada uno de los modelos Mi . 4. Examinaremos el ajuste de los modelos as estimados a la muestra A, computando sumas de cuadrados residuales para cada (B ) uno de los modelos, SSEi 5. Tanto SSEi como SSEi son estimaciones de las sumas de cuadrados de los residuos del modelo Mi , cuando se utiliza en predicci on sobre una muestra diferente de la que se ha empleado en su estimaci on. Podemos promediar ambas para obtener un (A) (B ) 1 (SSEi + SSEi ). u nico estad stico, SSEi = 2
(A) (B )

6. Seleccionaremos el modelo Mi tal que SSEi es m nimo.
187
Observemos que nada nos constri ne a dividir la muestra en dos partes; podr amos dividirla en s partes, y proceder exactamente del mismo modo: utilizar amos sucesivamente s 1 partes para estimar y la () restante para evaluar SSEi , = 1, . . . , s, (suma de cuadrados de los residuos al predecir en la muestra mediante el modelo Mi estimado () con las restantes observaciones). Promediando los s valores SSEi obtendr amos el SSEi del modelo Mi . El caso extremo consistir a en tomar s = N , y realizar el proceso dejando cada vez fuera una u nica observaci on (validaci on cruzada de tipo leave one out ). En muchas situaciones esta estrategia puede requerir un esfuerzo de c alculo formidable: cada modelo ha de ser reestimado (N 1) veces, dejando cada vez fuera de la muestra de estimacion una observaci on diferente! En regresi on lineal, sin embargo, la diferencia entre la predicci on de la observaci on i- esima haciendo uso de todas las restantes y el valor observado de la misma es, simplemente, el residuo borrado, de c omoda y r apida obtenci on (v ease Secci on 11.1). Por tanto, utilizando la notaci on de dicha Secci on,
SSEi = d2
( = 1, . . . , N )
N SSEi . =1
SSEi = N 1
El modelo seleccionado es aqu el al que corresponde un SSEi m as peque no6 . Fin del ejemplo
Complejidad estoc astica y longitud de descripci on m nima

En esencia, seleccionar un modelo entra na adoptar un compromiso entre la bondad de ajuste y la complejidad, medida por el n umero de sus par ametros. Sabemos que un modelo lineal sucientemente parametrizado podr a ajustar perfectamente la muestra, pero que ello no signica que sea id oneo: puede tener muy poca capacidad de generalizaci on. Por el contrario, un modelo que no incluya los par ametros sucientes dara un ajuste susceptible de mejora. Se trata de alcanzar un equilibrio entre los dos objetivos en
N otese que SSEi es lo que se conoce tambi en como suma de cuadrados de los residuos predictiva o PRESS; v ease nota a pie de p agina de la Secci on 11.1.
6
188
contradicci on: un modelo dando buen ajuste y con los m nimos par ametros precisos. Una aproximaci on intuitivamente atrayente al problema es la siguiente: tratemos de dar una descripci on tan corta como sea posible de la evidencia (la muestra). Esto puede de nuevo verse como una apelaci on al principio de Ockham: construir explicaciones de la realidad que hacen uso del m nimo n umero de entidades. La aproximaci on propuesta exige medir la longitud de la descripci on que hagamos, y podemos para ello hacer uso de la Teor a de la Informaci on. No podemos elaborar esta cuesti on con detalle aqu (v ease una buena introducci on en Rissanen (1989), y detalles en Legg (1996)). En esencia, dado un modelo probabilistico podemos describir o codicar unos datos de modo compacto asignando a los m as raros (menos probables) los c odigos m as largos. Observaci on 12.3 Esta estrategia, de sentido com un, es la
que hace que al codicar en el alfabeto telegr aco de Morse la letra e (muy frecuente en ingl es) se adoptara el c odigo ., reservando los c odigos m as largos para caracteres menos frecuentes (ej: -..para la x).
Adem as de codicar los datos tenemos que codicar los par ametros del modelo probabilistico. La longitud total de descripci on de la muestra y cuando hacemos uso del modelo probabil stico Mk haciendo uso del vector de par ametros k es entonces MDL(Mk ; y ) = (C odigo necesario para y ) + (12.26)
(C odigo necesario para k ). (12.27)
Un mal ajuste har a que el primer sumando sea grande; los datos muestrales se desv an mucho de lo que el modelo predice. Un modelo con un perfecto ajuste tendr a un primer sumando nulo (porque las y se deducir an exactamente del modelo, y no requerir an ser codicadas), pero requerir a quiz a muchos par ametros incrementando el segundo sumando. El criterio MDL propone seleccionar el modelo Mk que minimiza (12.27). En el caso de modelos de regresi on, el criterio MDL da resultados ntimamente emparentados asint oticamente con los precedentes (suma de cuadrados PRESS y Cp ); v eanse detalles en Rissanen (1989), Cap. 5.
189
12.2.
Selecci on de variables.
Una aproximaci on ingenua al problema consistir a en estudiar la reduc2 on ci on en un cierto criterio (SSE , Rp , Cp , . . . ) originada por la introducci de cada variable, y retener como regresores todas aquellas variables que dieran lugar a una reducci on signicativa. Desgraciadamente, esta estrategia no tiene en cuenta el hecho de que, a menos que las columnas de la matriz de dise no X sean ortogonales, la reducci on en SSE originada por la inclusi on de una variable depende de qu e otras variables est en ya presentes en la ecuaci on ajustada. Se impone, pues, emplear procedimientos m as sosticados. Relacionamos algunos de los m as utilizados.
Regresi on sobre todos los subconjuntos de variables.

De acuerdo con el p arrafo anterior, la adopci on de una estrategia ingenua podr a dicultar el hallazgo de un modelo adecuado. Por ejemplo, puede bien suceder que una variable Xi , que debiera ser inclu da en el modelo, no origine una reducci on signicativa de SSE cuando la introducimos despu es de Xj . Si esto ocurre, es claro que Xi no mostrar a sus buenas condiciones como regresor mas que si es introducida con Xj ausente. Una posible soluci on ser a, dados p regresores, formar todos los posibles subconjuntos de regresores y efectuar todas las posibles regresiones, reteniendo aqu ella que, de acuerdo con el criterio de bondad de ajuste que hayamos adoptado, parezca mejor. El inconveniente es el gran volumen de c alculo que es preciso realizar. Pi ensese que con p regresores pueden estimarse 2p 1 diferentes regresiones. Si p = 5, 2p 1 = 31; pero si p = 10, 2p 1 = 1023, y para p > 20 habr a que realizar por encima de un mill on de regresiones. Hay procedimientos 7 para reducir y agilizar el c alculo , pero a un as este puede resultar excesivo.
Regresi on escalonada (stepwise regression).

Se trata de un procedimiento muy utilizado que, aunque no garantiza obtener la mejor ecuaci on de regresi on, suministra modelos que habitualmente son optimos o muy pr oximos al optimo, con muy poco trabajo por parte del analista. Describiremos el procedimiento de regresi on escalonada hacia adelante (forward selection procedure); la regresi on escalonada hacia atr as (backward elimination) o mixta son variantes f aciles de entender.
7
V ease Seber (1977), pag. 349 y ss.
190
En cada momento, tendremos una ecuaci on de regresi on provisional, que incluye algunas variables (regresores incluidos) y no otras (regresores ausentes). Al comienzo del procedimiento, la ecuaci on de regresi on no incluye ning un regresor. El modo de operar es entonces el siguiente: 1. Calcular los estad sticos Qh para todos los regresores ausentes (h : i = 0). 2. Sea Q aximo estad stico de los calculados en 1). Si Q h el m h < F, siendo F un umbral prejado, nalizar; la ecuaci on provisional es la denitiva. Si, por el contrario, Q h F , se introduce la variable correspondiente en la ecuaci on de regresi on. 3. Si no quedan regresores ausentes, nalizar el procedimiento. En caso contrario, reiniciar los c alculos en 1). En suma, se trata de introducir las variables de una en una, por orden de mayor contribuci on a disminuir SSE , y mientras la disminuci on sea apreciable. El procedimiento de regresion hacia atr as procede de manera an aloga, pero se comienza con una ecuaci on que incluye todos los regresores, y se van excluyendo de uno en uno, mientras el incremento en SSE que dicha exclusi on origine no sea excesivo. En el procedimiento m xto, por n, se alterna la inclusi on y exclusi on de variables en la recta de regresi on; ello permite que una variable incluida sea posteriormente desechada cuando la presencia de otra u otras hacen su contribuci on a la reducci on de SSE insignicante. Los criterios de entrada y salida de variables se jan especicando sendos valores F entrada y F salida que deben ser superados (no alcanzados) por el Q h correspondiente para que una variable pueda ser incluida (excluida) en la regresi on. Ambos umbrales pueden ser el mismo. Mediante su selecci on adecuada, puede lograrse un algoritmo hacia adelante puro (jando F salida = 0, con lo que se impide el abandono de cualquier variable introducida), hacia atr as puro (jando F entrada muy grande, y comenzando con una ecuaci on de regresi on que incluye todas las variables), o un procedimiento mixto arbitrariamente pr oximo a cualquiera de los dos extremos8 .
Podr a pensarse en jar niveles de signicaci on para la entrada y salida de variables. Esto no se hace porque ser an considerablemente arduos de computar; obs ervese que en un procedimiento stepwise se selecciona para entrar o salir de la ecuaci on de regresi on la variable con un Qh mayor (menor). Bajo la hip otesis de nulidad del correspondiente par ametro, un Qh cualquiera se distribuye como una F de Snedecor con grados de libertad apropiados. El mayor (o menor) de los estad sticos Qh en cada etapa, sigue una distribu8
DE MODELOS. CAP ITULO 12. SELECCION R: Ejemplo 12.1 (selecci on autom atica de modelos) El ejemplo siguiente muestra el uso de las funciones leaps (en el paquete del mismo nombre) para hacer regresi on sobre todos los subconjun2 2 tos con criterios R , R o Cp , stepAIC (en el paquete MASS) para hacer regresi on escalonada con criterio AIC y algunas otras funciones ancilares. Primero generamos datos sint eticos del modo habitual. Como puede verse, hay muchos betas no signicativos. > > + > > > > + > > set.seed(123457) X <- matrix(rnorm(1000), ncol = 20) betas <- rep(0, 20) betas[c(3, 5, 7, 12)] <- 1:4 y <- X %*% betas + rnorm(50) datos <- as.data.frame(cbind(X, y)) dimnames(datos)[[2]][21] <- "y" completo <- lm(y ~ ., datos)
191
Como puede verse, hay muchos betas no signicativos: > summary(completo) Call: lm(formula = y ~ ., data = datos) Residuals: Min 1Q Median -1.916 -0.550 -0.106 Max 2.204
3Q 0.829
Coefficients: Estimate Std. Error (Intercept) -0.0706 0.2227 V1 0.0408 0.2422 V2 0.1720 0.2603 V3 1.1884 0.2397 V4 -0.0238 0.2067
ci on diferente (v ease Cap tulo 8). El nivel de signicaci on asociado al contraste impl cito en la inclusi on o exclusi on de un regresor no es la probabilidad a la derecha (o izquierda) de F entrada (o F salida ) en una distribuci on F con grados de libertad apropiados.

V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20
192
2.0035 0.2022 0.2633 0.2217 2.9970 0.1875 -0.1074 0.2804 0.0514 0.2105 -0.2367 0.2148 -0.2053 0.2042 4.0374 0.2212 0.1137 0.2161 -0.2115 0.2163 0.0191 0.3076 0.1206 0.2328 0.0318 0.1972 -0.0786 0.2108 0.0879 0.2569 0.0162 0.1949 t value Pr(>|t|) (Intercept) -0.32 0.75 V1 0.17 0.87 V2 0.66 0.51 V3 4.96 2.9e-05 *** V4 -0.11 0.91 V5 9.91 8.1e-11 *** V6 1.19 0.24 V7 15.98 6.5e-16 *** V8 -0.38 0.70 V9 0.24 0.81 V10 -1.10 0.28 V11 -1.01 0.32 V12 18.25 < 2e-16 *** V13 0.53 0.60 V14 -0.98 0.34 V15 0.06 0.95 V16 0.52 0.61 V17 0.16 0.87 V18 -0.37 0.71 V19 0.34 0.73 V20 0.08 0.93 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.2 on 29 degrees of freedom
193
Multiple R-squared: 0.977, Adjusted R-squared: 0.961 F-statistic: 61 on 20 and 29 DF, p-value: <2e-16 Utilizamos ahora la funci on leaps para hacer regresi on sobre todos los subconjuntos. Con 15 regresores, es un problema de talla modesta. > library(leaps) > mods <- leaps(x = X, y = y, + method = "Cp") El objeto mods contiene informaci on sobre todos los modelos estima2 umero de regresores: dos. Podemos ver como var a Cp y R con el n > + + > > > + + + > + > + + + > > postscript(file = "demo10.eps", horizontal = FALSE, width = 5, height = 9) opar <- par() par(mfrow = c(2, 1)) plot(mods$size, mods$Cp, main = "Cp versus talla modelos", xlab = expression(p), ylab = expression(C[p])) mods.r <- leaps(x = X, y = y, method = "adjr2") plot(mods.r$size, mods.r$adjr2, main = "R2 versus talla modelos", xlab = expression(p), ylab = expression(bar(R)^2)) par(opar) dev.off()
X11cairo 2 La Figura 12.1 muestra el comportamiento t pico de los criterios Cp 2 y R . Se aprecia que, aunque de forma no muy notoria en este caso, 2 as parametrizados. el criterio R tiende a seleccionar modelos m > mejores <- order(mods$Cp)[1:15] > regres <- mods$which[mejores, + ] > dimnames(regres)[[2]] <- dimnames(datos)[[2]][1:20]

2
194
Figura 12.1: Valores de Cp y R para 141 modelos ajustados a los datos UScrime
Cp versus talla modelos
200
600
Cp
1000
10 p
15
20
R2 versus talla modelos

1.0 R2 0.0 0.2 0.4 0.6 0.8
10 p
15
20

> Cp <- mods$Cp[mejores] > cbind(regres, Cp) 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 5 6 6 4 6 5 6 5 7 6 6 5 6 7 6 5 6 6 4 6 5 6 5 V1 V2 V3 V4 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 V11 V12 V13 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0 1 1 V18 V19 V20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 V5 V6 V7 V8 V9 V10 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 0 1 1 1 0 0 0 1 0 1 0 0 1 1 1 1 0 0 0 1 0 1 0 0 0 1 1 1 0 0 1 1 1 1 0 0 0 1 1 1 0 0 0 1 0 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 V14 V15 V16 V17 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 Cp -4.225 -3.491 -3.455 -3.453 -3.213 -3.150 -2.654 -2.550
195

7 6 6 5 6 7 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -2.548 -2.518 -2.476 -2.405 -2.368 -2.365 -2.335
196
> mod1 <- lm(y ~ V3 + V4 + + V5 + V7 + V10 + V12 + + V16 + V17, data = datos) > mod2 <- update(mod1, . ~ + . + V1 + V2) > summary(mod2) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V10 + V12 + V16 + V17 + V1 + V2, data = datos) Residuals: Min 1Q Median -1.611 -0.762 0.122 Max 2.237
3Q 0.627
Coefficients: Estimate Std. Error (Intercept) -0.03573 0.18316 V3 1.08674 0.19721 V4 -0.00741 0.16766 V5 2.03931 0.16976 V7 3.05622 0.14772 V10 -0.27977 0.19088 V12 4.10685 0.18483 V16 0.08436 0.15101 V17 0.05185 0.14567 V1 0.16370 0.18257 V2 -0.00659 0.20666 t value Pr(>|t|) (Intercept) -0.20 0.85 V3 5.51 2.5e-06 *** V4 -0.04 0.96 V5 12.01 1.1e-14 *** V7 20.69 < 2e-16 ***
197
V10 -1.47 0.15 V12 22.22 < 2e-16 *** V16 0.56 0.58 V17 0.36 0.72 V1 0.90 0.38 V2 -0.03 0.97 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.11 on 39 degrees of freedom Multiple R-squared: 0.973, Adjusted R-squared: 0.966 F-statistic: 141 on 10 and 39 DF, p-value: <2e-16 > mod3 <- update(mod1, . ~ + . - V10 - V16 - V17) > summary(mod3) Call: lm(formula = y ~ V3 + V4 + V5 + V7 + V12, data = datos) Residuals: Min 1Q -2.0289 -0.6955 Max 2.5956
Median 0.0539
3Q 0.7177
Coefficients: Estimate Std. Error (Intercept) 0.0738 0.1596 V3 1.0693 0.1819 V4 -0.0410 0.1567 V5 1.9898 0.1603 V7 3.0484 0.1400 V12 4.1357 0.1642 t value Pr(>|t|) (Intercept) 0.46 0.65 V3 5.88 5.1e-07 *** V4 -0.26 0.79 V5 12.41 5.7e-16 *** V7 21.77 < 2e-16 *** V12 25.19 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
198
Residual standard error: 1.09 on 44 degrees of freedom Multiple R-squared: 0.971, Adjusted R-squared: 0.967 F-statistic: 293 on 5 and 44 DF, p-value: <2e-16 > m <- regsubsets(y ~ ., datos, + method = "forward") > summary(m) Subset selection object Call: regsubsets.formula(y ~ ., datos, method = "forward") 20 Variables (and intercept) Forced in Forced out V1 FALSE FALSE V2 FALSE FALSE V3 FALSE FALSE V4 FALSE FALSE V5 FALSE FALSE V6 FALSE FALSE V7 FALSE FALSE V8 FALSE FALSE V9 FALSE FALSE V10 FALSE FALSE V11 FALSE FALSE V12 FALSE FALSE V13 FALSE FALSE V14 FALSE FALSE V15 FALSE FALSE V16 FALSE FALSE V17 FALSE FALSE V18 FALSE FALSE V19 FALSE FALSE V20 FALSE FALSE 1 subsets of each size up to 8 Selection Algorithm: forward V1 V2 V3 V4 V5 V6 1 ( 1 ) " " " " " " " " " " " " 2 ( 1 ) " " " " " " " " " " " " 3 ( 1 ) " " " " " " " " "*" " " 4 ( 1 ) " " " " "*" " " "*" " " 5 ( 1 ) " " " " "*" " " "*" "*" 6 ( 1 ) " " " " "*" " " "*" "*" 7 ( 1 ) " " " " "*" " " "*" "*" 8 ( 1 ) " " " " "*" " " "*" "*" V7 V8 V9 V10 V11 V12

1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) " " "*" "*" "*" "*" "*" "*" "*" V13 " " " " " " " " " " " " " " " " V19 " " " " " " " " " " " " " " "*" " " " " " " " " " " " " " " " " V14 " " " " " " " " " " "*" "*" "*" V20 " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " V15 " " " " " " " " " " " " " " " " " " " " " " " " " " " " "*" "*" V16 " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " V17 " " " " " " " " " " " " " " " " "*" "*" "*" "*" "*" "*" "*" "*" V18 " " " " " " " " " " " " " " " "
199
> library(MASS) > step <- stepAIC(completo, + scope = y ~ ., direction = "both", + trace = FALSE) > summary(step) Call: lm(formula = y ~ V3 + V5 + V6 + V7 + V12, data = datos) Residuals: Min 1Q Median -1.9495 -0.6503 -0.0349 Max 2.6196
3Q 0.5244
Coefficients: Estimate Std. Error

(Intercept) V3 V5 V6 V7 V12
200
0.0514 0.1518 1.0256 0.1761 2.0499 0.1557 0.3046 0.1603 3.0499 0.1346 4.1077 0.1585 t value Pr(>|t|) (Intercept) 0.34 0.736 V3 5.82 6.1e-07 *** V5 13.17 < 2e-16 *** V6 1.90 0.064 . V7 22.65 < 2e-16 *** V12 25.91 < 2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.05 on 44 degrees of freedom Multiple R-squared: 0.973, Adjusted R-squared: 0.97 F-statistic: 317 on 5 and 44 DF, p-value: <2e-16
Fin del ejemplo
12.3.
El LASSO
Tibshirani (1996) introdujo el m etodo conocido como LASSO (=least absolute shrinkage and selection operator). Puede verse como un procedimiento a medio camino de la selecci on de variables y regresi on ridge. Los m etodos que se han examinado en las secciones precedentes producen decisiones todo o nada: un regresor permanece o es excluido de la regresi on, sin alternativas intermedias. En regresi on ridge (cf. Secci on 10.3, p. 139 y ss.), todos los regresores permanecen en el modelo, pero sus coecientes estimados se encogen hacia cero; este encogimiento, que puede verse alternativamente como una restricci on estoc astica, o una distribuci on a priori sobre los par ametros, introduce un sesgo pero ayuda a reducir dr asticamente la varianza. El m etodo LASSO participa de ambas caracter sticas; aproxima los estimadores de los par ametros a cero, en ocasiones haci endolos exactamente igual a cero (cosa que no ocurre en regresi on ridge), lo que es equivalente a excluir el regresor correspondiente del modelo.
201
El m etodo se describe f acilmente. Sea Y = X + un modelo de regresi on lineal, con = (0 , . . . , p1 ). El estimador LASSO se dene as : = arg m )2 n(y X
p 1
sujeto a
i=1
|i | t
(12.28)
en que t es un par ametro de calibrado, similar a en regresi on ridge. Obs er0 , el estimador de la ordenada vese que al igual que en regresi on ridge, en el origen, no se encoge. Obs ervese tambi en que algunos betas pueden perfectamente ser cero. El problema formulado en (12.28) es uno de optimizaci on cuadr atica sujeta a restricciones lineales, y es por tanto computacionalmente m as complejo que MCO o regresi on ridge; no obstante, existen buenos algoritmos para resolverlo. En R, la funci on9 lars implementa el estimador LASSO (y otros relacionados tambi en). La selecci on de t se puede hacer por validaci on cruzada.
12.4.
Modelos bien estructurados jer arquicamente
La facilidad con que los algoritmos presentados en este Cap tulo producen modelos candidatos no debe hacer que el analista delegue demasiado en ellos. Un modelo ha de ser consistente con los conocimientos ables que se tengan acerca del fen omeno bajo estudio. Debe ser tambi en interpretable. Prestemos algo de atenci on a este u ltimo requerimiento. Imaginemos un modelo como el siguiente: y = 0 + 1 X + 2 X 2 + . (12.29)
En un caso as , frecuentemente el inter es se centrar a en dilucidar si la relaci on de X con Y es lineal o cuadr atica es decir, en contrastar la hip otesis h : 2 = 0. Es frecuentemente el caso que X se mide en unidades en que tanto la escala como el origen son arbitrarios (como ocurr a, por ejemplo, en el Ejercicio 2.10, p ag. 39); y ser a inconveniente que el contraste de h dependiera del origen y de la escala empleadas. Lo menos que debemos esperar de nuestra inferencia es que sea invariante frente a cambios en las unidades de medida.
9
En el paquete lars.
DE MODELOS. CAP ITULO 12. SELECCION Si en (12.29) reemplazamos X por Z = aX + b, obtenemos
202
y = 0 + 1 (aX + b) + 2 (aX + b)2 + = (0 + 1 b + 2 b2 ) + (1 a + 2ab2 )X + a2 2 X 2 + 2 = 0 + 1 X + 2 X + . (12.30)

En este nuevo modelo, 2 = a2 2 absorbiendo el cambio de escala en la X . Es f acil ver que es equivalente contrastar h : 2 = 0 en (12.29) o h : 2 =0 en (12.30); el contraste de la hip otesis efecto cuadr atico de X sobre Y , al menos, no se altera por el cambio de unidades. Sin embargo, sean cuales fueren 1 y 2 , habr a coecientes a, b anulando 1 = (1 a + 2ab2 ) en (12.30). Ello hace ver que:
No tiene sentido contrastar efecto lineal en un modelo que incluye t ermino cuadr atico, porque el contraste tendr a un resultado diferente dependiendo de las unidades de medida. La inclusi on de un t ermino en X 2 debe ir acompa nada de un t ermino lineal y constante, si queremos que el modelo sea invariante frente a cambios en el origen y la escala. La conclusi on que extraemos es que los t erminos de orden superior deben estar acompa nados de todos los t erminos de orden inferior es decir, si incluimos un t ermino c ubico, deben tambi en existir t erminos cuadr aticos y lineales, etc.. Un modelo que cumpla con dicho requisito se dice que est a jer arquicamente estructurado y en el podemos contrastar no nulidad del coeciente del t ermino jer arquico de orden superior, pero no de los inferiores. La misma conclusi on es de aplicaci on a t erminos recogiendo interacciones: si introducimos una variable compuesta como Xi Xj en el modelo, Xi y Xj deben tambi en ser incluidas. Se suele decir que un modelo jer arquicamente bien estructurado verica restricciones de marginalidad y que, por ejemplo, Xi y Xj son ambas marginales a Xi Xj . Si regresamos al Ejercicio 2.10 en que se arg u a la necesidad de utilizar un t ermino 0 veremos que se trata del mismo problema: necesitamos el t ermino jer arquico inferior (la constante) cuando incluimos X dado que las unidades y el origen son arbitrarios. No es imposible que un modelo sin 0 sea adecuado, pero lo normal es lo contrario. Dependiendo de los programas que se utilicen, un algoritmo puede eliminar del modelo de regresi on un t ermino jer arquico inferior manteniendo otro de orden superior. Es responsabilidad del analista garantizar que ello no ocurra, manteniendo la interpretabilidad de los par ametros en toda circunstancia.
DE MODELOS. CAP ITULO 12. SELECCION Complementos y ejercicios 12.1 Supongamos que hacemos regresi on escalonada hacia adelante. Qu e valor de F entrada equivaldr a a introducir regreso2 res en el modelo en tanto en cuanto incrementen Rp ? 12.2 Las estrategias de regresi on escalonada descritas (hacia
adelante, hacia atr as, o mixta) exploran un subconjunto de los modelos posibles, a nadiendo (omitiendo) en cada momento el regresor que parece con mayor (menor) capacidad explicativa de la variable respuesta. Puede perfectamente alcanzarse un optimo local, al llegarse a un modelo en el que no es posible mejorar el criterio elegido (Cp , o cualquier otro) a nadiendo u omitiendo regresores, pese a existir otro modelo mejor en t erminos de dicho criterio. Mejoran nuestras expectativas de encontrar el optimo global mediante regresi on escalonada cuando las columnas de la matriz X de regresores son ortogonales? Justif quese la respuesta.
203
12.3 En la Observaci on 12.1 se comparan los criterios de se2 lecci on de modelos consistentes en maximizar Rp y Cp , viendo que el segundo es en general m as restrictivo. Consideremos ahora dos posibles modelos A y B de regresi on con sumas de cuadrados de los residuos respectivamente SSEA y SSEB . El primer modelo utiliza s olo un subconjunto de los regresores presentes en el segundo (por tanto, SSEA SSEB ). Para escoger entre los modelos A y B podr amos adoptar uno de los siguientes criterios:
1. Seleccionar el modelo B si la disminuci on en la suma de cuadrados respecto al modelo A es estad sticamente signicativa, es decir, si: Qh = (SSEA SSEB ) > Fq,N (p+q ) q 2
siendo p el n umero de par ametros presentes en A y q el de los adicionales presentes en B . 2. Seleccionar el modelo B si su estad stico Cp es menor. Supongamos adem as que el modelo B es el m as parametrizado de los posibles (incluye todas las variables de que disponemos). Qu e relaci on existe entre ambos criterios?
Cap tulo 13
Transformaciones
13.1. Introducci on
Nada nos obliga a utilizar los regresores o la variable respuesta tal cual; es posible que la relaci on que buscamos entre una y otros requiera para ser expresada realizar alguna transformaci on. Por ejemplo, si regres aramos el volumen de s olidos aproximadamente esf ericos sobre sus mayores dimensiones, obtendr amos probablemente un ajuste muy pobre; ser a mucho mejor, en cambio, regresando el volumen sobre el cubo de la mayor dimensi on 4 dado que la f ormula del volumen de una esfera es 3 r 3 , y cabr a esperar una relaci on similar en los s olidos aproximadamente esf ericos que manejamos. En el ejemplo anterior, bastaba tomar un regresor la mayor dimensi on y elevarla al cubo para obtener un ajuste mejor. Adem as, la naturaleza del problema y unos m nimos conocimientos de Geometr a sugieren el tipo de transformaci on que procede realizar. En otros casos, la transformaci on puede distar de ser obvia. En ocasiones, es la variable respuesta la que conviene transformar. En las secciones que siguen se muestran algunos procedimientos para seleccionar un modelo, acaso transformando regresores, variable respuesta, o ambas cosas.
13.2.
Transformaciones de los regresores
En ocasiones, teor a o conocimientos previos acerca del funcionamiento del fen omeno bajo an alisis puede sugerir transformaciones en los regresores. Alternativamente podemos recurrir a m etodos exploratorios, gr acos o no. En lo que sigue se mencionan algunas posibilidades.
204
CAP ITULO 13. TRANSFORMACIONES
205
Gr acos de residuos frente a regresores

Se trata de representar gr acamente los residuos en ordenadas frente a cada uno de los regresores en abscisas. La motivaci on es muy simple: los residuos recogen la fracci on de la respuesta que el modelo no ha podido recoger. Si observamos alguna pauta al representar dichos residuos frente a un regresor, podemos intuir la transformaci on precisa en dicho regresor. Por ejemplo, en la Figura 13.1 se muestran residuos que frente a los valores de Xi toman forma de par abola; ello sugiere introducir el regresor Xi2 . En efecto, esto permitir a recoger una parte de Y de la que el modelo actual no da cuenta, y que por este motivo aora en los residuos. Figura 13.1: Disposici on de residuos sugiriendo una transformaci on cuadr atica del regresor Xi
Residuos
2
0
20
40 x
60
80
100
Transformaciones de Box-Tidwell
Consideremos los regresores X1 , . . . , Xp y transformaciones de los mismos denidas del siguiente modo: Wj = si j = 0, Xj j ln(Xj ) si j = 0.
(13.1)
206
Para diferentes valores de j , la transformaci on (13.1) incluye muchos casos particulares de inter es: transformaci on cuadrado, ra z cuadrada, logaritmo, etc. Un j = 1 signicar a que el regresor aparece sin ninguna transformaci on. El problema est a en seleccionar para cada regresor el j adecuado. El modo de hacerlo propuesto por Box and Tidwell (1962) es el siguiente. Consideremos el modelo, Y
1 p = 0 + 1 X1 + . . . + p Xp + = 0 + 1 W1 + . . . + p Wp + .
(13.2) (13.3)
Si realizamos una linealizaci on aproximada mediante un desarrollo en serie de Taylor en torno al punto (1 , . . . , k ) = (1, 1, . . . , 1) , obtenemos: Y en donde j = j (j 1) Zj = Xj ln(Xj ). (13.5) (13.6) 0 + 1 X1 + . . . + p Xp + 1 Z1 + . . . + p Zp + , (13.4)
Tenemos pues un modelo en el que podemos estimar los par ametros, (0 , . . . , p , 1, . . . , p ). De ellos podemos recuperar valores estimados de (1 , . . . , p ) as : j j = + 1. (13.7) j Podemos detenernos aqu , pero cabe pensar en un proceso iterativo de re(1) nado de la soluci on obtenida. Llamemos k , k = 1, . . . , p, a los estimadores de los par ametros de transformaci on k obtenidos como primera aproximaci on al estimar (13.4). Podr amos ahora denir Wj
(1)
= Xj j = Wj ln(Wj )
(1) (1)
(1)
(13.8) (13.9)
Zj y estimar Y
(1)
(1) (1) + , (13.10) = 0 + 1 W1 + . . . + p Wp + 1 Z1 + . . . + p Zp (2)
(1)
(1)
(2) Obtendr amos as estimaciones de W1 , . . . , Wp , y podr amos proseguir de modo an alogo hasta convergencia, si se produce.
207
13.3.
Transformaciones de la variable respuesta
Generalidades
Adem as de transformar los regresores, o en lugar de hacerlo, podemos transformar la variable respuesta Y . Es importante tener en cuenta que si realizamos transformaciones no lineales de la Y los modelos ya no ser an directamente comparables en t erminos de, por ejemplo, R2 o suma de cuadrados residual. Comparaciones de esta naturaleza requerir an reformular el modelo en las variables originales. Ejemplo 13.1 Supongamos que nos planteamos escoger entre los dos modelos alternativos,
Y = 0 + 1 X1 + (13.11) (13.12)
log(Y ) = 0 + 1 X1 + .
La transformaci on log deforma la escala de la Y ; si el logaritmo es decimal, por ejemplo, valores de Y entre 1 y 1000 quedan convertidos en valores entre 0 y 3 (si hubiera valores de Y cercanos a cero, por el contrario, al tomar logaritmos se separar an hacia ). Esta deformaci on puede ser bastante dr astica, y afectar mucho a la suma de cuadrados de los residuos, independientemente del poder predictivo del u nico regresor X1 . Para efectuar la comparaci on podemos convertir todo a unidades comunes. As , no ser an comparables las sumas de cuadrados 0 1 Xi1 )2 (Yi (13.13) (13.14)
(log(Yi ) 0 1 Xi1 )2 , pero s lo ser an 0 1 Xi1 )2 (Yi
(13.15) (13.16)
(Yi exp{ 0 + 1 Xi1 })2 ;
no obstante, v ease la discusi on en la Observaci on 13.1 que sigue. Fin del ejemplo
CAP ITULO 13. TRANSFORMACIONES Observaci on 13.1 Las sumas de cuadrados de los residuos de
dos modelos son comparables cuando ambos poseen el mismo n umero de par ametros estimados. Si no es el caso, y los modelos son lineales, podemos corregir el efecto del diferente n umero de par ametros penalizando la suma de cuadrados (por ejemplo, adoptando criterios como la Cp de Mallows; v ease la Secci on 12.1). En el caso en que se hace alguna transformaci on, hay que contarla como par ametro? En cierto modo, la transformaci on efectuada es una manipulaci on tendente a mejorar el ajuste a los datos, y habr a que tener esto en cuenta, especialmente si la transformaci on se escoge a la vista de los datos. No est a claro, sin embargo, c omo contar una transformaci on. Una posibilidad que elude el problema es renunciar a penalizar la correspondiente suma de cuadrados y hacer validaci on cruzada (ver la Secci on 12.1).
208
La transformaci on de Box-Cox.
En ocasiones puede resultar inadecuado suponer que la variable respuesta Y est a relacionada linealmente con las X , y, sin embargo, ser plausible un modelo como el siguiente: g (Yi) = xi + i (13.17)
Una familia de funciones g (.) de particular inter es y exibilidad es la proporcionada por la llamada transformaci on de Box-Cox, sustancialmente id entica a la adoptada para los regresores en la Secci on 13.2. Denamos, W() = g (Y ; ) =
(Y
y supongamos que W() se genera de acuerdo con (13.17), es decir, W(),i = xi + i N (0 , I )

2
1)/ cuando = 0, ln Y cuando = 0.
(13.18) (13.19)
Podemos, dadas las observaciones X, y , escribir la verosimilitud conjunta de todos los par ametros: , , y . Dicha verosimilitud puede escribirse en funci on de w as 1 : fY (y ) = fW (w ) |J ()| (13.20)
La variable transformada w depende en todo caso del empleado en la transformaci on; omitimos dicha dependencia para aligerar la notaci on, salvo donde interese enfatizarla.
CAP ITULO 13. TRANSFORMACIONES siendo J () el jacobiano de la transformaci on: J ( ) = Por tanto: 1 log ver( , , 2 ; Y ) = log 2
N N w 1 yi = y i=1
209
(13.21)
1 | 2 I | 2
1
N N log(2 ) log 2 2 2 N 1 (w() X ) (w() X ) 1 + log yi 2 2 i=1
1 (w() X ) (w() X ) log exp | J ( )| 2 2
N N N 2 = log(2 ) log + ( 1) log yi 2 2 i=1
1 w() (I X (X X )1 X )w() 2 2
(13.22)
La expresi on (13.22) se ha obtenido maximizando la precedente respecto de . El m aximo, en efecto, se alcanza para aqu el valor de que minimiza m (w() X ) (w() X ), y este es precisamente el nimo cuadr atico. La suma de cuadrados de los residuos es entonces (v ease (2.36), p ag. 22) 1 w( ( I X ( X X ) X ) w . () ) Si ahora maximizamos (13.22) respecto a 2 , vemos que el m aximo se alcanza para,
2 ( ) = 1 w( ) (I X (X X ) X )w() N
y el logaritmo de la verosimilitud concentrada es:

N N N N 2 log ver(; Y ) = log(2 ) log () + ( 1) log (13.23) yi . 2 2 2 i=1
Podemos escoger como transformaci on aqu ella cuyo maximice (13.23), o, de modo equivalente, tras prescindir de las constantes, log ver(; Y ) =
N N 2 log yi. log ( + ( 1) ) 2 i=1
(13.24)
210
Un modo sencillo de hacerlo consiste en tomar un n umero adecuado de valores de equiespaciados en un intervalo susceptible de contener el optimo, ajustar una regresi on para cada , y calcular el correspondiente valor de (13.24). Frecuentemente se suele tomar el intervalo 2 2 (que ), incluye como casos particulares la transformaci on ra z cuadrada ( = 1 2 cuadrado ( = 2), logaritmo ( = 0), ra z cuadrada negativa, etc.), y dentro de el unas cuantas decenas de valores de . Es frecuente que log ver(; Y ) como funci on de sea una funci on relativamente plana. Ello suscita el problema de decidir si el valor de que la maximiza es signicativamente distinto de 1 (lo que supondr a que no es preciso hacer ninguna transformaci on). Podemos recurrir a un contraste raz on de verosimilitudes (v ease B.3). Bajo la hip otesis H0 : = 0 , si denota el estimador m aximo veros mil de y L() el valor que toma la verosimilitud, para muestras grandes se tiene que ) L( 2 ; 2 ln 1 L(0 )

(13.25)
por tanto, a la vista de (13.23), rechazaremos H0 al nivel de signicaci on si

N N N 2 2 2 log yi log log ( ( 2 ) + ( 0 ) 0 ) > 1; . 2 2 i=1
(13.26)
Utilizando la misma idea podemos construir intervalos de conanza para .
Cap tulo 14
Regresi on con respuesta cualitativa

14.1. El modelo logit.
Con frecuencia se presentan situaciones en que la variable respuesta a explicar toma s olo uno de dos estados, a los que convencionalmente asignamos valor 0 o 1. Por ejemplo, variables de renta, habitat, educaci on y similares pueden inuenciar la decisi on de compra de un cierto art culo. Podr amos as plantearnos el estimar, Y = X + (14.1)
en que Y es una variable tomando dos valores: 1 (= Compra) o 0 (= No compra). Nada parecer a, en principio, impedir el empleo del modelo lineal estudiado en una situaci on como esta. Pero hay varias circunstancias que debemos considerar. 1. No tiene ya sentido suponer una distribuci on normal en las perturbaciones. En efecto, para cualesquiera valores que tomen los regresores, de Yi = 0 + 1 Xi1 + . . . + p1 Xi,p1 + i se deduce que s olo puede tomar uno de dos valores: la diferencia que separa a la Yi (0 o 1) de la combinaci on lineal de regresores que constituye su parte explicada. 2. Trat andose de una respuesta que puede tomar valor 0 o 1, interpreta r amos Yi como su valor medio dados los valores de los regresores. Al 211
CON RESPUESTA CUALITATIVA CAP ITULO 14. REGRESION
212
poder tomar Yi s olo los valores 0 y 1, su valor medio es Pi , la probabilii entre 0 y 1 son interpretables. dad del valor 1. Por tanto, valores de Y Pero nada impide que el modelo proporciones predicciones mayores que 1 (o menores que 0), circunstancia molesta. 3. Tampoco podemos ya suponer que hay homoscedasticidad. En efecto, si tomamos valor medio en la expresi on anterior tenemos: E [Yi] = 0 + 1 Xi1 + . . . + p1 Xi,p1 = Pi En consecuencia, Yi toma valor 1 con probabilidad Pi y valor 0 con probabilidad Qi = 1 Pi y, i = Entonces,
1 P Pi
i
con probabilidad Pi con probabilidad Qi = 1 Pi .
2 2 2 2 E [2 i ] = (1 Pi ) Pi + (Pi ) (1 Pi ) = Qi Pi + Qi Pi = Pi Qi . (14.2)
La varianza de Y var a por tanto de observaci on a observaci on de acuerdo con los valores que toman los regresores. Adicionalmente, (14.2) muestra que la distribuci on de i ser a binaria de par ametro Pi . El tercer inconveniente podr a resolverse haciendo uso de regresi on ponderada, para corregir el efecto de la heterocedasticidad. No obstante, suele emplearse una aproximaci on alternativa que da cuenta tambi en de los dos primeros. El modelo lineal ordinario hace depender linealmente de las variables X la media de la variable respuesta, E (Yi ). Podemos en lugar de ello hacer depender de los regresores una funci on de la media E (Yi ); por ejemplo, la conocida como logit , (E (Yi))
def
ln
N otese que como E (Yi) = Pi , (14.3) es efectivamente una funci on de la media. Obs ervese tambi en que (E (Yi )) toma valores de modo continuo entre y +. Podemos pensar en hacer que (E (Yi )), y no E (Yi), dependa linealmente de los regresores: (E (Yi)) = ln Pi 1 Pi = x i , (14.4)
Pi . 1 Pi
(14.3)
y a continuaci on especicar la distribuci on de Yi en torno a su media E (Yi ). Ya hemos visto que una distribuci on binaria es una elecci on natural si Yi es una variable 0/1.
CON RESPUESTA CUALITATIVA CAP ITULO 14. REGRESION Observaci on 14.1 Transformar la media E (Yi ) es un enfoque
alternativo al de transformar Yi , y en muchos aspectos un renamiento. Una transformaci on de la respuesta como, por ejemplo, las de la familia de Box-Cox, tiene que cumplir varios objetivos, generalmente contradictorios. Por un lado, deseamos que la variable respuesta se acerque a la normalidad. Por otro, que la varianza sea homog enea, y la dependencia de los regresores lineal. El enfoque de hacer depender linealmente de los regresores una funci on de la media de la variable respuesta es mucho m as exible. Podemos escoger la funci on de la media que sea m as aproximadamente funci on lineal de los regresores, y especicar separadamente la distribuci on de la variable respuesta en torno a su media. El enfoque goza as de una enorme exibilidad.
213
Despejando Pi de la expresi on anterior, Pi = exp(x i ) 1 + exp(x i ) . (14.5)
Interpretaci on de los coecientes

Los par ametros de un modelo logit tienen interpretaci on inmediata: i es el efecto de un cambio unitario en Xi sobre el logit o logaritmo de la raz on de posibilidades (log odds). Pero pueden en ocasiones ser interpretados de manera m as directamente relacionada con magnitudes de inter es. Consideremos primero el caso m as simple, en que tenemos un u nico regresor dicot omico, X , codicado con valores 0/1. El resultado de clasicar una muestra de N sujetos con arreglo a los valores observados de Y (respuesta) y X (regresor) puede imaginarse en una tabla de doble entrada como la siguiente: Y=1 Y=0 X=1 n11 n21 X=0 n12 n22
Si el modelo logit es de aplicaci on, las probabilidades de cada celda en la tabla anterior vendr an dadas por las expresiones que aparecen en la tabla siguiente:
CON RESPUESTA CUALITATIVA CAP ITULO 14. REGRESION X=1 Y=1 Y=0 (1) =
e0 + 1 1+e0 +1
214
X=0 (0) =
e0 1+e0
1 (1) =
1 1+e0 +1
1 (0) =
1 1+e0
Denamos la raz on de posibilidades relativa (relative odds ratio) as : = Entonces, ln( ) = ln (1) / (1 (1)) (0)/(1 (0)) 1 e0 +1 = ln + 1 + e 0 1 1 + e0 +1 e0 +1 = ln e0 = 1 . (1)/(1 (1)) . (0)/(1 (0)) (14.6)
ln
e0 1 + e0
1 1 + e0
(14.7)
1 estimar 1 ) estimar Por tanto, a ln( ), y exp ( a . Observaci on 14.2 La codicaci on de X , al igual que la de
Y , es arbitraria. La interpretaci on correcta de 1 es incremento de ln( ) cuando X se incrementa en una unidad. Por tanto, como se ha indicado, si la presencia de una caracter stica se codica mediante ) = 1 y = exp( 1 ). X = 1 y su ausencia mediante X = 0, ln( Pero si la presencia de la misma caracter stica se codica mediante X = a y su ausencia mediante X = b, c alculos similares a los realizados muestran que ln( ) = 1 (a b). A la hora de interpretar los coecientes de un modelo logit es necesario por tanto tener en cuenta la codicaci on utilizada.
Interpretamos como indicando aproximadamente cu anto m as probable es que Y tome el valor 1 cuando X = 1 que cuando X = 0. Aproximadamente, porque (1)/(1 (1)) (1) (0) (0)/(1 (0))
CON RESPUESTA CUALITATIVA CAP ITULO 14. REGRESION si y s olo si 1 (0) 1. 1 (1)
215
Ello acontece, por ejemplo, cuando Y = 1 se presenta muy raramente en la poblaci on como cuando estudiamos la incidencia de una enfermedad muy rara, tanto para sujetos tratados (X = 1) como no tratados (X = 0). 1 ) se interpretar En este u ltimo caso, exp( a como una estimaci on de la relaci on de riesgos. Un 1 > 0 signicar a, por tanto, que X = 1 incrementa el riesgo de que Y = 1, y viceversa.
La importancia del dise no muestral

S olo podemos estimar, y a un aproximadamente, la raz on de riesgos (1)/ (0)? Qu e impedir a estimar el riesgo Pi correspondiente a unos determinados valores de los regresores, x i , haciendo uso de el an alogo muestral de (14.5)? Es importante observar (v ease Kleinbaum (1994) para una discusi on completa de esto) que en ocasiones ello no ser a posible. Se hace preciso distinguir dos situaciones que pueden dar lugar a los mismos datos pero reejan modos de obtenerlos radicalmente diferentes. En el primer caso tenemos un dise no de exposici on, t pico en trabajos epidemiol ogicos, en que una muestra jada de antemano sin conocer el valor de la variable respuesta Y y representativa del total de la poblaci on en riesgo se sigue a lo largo de un periodo de tiempo al cabo del cual se conoce el valor de Y . En este caso, podr amos estimar el riesgo Pi como se ha dicho. Completamente diferente es el dise no muestral de casos-controles. En este caso seleccionamos la muestra a la vista de los valores de Yi. T picamente, si examinamos un evento que se presenta raramente, como una enfermedad poco frecuente, tomaremos todos los individuos enfermos de que dispongamos (casos), completando la muestra con un n umero arbitrario de sanos (controles). Los coecientes 1 , . . . , p son interpretables, pero 0 no lo es. Ninguna f ormula que lo requiera como (14.5) puede utilizarse. 0 depende de la abundancia relativa de La raz on es f acil de entender: casos y controles, y esta es como hemos dicho arbitraria. La situaci on se asemeja a la que se presenta cuando construimos una tabla de contingencia 2 2 como: Y=1 Y=0 Total X=1 n11 n21 n,1 X=0 n12 n22 n,2 Total n1. n2. n..
216
Si hemos escogido los sujetos completamente al azar, es razonable tomar el cociente n1. /n.. como estimador de la proporci on de casos con Y = 1 en la poblaci on (y cocientes como n11 /n,1 o n12 /n,2 estimar an las proporciones en las subpoblaciones caracterizadas por X = 1 y X = 0 respectivamente). Si, por el contrario, hemos jado los valores n1. y n2. , es claro que dicho cociente no estima nada, sino que es resultado de una decisi on arbitraria.
Estimaci on
Consideremos una muestra de tama no N , formada por observaciones (yi , x i ). Para cada observaci on, yi es 0 o 1. El modelo logit, sin embargo, le atribuye una probabilidad Pi (si se trata de un 1) o 1 Pi (si se trata de un 0). Por consiguiente, la verosimilitud de la muestra es y , X) = L(, =
i=1 N N i=1 N
(Pi )yi (1 Pi )1yi 1 1 + exp(x i ) 1 1 + i

1yi 1yi
(14.8)
yi
=
i=1
i 1 + i
exp(x i ) 1 + exp(x i ) ,
yi
(14.9) (14.10)
con i = exp(x i ). Tomando logaritmos en (14.10), obtenemos

N
ln
i=1
N 1 + yi ln(i ). 1 + i i=1
(14.11)
Si derivamos (14.11) respecto de e igualamos el vector de derivadas a cero, obtenemos un sistema no lineal; no obstante, puede resolverse num eri camente para obtener el vector de estimadores . Alternativamente, podr a procederse a la maximizaci on directa de (14.9) mediante un algoritmo conveniente. Observaci on 14.3 La verosimilitud en (14.9) es la ordinaria o
incondicional. En determinadas circunstancias notablemente en estudios con casos y controles emparejados respecto de variables de estraticaci on cuyos coecientes carecen de inter es podr amos desear realizar estimaci on m aximo veros mil condicional. Sobre el fundamento de esto puede verse Cox and Hinkley (1978), p ag. 298 y siguientes, Kleinbaum (1994) o Hosmer and Lemeshow (1989), Cap. 7. En R puede estimarse un modelo logit mediante m axima verosimilitud condicional utilizando la funci on clogit (en el paquete survival).
217
Contrastes y selecci on de modelos

Necesitamos criterios para decidir sobre la inclusi on o no de par ametros, y para comparar modelos. La teor a para ello deriva del contraste raz on generalizada de verosimilitudes (ver B.3). Consideremos un modelo saturado, proporcionando el mejor ajuste posible. Llamaremos a este modelo modelo base o modelo de referencia : se tratar a en general de un modelo claramente sobreparametrizado, pero que proporciona un t ermino de comparaci on u til. Requerir a, en principio, un par ametro por cada combinaci on de valores de los regresores, y proporcionar a valores ajustados P = (P1 , . . . , Pk ). De acuerdo con la teor a en la Secci on B.3, bajo la hip otesis nula de que el modelo correcto es (14.4) ) L( kp , 2 ln ) L(P

(14.12)
. Al cociente (14.12) en que p es el n umero de par ametros estimados en se le denomina desviaci on respecto del modelo de referencia parametrizado por P . El adoptar un modelo menos parametrizado que el de referencia, implica una disminuci on de la verosimilitud y una desviaci on (14.12) positiva cuya distribuci on, bajo la hip otesis nula, sigue la distribuci on 2 k p indicada. Si 2 la desviaci on fuera excesiva (es decir, si sobrepasa kp; para el nivel de signicaci on que hayamos escogido), rechazar amos la hip otesis nula. An alogo criterio podemos seguir para hacer contrastes sobre un u nico par ametro o sobre grupos de par ametros. Por ejemplo, para contrastar si el par ametro j es signicativamente diferente de cero en un cierto modelo parametrizado por , calcular amos 1 , 2 , . . . , j 1 , j +1, . . . , k ) L( , 2 ln 1 , 2 , . . . , j 1, j , j +1 , . . . , k ) L(

(14.13)
que debe ser comparado con una 2 1 ; valores grandes de (14.13) son evidencia contra la hip otesis h : j = 0. Para contrastar la hip otesis de nulidad de todos los par ametros, salvo quiz a 0 afectando a la columna de unos, comparar amos 0 ) L( 2 ln 0 , 1 , 2 , . . . , k ) L(

(14.14)
218
a una 2 on (14.14) es similar a la suma de cuadrados SSR en k 1 ; la expresi una regresi on ordinaria. El an alogo a SST ser a 0 ) L( . 2 ln L(P )

(14.15)
Esta analog a puede extenderse para obtener un estad stico similar a la Cp de Mallows as : k y una R2 as : R2 = 2 ln
0 ) L( 0 , 1 , 2 ,..., k ) L( 0 ) L( ) L(P
0 ) L( 2(k 1), = 2 ln 0 , 1 , 2 , . . . , k ) L(
(14.16)
(14.17)
2 ln
Obs ervese que en (14.16) el primer sumando de la derecha sigue asint oti2 camente una distribuci on k1 con grados de libertad bajo el supuesto de que el modelo m as parametrizado no a nade realmente nada. Los grados de libertad y por tanto el valor esperado de dicho sumando crecen con el n umero de par ametros ajustados. El segundo t ermino que se sustrae a continuaci on es, precisamente, el valor medio de una 2 k 1 . Mientras que el primero crece mon otonamente al introducir nuevos par ametros, el segundo penaliza este crecimiento. Observaci on 14.4 Escoger amos de acuerdo con este criterio
el modelo maximizando k o, alternativamente, minimizando 0 , 1 , 2 , . . . , k ) + 2k. AICk = 2 ln L( (14.18)
La expresi on anterior se conoce como criterio AIC (=An Information Criterion o Akaike Information Criterion, por su proponente). Puede ser obtenido de diversos modos, incluido un argumento haciendo uso de Teor a de la Informaci on: v ease Akaike (1972).
CON RESPUESTA CUALITATIVA CAP ITULO 14. REGRESION Complementos y ejercicios
219
14.1 Mu estrese que la desviaci on denida a continuaci on de (14.12) coincide con SSE cuando consideramos un modelo lineal ordinario con normalidad en las perturbaciones. 14.2 Compru ebese derivando (14.11) que los estimadores m aximo veros miles de los par ametros son soluciones del sistema de ecuaciones: N i = 0, x i yi 1 + i i=1 en que i = x i .
Ap endice A
Algunos resultados en Algebra Lineal.

A.1. Resultados varios sobre Algebra Matricial.
Teorema A.1 El rango y la traza de una matriz idempotente coinciden. Denici on A.1 En un espacio vectorial V llamamos producto interno a una aplicaci on de H H R (si es real-valorado) o en C (si es completo valorado), tal que a cada par de vectores u , v corresponde vericando: = < v , u > 0 u H = 0 = u = 0 = + (A.1) (A.2) (A.3) (A.4)
Denici on A.2 Llamamos producto interno eucl deo de dos n-eplas u , v en Rn al denido as : = u v . Es f acil comprobar que verica las condiciones de la Denici on A.1. La norma eucl dea ||u || del vector u se 2 dene como ||u || = + = u1 + . . . + u2 n Denici on A.3 Dados dos vectores u , v en un espacio vectorial, denimos el coseno del angulo que forman como cos() = < u,v > . ||u ||||v || (A.5)
220
APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 221 Teorema A.2 (Sherman-Morrison-Woodbury) Sea D una matriz sim etrica p p y a ,c vectores p 1. Entonces, (D + a c )1 = D 1 D 1 a (1 + c D 1 a )1 c D 1 n: Demostracio Multiplicando ambos lados de (A.6) por (D + a c ) se llega a la igualdad I = I . En particular, si a = c = z , la relaci on anterior produce: (D + zz )1 = D 1 D 1 z (1 + z D 1 z )1 z D 1 Teorema A.3 Si A y D son sim etricas y todas las inversas existen: A B B D siendo E = D B A1 B F = A1 B n: Demostracio Basta efectuar la multiplicaci on matricial correspondiente. (A.9) (A.10)
1
(A.6)
(A.7)
A1 + F E 1 F F E 1 E 1 F E 1
(A.8)
Un caso particular de inter es se presenta cuando la matriz particionada cuya inversa deseamos es del tipo: X X X Z Z X Z Z La aplicaci on de (A.8) proporciona entonces para el bloque superior izquierdo: A1 + F E 1 F = (X X )1 + + (X X )1 X Z [Z Z Z X (X X )1 X Z ]1 Z X (X X )1 (A.11) y similarmente para los dem as bloques. V ease Seber (1977), p ag. 390 y Myers (1990), p ag. 459.
APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 222
A.2.
C alculo diferencial con notaci on matricial
Hay aqu s olo una breve recopilaci on de resultados u tiles. M as detalles y demostraciones en Abadir and Magnus (2005), Searle (1982) y Magnus and Neudecker (1988). Haremos uso de las siguientes deniciones y notaci on. Denici on A.4 Sea x un vector m 1 e y una funci on escalar de x : y = f (x1 , . . . , xm ) = f (x ). Entonces:
y x
def
Si y = x Ax siendo A una matriz cuadrada cualquiera, es inmediato comprobar que: y x = (A + A ) x .
y x1 y x2 . . . y xm
En el caso, frecuente, de que A sea sim etrica, tenemos que: y x = 2A x (A.12)
Denici on A.5 Sea y una funci on vectorial (n 1)valorada de x , vector m 1. Entonces: y x

def
y1 x1 . . .
y2 x1 . . .
...
y1 xm
y2 yn xm . . . xm
yn x1 . . .

Hay algunos casos particulares de inter es. Si y = a x = a1 x1 + . . . + am xm , siendo a un vector de constantes, a1 . y = . . = a; x am

APENDICE A. ALGUNOS RESULTADOS EN ALGEBRA LINEAL. 223 si y = Ax , siendo A una matriz (n m) de constantes, y x = A .
Se reproducen a continuaci on algunos otros resultados u tiles: loge |A| 1 = [A ] A tr(BA1 C ) = (A1 CBA1 ) A (A.13) (A.14)
A.3.
Lectura recomendada
Hay muchos manuales de algebra lineal en que se pueden encontrar los resultados anteriores. Entre los particularmente orientados a la Estad stica, pueden citarse Gentle (2007), Seber (2007), Abadir and Magnus (2005), o Searle (1982). En relaci on con las cuestiones num ericas espec camente relacionadas con la estimaci on m nimo-cuadr atica es todav a de u til consulta Lawson and Hanson (1974).
Ap endice B
Algunos prerrequisitos estad sticos.

B.1. Distribuciones 2 y F descentradas
indep
2 2 Sean Xi N (i , 2 ), (i = 1 . . . , n). Sea 2 = (2 1 + . . . + n )/ . Entonces, la variable aleatoria
Z=
2 2 X1 + . . . + Xn 2
(B.1)
se dice que sigue una distribuci on 2 on 2 descentrada con n ( ), o distribuci par ametro de no centralidad y n grados de libertad. Algunos textos denen 1 2 como par ametro de no centralidad; la notaci on que empleamos es 2 o 2 congruente con las Tablas en ?? . Claramente, si = 0 se tiene la 2 habitual o centrada. 2 Si Z 2 m ( ) y V n son ambas independientes, la variable aleatoria W = nZ mV (B.2)
sigue una distribuci on Fm,n ( ) o F de Snedecor descentrada, con par ametro de no centralidad . Si V siguiera una distribuci on 2 ( ) , tendr amos que W n ser a una F de Snedecor doblemente descentrada, habitualmente denotada como Fm,n (, ). Siempre nos referiremos al primer tipo, en que solo el numerador es descentrado. La F de Snedecor descentrada es una distribuci on denida en el semieje real positivo, cuya forma es similar a la de su hom ologa centrada. Su moda 224
APENDICE B. ALGUNOS PRERREQUISITOS ESTAD ISTICOS.
225
est a tanto mas desplazada a la derecha cuanto mayor sea el par ametro de no centralidad. El examen del estad stico de contraste Qh introducido en la Secci on 12 hace evidente que cuando la hip otesis contrastada no es cierta, la distribuci on de Qh es descentrada. Ello permite, como ya se indic o, calcular con facilidad la potencia de cualquier contraste, si se dispone de tablas de la Fm,n ( ). El ap endice A.4 proporciona tablas que permiten calcular la potencia de los contrastes en an alisis de varianza directamente, prejada una alternativa.
B.2.
Estimaci on m aximo veros mil
Se realiza maximizando la funci on de verosimilitud L( , y ) o, equivalen el vector que maximiza ( , y ). En temente, su logaritmo, ( , y ). Sea condiciones muy generales, se tiene que para muestras grandes
asint
N ( , ) ) I (
1
(B.3) (B.4)
) es la llamada matriz de informaci En la expresi on anterior, I ( on cuyo elemento gen erico de lugar ij se dene as : ) I ( = 2 ( , y ) . i j (B.5)
ij
Una consecuencia de (B.3)(B.4) es que si o n p p, es de dimensi ) ( )1 ( ) ( ) I ( )( ) 2 ; ( p esto permite contrastar hip otesis como H0 : = 0 utilizando como estad stico 0 ) I ( 0 )( 0) ( o alternativamente 0 ) I ( )( 0 ). ( (B.7) (B.6)

Asint oticamente ambos contrastes son equivalentes, y ambos se conocen como contrastes de Wald ; pueden consultarse m as detalles en Lehmann (1983), Cap. 6 o Garthwaite et al. (1995), Cap. 3 y 4.
APENDICE B. ALGUNOS PRERREQUISITOS ESTAD ISTICOS.
226
B.3.
Contraste raz on generalizada de verosimilitudes
Supongamos una hip otesis nula H0 que prescribe para el vector de par ametros un subespacio h. Supongamos h es un subespacio de M , y dim(h) = q < p = dim(H ). Supongamos, nalmente, que L( , Y ) es la funci on de verosimilitud y h = arg m ax L( , Y )
h
(B.8) (B.9)
M = arg m ax L( , Y ).
M
Entonces, en condiciones muy generales, que no requieren que Y siga una distribuci on particular, se verica que bajo H0 , h , Y ) L( 2 2 loge (pq ) . M , Y ) L(

(B.10)
Por lo tanto, un contraste de la hip otesis H0 puede obtenerse comparando el estad stico en el lado izquierdo de (B.10) con el cuantil 2 (pq ); ; valores del estad stico mayores que dicho cualtil conducir an al rechazo de la hip otesis nula.
Ap endice C
Regresi on en S-Plus y R.
C.1. El sistema estad stico y gr aco S-Plus
El lenguaje y sistema estad stico S fue desarrollado en ATT a principios de los ochenta. Es una s ntesis afortunada de simplicidad, sintaxis consistente, exibilidad, e integraci on con el sistema operativo UNIX, sobre el que se desarroll o y para el que fue principalmente desarrollado. Incorpora conceptos y ventajas de muchos lenguajes. El manejo de vectores y matrices, y la facilidad para denirlos, empalmarlos, y operar con ellos recuerda al lenguaje APL. El uso de listas es reminiscente de LISP. La sintaxis, el convenio de paso de argumentos por valor, y la forma de denir funciones son similares a los que existen en C. Sobre todo ello, S a nade un conjunto bastante rico de funciones primitivas que hace f acil programar casi cualquier procedimiento. Las facilidades gr acas son tambi en excelentes. La referencia fundamental para utilizar S es Becker et al. (1988). Hay una versi on comercial de S (S-Plus, de Insightful, Inc.) que es un superconjunto del S descrito en Becker et al. (1988); para ella existen manuales espec cos. Las funciones m as modernas entre ellas, algunas de inter es para an alisis de regresi on est an descritas en Chambers and Hastie (1992).
C.2.
El sistema estad stico y gr aco R
R comenz o siendo un paquete estad stico no muy diferente de S, cuya funcionalidad pretend a replicar manteniendo una losof a de c odigo fuente disponible. Puede verse una descripci on en Ihaka and Gentleman (1996). Adicionalmente puede consultarse Venables et al. (1997) (traducci on castellana Venables et al. (2000)), o el manual Venables and Ripley (1999a) y sus complementos Venables and Ripley (1999b). 227
EN S-PLUS Y R. APENDICE C. REGRESION
228
En la actualidad contin ua manteniendo una buena compatibilidad aunque con diferencias sustanciales en su arquitectura (que por lo general s olo precisa conocer el usuario avanzado). No replica toda la funcionalidad de S-Plus en algunos aspectos, pero la amplia en otros. Esta siendo muy activamente desarrollado por la comunidad universitaria e investigadora internacional. Su f acil extensibilidad y disponibilidad gratuita hace que sea el paquete en que primero se implementan m etodos que tardan en encontrar hueco en los paquetes comerciales. En http://cran.r-project.org/ o sus espejos en los cinco continentes pueden encontrarse las versiones m as recientes para multitud de sistemas operativos, las fuentes y los a nadidos que la comunidad de usuarios ha ido contribuyendo. Las secciones siguientes describen algunas funciones espec cas para an alisis de regresi on. Dado que pueden producirse modicaciones de una versi on a otra, la informaci on autorizada y denitiva debe buscarse en los manuales. Las mismas funciones est an disponibles en R, con funcionalidad equivalente pero posibles ligeras diferencias en los argumentos y resultados. De nuevo la consulta de los manuales o ayuda on line es obligada para contrastar lo que sigue. Finalmente, en la Secci on C.3 se presenta una tabla recogiendo la correspondencia entre algunas funciones similares de S-Plus y R.
229
La funci on lsfit.
Es el principal bloque constructivo de cualquier procedimiento de regresi on. Ajusta una regresi on (opcionalmente ponderada) y devuelve una lista con los coecientes estimados, los residuos, y otra variada informaci on de inter es. La sintaxis es la siguiente: lsfit(x, y, wt=<<ver texto>>, intercept=T, tolerance=1.e-07, yname=NULL) Argumentos. Los argumentos obligatorios son los siguientes: x Vector o matriz de regresores. No es preciso inclu r una columna de unos: se incluye autom aticamente a menos que especiquemos intercept=F. Ha de tener tantas las como el argumento y. Puede tener valores perdidos. x puede ser un vector cuando estamos regresando solo sobre una variable. y Variable respuesta. Es un vector, o una matriz. Si se trata de una matriz, se regresa cada una de sus columnas sobre los regresores en x. De esta manera, una sola invocaci on de lsfit puede realizar un gran n umero de regresiones, cuando los regresores son comunes a todas ellas. Tambien se permiten valores perdidos. Los restantes argumentos son optativos. Si no se especican, se supone que sus valores son los que aparecen en el ejemplo de sintaxis m as arriba. Sus signicados son los siguientes: wt Vector de ponderaciones, si se quiere realizar regresi on ponderada. Ha de tener la misma longitud que y. Salvo que se especique, la regresi on pondera igualmente todas las observaciones. Si es T, se incluye una columna de unos. Si no deseamos columna de unos, es preciso especicar intercept=F.
intercept
tolerance Valor num erico para especicar cuando consideramos una matriz singular. yname Nombre de la variable y en la regresi on.
230
Resultados. La funci on lsfit devuelve una lista con los siguientes componentes: coef de estimadores, en forma de matriz con una columna para Vector cada regresi on, si se han hecho varias a la vez.
residuals Vector (o matriz, si y era una matriz) conteniendo los residuos ordinarios . wt Si especicamos ponderaciones, nos son devueltas inalteradas. Esto es u til si guardamos la lista de resultados, pues permite con posterioridad saber a qu e tipo de regresi on corresponden.
intercept Valor l ogico, T o F. qr Objeto representando la factorizaci on QR de la matriz x de regresores. V ease la funci on qr en Becker et al. (1988). Tiene utilidad para computar algunos resultados.
La funci on leaps.
La funci on leaps realiza all-subsets regresi on. No debe invocarse con un n umero excesivo de regresores, al crecer el esfuerzo de c alculo exponencialmente con este. La sintaxis es: leaps(x, y, wt, int=TRUE, method= Cp, nbest=10, names, df=nrow(x))
Argumentos. Los argumentos x, y, wt tienen el mismo signicado que en la funci on lsfit. El argumento int se utiliza para indicar si se desea inclu r columna de unos (por omisi on, s ). Los dem as argumentos
EN S-PLUS Y R. APENDICE C. REGRESION tienen los siguientes signicados:
231
method Argumento alfanum erico (entre dobles comillas, por tanto) especicando el criterio que se desea emplear en la selecci on de las mejores regresiones. Puede ser Cp (Cp de Mallows, el valor por omisi on), 2 2 r2 (el R ), y adjr2 (valor R ). nbest names df N umero de regresiones que deseamos para cada tama no de modelo. Vector de nombres de los regresores. Grados de libertad de y (puede no coincidir con el n umero de las si ha sido previamente objeto de alguna manipulaci on. Un caso frecuente en Econom a es la desestacionalizaci on, que consume grados de libertad.
Resultados. Retorna una lista con cuatro elementos: Cp size label which Criterio de ajuste especicado como argumento. N umero de regresores (incluyendo, en su caso, la columna de unos. Vector de nombres de los regresores. Matriz l ogica. Tiene tantas las como subconjuntos de regresores devueltos, y la la i- esima tiene valores T o F seg un el regresor correspondiente haya sido o no seleccionado en el i- esimo subconjunto.
La funci on hat.
Se invoca as : hat(x, int=TRUE) en que x es argumento obligatorio y es la matriz de regresores. El argumento int toma el valor T por omisi on y se nala si se desea inclu r en la matrix x columna de unos. La funci on devuelve un vector con los elementos diagonales de la matriz de proyecci on X (X X )1 X (los pii del Cap tulo 11).
232
La funci on lm.
La funci on lm ajusta un modelo lineal. La sintaxis es: lm(formula,data,weights,subset,na.action,method="qr", model=F,x=F,y=F,...) Argumentos. El argumento weights se utiliza para hacer regresi on ponderada, de modo similar a como se hace con lsfit. Los dem as argumentos tienen los siguientes signicados: method M etodo de ajuste a emplear. Por omisi on, se utiliza la factorizaci on QR. Una data frame conteniendo los datos tanto de regresores como de variable respuesta. Una expresi on del tipo Resp Regr01 + Regre02 + log(Regre03) en que a la izquierda est a el regresando y a la derecha los regresores o funciones de ellos. Criterio para seleccionar las las de la tabla de datos que deseamos emplear.
data
formula
subset
na.action Acci on a tomar cuando alg un dato en una la de la tabla de datos es NA. Por omisi on es omitir dicha la. model,x,y Seleccionando estos argumentos como T se obtienen como resultado.
Resultados. Retorna un objeto de tipo lm.object, una estructura de datos compuesta que contiene los resultados del ajuste. Hay funciones especializadas en extraer los resultados y presentarlos de modo ordenado. Por ejemplo, summary(), residuals(), coefficients() o effects(). Por otra parte, el car acter objeto-orientado de S-Plus (una descripci on de esto referida a XLisp-Stat en la Secci on ??) hace que funciones como print() aplicadas a un objeto de tipo lm.object sepan como imprimirlo. Debe invocarse tras lm y ls y sobre los objetos que estas devuelven.
La funci on lm.influence.
La sintaxis es: lm.influence(ajuste)
233
Argumentos. ajuste es un objeto de tipo lm.object devuelto por lm. Resultados. La funci on lm.influence devuelve (salvo una constante) los coecientes de la curva de inuencia muestral (SIC).
La funci on ls.diag.
La sintaxis es: ls.diag(ls) Argumentos. La funci on ls.diag se invoca con un objeto de tipo ls (devuelto por lsfit) por argumento. Resultados. Produce como resultado una lista con los componentes siguientes: std.dev hat ==
SSE . N p
Los pii , elementos diagonales de la matriz de proyecci on P = 1 X (X X ) X . Residuos internamente studentizados (los ri en la notaci on del Cap tulo 11). Residuos externamente studentizados (los ti en la notaci on del Cap tulo 11). Un vector conteniendo las distancias de Cook (Di en la notaci on del Cap tulo 11). Un vector conteniendo los DFITS mencionados en el Cap tulo 11). Matriz de correlaci on de los par ametros estimados (es decir, la matriz de correlaci on obtenida de la de covarianzas 2 (X X )1 ). Desviaciones t picas estimadas de los par ametros estimados, i . Matriz de momentos (X X )1 .
std.res
stud.res
cooks
dfits correlation
std.err cov.unscaled
234
C.3.
Correspondencia de funciones para regresi on y ANOVA en S-Plus y R
Cuadro C.1: Equivalencia de funciones para regresi on y ANOVA en S-Plus y R.
En S-Plus add1 drop1 leaps ls.diag lsfit lm lm.influence multicomp step stepwise -
En R add1 drop1 leaps ls.diag lsfit lm lm.influence regsubsets step stepAIC p.adjust pairwise.t.test lm.ridge
Paquete: base base leaps base base base base leaps base MASS base ctest MASS
Funcionalidad: A nadir un regresor Eliminar un regresor Regresi on sobre todos los subconjuntos Diagn osticos Ajuste recta regresi on Ajuste recta de regresi on An alisis de inuencia Inferencia simult anea Regresi on sobre todos los subconjuntos Regresi on escalonada Regresi on escalonada Regresi on escalonada Ajuste p por simultaneidad Contrastes m as usuales Regresi on ridge
Adem as de las indicadas en la Tabla C.1, en R se dispone del paquete multcomp con varias funciones espec cas para inferencia simult anea.
Ap endice D
Procedimientos de c alculo.
D.1. Introducci on
(X X ) = X Y requiere, en su aproximaci on m as directa, la obtenci on de la inversa (ordinaria o generalizada) de (X X ). Hay procedimientos mucho menos costosos desde el punto de vista del c alculo que, adem as, permiten en algunos casos intuiciones interesantes y demostraciones de gran simplicidad. En lo que sigue se presenta uno de los m etodos de c alculo m as utilizados, y la construcci on en que se basa (la factorizaci on QR ). Se detalla tambi en la correspondencia entre la notaci on empleada y los resultados de algunas funciones de S que hacen uso de dicha factorizaci on.
La resoluci on de las ecuaciones normales,
D.2.
Transformaciones ortogonales.
m n ||Dx c ||2
x
Sea el problema, (D.1)
Podemos ver el problema como el de encontrar la combinaci on lineal de las columnas de D que mejor aproxima c , en t erminos de norma de la discrepancia. Dicho problema queda inalterado cuando realizamos una misma transformaci on ortogonal de las columnas de D y del vector c . En efecto, m n ||Q(Dx c )||2 = m n < Q(Dx c ), Q(Dx c ) >
x x
= m n (Dx c ) Q Q(Dx c )
x x
= m n ||Dx c ||2 235
APENDICE D. PROCEDIMIENTOS DE CALCULO. al ser Q ortogonal.
236
Denici on D.1 Sea D una matriz de orden n m. Supongamos que puede expresarse del siguiente modo: D = HRK en que: (i) H es n n y ortogonal. (ii) R es n m de la forma, R11 0 0 0 con R11 cuadrada de rango completo k m n(m, n). (iii) K es m m ortogonal. Se dice que HRK es una descomposici on ortogonal de D . En general, hay m as de una descomposici on ortogonal, dependiendo de la estructura que quiera imponerse a R. Si requerimos que R sea diagonal, tenemos la descomposici on en valores singulares. Podemos tambi en requerir que R sea triangular superior, o triangular inferior, obteniendo diferentes descomposiciones de D . La elecci on de una descomposici on ortogonal adecuada simplica enormemente la soluci on de (D.1). Los resultados fundamentales vienen recogidos en el siguiente teorema. Teorema D.1 Sea D una matriz de orden n m y rango k , admitiendo la descomposici on ortogonal, D = HRK . Sea el problema m n ||Dx y ||2
x
(D.2)
(D.3)
y denamos, H y = g = g1 k g2 n k
K x = =
1 k . 2 m k
APENDICE D. PROCEDIMIENTOS DE CALCULO. Figura D.1: Visualizaci on de la transformaci on de Householder.
237
u = v + ||v ||e1
||v ||e1 e1 ||v ||e1
u v) 2u||(u ||2
Sea 1 la soluci on ( unica) del sistema, R11 1 = g 1 . Entonces, todas las posibles soluciones del problema (D.3) son de la forma x = K 1 , 2
con 2 arbitrario. Cualquiera de esas soluciones da lugar al vector de residuos r = y Dx = H 0 g2
y en consecuencia, ||r || = ||g 2 ||. Existe un resultado interesante que muestra c omo es posible encontrar una transformaci on ortogonal que rota (y quiz a reeja) un vector v hasta abatirlo sobre el subespacio generado por otro, e1 . Se denomina transformaci on de Householder, y se obtiene de manera muy c omoda y simple como muestra el teorema siguiente. Teorema D.2 Sea v cualquier vector m 1 distinto de 0 . Existe una matriz ortogonal P m m tal que: Pv = ||v ||e1 (D.4)
APENDICE D. PROCEDIMIENTOS DE CALCULO. siendo

238
e1
= Esta matriz tiene por expresi on,
+1
0 . . .
(D.5)
si v1 0 1 si v1 < 0. uu ||u ||2
(D.6)
P = I 2 con u = v + ||v ||e1 . n: Demostracio Entonces (ver Figura D.1), u z
(D.7)
1 u+1 z . Tenemos en consecuencia, son ortogonales y v = 2 2
= v + ||v ||e1 = v ||v ||e1
(D.8) (D.9)
Pv
= = = = =
1 1 uu u + z ||u ||2 2 2 1 1 u u + z 2 2 1 1 u +v u 2 2 v u ||v ||e1 I 2
(D.10) (D.11) (D.12) (D.13) (D.14)
D.3.
Factorizaci on QR.
Teorema D.3 Sea una matriz X de orden (N p) y rango d m n(N, p). Existe siempre una matriz ortogonal Q de orden (N N ) y una matriz R trapezoidal superior vericando: X = QR Esquem aticamente, (D.15)
APENDICE D. PROCEDIMIENTOS DE CALCULO. X Q R
239
d n: Demostracio
N d
La prueba es constructiva, y reposa en la aplicaci on reiterada de la transformaci on de Householder a las columna de la matriz X . Sea x1 la primera de dichas columnas. Existe una transformaci on de Householder, de matriz ortogonal P1 que abate dicha primera columna sobre el e1 de la base can onica de Rn . Es decir,
P1 X =
Llamemos X1 a la matriz as obtenida, y consideremos su segunda columna eliminado su primer elemento. Los restantes, pueden verse como un vector en RN 1 , que puede tambien abatirse sobre el primer vector e1 de la base can onica de dicho subespacio multiplicando por una matriz de Householder P2 . Entonces, 1 0 P1 0 P2
(D.16)
APENDICE D. PROCEDIMIENTOS DE CALCULO.
240
reduce la matriz X de la forma que esquem aticamente se muestra a continuaci on:
1 0 P1 X = 0 P2
Por consiguiente, si llamamos 1 0 P2 = 0 P2 el producto P2 P1 reduce las dos primeras columnas de X a forma escalonada. Como tanto P1 como P2 son ortogonales, su producto tambi en lo es. F acilmente se comprueba que el proceso puede continuarse hasta obtener un producto de matrices ortogonales Q = Pd Pd1 . . . P1 que deja X con sus d primeras columnas escalonadas. Adem as, como el rango de X era d, necesariamente las u ltimas N d las de R son de ceros. En denitiva, Q X = R y por tanto X = QR, lo que prueba el teorema.
D.4.
Bibliograf a
Hay abundante literatura sobre la factorizaci on QR y procedimientos similares de aplicaci on al problema (D.1). Casi cualquier texto de C alculo Num erico contiene una discusi on de la factorizaci on QR. Una referencia fundamental que contin ua vigente es Lawson and Hanson (1974). Una exposici on breve, clara, y con abundantes referencias a la literatura m as reciente puede encontrarse en Goodhall (1993). Ansley (1985) muestra como, al margen y adem as de su utilidad como procedimiento num erico, la factorizaci on QR arroja luz sobre, y simplica la demostraci on de, bastantes resultados en regresi on lineal.
Ap endice E
Enunciados y demostraciones formales

Se incluyen aqu teoremas, desarrollos y demostraciones omitidos en el curso de la exposici on, por su nivel de formalismo o por no ser esenciales.
E.1.
Existencia y unicidad de proyecciones.
Denici on E.1 Sea {vn } una sucesi on de vectores en H , espacio vectorial sobre el cuerpo de los n umeros reales R con las operaciones suma de vectores y producto por n umeros reales, denidas ambas del modo usual. Supongamos denido sobre H un producto interno < , > y correspondiente norma v 2 = < v, v >. Decimos que {vn } es una sucesi on de Cauchy si para cualquier > 0 hay un N ( ) tal que m, n N ( ), vn vm < ; es decir, si prejado un arbitrariamente peque no, existe siempre un N ( ) tal que cualesquiera vectores vm , vn que aparezcan en la sucesi on en lugar posterior al N ( ) distan entre s menos de . Denici on E.2 Sea H un espacio vectorial como en la Denici on E.1. Decimos que tiene estructura de espacio de Hilbert si es completo, es decir, si contiene los l mites de todas las sucesiones de Cauchy de vectores en H , innito-dimensional y separable. Cualquier subespacio vectorial de un espacio de Hilbert, es a su vez espacio de Hilbert. Teorema E.1 Sea H un espacio de Hilbert, y M un subespacio del mismo. Para cualquier vector y H existe siempre un u nico vector v = PM y , proyecci on de y sobre M . Se verica que: y v
2
m n y z
z M
(E.1)
241
APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES242
Demostraci on. Veamos1 primero la existencia. Sea d = m nz M y z 2 . Entonces, necesariamente existir a en M alg un vector v 1 tal que: y v1 2 d + 1; de no haberlo, m n y z 2 tendr a que ser mayor que d + 1, contra la hip otesis. An alogamente, para cualquier n umero natural n existir a vn vericando: y vn 2 d + 1/n. Mostraremos que la sucesi on {vn } es de Cauchy. Mostraremos tambi en que su l mite unico verica las condiciones denitorias de proyecci on de y sobre M . Probaremos, en n, que ning un otro vector en M distinto del l mite anterior verica las mismas condiciones, as como la propiedad de m nima distancia en el enunciado. Sea: D= (y vn ) (y vm ) (y vn )
2 2
(y vn ) + (y vm )
2
(E.2)
Podemos escribir: D = + = +
2 2
2 (y vn ) D = =
(y vn )
+ 2 (y vm )
2 2
+ (y vm )
(y vm )
2 < (y vm ), (y vn ) >
2 2
+ 2 < (y vm ), (y vn ) >
(E.3)
Por otra parte, tenemos: (vm vn )

1 ) (vn + vm ) + 2y 2 ( 2
2 2
(vm vn )
2
+ 4 y (1 ) (vn + vm ) 2
2
(E.4)
Igualando (E.3) y (E.4) obtenemos: vm vn = 2 y vn + 2 y vm

2 2
4 y ( 1 ) (vn + vm ) 2
(E.5)
Como la norma al cuadrado del u ltimo t ermino de (E.5) es al menos d, tenemos: vm vn

2
2 (y vn ) (y vn )
2 2
+ 2 (y vm )
4d
(E.6)
Sea > 0. Para m, n mayores que N (/4), tenemos: d + /4 (E.7) (E.8)
Demostraci on tomada de Anderson (1971). Es m as general de lo que estrictamente necesitamos, pero merece la pena enunciar este Teorema as para poderlo emplear inalterado en otros contextos (por ejemplo, en predicci on lineal de procesos estoc asticos). Una demostraci on m as simple y menos general puede encontrarse en Arnold (1981), p ag. 34.
(y vm )
d + /4.

Sustituyendo esto en (E.5) obtenemos: (vm vn )
2
2(d + /4) + 2(d + /4) 4d = ,
(E.9)
luego la sucesi on {vn } es de Cauchy. Tendr a por tanto un l mite u nico v en M (M es completo), y f acilmente se deduce que y v 2 = d. Por otra parte, para cualquier z M y para cualquier real se tiene: y v z
2
= d+ d.
y v
2
+ 2 z
2
2 < y v, z >
2 < y v, z(E.10) > (E.11) (E.12)
Por tanto: 2 z
2
2 < y v, z >
2
0,
(E.13)
2 < y v, z > . (E.14)
Como (E.14) se ha de cumplir para cualquier posible valor de , ha de suceder que < y v, z >= 0, y como z es arbitrario en M , se deduce que (y v ) M . Como adem as hemos visto que v M , tenemos que v es proyecci on de y en M (Denici on 1.1). El desarrollo anterior muestra tambi en que v es la mejor aproximaci on de y por un vector de M (en t erminos de la norma denida). Veamos, en n, que ning un otro vector u M, u = v puede ser proyecci on de y en M , ni vericar y u 2 = d. Supongamos que hubiera un tal u. Entonces, (y u) = (y v ) + (v u). Adem as, (y v ) M , y (v u) M . Por tanto, y u
2
= = =
< y u, y u > y v
2
< (y v ) + (v u), (y v ) + (v u) > +

2
y v
vu
+ 2 < y v, v u >
2
ya que 2 < y v, v u > = 0, implicar a u = v .
vu
0, y
vu
= 0
Observaci on E.1 Qu e trascendencia tiene en el enunciado del Teorema E.1 que H (y, en consecuencia, su subespacio M ) tengan estructura de espacio de Hilbert? Examinando la demostraci on del Teorema E.1, vemos que se da por supuesta la existencia en M del l mite de la sucesi on {vn } construida. Si M no fuera espacio de Hilbert, tal l mite podr a no existir en M .
Debemos preocuparnos de vericar que estamos ante un espacio de Hilbert? C omo hacerlo? Cuando los regresores generan un espacio de dimension nita, nada de ello es preciso. Cuando se hace an alisis de series temporales, la mejor predicci on lineal en el momento t del valor de la misma en t + 1 (predicci on una etapa hacia adelante) se hace proyectando yt+1 sobre el subespacio que generan yt , yt1 , yt2 , . . . (todo el pasado de la serie). Este pasado, al menos en principio, puede ser innito dimensional y aqu s tiene objeto suponer que genera un espacio de Hilbert para garantizar la existencia de la proyecci on. N otese, incidentalmente, que en este problema emplear amos una norma que no ser a la eucl dea ordinaria, sino la inducida por el producto interno < yt , ys >= E [yt ys ] (supuesta estacionariedad y media cero). Pueden verse m as detalles en la obra ya citada Anderson (1971), Secci on 7.6. Ejemplos del uso del espacio de Hilbert en series temporales pueden verse en Davis (1977), Cap. 2, o Shumway and Stoer (2006), Ap endice B.1.
Observaci on E.2
E.2.
Proyecci on sobre subespacios h = M K (B ).
El Lema 4.4 dec a: Sea B una matriz cualquiera, y K (B ) el n ucleo de la aplicaci on lineal que representa. Sea M un subespacio de H y h = M K (B ). Entonces, M h = R(PM B ). n: Demostracio En primer lugar, M h puede expresarse de otro modo que har a m as simple la demostraci on. En efecto, M h = M R(B ); (E.15)
v ease el Ejercicio 4.2, p ag. 57. Probaremos ahora que ambos subespacios considerados en el enunciado son el mismo, utilizando la expresi on (E.15), y mostrando la mutua inclusi on.
APENDICE E. ENUNCIADOS Y DEMOSTRACIONES FORMALES245 i) M h R(PM B ). En efecto, x M h = = = = = x M R (B ) a : x = B a PM x = PM B a x = PM B a x R (P M B )
ii) M h R(PM B ). Es inmediato, ya que, x R(PM B ) = x R(PM ) = x M Sea ahora z h. Entonces, como h = M K (B ), z M y z K (B ). Por tanto: < x, z > = x z = a BPM z = a Bz = 0 Por tanto, x M y adem as x h, luego x M h , lo que prueba ii) y naliza la demostraci on del lema.
Bibliograf a
Abadir, K. and Magnus, J. (2005). Matrix Algebra. Cambridge Univ. Press. Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model Identication. In Proc. 5th. Hawai Int. Conf. on System Sciences, pp. 249250. Akaike, H. (1974). Information Theory and an Extension of the Maximum Likelihood Principle. In B. N. Petrov and F. Csaki, editors, Second International Symposium on Information Theory, pp. 267281, Budapest: Akademia Kiado. Akaike, H. (1991). Information Theory and an Extension of the Maximum Likelihood Principle. In Johnson and Kotz, editors, Breakthroughs in Statistics, volume 1, p. 610 y ss., Springer Verlag. Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York: Wiley. Ansley, C. F. (1985). Quick Proofs of Some Regression Theorems Via the QR Algorithm. As, 39, 5559. Arnold, S. F. (1981). The Theory of Linear Models and Multivariate Analysis. New York: Wiley. Atkinson, A. C. (1985). Plots, Transformations and Regression. Oxford Univ. Press. Barnett, V. and Lewis, T. (1978). Outliers in Statistical Data. New York: Wiley. Becker, R. A., Chambers, J. M., and Wilks, A. R. (1988). The New S Language. A Programming Environment for Data Analysis and Graphics. Pacic Grove, California: Wadsworth & Brooks/Cole.
246
BIBLIOGRAF IA
247
Belsley, D. A., Kuh, E., and Welsch., R. E. (1980). Regression Diagnostics: Identifying Inuential Data and Sources of Collinearity. New York: Wiley. Ben-Israel, A. and Greville, T. N. E. (1974). Generalized Inverses: Theory and Aplications. New York: Wiley. Bishop, C. M. (1996). Neural Networks for Pattern Recognition. Oxford: Clarendon Press. Box, G. E. P. and Tidwell, P. W. (1962). Transformations of the Independent Variables. Technometrics, 4, 531550. Brown, P. J. (1993). Measurement, Regression and Calibration. Clarendon Press/Oxford, Signatura: 519.235.5 BRO. Chambers, J. M. (1998). Programming with Data. Mathsoft. Chambers, J. M. and Hastie, T. J. (1992). Statistical Models in S. Pacic Grove, Ca.: Wadsworth & Brooks/Cole. Cook, R. D. and Weisberg, S. (1982). Residuals and Inuence in Regression. New York: Chapman and Hall. Cornillon, P.-A. and Matzner-Lober, E. (2011). R egression avec R. Springer Verlag. Cox, D. R. and Hinkley, D. V. (1974). Theoretical Statistics. London: Chapman and Hall, 1979th edition. Cox, D. R. and Hinkley, D. V. (1978). Problems and Solutions in Theoretical Statistics. London: Chapman & Hall. Dahlquist, G. and Bj orck, A. (1974). Numerical Methods. Englewood Clis, N.J.: Prentice Hall. Dalgaard, P. (2002). Introductory Statistics with R. Statistics and Computing, Springer-Verlag, Signatura: 519.682 DAL. Davis, M. H. A. (1977). Linear Estimation and Stochastic Control. Chapman and Hall. de Leeuw, J. (2000). Information Theroy and an Extension of the Maximum Likelihood Principle by Hirotugu Akaike. Disponible en http://www.stat.ucla.edu/~deleeuw/work/research.phtml.
BIBLIOGRAF IA
248
Draper, N. R. and Smith, H. (1998). Applied Regression Analysis. Wiley, third edition, Signatura: 519.233.5 DRA. Eubank, R. L. (1988). Spline Smoothing and Nonparametric Regression. New York: Marcel Dekker. Faraway, J. J. (2005). Linear Models with R. Chapman & Hall/CRC, Signatura: 519.233 FAR. Fox, J. (2002). An R and S-Plus Companion to Applied Regression. Sage Pub. Garthwaite, P. H., Jollie, I. T., and Jones, B. (1995). Statistical Inference. London: Prentice Hall. Gentle, J. (2007). Matrix Algebra: Theory, Computations, and Applications in Statistics. Springer. Goodhall, C. R. (1993). Computation Using the QR Decomposition. In C. R. Rao, editor, Handbook of Statistics, chapter 13, pp. 467508, Amsterdam: North-Holland. Grafe, J. H. (1985). Matem aticas Universitarias. Madrid: MacGraw-Hill. Gunst, R. F. and Mason, R. L. (1980). Regression Analysis and Ist Applications. A Data Oriented Approach. New York: Marcel Dekker, Inc. Haitovsky, Y. (1969). A Note on Maximization of R . As, 23, 2021. Harrell, F. E. (2001). Regression Modelling Strategies. Springer-Verlag, Signatura: 519.233.5 HAR. Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer-Verlag, Signatura: 519.237.8 HAS. Hawkins, D. M. (1980). Identication of Outliers. London: Chapman & Hall. Haykin, S. (1998). Neural Networks. A Comprehensive Foundation. Prentice Hall, second edition. Hocking, R. R. (1976). The Analysis and Selection of Variables in Linear Regression. Biometrics, 32, 149. Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Non-Orthogonal Problems. Technometrics, 12, 5567.
2
BIBLIOGRAF IA
249
Hoerl, A. E., Kennard, R. W., and Baldwin, K. F. (1975). Ridge Regression: Some Simulations. Cstat, 4, 105123. Hosmer, D. W. and Lemeshow, S. (1989). Applied Logistic Regression. Wiley. Ihaka, R. and Gentleman, R. (1996). R: a Language for Data Analysis and Graphics. J. of Comp. and Graphical Stats., 5, 299314. Jollie, I. T. (1986). Principal Components Analysis. New York: SpringerVerlag. Kennedy, W. J. (1980). Statistical Computing. New York: Marcel Dekker. Kleinbaum, D. G. (1994). Logistic Regression. A Self-Learning Test. Springer Verlag. Knuth, D. (1986). The TEX Book. Reading, Mass.: Addison Wesley. Knuth, D. K. (1968). Fundamental Algorithms. In The Art of Computer Programming, volume 1, Reading, Mass.: Addison-Wesley. Kuhnert, P. and Venables, W. (2005). An Introduction to R: Software for Statistical Modelling and Computing. CSIRO Mathematical and Information Sciences, Cleveland, Australia. Lange, K. (1998). Numerical Analysis for Statisticians. Springer, Signatura: 519.6 LAN. Lawless, J. F. and Wang, P. (1976). A Simulation Study of Ridge and Other Regression Estimators. Communications in Statistics, 5, 307323. Lawson, C. L. and Hanson, R. J. (1974). Solving Least Squares Problems. Englewood Clis, N.J.: Prentice-Hall. Legg, S. (1996). Minimum Information Estimation of Linear Regression Models. In D. L. Dowe, K. B. Korb, and J. J. Oliver, editors, ISIS: Information, Statistics and Induction in Science, pp. 103111, Singapore: World Scientic. Lehmann, E. L. (1983). Theory of Point Estimation. New York: Wiley. Lund, R. E. (1975). Tables for the Approximate Test for Outliers in Linear Regression. Technometrics, 17, 473476.
BIBLIOGRAF IA
250
Magnus, J. and Neudecker, H. (1988). Matrix Dierential Calculus with Applications in Statistics and Econometrics. Wiley. Maindonald, J. H. (2000). Data Analysis and Graphics Using R - An Introduction. Miller, A. (2002). Subset Selection In Regression, Second Editon. Chapman & Hall/CRC. Myers, R. H. (1990). Classical and Modern Regression with Applications. Boston: PWS-KENT Pub. Co. Pe na, D. (2002). Regresi on y Dise no de Experimentos. Alianza Editorial. Rao, C. R. and Mitra, S. K. (1971). Generalized Inverse of Matrices and Its Applications. John Wiley & Sons, New York [etc.]. Ripley, B. D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, 519.237.8 RIP. Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. Singapore: World Scientic. Ryan, T. P. (1997). Modern Regression Methods. Wiley, Signatura: 519.233.4 RYA. Searle, S. R. (1971). Linear Models. New York: Wiley. Searle, S. R. (1982). Matrix Algebra Useful for Statistics. Wiley. Seber, G. (2007). A Matrix Handbook for Statisticians. Wiley. Seber, G. A. F. (1977). Linear Regression Analysis. New York: Wiley. Shapiro, S. S. and Francia, R. S. (1972). An Approximate Analysis of Variance Test for Normality. Jasa, 67, 215216. Shapiro, S. S. and Wilk, M. B. (1965). An Analysis of Variance Test for Normality (complete Samples). Biometrika, 52, 591611. Shumway, R. H. and Stoer, D. S. (2006). Time Series Analysis and Its Applications. With R Examples. Springer Verlag. Silvey, S. D. (1969). Multicollinearity and Imprecise Estimation. Jrssb, 31, 539552. Silvey, S. D. (1980). Optimal Design. London: Chapman & Hall.
BIBLIOGRAF IA Stapleton, J. H. (1995). Linear Statistical Models. New York: Wiley. Theil, H. (1971). Principles of Econometrics. New York: Wiley.
251
Thisted, R. A. (1988). Elements of Statistical Computing. New York: Chapman & Hall. Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, Ser. B, 58, 267288. Troc oniz, A. F. (1987a). Modelos Lineales. Bilbao: Serv. Editorial UPV/EHU. Troc oniz, A. F. (1987b). Probabilidades. Estad stica. Muestreo. Madrid: Tebar-Flores. Tusell, F. (2003). Estad stica Matem atica. 154 p., notas de clase. Ugarte, M., Militino, A., and Arnholt, A. (2008). Probability and Statistics with R. CRC Press. Venables, B., Smith, D., Gentleman, R., and Ihaka, R. (1997). Notes on R: A Programming Environment for Data Analysis and Graphics. Dept. of Statistics, University of Adelaide and University of Auckland, Libremente disponible en Internet. Venables, B., Smith, D., Gentleman, R., Ihaka, R., and M achler, M. (2000). Notas sobre R: Un Entorno de Programaci on para An alisis de Datos y Gr acos. Traducci on espa nola de A. Gonz alez y S. Gonz alez. Venables, W. and Ripley, B. (1999a). Modern Applied Statistics with S-Plus. New York: Springer-Verlag, third edition. Venables, W. and Ripley, B. D. (1999b). R Complements to Modern Applied Statistics with S-Plus. En http://www.stats.ox.ac.uk/pub/MASS3. Wang, C. (1993). Sense and Nonsense of Statistical Inference. New York: Marcel Dekker. Webster, J. T., Gunst, R. F., and Mason, R. L. (1974). Latent Root Regression Analysis. Technometrics, 16, 513522. Yanai, H., Takeuchi, K., and Takane, Y. (2011). Projection Matrices, Generalized Inverse Matrices and Singular Value Decomposition, volume 34. Springer Verlag.

R

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

R

Uploaded by

Copyright:

Available Formats

An alisis de Regresi on.

Introducci on Te orica y Pr actica basada en R

Bilbao, Octubre 2011

iii 139 150 158 162

D Procedimientos de c alculo. 235 D.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

El modelo de regresi on lineal.

Intervalo en minutos (I)

Duracin en minutos (D)

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION

La estimaci on m nimo cuadr atica como problema de aproximaci on vectorial.

+ La ecuaci on matricial y = X puede reescribirse as :

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION

Figura 1.2: El vector PM y es la proyecci on de y sobre M (plano horizontal).

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION Complementos y ejercicios

1.2 En R para crear un vector y asignarlo a la variable x

1.4 El producto interno eucl deo de dos vectores x e y puede

LINEAL. CAP ITULO 1. EL MODELO DE REGRESION

1.5 En R rige la regla del reciclado, que permite operar con

1.8 Cuando escribimos expresiones como

1.11 Demu estrese que los siguientes cuatro vectores de R3 son

dos en el Problema 1.11, tres que formen base de R3 .

1.12 ( 1.11) Selecci onese, de entre los cuatro vectores indica-

1.13 ( 1.10) Los siguientes dos vectores generan un subes-

PM x es una aplicaci on lineal.

Estimaci on m nimo cuadr atica.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

0 xi0 1 xi1 . . . p1 xi,p1 yi

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. 3. Se verica que (I P )X = 0. n: Demostracio

Una obtenci on alternativa

(yi 0 xi0 1 xi1 . . . p1 xi,p1 )2 ,

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. o equivalentemente X y = (X X ) ,

Propiedades del estimador m nimo cua. dr atico

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

E [(X X )1 X (X + ) ][(X X )1 X (X + ) ] E [(X X )1 X ][(X X )1 X ] E [(X X )1 X X (X X )1 ] (X X )1 X 2 IX (X X )1 2 (X X ) 1 .

(2.25) (2.26) (2.27)

= [(X X ) X + D ](X + ) = [(X X )1 X + D ] .

donde (2.27) se ha obtenido haciendo uso de DX = 0. Llevando (2.27) a (2.24), obtenemos:

(2.29) (2.30) (2.31)

Estimaci on de la varianza de la perturbaci on.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. n: Demostracio Como = P Y = X (X X ) 1 X Y , X tenemos que ) = (I P )Y (Y X

(2.33) (2.34) (2.35)

y 2 = SSE/(N p) es por tanto un estimador insesgado de 2 .

R: Ejemplo 2.1 (c alculo de los estimadores MCO)

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

[1,] [2,] [3,] [4,] [5,] [6,]

R: Ejemplo 2.2 Todos los c alculos anteriores pueden hacerse

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

48.78812 -23.94068 0.42874 -0.60529

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

Observaci on 2.9 Cuando no hay columna de unos algunos

Algunos lemas sobre proyecciones.

en virtud de la ortonormalidad de los vectores {vi }. Entonces, u = PM y puede escribirse as :

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

es compatible, una soluci on viene dada por z = D c, siendo D una pseudoinversa.

Cf. Searle (1971), Teorema 8, p ag. 26.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA. Complementos y ejercicios

M CAP ITULO 2. ESTIMACION INIMO CUADRATICA.