You are on page 1of 8

Verificacin de Calidad de Modelos en Regresin Lineal

Software Estadstico de Regresin ERLA


Autores:
Juan Carlos Buenao Cordero, Celia De La Cruz Cedeo
Coautor:
Gaudencio Zurita Herrera
Instituto de Ciencias Matemticas
Escuela Superior Politcnica del Litoral
Km. 30.5 va Perimetral, Edificio 32D, Guayaquil - Ecuador
jucabuen@espol.edu.ec, adela@espol.edu.ec, gzurita@espol.edu.ec

Resumen
En un anlisis de Regresin Lineal, existen varios supuestos o premisas que deben ser considerados al momento
de determinar la validez de un modelo, puesto que el no cumplimiento de alguno de estos supuestos podra
conducirnos a modelos inestables, de ser as, un valor alto del estadstico R2 o R2 ajustado no garantiza que el
modelo se ajuste bien a los datos. Entre los principales supuestos que se realizan estn: La distribucin del error
normal con media 0 y varianza 2 constante, la no correlacin de los errores y la relacin no lineal entre las
variables de explicacin. Por otra parte los estadsticos de resumen como t, F o R 2, los Coeficientes de Regresin y
la Media Cuadrtica del Error son sensibles a la presencia de valores aberrantes o atpicos. En este artculo se
revisan los mtodos ms usados, para verificar el cumplimiento de estos supuestos, detectar la presencia de
valores aberrantes y puntos de influencia a travs de su implementacin y correspondiente validacin en un
software estadstico especializado en la tcnica de Regresin Lineal llamado ERLA (Estadstica de Regresin
Lineal Avanzada), desarrollado por estudiantes del Instituto de Ciencias Matemticas de la ESPOL.
Palabras Claves: Regresin Lineal, Supuestos, Adecuacin del Modelo, Implementacin, Validacin, Software,
ERLA.

Abstract
In Linear Regression Analysis, there are assumptions and premises that must be considered to determine the
validity of a model. Since non-compliance with any of these assumptions could lead to unstable models, if so, a high
value of R2 and adjusted R2 does not guarantee that the model fits the data well. Among the major assumptions of
Linear Regression are: The normal error distribution with mean 0 and constant variance 2, non-correlation of the
errors and the non-linear relationship between the variables of explanation. Moreover summary statistics such as t,
F or R2, Regression Coefficients and Mean Square of Error are sensitive to the presence of outliers or atypical
values. This article reviews the methods used to verify compliance with these assumptions, the presence of outliers
and leverage points through its implementation and validation by using a Linear Regression-oriented software
named ERLA (Advanced Linear Regression Statistics), developed by students of the Institute of Mathematical
Sciences at ESPOL.
Keywords: Linear Regression, Assumptions, Model Adequacy, Deployment, Validation, Software, ERLA.

1. Introduccin
La Regresin Lineal es una de las tcnicas
estadsticas ms poderosas y verstiles utilizada en
diversas reas, entre ellas la medicina y los negocios,
ya que esta tcnica permite explorar y cuantificar la
relacin entre una variable llamada variable de
respuesta, explicada o pronosticada Y, y una o ms
variables predictoras o variables de explicacin X1,
X2,, Xp-1 siempre y cuando stas sean cuantitativas.

Debido a la importancia que demandan las


conclusiones a las cuales se llega despus de obtener
un modelo, resulta imprescindible evaluar la calidad
del mismo. Para ello existen numerosos mtodos
estadsticos basados principalmente en el anlisis de
residuales, recurdese que:
Dado el modelo de Regresin Lineal:

yi 0 1 x1i 2 x2i ... ( p 1) x( p 1)i i


Para i=1,2,,n

El eje vertical de sta grfica es construido a partir


de la inversa acumulada de la normal estndar, razn
por la que su valor vara entre 0 y 1. Vase Figura 2.

Se define al error
i yi E[ yi ] donde

F-1()

0,90

1,036
0,842
0,674
0,524
0,385
0,253
0,126
0
-0,126
-0,253
-0,385
-0,524
-0,674
-0,842
-1,036

0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15

0,95

1,282

0,10

-1,645

0,05

-1

-1,282

0,0

0,1

0,2

0,3

Adems se trabaja bajo los supuestos de que:


- La distribucin del error i es normal con media cero.
- La varianza de i es constante.
- Los errores i y j para ij no estn correlacionados.
- Las variables de explicacin Xi y Xj para ij no estn
correlacionadas.

0,4

yi b0 b1 x1i b2 x2i ... bp 1 x( p 1) i

Grfica de distribucin

ei i yi yi ,

Normal; Media=0; Desv.Est.=1

Y a los residuales como los estimadores del error:

1,645

45 282 036 842 674524385253126000126253385524674 842 036 282 645


,6
,
, , , , , , , , , , , , , , ,
,
1,
-1 -1 -0 -0 -0 -0 -0 -0 0 0 0 0 0 0 0 1 1

E[ yi ] 0 1 x1i 2 x2i ... p 1 x( p 1)i

Figura 2. Escala de Probabilidad Normal


Densidad

No slo el no cumplimiento de los supuestos antes


descritos, puede afectar la calidad del modelo de
regresin lineal sino tambin la inclusin de valores
aberrantes o puntos de influencia. A continuacin se
describen los mtodos ms usados para identificar este
tipo de inadecuaciones. Adems se explica brevemente
cmo aplicar stos mtodos en el Software estadstico
de Regresin ERLA.

Sean e[1], e[2],, e[n] los residuales ordenados en


forma ascendente. Si se grafica e[i] en funcin de la
distribucin
acumulada
F(e[i])=(i-0.5)/n,
para
i=1,2,,n en un grfico de probabilidad normal, los
puntos deberan aproximarse a una recta, si es que la
distribucin de probabilidad de los e[i] es normal.

3. Homocedasticidad - Varianza Constante


2. Normalidad
Entre los mtodos que permiten verificar si la
distribucin del error es normal, se pueden mencionar
los mtodos de bondad de ajuste y el grfico de
probabilidad normal.

2.1. Grfico de Probabilidad Normal

Una manera sencilla de verificar si la varianza del


error i es constante es realizando un grfico de los
residuales ei contra los valores ajustados y i . Si la
varianza es constante se esperara que los errores
flucten alrededor del eje horizontal, y que puedan
ubicarse en una banda; caso contrario puede ser que la
varianza no sea constante Vase Figura 3.

El Grfico de Probabilidad Normal es un grfico


diseado para que al graficarse la distribucin normal
acumulada se bosqueje una lnea recta. Vase Figura 1

Figura 3. Residuales ei vs. Valores ajustados y i

4. Errores no correlacionados
Figura 1. Grfico de Probabilidad Normal

Otro de los supuestos que se realiza en un anlisis


de Regresin Lineal es que los errores no estn

correlacionados, y; para verificar que este supuesto se


cumpla se pueden usar dos mtodos:

4.1. Grfico de los residuales vs. Secuencia u


orden

2
n
ei ei 1
d i 2 n
2
ei
i 2

Al graficar los residuales de manera ordenada en el


tiempo o espacio es posible detectar la presencia de
correlacin entre los errores. Si estos muestran algn
tipo de patrn lineal o cclico por ejemplo, los errores
podran estar correlacionados caso contrario no lo
estn. Vase Figura 4.

Si la Hiptesis Nula de la prueba es verdadera, la


distribucin del estadstico d dependera de la matriz
de diseo X y es desconocida. Sin embargo Durbin y
Watson [1951] demostraron que d esta entre dos cotas
dL y dU a travs de las cuales se puede llegar a una
conclusin respecto a la hiptesis nula planteada:
Si d < dL , rechazar H0
Si d > dU , no rechazar H0
Si dL d dU , la prueba no es concluyente.
Durbin y Watson tabularon los valores de los lmites
dL y dU para varios tamaos de muestra, diversas
cantidades de regresores o variables de explicacin y
tres tasas de error tipo I (=0.05, =0.025, y =0.01).
G. S. Maddala en el ao de 1996 pudo probar que d
es un valor comprendido entre 0 y 4. Vase Figura 5.

(a)

Errores no correlacionados

Figura 5. Regin de Rechazo de la Prueba de DurbinWatson

As, si el valor del estadstico d es prximo a 2, =0; si


se aproxima a 4, <0 y si se aproxima a 0 >0.

(b)

Errores correlacionados

Figura 4. Grfico de residuales en el tiempo

4.2. Prueba Durbin-Watson


La prueba de Durbin-Watson es utilizada en Series
de Tiempo para detectar Correlacin Serial. Esta
prueba se basa en la hiptesis de que los errores del
modelo de regresin se generan en un proceso
autorregresivo de primer orden, esto es:

i i 1 i

donde i es una variable aleatoria N (0, 2 ) y es el


coeficiente de correlacin. Ante esta situacin Durbin
y Watson plantearon la siguiente prueba unilateral:
H o : 0 vs. H1 : 0
y determinaron la regin crtica de la prueba en base al
estadstico:

5. Multicolinealidad - Variables
explicacin no correlacionadas

de

Cuando existe una relacin aproximadamente lineal


entre las variables de explicacin, es posible que los
estimadores resultantes tengan varianzas muy grandes
aunque siguen conservando la propiedad de
insesgados, adems se puede no rechazar la hiptesis
nula de que un parmetro es cero, aun cuando la
correspondiente variable sea relevante; y por ltimo
los coeficientes estimados sern muy sensibles a
pequeos cambios en los datos.
Una forma de detectar multicolinealidad es
calculando la matriz de correlacin de las variables de
explicacin y ver qu pares de variables tienen
correlacin cercana a 1. Sin embargo existen mtodos
ms formales como el Factor de Agrandamiento de la
Varianza (FAV) y el Nmero de Condicin.

5.1. Factor de Agrandamiento de la Varianza


(FAV)
Si consideramos el modelo de regresin lineal
mltiple:

Y 0 1 X 1 2 X 2 ... ( p 1) X ( p 1)
para i=1,2,,n. Entonces se puede probar que la
varianza del j-simo coeficiente de regresin estimado
es:

s
j

n(1 R 2j ) s 2j

para j=1,2,,p-1 y donde R 2j es el coeficiente de


determinacin obtenido al hacer la regresin de Xj
sobre el resto de las variables de explicacin del
modelo, y s 2j es la varianza muestral de la variable Xj.
Si la correlacin entre las variables de explicacin
fuera nula, la frmula para estimar la varianza del jsimo coeficiente de regresin se reducira a:

s
j

ns

2
j

El FAV es la razn entre la varianza observada y la


que habra sido en caso de que
no estuviera
correlacionada con el resto de las variables de
explicacin del modelo:

FAV

1
1 R 2j

Es decir que el FAV mide cuanto crece la varianza del


j-simo coeficiente de regresin como consecuencia de
que las variables estn altamente correlacionadas. Una
variable de explicacin con un FAV entre 5 y 10 puede
causar multicolinealidad.

5.2. Nmero de condicin


El nmero de condicin es la razn entre la raz
caracterstica ms grande (max ) y la raz caracterstica
ms pequea (min ) de la matriz XTX, siendo X la
matriz de diseo sin la columna de unos:

( )
k ( X) max
(min )

Recurdese que la matriz XTX es una matriz cuadrada


y simtrica. El problema de la multicolinealidad es
grave cuando el nmero de condicin toma un valor
mayor que 1000.
Entre las soluciones que pueden darse a la
multicolinealidad estn:
1. Eliminar del modelo las variables que tienen una
correlacin muy alta.
2. Incrementar el tamao de la muestra

3. Regresin Ridge
4. Componentes principales
5. Mnimos Cuadrados Parciales

6. Valores aberrantes o atpicos


En todo anlisis estadstico resulta importante
detectar la presencia de valores aberrantes o atpicos,
ya que stos pueden afectar drsticamente a los
estimadores, por ello existen varios criterios para su
identificacin basados en el anlisis de residuales.
El Grfico de los Residuales ei en funcin de los
valores ajustados y i y el Grfico de Probabilidad
Normal son tambin tiles para detectar valores
atpicos potenciales.

6.1. Residuales
Ya se haban definido antes los residuales como:

ei i yi yi

Adems, se puede probar que:

E (ei ) 0

Var (ei ) MCE


Se consideran valores atpicos potenciales, los
residuales cuyo valor absoluto es mayor a tres
desviaciones estndar respecto de la media. Se
recomienda adems analizar los residuales que se
detallan a continuacin
6.1.1. Residuales Estandarizados. Ya que la varianza
aproximada del error se estima con la MCE, los
residuales estandarizados sern:

di

ei
MCE

Los residuales estandarizados tienen media cero y


varianza aproximadamente unitaria. Un residual
estandarizado mayor que 3 indica que la observacin
i-sima es un valor atpico potencial.
6.1.2. Residuales Estudentizados. Sea H, la conocida
Matriz Hat definida como:

H = X(XT X)-1 XT
y hij sus elementos; adems sea e el vector de
residuales, se puede probar que:

Var (e) = 2 I - H

Esto quiere decir que:

Var (ei ) 2 (1 hii ) y Cov(ei , e j ) 2 ( hij )


Por tanto se definen los residuales estudentizados
dividiendo el i-simo residual entre su desviacin
estndar exacta:

ri

ei
MCE (1 hii )

Los residuales estandarizados y estudentizados


aportan con frecuencia informacin equivalente. En
conjuntos grandes de datos los residuales
estandarizados no sern muy diferentes de los
estudentizados. Un residual estudentizado ri mayor
que 3 indica la presencia de un valor atpico potencial.
6.1.3. Residuales PRESS. Los residuales PRESS o
residuales de prediccin se definen como la diferencia
entre el valor observado y i para i 1, 2,..., n y el
valor estimado de esta observacin basado en todas las
observaciones excepto esta i-sima:

e[ i ] yi y[ i ]

La mayora de los textos llaman valores


aberrantes a un valor alejado solamente en la
direccin vertical y Punto de influencia a una
observacin alejada en la direccin horizontal. Vase
Figura 6. El punto A no afecta las estimaciones de los
coeficientes de regresin, mientras el punto B si tiene
un impacto notable en la estimacin de estos
coeficientes puesto que atrae a la recta de regresin en
su direccin.
A continuacin se presentan dos mtodos para
detectar puntos de influencia:

7.1. Apalancamiento

Es decir, se elimina la i-sima observacin y se ajusta


el modelo de regresin a las n-1 observaciones
restantes, para estimar y i .

Sea H, la antes mencionada Matriz Hat definida


como:

Se puede probar que existe una relacin entre los


residuales PRESS y los residuales usuales:

La varianza del vector de estimaciones puede


escribirse como:
) = 2H
Var (Y

e[ i ]

ei
1 hii

Una gran diferencia entre el residual ordinario y el


residual PRESS indica un valor atpico potencial.

7. Puntos de Influencia
Los Puntos de Influencia o valores influyentes son
aquellos que tienen un impacto notable sobre los
coeficientes del modelo, por ello la importancia de
localizarlos.

H = X(XT X)-1 XT

Los elementos hij de la matriz H son una medida de


lugar o ubicacin del i-simo punto en el espacio de x,
por lo tanto son vistos como la cantidad de balanceo
o apalancamiento de la i-sima observacin yi sobre
el i-simo valor ajustado y i . Por esta razn, los
valores grandes en la diagonal de la matriz H indican
observaciones que son potencialmente influyentes,
esto es; valores de hii 2 p / n lo cual no aplica para
casos donde 2 p / n 1 .

7.2. Distancia de Cook


La distancia de Cook mide el cambio que ocurrira
en el vector de coeficientes estimado de regresin si
la i-sima observacin fuera omitida. Esta distancia se
define como:

CDi2
(a)

( [i ] )' X' X( [i ] )
pMCE

Dnde:
es el vector de coeficientes estimado con el
modelo completo
[ i ] es el vector de coeficientes estimado sin la isima observacin
X es la matriz de Diseo
MCE es el estimador de 2
p es el nmero de parmetros en el modelo
(b)

Sea Pi el i-simo punto para i=1,2,,n de p


coordenadas. Dado el siguiente contraste de Hiptesis:

Figura 6. Puntos de Influencia

H 0 : Pi no es un punto de influencia

vs.

H1 : Pi es un punto de influencia

la calidad del modelo a travs del botn


Opciones. Vase Figura 9.

Con (1-)100% de confianza se rechaza H0 a favor de


H1 si el estadstico CDi2 es mayor que F( , p , n p ) .

8. Software estadstico de Regresin ERLA


ERLA es un software estadstico especializado en la
tcnica de regresin lineal, desarrollado por
estudiantes del Instituto de Ciencia Matemticas
mediante el uso del MCR (MATLAB Component
Runtime) y VisualBasic.NET. A continuacin se
presenta cmo obtener un modelo de regresin lineal
en ERLA, y cmo evaluar la calidad del mismo
utilizando los mtodos antes mencionados.

Figura 8. Cuadro de Dilogo Regresin Lineal ERLA

Figura 7. Inicio ERLA

8.1 Regresin Lineal en ERLA


Para explicar cmo se realiza un anlisis de
Regresin Lineal en ERLA, se ha considerado,
guardando la correspondiente confidencialidad que la
tica estadstica exige, una base de datos
correspondiente a un estudio realizado en la Escuela
Superior Politcnica del Litoral por el Centro de
Estudios e Investigaciones Estadsticas, llamado
Imagen de la ESPOL en Guayaquil. Este estudio
presenta un total de 12 proposiciones calificadas en
una escala del 1 al 10. Al obtener la matriz de
correlacin de las proposiciones, se encontr que P9
(Identifico a los estudiantes de la ESPOL por su
responsabilidad) y P10 (Identifico a los estudiantes de
la ESPOL por su honestidad) estn altamente
correlacionadas. Para obtener el modelo de regresin
que explique a P10 en trminos de P9 se sigue la
secuencia:
1.

Barra de menues Anlisis de datos


RegresinRegresin lineal

2.

Seleccione la variable a ser explicada y las


variables de explicacin en el cuadro de
dilogo Regresin Lineal (Vase Figura 8),
luego seleccione los indicadores para evaluar

Figura 9. Cuadro de Dilogo Opciones


de Regresin Lineal ERLA

En el cuadro de dilogo Opciones se seleccionan


todos los tems de Verificacin de supuestos,
Puntos de influencia y Valores aberrantes y
Multicolinealidad. Los resultados se muestran en la
Figura 10.

Figura 10. Modelo de Regresin Lineal obtenido en


ERLA

Estos resultados son:


1.
2.
3.
4.

5.

6.

El modelo.
La potencia de explicacin del modelo (R2 y R2
Ajustado).
La desviacin estndar (s).
La tabla ANOVA con todos sus valores
caractersticos: Fuentes de variacin (1era
columna), grados de libertad (G.L.), sumas y
medias
cuadrticas
(S.C.
y
M.C.,
respectivamente), el estadstico de prueba F (F)
y el valor p (P).
La tabla de inferencia respecto a los parmetros
betas. El valor del estimador (ESTIMADOR),
el error estndar del estimador (E. E.
ESTIMADOR), el estadstico de prueba t (T) y
el valor p (P).
Los intervalos de confianza para los parmetros
betas utilizando un nivel de confianza del 95%.
Se puede distinguir en los resultados de la tabla
el lmite inferior (INFERIOR) y el lmite
superior (SUPERIOR).

Figura 12. Grfico de Residuales vs. Valores


Ajustados

Por otra parte los resultados que pueden obtenerse


para evaluar la calidad del modelo:
8.1.1. Normalidad del error. ERLA muestra el
Grfico de probabilidad normal de los residuales:

Figura 13. Grfico de los Residuales vs.


Secuencia/Orden

Figura 14. Prueba de Durbin-Watson


Figura 11. Grfico de Probabilidad Normal

8.1.2. Homocedasticidad. ERLA muestra el Grfico


de Residuales vs. Valores Ajustados. Vase Figura 12.
8.1.3. Errores no correlacionados. ERLA muestra el
Grfico de los residuales en vs. secuencia/orden.
Vase Figura 13. Adems presenta el estadstico de
Durbin Watson para una prueba de dos colas con su
respectivo valor p. Vase Figura 14.

8.1.4. Multicolinealidad. ERLA presenta el Factor de


agrandamiento de la varianza (FAV) para cada una de
las variables de explicacin incluidas en el modelo, y
tambin el Nmero de Condicin. Vase Figuras 15 y
16.

Figura 15. Factor de Agrandamiento de la Varianza

definitivamente hace que el modelo no sea del todo


confiable.

9.2. Recomendaciones
Figura 16. Nmero de Condicin

8.1.5. Valores Aberrantes. ERLA presenta los valores


aberrantes potenciales en una tabla con sus
correspondientes residuales. Vase Figura 17.

1. Siempre debe verificarse el cumplimiento de los


supuestos o premisas bajo los cuales se trabaja en un
anlisis de regresin, puesto que la calidad del modelo
encontrado puede verse afectada y las conclusiones
finales pueden ser erradas.
2. Se debe tener mucho cuidado si quiere eliminar
valores aberrantes y puntos de influencia, ya que estos
no siempre provienen de un error de medicin o
digitacin y en estos casos debe considerarse el uso de
tcnicas robustas de estimacin que no sean tan
sensibles a puntos influyentes como lo son los
mnimos cuadrados.

10. Referencias Bibliogrficas


Figura 17. Valores Aberrantes

8.1.5. Puntos de Influencia. Para detectar puntos


influyentes, ERLA presenta el vector de
apalancamientos junto al vector que contiene las
distancias de Cook como nuevas variables en la
ventana de datos. Vase Figura 18.

[1] MONTGOMERY, D. (2002), Introduccin al


Anlisis de Regresin Lineal, Editorial
Continental, Mxico-Mxico.
[2] SEBER, A. & LEE, A. (2003), Linear Regression
Analysis, (2da Edicin), Editorial Wiley, New
York U.S.A.
[3] GUJARATI, D. (2004), Econometra Bsica,
(4ta Edicin), Editorial Mc Graw Hill, MxicoMxico.

Figura 18. Puntos de Influencia

9. Conclusiones y recomendaciones
9.1. Conclusiones
1. El no cumplimiento de los supuestos en un
anlisis de regresin lineal hace que los estimadores de
los coeficientes del modelo dejen de ser eficientes, los
intervalos de confianza y las pruebas de hiptesis
basadas en las distribuciones t y F dejan de ser
confiables. El modelo se vuelve inestable, en el sentido
de que muestras diferentes pueden conducir a modelos
diferentes.
3. La presencia de valores aberrantes y puntos de
influencia en un modelo de regresin lineal pueden
disminuir la potencia de explicacin del modelo.
3. Para el caso del ejemplo, est claro que el modelo
no cumple el supuesto de normalidad del error, esto

[4] MORILLAS, A. & DAZ, B. (2007), El Problema


de los Outliers Multivariantes en el Anlisis de
Sectores Clave y Cluster Industrial, Universidad
de Mlaga, Espaa.
[5] ZURITA, G. (2010), Probabilidad y Estadstica:
Fundamentos y Aplicaciones, (2da Edicin),
Talleres Grficos ESPOL, Guayaquil-Ecuador.
[6] ACUA FERNNDEZ, E. Diagnsticos de
Regresin, Universidad de Puerto Rico, obtenido
en agosto de 2010 desde
http://math.uprm.edu/~edgar/cap3sl.ppt
[7] ACUA FERNNDEZ, E. Multicolinealidad,
Universidad de Puerto Rico, obtenido en agosto de
2010 desde
http://math.uprm.edu/~edgar/cap7sl.ppt
[8] RAMIREZ, D. Autocorrelacin, obtenido en
septiembre de 2010 desde
fhttp://webdelprofesor.ula.ve/economia/dramirez/
MICRO/FORMATO_PDF/Materialeconometria/A
utocorrelacion.pdf.

You might also like