Professional Documents
Culture Documents
Resumen
En un anlisis de Regresin Lineal, existen varios supuestos o premisas que deben ser considerados al momento
de determinar la validez de un modelo, puesto que el no cumplimiento de alguno de estos supuestos podra
conducirnos a modelos inestables, de ser as, un valor alto del estadstico R2 o R2 ajustado no garantiza que el
modelo se ajuste bien a los datos. Entre los principales supuestos que se realizan estn: La distribucin del error
normal con media 0 y varianza 2 constante, la no correlacin de los errores y la relacin no lineal entre las
variables de explicacin. Por otra parte los estadsticos de resumen como t, F o R 2, los Coeficientes de Regresin y
la Media Cuadrtica del Error son sensibles a la presencia de valores aberrantes o atpicos. En este artculo se
revisan los mtodos ms usados, para verificar el cumplimiento de estos supuestos, detectar la presencia de
valores aberrantes y puntos de influencia a travs de su implementacin y correspondiente validacin en un
software estadstico especializado en la tcnica de Regresin Lineal llamado ERLA (Estadstica de Regresin
Lineal Avanzada), desarrollado por estudiantes del Instituto de Ciencias Matemticas de la ESPOL.
Palabras Claves: Regresin Lineal, Supuestos, Adecuacin del Modelo, Implementacin, Validacin, Software,
ERLA.
Abstract
In Linear Regression Analysis, there are assumptions and premises that must be considered to determine the
validity of a model. Since non-compliance with any of these assumptions could lead to unstable models, if so, a high
value of R2 and adjusted R2 does not guarantee that the model fits the data well. Among the major assumptions of
Linear Regression are: The normal error distribution with mean 0 and constant variance 2, non-correlation of the
errors and the non-linear relationship between the variables of explanation. Moreover summary statistics such as t,
F or R2, Regression Coefficients and Mean Square of Error are sensitive to the presence of outliers or atypical
values. This article reviews the methods used to verify compliance with these assumptions, the presence of outliers
and leverage points through its implementation and validation by using a Linear Regression-oriented software
named ERLA (Advanced Linear Regression Statistics), developed by students of the Institute of Mathematical
Sciences at ESPOL.
Keywords: Linear Regression, Assumptions, Model Adequacy, Deployment, Validation, Software, ERLA.
1. Introduccin
La Regresin Lineal es una de las tcnicas
estadsticas ms poderosas y verstiles utilizada en
diversas reas, entre ellas la medicina y los negocios,
ya que esta tcnica permite explorar y cuantificar la
relacin entre una variable llamada variable de
respuesta, explicada o pronosticada Y, y una o ms
variables predictoras o variables de explicacin X1,
X2,, Xp-1 siempre y cuando stas sean cuantitativas.
Se define al error
i yi E[ yi ] donde
F-1()
0,90
1,036
0,842
0,674
0,524
0,385
0,253
0,126
0
-0,126
-0,253
-0,385
-0,524
-0,674
-0,842
-1,036
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,95
1,282
0,10
-1,645
0,05
-1
-1,282
0,0
0,1
0,2
0,3
0,4
Grfica de distribucin
ei i yi yi ,
1,645
4. Errores no correlacionados
Figura 1. Grfico de Probabilidad Normal
2
n
ei ei 1
d i 2 n
2
ei
i 2
(a)
Errores no correlacionados
(b)
Errores correlacionados
i i 1 i
5. Multicolinealidad - Variables
explicacin no correlacionadas
de
Y 0 1 X 1 2 X 2 ... ( p 1) X ( p 1)
para i=1,2,,n. Entonces se puede probar que la
varianza del j-simo coeficiente de regresin estimado
es:
s
j
n(1 R 2j ) s 2j
s
j
ns
2
j
FAV
1
1 R 2j
( )
k ( X) max
(min )
3. Regresin Ridge
4. Componentes principales
5. Mnimos Cuadrados Parciales
6.1. Residuales
Ya se haban definido antes los residuales como:
ei i yi yi
E (ei ) 0
di
ei
MCE
H = X(XT X)-1 XT
y hij sus elementos; adems sea e el vector de
residuales, se puede probar que:
Var (e) = 2 I - H
ri
ei
MCE (1 hii )
e[ i ] yi y[ i ]
7.1. Apalancamiento
e[ i ]
ei
1 hii
7. Puntos de Influencia
Los Puntos de Influencia o valores influyentes son
aquellos que tienen un impacto notable sobre los
coeficientes del modelo, por ello la importancia de
localizarlos.
H = X(XT X)-1 XT
CDi2
(a)
( [i ] )' X' X( [i ] )
pMCE
Dnde:
es el vector de coeficientes estimado con el
modelo completo
[ i ] es el vector de coeficientes estimado sin la isima observacin
X es la matriz de Diseo
MCE es el estimador de 2
p es el nmero de parmetros en el modelo
(b)
H 0 : Pi no es un punto de influencia
vs.
H1 : Pi es un punto de influencia
2.
5.
6.
El modelo.
La potencia de explicacin del modelo (R2 y R2
Ajustado).
La desviacin estndar (s).
La tabla ANOVA con todos sus valores
caractersticos: Fuentes de variacin (1era
columna), grados de libertad (G.L.), sumas y
medias
cuadrticas
(S.C.
y
M.C.,
respectivamente), el estadstico de prueba F (F)
y el valor p (P).
La tabla de inferencia respecto a los parmetros
betas. El valor del estimador (ESTIMADOR),
el error estndar del estimador (E. E.
ESTIMADOR), el estadstico de prueba t (T) y
el valor p (P).
Los intervalos de confianza para los parmetros
betas utilizando un nivel de confianza del 95%.
Se puede distinguir en los resultados de la tabla
el lmite inferior (INFERIOR) y el lmite
superior (SUPERIOR).
9.2. Recomendaciones
Figura 16. Nmero de Condicin
9. Conclusiones y recomendaciones
9.1. Conclusiones
1. El no cumplimiento de los supuestos en un
anlisis de regresin lineal hace que los estimadores de
los coeficientes del modelo dejen de ser eficientes, los
intervalos de confianza y las pruebas de hiptesis
basadas en las distribuciones t y F dejan de ser
confiables. El modelo se vuelve inestable, en el sentido
de que muestras diferentes pueden conducir a modelos
diferentes.
3. La presencia de valores aberrantes y puntos de
influencia en un modelo de regresin lineal pueden
disminuir la potencia de explicacin del modelo.
3. Para el caso del ejemplo, est claro que el modelo
no cumple el supuesto de normalidad del error, esto