You are on page 1of 13

ESTADISTICA II

El Análisis de Varianza para


Regresión Lineal Simple.

Ing. Grover Mealla Cortez


9.2.2 El Análisis de Varianza para Regresión Lineal Simple.

El análisis de varianza, que fue introducida por Fisher, consiste en descomponer la


variación total de una variable en varias partes, cada una de las cuales es llamada
una fuente de variación.
En el caso de regresión, la descomposición de la variación de la variable de
respuesta Y es como sigue:

VAR. TOTAL DE Y = VAR. DEBIDA A LA REGRESIÓN + VAR. DEBIDA AL


ERROR

Cada variación es representada por una suma de cuadrados, definidas de la


siguiente manera: n
Suma de Cuadrados Total = SST = 
( yi  y ) 2
i 1 n

Suma de Cuadrados de Regresión = SSR =  i


( ˆ
y
i 1
 y ) 2

Suma de Cuadrados del Error = SSE =  i i


( y
i 1
 ˆ
y ) 2
Cada una de estas sumas de cuadrados tiene una distribución Ji-Cuadrado,
SSR tiene una distribución Ji-Cuadrado no central con 1 grado de libertad,
SSE tiene una distribución Ji-Cuadrado con n-2 grado de libertad, y
SST se comporta como una Ji-Cuadrado no central con n-1 grados de
libertad.

Al dividir las sumas de cuadrados por sus grados de libertad se obtienen los
Cuadrados Medios.

Si la hipótesis de que la pendiente  es 0 es cierta, entonces la división del


cuadrado medio de la regresión por el cuadrado medio del error se
distribuye como una F con 1 grado de libertad en el numerador y n-2 en el
denominador. Luego, la hipótesis Ho:  = 0 se rechaza si el "p-value" de la
prueba de F es menor que .05.
Luego, la hipótesis Ho:  = 0 se rechaza si el "p-value" de la prueba de
F es menor que .05. Los cálculos se resumen en la siguiente tabla
llamada tabla del análisis de varianza para la regresión lineal simple.

Fuentes de Grados de Suma de Cuadrados F


Variación Libertad Cuadrados Medios

Debido a la 1 SSR MSR=SSR/1 MSR/MSE


regresión

Debido al n-2 SSE MSE=SSE/n-2


Error

Total n-1 SST

En el ejemplo anterior la prueba de F es 36.33 y el "P-value"=.0000, por


lo que se rechaza la hipótesis nula.
Notar que el valor de la prueba de F = 36.33 = (6.03)2 es el cuadrado de
la prueba t.
9.2.3 El Coeficiente de Determinación

El coeficiente de determinación, denotado por R2, es una medida de la bondad de


ajuste del modelo de regresión hallado. Se calcula por:

SSR
R 2

SST
donde, SSR representa la suma de cuadrados debido a la regresión, y SST
representa la suma de cuadrados del total. Es simplemente el cuadrado del
coeficiente de correlacion.

El coeficiente de Determinación varía entre 0 y 1, aunque es bastante común


expresarlo en porcentaje.

Un R2 mayor del 70 % indica una buena asociación lineal entre las variables,
luego la variable X puede usarse para predecir Y. Hay que tener presente que el
R2 es afectado por la presencia de valores atípicos.

También R2 indica qué porcentaje de la variabilidad de la variable de respuesta


Y es explicada por su relación lineal con X, mientras más alto sea este valor
mejor es la predicción de Y usando X.
9.2.4 Intervalos de Confianza para el valor medio de Y e Intervalo de
Predicción

A nivel poblacional para cada valor de la variable X existe una población


de valores de Y, la cual se asume que se distribuye normalmente con
cierta media y varianza constante 2. Lo que se busca es establecer un
intervalo de confianza para dicha media asumiendo que la relación entre
X e Y es lineal. Dado un valor Xo de la variable X es natural pensar, que
un estimado del valor medio de las Y’s es Yˆo  ˆ  ˆX o
Usando las propiedades distribucionales de este estimado se puede
establecer que un intervalo de confianza del 100 (1-) % para el valor
medio de todos los valores Y dado que X = X0 es como sigue:

1 ( x  x ) 2
Yˆ0  t (1 / 2,n  2) s  0
n S xx
Por otro lado muchas veces estamos interesados en estimar solamente un
valor de Y correspondiente a un valor dado X0. El estimado puntual será el
mismo Ŷo
y usando propiedades distribucionales de Yˆo  Yo

se obtiene que un Intervalo de confianza del 100 (1-) % para el valor


predicho de Y dado que X = X0 es de la forma:

1 ( x  x ) 2
Yˆ0  t (1 / 2, n  2 ) s 1   0
n S xx

Este intervalo de confianza es llamado intervalo de predicción.


Es más riesgoso hacer predicciones para un sólo valor que para un
valor medio, por esta razón el intervalo de predicción de Y es más
ancho que el intervalo de confianza para el valor medio.
El botón Options de la ventana regression permite hallar estos intervalos
de confianza.
En este ejemplo se trata de determinar el intervalo de confianza e intervalo
de predicción para el precio de la casa cuando ésta tiene un área de 3,500
pies cuadrados usando un nivel de confianza del 95 %. Para ello hay que
seleccionar las opciones Confidence limits y Prediction limits.
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 207998 10861 ( 184536, 231461) ( 169518, 246479) X
X denotes a row with X values away from the center
Values of Predictors for New Observations
New Obs Area
1 3500

Interpretación: Hay un 95 % de confianza de que el valor medio de


todas las casas de 3,500 píes cuadrado de área caiga entre 184,536
y 231,461.
Hay un 95 % de confianza de que el valor de una casa de 3,500 píes
cuadrados caiga entre 169,518 y 2246,479.
Asímismo, la opción Fitted line Plot del menú de Regression permite
hallar bandas de confianza tanto para el valor predicho como para el valor
medio de las Y. Para esto se deben elegir las opciones Display
Confidence Interval y Display Prediction Interval al oprimir el boton
Options. Con las bandas de confianza se pueden tener intervalos de
confianzas para cualquier valor dado de X.
9.3 Análisis de Residuales
Un residual ri es la diferencia entre el valor observado
y el valor estimado
Y
i
porYˆ la linea de regresión.
i

Es decir,
ri  Yi  Yˆi

El residual puede ser considerado como un error aleatorio observado.


También se acostumbra usar el Residual estandarizado, el cual se
obtiene al dividir el residual entre la desviación estándar del residual, y el
Residual estudentizado "deleted", que es similar al anterior pero
eliminando de los cálculos la observación cuyo residual se desea hallar.
El análisis de residuales permite cotejar si las suposiciones del modelo
de regresión se cumplen.
Se puede detectar:
a)Si efectivamente la relación entre las variables X e Y es lineal.
b)Si hay normalidad de los errores.
c)Si hay valores anormales en la distribución de errores.
d)Si hay varianza constante (propiedad de Homocedasticidad) y
e)Si hay independencia de los errores.
Hay cinco plots que se usan:
Plot de Normalidad: Permite cotejar normalidad. Si los puntos están
bien cerca de una línea recta se concluye, que hay normalidad.
Histograma de Residuales: También permite cotejar normalidad.
Cuando el histograma es simétrico, con un único pico en el centro, se
concluye que hay normalidad.
Plot de Residuales versus los valores predichos (FITS): Se usa para
detectar si hay datos anormales, cuando hay datos que caen bastantes
alejados, tanto en el sentido vertical como horizontal. También permite
detectar si la varianza de los errores es constante con respecto a la
variable de respuesta.
Plot de Residuales versus el indice de la observación: Es más
específico para detectar que observación es un dato anormal. Si se
usan residuales estandarizados, entonces un dato con residual más allá
de 2 ó -2 es considerado un "outlier" en el sentido vertical.
Plot de Residuales versus la variable predictora: Es usado para
detectar datos anormales así como si la varianza de los errores es
constante con respecto a la variable predictora.
Interpretación: Los puntos del plot de normalidad no caen cerca de
una línea recta y en el extreno superior se detecta un “outlier”.
Similarmente, el histograma no es simétrico con un pico central y
también muestra un “outlier” en el extremo superior. En conclusión, no
hay normalidad de los errores.
El plot de residuales versus el índice de la observación muestra que la
observacion 14 es un "outlier", pues el residual estandarizado cae más
allá de dos.
El plot de los residuales versus los valores predichos muestra que la
varianza de los errores no es constante con respecto a la variable de
respuesta, pues tiende ha aumentar cuando el valor de la variable de
respuesta aumenta.

You might also like