You are on page 1of 15

COEFICIENTE DE DETERMINACIN MLTIPLE En seguida se considera el coeficiente de determinacin mltiple.

El coeficiente de determinacin se define como el porcentaje de la variacin en la variable dependiente explicada o contabilizada, por la variable independiente. En el caso de la regresin mltiple se ampla esta definicin

Coeficiente de determinacin mltiple porcentaje de variacin en la variable dependiente, X1,X2,X3.Xk y, aplicada por el conjunto de variables independientes

Las caractersticas de coeficiente de determinacin mltiple son: 1. Se representa con una letra R mayscula al cuadrado. En otras palabras, se escribe como R2 debido a que se comporta como el cuadrado de un coeficiente de correlacin. 2. Puede variar del 0 a 1. Un valor cercano a 0 indica poca asociacin entre el conjunto de variables independientes y la variable dependiente. Un valor cercano 1 significa una asociacin fuerte 3. No puede adoptar valores negativos. Ningn nmero que se eleve al cuadrado o se eleve a la segunda potencia puede ser negativo 4. Es fcil de interpretar. Como R2 es un valor entre 0 y 1 es fcil de interpretar, comparar y comprender. El coeficiente de determinacin se calcula a partir de la informacin determinada en la tabla ANOA. Se observa en la columna de suma de cuadrados, la cual se identifica como SS en la salida en pantalla de MINITAB, y se utiliza la suma de cuadrados de regresin, SSR, luego se divide entre la suma de cuadrados total, SS total.

COEFICIENTE DE DETERNINACION MULTIPLE

R2= SSR SS TOTAL = 14.3

COEFICIENTE AJUSTADO DE DETERMINACION El nmero de variables en una ecuacin de regresin mltiple aumenta el coeficiente de determinacin. Cada nueva variable independiente hace que la predicciones sean ms precisas, lo que a su vez reduce SSE y aumenta SSR. De aqu R2 aumenta solo debido al nmero total de variables independientes y no por que la variable independiente agregada sea un buen anticipador de la variable dependiente. De hecho, si el nmero de variables, k, y el tamao muestra ,n, son iguales el coeficiente de determinacin es 1.0. en la prctica esta situacin es poco frecuente y tambin seria ticamente cuestionable.

COEFICIENTE AJUSTADO DE DETERNINACION

SSE n- (k+1) R2 = 1SS TOTAL n-1 (14.4)

El error y la suma de cuadrados se dividen entre sus grados de libertad. Observe en especial que los grados de libertad para la suma de los cuadrados del error incluyen k, el nmero de variables independientes. Para el ejemplo del costo de calefaccin, el coeficiente ajustado de determinacin es:

41695 20- (3+1) R2 = 1212916 20 - 1 =1 11206.0 2606 = 1 0.23 = 0.77

Si se compara R2 (0.80) ajustada (0.77), la diferencia en este caso es pequea. Si se repitiera el proceso de muestreo muchas veces se podra disear una distribucin de muestreo de estos coeficientes de regresin. La columna Standard Erro estima la variabilidad de estos coeficientes de regresin. La distribucin de muestreo de coeficientes/estndar error sigue la distribucin t con n-(k+ 1)grados de libertad de aqu se pueden aprobar las variables independientes

individualmente para determinar si los coeficientes de regresin netos difieren de cero. La razn t calculada es -5.934 para la temperatura y -3.119 para el aislamiento. Los dos valores t se encuentran en la regin de recazo a las

izquierda de -2.120. de esta manera se concluye que los coeficientes de regresin para las variables temperatura y aislamiento no son cero. La t calculada para la antigedad del calentador es 1.524, por lo que no es un factor de prediccin significativo del costo de calefaccin. Se puede omitir del anlisis. Se pueden probar coeficientes de regresin individuales con la distribucin t. la frmula es:

PRUEBA DE LOS COEFICIENTES DE REGRESION INDIVIDUALES


T=

bi-0 Sb

El coeficiente bi se refiere de los coeficientes de regresin, y sbi a la desviacin estndar de esa distribucin del coeficiente de regresin. Se incluye 0 en la ecuacin debido a que la hiptesis nula es bi= 0.

Para ilustrar esta formulada, consulte la prueba del coeficiente de regresin para la variable independiente, temperatura. Sea b1 el coeficiente de regresin. A partir de la salida en pantalla de la pgina 525, este valor es -4.583. sbi es la desviacin estndar del coeficiente de regresin para la variable independiente, temperatura. De nuevo, de la salida en pantalla de la pgina 525, su valor es o.772. Al sustituir estos valores en la formula.

t=

bi-0 = sbi

-4.583-0 = -5.936 0.772

EVALUACIN DE LAS SUPOSICIONES DE LA REGRESIN MLTIPLE

En la seccin anterior se describiera mtodos para evaluar de manera estadstica la ecuacin de regresin mltiple. Los resultados de la prueba permitieron saber si al menos uno de los coeficientes no era igual a cero y se describi un proceso de evaluacin de cada coeficiente de regresin. Tambin se analiza el proceso de toma de decisiones para incluir y excluir variables independientes en la ecuacin de regresin mltiple. Es importante saber que la validez de las pruebas estadsticas global e individual parte de varias suposiciones. Es decir, si las suposiciones no son vlidas, los resultados pueden estar sesgados o ser confusos. Sin embargo, se debe mencionar que en la prctica no siempre es posible un apego estricto a las suposiciones siguientes. Por fortuna, las tcnicas estadsticas analizadas en este captulo parecen funcionar muy bien aunque se viole una o ms de las suposiciones, incluso si los valores en la ecuacin de regresin mltiple tienen cierta desviacin, los estimados mediante una ecuacin de regresin mltiple estarn ms cerca que cualquiera que se pudiera hacer de manera. En general, los procedimientos estadsticos son los que bastante robusto para superar las violaciones de algunas suposiciones.

1. EXISTE UNA RELACION LINEAL. Es decir, existe una relacin directa entre la variable dependiente y el conjunto de variables independientes.

2. LA VARIACION EN LOS RESIDUOS ES LA MISMA TANTO PARA VALORES GRANDES COMO PEQUEOS DE . En otras palabras, (y-) no estn relacionadas ya sea que y sea grandes o pequea.

3. LOS RESIDUOS SIGUEN LA DISTRIBUCI DE PROBABILIDADES NORMAL

Recuerde que el residuo es la diferencia entre el valor actual de Y y el valor estimado . Por tanto el termino (Y-) se calcula para cada observacin en el conjunto d datos. Estos residuos debern seguir de manera aproximada una distribucin de probabilidad normal. Adems, la media de los residuos deber ser 0.

4. LAS

VARIABLES

INDEPENDIENTES

NO

DEBERAN

ESTAR

CORRELACIONADAS

Es decir conviene seleccionar un conjunto de variables independientemente que no estn correlacionadas entre s.

5. LOS RESIDUOS SON INDEPENDIENTES

Esto significa que las observaciones sucesivas de la variable dependiente no estn correlacionadas. Esta suposicin con frecuencia se viola cuando se comprende el tiempo con las observaciones muestreadas. En esta seccin se presenta un anlisis breve de cada una de las estas suposiciones. Adems, se proporcionan mtodos para validar estas

suposiciones, y se sealan las consecuencias si estas suposiciones no se cumplen. Para quienes estn interesados en un anlisis adicional, una referencia excelente es kutner, nachtscheim y neter, applied linear regression models, 4, ed. Mcgraw-hill, 2004

RELACION LINEAL. Primero se ver la suposicin d linealidad. La idea es que la relacin entre el conjunto de variables independientes y la variable dependiente es lineal. Si se considera dos variables independientes, se visualiza esta suposicin. Las dos variables independientes y las variables dependientes formaran un espacio tridimensional. As, la ecuacin de regresin formara un plano, como se muestra en la pgina 513. Esta suposicin se evala con diagramas de dispersin y grafica de residuos.

USO DE LOS DIAGRAMAS DE PUNTOS La evaluacin de una ecuacin de regresin mltiple siempre deber incluir un diagrama de dispersin en el que se trace la variable dependiente contra cada variable independiente. Estas graficas ayudan a visualizar las relaciones y proporcionan una informacin inicial respecto de la direccin (positiva o negativa), la linealidad y la fuerza de la relacin. Como ejemplo se analizan a continuacin los diagramas de dispersin para el caso del costo de calefaccin. Las grficas sugieren una relacin muy fuerte, negativa y lineal entre el costo de la calefaccin y la temperatura, y una relacin negativa entre el costo de calefaccin y el aislamiento

USO DE GRAFICAS DE RESIDUOS Recuerde que un residuo (Y- ) se calcula mediante la ecuacin de regresin mltiple para cada observacin en un conjunto de datos. En el captulo 13 se firm que la mejor recta de regresin pasada por el centro de los datos.

Diagrama de dispersin de costo vs temperatura

LA VARIACION EN LOS RESIDUOS ES IGUAL PARA LOS VALORS GRANDES Y PUQUEOS DE Este requisito indica que la variacin respecto de los valores anticipados es constante sin importar si los valores sean grandes o pequeo. Para citar un ejemplo especifico que viole la suposicin. Suponga que la utiliza variable independiente individual, antigedad para explicar la variacin en el ingreso. Se sospecha que conforme aumenta la antigedad tal vez a ms variacin respecto de la recta de regresin. Es decir, es probable que haya ms variacin en el ingreso para una persona de 50 aos de edad. El requisito para una variacin constante respecto de la recta de regresin se denomina homoscedasticidad.

DISTRIBUCION DE LOS RESIDUOS Para tener la seguridad de que las inferencias en las pruebas de hiptesis global e individual son vlidas, se evala la distribucin de los residuos . En un caso ideal, los residuos debern seguir una distribucin de probabilidad normal. Continuacin se muestra en histograma de MINITAB de los residuos a la izquierda para el ejm del costo de calefaccin de una casa. Aunque es difcil demostrar que los residuos siguen una distribucin normal solo con 20 observaciones, parece que la suposicin de normalidad de razonable.

MINITAB y exel ofrecen otra grafica que ayuda a evaluar la suposicin de residuos con una distribucin normal. Esta grafica se denomina grafica de probabilidad normal, y se encuentra a la derecha de histograma. Sin entrar en detalles, la grfica de probabilidad normal confirma la suposicin de residuos normalmente distribuidos si los puntos trazados estn muy cerca de la recta trazada desde la izquierda inferior hasta la derecha superior de la grfica.

HISTOGRAMA DE RESIDUOS

Histograma de los residuos normal de los residuos

Grafica de probabilidad

MULTICOLINEALIDAD La multicolinealidad existe cuando las variables independientes estn

correlacionadas. Las variables independientes correlacionadas dificultan las indiferencias acerca de los coeficientes de regresin individeles y sus efectos individeles sobre las variables dependientes. En la prctica es casi imposible seleccionar variables que carezcan por completo de alguna relacin. En otras palabras, es casi imposible crear un conjunto de variables independientes que no estn correlacionadas hasta cierto punto. Sin embargo la compresin general del punto de multicolinealidad es importante. Primero se debe destacar que la multicolineadad no afecta la capacidad de una ecuacin de regresin de mltiple para predecir la variabilidad dependiente. No obstante cuando se tenga inters en evaluar la relacin entre cada variable independiente y las variables dependientes, la multicolinealidad puede presentar resultados inesperados. Una segunda razn para evitar variables independientes correlacionadas es que pueden generar resultados errneos en las pruebas de hiptesis para las

variables independientes individuales. Estos se deben a la inestabilidad del error estndar de estimacin. Varias pistas que indican problemas con la

multicolinealidad incluyen los siguientes: 1. Una variable independiente conocida como anticipador importante resulta con un con coeficiente de regresin que no es significativo 2. Un coeficiente de regresin que debiera tener un signo positivo resulta negativo, o lo contrario. 3. Cuando se agrega o elimina una variable independiente, hay u cambio gstrico en los valores de los coeficientes de regresin restantes.

En nuestra evaluacin de una ecuacin de regresin mltiple, una aproximacin para reducir los efectos de la multicolinealidad es seleccionar con cuidado las variables independientes incluidas en las ecuaciones de regresin. Una regla general es que, si la correlacin entre dos variables independieres se encueran entre -0.70 y 0.70, es probable que nno haya problema al emplear las dos

variables independientes. Una prueba mas precisa es utilizar el factor de inflacin de la varianza el cual por lo general se escribe VIF. El valor de vif se determina como sigue

FACTOR DE INFLA CION DE LA VARIANZA


VIF=

1 1-R2J

El termino R2 se refieren

al coeficiente de

determinacin, donde la variable

independiente seleccionada sirve como una variable dependiente, y las variables independieres restantes, como variables independientes. Un VIF mayor que 10 se considera insatisfactorio, e indica que la variable independiente se deber eliminar del anlisis. Primero empee el sistema MINITAB para determinar a matriz de correlacin para la variable dependiente y las cuatro variables independientes una parte de esa salida es la siguiente: Costo Temperatura Aislamiento antigedad -0.812 -0.257 0.537 -0.103 -0.486 0.064 temperatura Aislamiento

Contenido de la celda: correlacin de pearson Ninguna de las correlaciones entre las variables independientes sobrepasa 0.70 ni 0.70 por tanto, no se sospecha problemas con multicolinealidad. La correlacin mayor entre las variables independientes es -0.486 entre antigedad y temperatura. Para confirmar esta conclusin calcule el VIF de cada una de las variables independientes. Primero considere la variable independiente,

temperatura emplee MINITAB para determinar el coeficiente de determinacin

mltiple con la temperatura como temperatura como variable

variable

dependiente mltiple la cantidad

con la

dependiente y

de aislamiento y

antigedad del calentador como variables independientes. Las relevantes en pantalla de MINITAB es la siguiente. ANALISIS ANTIGEDAD La ecuacin de regresin es: Temp = 58.0 0.51 aislamiento 2.51 antigedad Factor de coef 57.99 Se coef 12.35 1.488 1.103 T 4.70 -0.34 -2.27 P 0.000 0.737 0.036 1.0 1.0 VIF DE RGRESION: TEMPERATURA VS AISLAMIENTO,

prediccin constante

Aislamiento -0.509 Antigedad -2.509

S =16.0.311 R al cuadrado = 24.1 % R cuadrado ( agust) = 15.2 % ANALISIS DE LA VARIANZA Fuente Regresin Error residual total GL 2 17 19 SS 1390.3 4368.9 5759.2 MS 695.1 257.0 F 2.70 P 0.096

El coeficiente de determinacin es 0.241 por tanto, al sustituir este valor en la formula VIF

El valor de VIF de 1.32 es menor que el lmite superior de 10 esto indica que la variable independiente, temperatura no est muy correlacionada con las dems variables independientes Una vez ms, para determinar el VIF del aislamiento se desarrollara una ecuacin de regresin con el aislamiento como variable dependiente y la

temperatura y antigedad del calentador como variables independientes para que la ecuacin establezca el coeficiente de determinacin. Este ser el valor para este valor se sustituir en la ecuacin y se despejara para el Vif.

OBSERVACIONES INDEPENDIENTES La quinta suposicin respecto del anlisis de regresin y correlacin es que los residuos sucesivos debern ser independientes esto un significa que hay no hay estn

patrn para los residuos no estn muy correlacionados y largas de residuos positivos o negativos sucesivos

corridas

correlacionadas a esta condicin se le conoce como autocorrelacion La autocorelacion se presenta con frecuencia cuando los datos se colectan durante un periodo por ejemplo se desea presidir de las ventas anuales de ages software, inc ., con base en el tiempo y la cantidad y gastada en las variables

publicidad la variable dependiente independientes son el tiempo y

son las ventas anuales la

cantidad gastada en publicidad es

probable que para un periodo los puntos actuales estn arriba del plano de regresin (recuerd otro que hay dos variables independientes ) y despus para regresin en la grfica los

periodo los puntos estn debajo del plano de los residuos graficados

siguiente se muestran

en el eje vertical y de residuos

valores ajustados y en horizontal observa la corrida la media de los residuos seguida por una corriente

arriba de

debajo de la media

este diagrama de dispersin indica una posible auto correlacin.

R E S I D U O S
Valores ajustados

Existe una prueba para la auto correlacion denominada durbin Watson VARIABLES INDEPENDIENTES CUALITATIVAS En el ejemplo anterior respecto del costo de calefaccin las dos variables

independientes temperatura extermna y aislamiento fueron cuantitativas es decir de naturaleza numrica con frecuencia en el anlisis se desea ampliar variables en escala nominal como gnero, si la casa tiene alberca , o si el equipo fue local o visitante. Estas variables se de dominan variables

cualitativas debido a que describen una cualidad particular como masculino o femenino para utilizar una variable cualitativa en el anlisis de regresin se emplea un esquema de variables ficticias en las cual una de las dos condiciones posibles se codifica con un 0 o un 1.

VARIABLE FICTICIA: variable en la que solo existe dos resultados posibles. Para el anlisis uno de los resultados se codifica con 1 y el otro con 0

Por

ejemplo, se

tiene inters en estimar el salario

de un ejecutivo con

base en los aos de su experiencia laboral y si l o ella se gradu o no de la universidad graduacin de la universidad solo puede adoptar una de dos condiciones : si o no por tanto se considera una variable cualitativa.

Suponga

que

el

ejemplo

de

salsberry reaty se

agrega

la

variable

independiente garaje para casa sin garaje , se utiliza 0 ; para las que si tienen y se emplea 1 a las variables garaje se le designara los datos

de la tabla 14.2 se ingresan en el sistema MINITAB Tabla costo de calefaccin de las casas temperatura aislamiento de una muestra en 20 casas. y garaje

Costo Y 250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139

Temperatura Aislamiento Garaje

35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30

3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7

0 1 0 0 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 0

UNIVERSIDAD TECNOLOGICA DEL PERU

TEMA: REGISTRO LINEAL MULTIPLE DOCENTE: Vernica Loaiza Quilla CURSO: Estadstica II CICLO: IV PRESENTADO POR:

Betsy Ascua Chicaa Escarle Ocmin Aguilar Patricia Roxana Narvez Maricely
AREQUIPA - PERU 2012

You might also like