Professional Documents
Culture Documents
El coeficiente de determinacin se define como el porcentaje de la variacin en la variable dependiente explicada o contabilizada, por la variable independiente. En el caso de la regresin mltiple se ampla esta definicin
Coeficiente de determinacin mltiple porcentaje de variacin en la variable dependiente, X1,X2,X3.Xk y, aplicada por el conjunto de variables independientes
Las caractersticas de coeficiente de determinacin mltiple son: 1. Se representa con una letra R mayscula al cuadrado. En otras palabras, se escribe como R2 debido a que se comporta como el cuadrado de un coeficiente de correlacin. 2. Puede variar del 0 a 1. Un valor cercano a 0 indica poca asociacin entre el conjunto de variables independientes y la variable dependiente. Un valor cercano 1 significa una asociacin fuerte 3. No puede adoptar valores negativos. Ningn nmero que se eleve al cuadrado o se eleve a la segunda potencia puede ser negativo 4. Es fcil de interpretar. Como R2 es un valor entre 0 y 1 es fcil de interpretar, comparar y comprender. El coeficiente de determinacin se calcula a partir de la informacin determinada en la tabla ANOA. Se observa en la columna de suma de cuadrados, la cual se identifica como SS en la salida en pantalla de MINITAB, y se utiliza la suma de cuadrados de regresin, SSR, luego se divide entre la suma de cuadrados total, SS total.
COEFICIENTE AJUSTADO DE DETERMINACION El nmero de variables en una ecuacin de regresin mltiple aumenta el coeficiente de determinacin. Cada nueva variable independiente hace que la predicciones sean ms precisas, lo que a su vez reduce SSE y aumenta SSR. De aqu R2 aumenta solo debido al nmero total de variables independientes y no por que la variable independiente agregada sea un buen anticipador de la variable dependiente. De hecho, si el nmero de variables, k, y el tamao muestra ,n, son iguales el coeficiente de determinacin es 1.0. en la prctica esta situacin es poco frecuente y tambin seria ticamente cuestionable.
El error y la suma de cuadrados se dividen entre sus grados de libertad. Observe en especial que los grados de libertad para la suma de los cuadrados del error incluyen k, el nmero de variables independientes. Para el ejemplo del costo de calefaccin, el coeficiente ajustado de determinacin es:
Si se compara R2 (0.80) ajustada (0.77), la diferencia en este caso es pequea. Si se repitiera el proceso de muestreo muchas veces se podra disear una distribucin de muestreo de estos coeficientes de regresin. La columna Standard Erro estima la variabilidad de estos coeficientes de regresin. La distribucin de muestreo de coeficientes/estndar error sigue la distribucin t con n-(k+ 1)grados de libertad de aqu se pueden aprobar las variables independientes
individualmente para determinar si los coeficientes de regresin netos difieren de cero. La razn t calculada es -5.934 para la temperatura y -3.119 para el aislamiento. Los dos valores t se encuentran en la regin de recazo a las
izquierda de -2.120. de esta manera se concluye que los coeficientes de regresin para las variables temperatura y aislamiento no son cero. La t calculada para la antigedad del calentador es 1.524, por lo que no es un factor de prediccin significativo del costo de calefaccin. Se puede omitir del anlisis. Se pueden probar coeficientes de regresin individuales con la distribucin t. la frmula es:
bi-0 Sb
El coeficiente bi se refiere de los coeficientes de regresin, y sbi a la desviacin estndar de esa distribucin del coeficiente de regresin. Se incluye 0 en la ecuacin debido a que la hiptesis nula es bi= 0.
Para ilustrar esta formulada, consulte la prueba del coeficiente de regresin para la variable independiente, temperatura. Sea b1 el coeficiente de regresin. A partir de la salida en pantalla de la pgina 525, este valor es -4.583. sbi es la desviacin estndar del coeficiente de regresin para la variable independiente, temperatura. De nuevo, de la salida en pantalla de la pgina 525, su valor es o.772. Al sustituir estos valores en la formula.
t=
bi-0 = sbi
En la seccin anterior se describiera mtodos para evaluar de manera estadstica la ecuacin de regresin mltiple. Los resultados de la prueba permitieron saber si al menos uno de los coeficientes no era igual a cero y se describi un proceso de evaluacin de cada coeficiente de regresin. Tambin se analiza el proceso de toma de decisiones para incluir y excluir variables independientes en la ecuacin de regresin mltiple. Es importante saber que la validez de las pruebas estadsticas global e individual parte de varias suposiciones. Es decir, si las suposiciones no son vlidas, los resultados pueden estar sesgados o ser confusos. Sin embargo, se debe mencionar que en la prctica no siempre es posible un apego estricto a las suposiciones siguientes. Por fortuna, las tcnicas estadsticas analizadas en este captulo parecen funcionar muy bien aunque se viole una o ms de las suposiciones, incluso si los valores en la ecuacin de regresin mltiple tienen cierta desviacin, los estimados mediante una ecuacin de regresin mltiple estarn ms cerca que cualquiera que se pudiera hacer de manera. En general, los procedimientos estadsticos son los que bastante robusto para superar las violaciones de algunas suposiciones.
1. EXISTE UNA RELACION LINEAL. Es decir, existe una relacin directa entre la variable dependiente y el conjunto de variables independientes.
2. LA VARIACION EN LOS RESIDUOS ES LA MISMA TANTO PARA VALORES GRANDES COMO PEQUEOS DE . En otras palabras, (y-) no estn relacionadas ya sea que y sea grandes o pequea.
Recuerde que el residuo es la diferencia entre el valor actual de Y y el valor estimado . Por tanto el termino (Y-) se calcula para cada observacin en el conjunto d datos. Estos residuos debern seguir de manera aproximada una distribucin de probabilidad normal. Adems, la media de los residuos deber ser 0.
4. LAS
VARIABLES
INDEPENDIENTES
NO
DEBERAN
ESTAR
CORRELACIONADAS
Es decir conviene seleccionar un conjunto de variables independientemente que no estn correlacionadas entre s.
Esto significa que las observaciones sucesivas de la variable dependiente no estn correlacionadas. Esta suposicin con frecuencia se viola cuando se comprende el tiempo con las observaciones muestreadas. En esta seccin se presenta un anlisis breve de cada una de las estas suposiciones. Adems, se proporcionan mtodos para validar estas
suposiciones, y se sealan las consecuencias si estas suposiciones no se cumplen. Para quienes estn interesados en un anlisis adicional, una referencia excelente es kutner, nachtscheim y neter, applied linear regression models, 4, ed. Mcgraw-hill, 2004
RELACION LINEAL. Primero se ver la suposicin d linealidad. La idea es que la relacin entre el conjunto de variables independientes y la variable dependiente es lineal. Si se considera dos variables independientes, se visualiza esta suposicin. Las dos variables independientes y las variables dependientes formaran un espacio tridimensional. As, la ecuacin de regresin formara un plano, como se muestra en la pgina 513. Esta suposicin se evala con diagramas de dispersin y grafica de residuos.
USO DE LOS DIAGRAMAS DE PUNTOS La evaluacin de una ecuacin de regresin mltiple siempre deber incluir un diagrama de dispersin en el que se trace la variable dependiente contra cada variable independiente. Estas graficas ayudan a visualizar las relaciones y proporcionan una informacin inicial respecto de la direccin (positiva o negativa), la linealidad y la fuerza de la relacin. Como ejemplo se analizan a continuacin los diagramas de dispersin para el caso del costo de calefaccin. Las grficas sugieren una relacin muy fuerte, negativa y lineal entre el costo de la calefaccin y la temperatura, y una relacin negativa entre el costo de calefaccin y el aislamiento
USO DE GRAFICAS DE RESIDUOS Recuerde que un residuo (Y- ) se calcula mediante la ecuacin de regresin mltiple para cada observacin en un conjunto de datos. En el captulo 13 se firm que la mejor recta de regresin pasada por el centro de los datos.
LA VARIACION EN LOS RESIDUOS ES IGUAL PARA LOS VALORS GRANDES Y PUQUEOS DE Este requisito indica que la variacin respecto de los valores anticipados es constante sin importar si los valores sean grandes o pequeo. Para citar un ejemplo especifico que viole la suposicin. Suponga que la utiliza variable independiente individual, antigedad para explicar la variacin en el ingreso. Se sospecha que conforme aumenta la antigedad tal vez a ms variacin respecto de la recta de regresin. Es decir, es probable que haya ms variacin en el ingreso para una persona de 50 aos de edad. El requisito para una variacin constante respecto de la recta de regresin se denomina homoscedasticidad.
DISTRIBUCION DE LOS RESIDUOS Para tener la seguridad de que las inferencias en las pruebas de hiptesis global e individual son vlidas, se evala la distribucin de los residuos . En un caso ideal, los residuos debern seguir una distribucin de probabilidad normal. Continuacin se muestra en histograma de MINITAB de los residuos a la izquierda para el ejm del costo de calefaccin de una casa. Aunque es difcil demostrar que los residuos siguen una distribucin normal solo con 20 observaciones, parece que la suposicin de normalidad de razonable.
MINITAB y exel ofrecen otra grafica que ayuda a evaluar la suposicin de residuos con una distribucin normal. Esta grafica se denomina grafica de probabilidad normal, y se encuentra a la derecha de histograma. Sin entrar en detalles, la grfica de probabilidad normal confirma la suposicin de residuos normalmente distribuidos si los puntos trazados estn muy cerca de la recta trazada desde la izquierda inferior hasta la derecha superior de la grfica.
HISTOGRAMA DE RESIDUOS
Grafica de probabilidad
correlacionadas. Las variables independientes correlacionadas dificultan las indiferencias acerca de los coeficientes de regresin individeles y sus efectos individeles sobre las variables dependientes. En la prctica es casi imposible seleccionar variables que carezcan por completo de alguna relacin. En otras palabras, es casi imposible crear un conjunto de variables independientes que no estn correlacionadas hasta cierto punto. Sin embargo la compresin general del punto de multicolinealidad es importante. Primero se debe destacar que la multicolineadad no afecta la capacidad de una ecuacin de regresin de mltiple para predecir la variabilidad dependiente. No obstante cuando se tenga inters en evaluar la relacin entre cada variable independiente y las variables dependientes, la multicolinealidad puede presentar resultados inesperados. Una segunda razn para evitar variables independientes correlacionadas es que pueden generar resultados errneos en las pruebas de hiptesis para las
variables independientes individuales. Estos se deben a la inestabilidad del error estndar de estimacin. Varias pistas que indican problemas con la
multicolinealidad incluyen los siguientes: 1. Una variable independiente conocida como anticipador importante resulta con un con coeficiente de regresin que no es significativo 2. Un coeficiente de regresin que debiera tener un signo positivo resulta negativo, o lo contrario. 3. Cuando se agrega o elimina una variable independiente, hay u cambio gstrico en los valores de los coeficientes de regresin restantes.
En nuestra evaluacin de una ecuacin de regresin mltiple, una aproximacin para reducir los efectos de la multicolinealidad es seleccionar con cuidado las variables independientes incluidas en las ecuaciones de regresin. Una regla general es que, si la correlacin entre dos variables independieres se encueran entre -0.70 y 0.70, es probable que nno haya problema al emplear las dos
variables independientes. Una prueba mas precisa es utilizar el factor de inflacin de la varianza el cual por lo general se escribe VIF. El valor de vif se determina como sigue
1 1-R2J
El termino R2 se refieren
al coeficiente de
independiente seleccionada sirve como una variable dependiente, y las variables independieres restantes, como variables independientes. Un VIF mayor que 10 se considera insatisfactorio, e indica que la variable independiente se deber eliminar del anlisis. Primero empee el sistema MINITAB para determinar a matriz de correlacin para la variable dependiente y las cuatro variables independientes una parte de esa salida es la siguiente: Costo Temperatura Aislamiento antigedad -0.812 -0.257 0.537 -0.103 -0.486 0.064 temperatura Aislamiento
Contenido de la celda: correlacin de pearson Ninguna de las correlaciones entre las variables independientes sobrepasa 0.70 ni 0.70 por tanto, no se sospecha problemas con multicolinealidad. La correlacin mayor entre las variables independientes es -0.486 entre antigedad y temperatura. Para confirmar esta conclusin calcule el VIF de cada una de las variables independientes. Primero considere la variable independiente,
variable
con la
dependiente y
de aislamiento y
antigedad del calentador como variables independientes. Las relevantes en pantalla de MINITAB es la siguiente. ANALISIS ANTIGEDAD La ecuacin de regresin es: Temp = 58.0 0.51 aislamiento 2.51 antigedad Factor de coef 57.99 Se coef 12.35 1.488 1.103 T 4.70 -0.34 -2.27 P 0.000 0.737 0.036 1.0 1.0 VIF DE RGRESION: TEMPERATURA VS AISLAMIENTO,
prediccin constante
S =16.0.311 R al cuadrado = 24.1 % R cuadrado ( agust) = 15.2 % ANALISIS DE LA VARIANZA Fuente Regresin Error residual total GL 2 17 19 SS 1390.3 4368.9 5759.2 MS 695.1 257.0 F 2.70 P 0.096
El coeficiente de determinacin es 0.241 por tanto, al sustituir este valor en la formula VIF
El valor de VIF de 1.32 es menor que el lmite superior de 10 esto indica que la variable independiente, temperatura no est muy correlacionada con las dems variables independientes Una vez ms, para determinar el VIF del aislamiento se desarrollara una ecuacin de regresin con el aislamiento como variable dependiente y la
temperatura y antigedad del calentador como variables independientes para que la ecuacin establezca el coeficiente de determinacin. Este ser el valor para este valor se sustituir en la ecuacin y se despejara para el Vif.
OBSERVACIONES INDEPENDIENTES La quinta suposicin respecto del anlisis de regresin y correlacin es que los residuos sucesivos debern ser independientes esto un significa que hay no hay estn
patrn para los residuos no estn muy correlacionados y largas de residuos positivos o negativos sucesivos
corridas
correlacionadas a esta condicin se le conoce como autocorrelacion La autocorelacion se presenta con frecuencia cuando los datos se colectan durante un periodo por ejemplo se desea presidir de las ventas anuales de ages software, inc ., con base en el tiempo y la cantidad y gastada en las variables
probable que para un periodo los puntos actuales estn arriba del plano de regresin (recuerd otro que hay dos variables independientes ) y despus para regresin en la grfica los
periodo los puntos estn debajo del plano de los residuos graficados
siguiente se muestran
valores ajustados y en horizontal observa la corrida la media de los residuos seguida por una corriente
arriba de
debajo de la media
R E S I D U O S
Valores ajustados
Existe una prueba para la auto correlacion denominada durbin Watson VARIABLES INDEPENDIENTES CUALITATIVAS En el ejemplo anterior respecto del costo de calefaccin las dos variables
independientes temperatura extermna y aislamiento fueron cuantitativas es decir de naturaleza numrica con frecuencia en el anlisis se desea ampliar variables en escala nominal como gnero, si la casa tiene alberca , o si el equipo fue local o visitante. Estas variables se de dominan variables
cualitativas debido a que describen una cualidad particular como masculino o femenino para utilizar una variable cualitativa en el anlisis de regresin se emplea un esquema de variables ficticias en las cual una de las dos condiciones posibles se codifica con un 0 o un 1.
VARIABLE FICTICIA: variable en la que solo existe dos resultados posibles. Para el anlisis uno de los resultados se codifica con 1 y el otro con 0
Por
ejemplo, se
de un ejecutivo con
base en los aos de su experiencia laboral y si l o ella se gradu o no de la universidad graduacin de la universidad solo puede adoptar una de dos condiciones : si o no por tanto se considera una variable cualitativa.
Suponga
que
el
ejemplo
de
salsberry reaty se
agrega
la
variable
independiente garaje para casa sin garaje , se utiliza 0 ; para las que si tienen y se emplea 1 a las variables garaje se le designara los datos
de la tabla 14.2 se ingresan en el sistema MINITAB Tabla costo de calefaccin de las casas temperatura aislamiento de una muestra en 20 casas. y garaje
Costo Y 250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139
35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30
3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7
0 1 0 0 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 0
TEMA: REGISTRO LINEAL MULTIPLE DOCENTE: Vernica Loaiza Quilla CURSO: Estadstica II CICLO: IV PRESENTADO POR:
Betsy Ascua Chicaa Escarle Ocmin Aguilar Patricia Roxana Narvez Maricely
AREQUIPA - PERU 2012