You are on page 1of 11

INSTITUTO TECNOLÓGICO DE CAMPECHE

Carrera: ING. INDUSTRIAL Grupo: VI-4

Materia: ESTADISTICA INFERENCIAL II

UNIDAD 1 (segunda parte): REGRESION LINEAL MULTIPLE.

Alumno: MAAS KUC LUCAS Matricula: 11470174

MAESTRO: Ing. RAMON AGUSTIN BOCOS PATRON

San Francisco de Campeche, Campeche; 8 de febrero del 2018


La regresión lineal múltiple

Introducción

Está diseñado para construir un modelo estadístico describiendo el impacto de dos o más
factores cuantitativos X sobre una variable dependiente Y. El procedimiento incluye una
opción para realizar regresión por pasos, en la cual se selecciona una de las variables X
antes establecidas. El modelo colocado puede ser usado para hacer predicciones,
incluyendo límites de confianza y límites de predicción. Los residuos pueden también ser
graficados observando la manera en que influyen.

Desarrollo del modelo

Para dos variables independientes, la fórmula general de la ecuación de regresión


múltiple es:

X1 y X2 son las variables independientes.


a es la intercepción en Y.
b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante. Se
denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente
de regresión.
La ecuación general de regresión múltiple con k varibles independientes es:

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.


Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que
pueden utilizarse para estimarlos.

Determinación de la ecuación de R.L.M


Interpretación de los coeficientes bi del modelo

Inferencias en la R.L.M

 Prueba de hipótesis de que todos los coeficientes de regresión son ceros.

En este caso la hipótesis nula es o sea, que el modelo


no sirve, versus la hipótesis alterna Ha: Al menos uno de los coeficientes es distinto de
cero, o sea, al menos una de las variables del modelo sirve La prueba estadística es la
prueba de F que se obtiene al hacer la tabla del Análisis de varianza para la regresion
múltiple.

Se distribuye como una F con grados de libertad en el numerador y grados de libertad en


el denominador.

 Prueba de hipótesis para un subconjunto de coeficientes de regresión

Algunas veces estamos interesados en probar si algunos coeficientes del modelo de


regresión son iguales a 0 simultáneamente.
. En este caso al modelo que tiene las variables se le
llama el modelo completo y al modelo que queda, asumiendo que la hipótesis nula es
cierta, se le llama modelo reducido. Para probar si la hipótesis nula es cierta se usa una
prueba de F que es llamada F-parcial.

La prueba de F parcial se calcula por:

 Error estándar de la estimación


 P. de H. (de significación p/los coeficientes 𝛽1 , 𝛽2

Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para
regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple
tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribución a la explicación de la respuesta. También requerimos de la
suposición de que los errores se distribuyen en forma normal, independientes, con media
cero y varianza 𝜎 2 .

La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver
si la regresión es significativa. Esto se logra probando la siguiente hipótesis:

𝐻0 : 𝛽1 = 𝛽2 = ⋯ 𝛽𝑘 = 0

𝐻1 : 𝛽𝑗 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑗 = 1,2, … , 𝑘

Aceptar 𝐻0 significa que ningún término o variable en el modelo tiene una contribución
significativa al explicar la variable de respuesta, Y. Mientras que rechazar 𝐻0 implica que
por lo menos un término en el modelo contribuye de manera significativa a explicar Y. El
procedimiento para probar esta hipótesis es una generalización del procedimiento
utilizado para probar la hipótesis equivalente en regresión lineal simple.

El estadístico de prueba para la significancia del modelo de regresión lineal múltiple está
dado por:
𝑆𝐶𝑅 /𝐾 𝐶𝑀𝑅
𝐹0 = =
𝑆𝐶𝐸 /(𝑛 − 𝑘 − 1) 𝐶𝑀𝐸

Que bajo 𝐻0 tiene una distribución 𝐹(𝑘,𝑛−𝑘−1). Así, se rechaza 𝐻0 si 𝐹0 >𝐹(𝑘,𝑛−𝑘−1) o


también si valor –p = P (F > 𝐹0 ) < α.

 Prueba de “t” de independencia entre las variables.

𝛽𝑖 = 0

𝛽𝑖 ≠ 0
𝑏𝑖
𝑡𝑐 = ; 𝑐𝑜𝑛 𝑣 = 𝑛 − 𝑝 − 1
𝑠𝑏𝑖

Se rechaza 𝐻0 si |𝑡𝑐 | > 𝑡𝛼/2 ; o alternativamente, si p-valor de tc es menor que α.

 Enfoque del ANDEVA p/la prueba de significación de la regresión.

La división de la suma total de cuadrados en sus componentes, la regresion y suma de


cuadrados del error juega un papel importante. Se puede llevar a cabo un análisis de
varianza para aclarar la calidad de la ecuación de regresion.
 Estimación de los intervalos de confianza para β1, β2,…

En los modelos de regresion múltiple con frecuencia es conveniente construir


estimaciones de intervalos de confianza para los coeficientes de regresion {Bj}. El
desarrollo de un procedimiento para obtener estos intervalos requiere que los errores {εi}
tenga una distribución normal e independiente con media cero y varianza 𝜎 2 . Se trata del
mismo supuesto requerido en la prueba de hipótesis.

 Predicción de la variable dependiente Y

El modelo permite generar predicciones para el valor esperado o para un valor individual
de la variable dependiente (Y) asociado a un valor dado de la variable independiente (X).
En ambos casos la predicción puntual es la misma y se obtiene sustituyendo en el modelo
estimado el valor X0 para el cual se desea realizar la predicción.

Para obtener el intervalo de confianza de los pronósticos y/o contrastar si puede


aceptarse un determinado valor de Y condicionado a un valor X0 es necesario calcular el
error estándar de la predicción, el cual dependerá del valor pronosticado:

 Predicción del valor esperado de Y para X=X0,

 Predicción del valor individual de Y para X=X0,

 I. de C. para la µy, x1, x2,…

También puede obtenerse un intervalo de confianza para la respuesta media en un punto


particular, por ejemplo, x01, x02,…, x0k. Para estimar la respuesta media en un punto, se
define el vector.

1
𝑥01
𝑥02
𝑥0 = .
.
.
[ 𝑥 0𝑘 ]

Para el modelo de regresion lineal múltiple, un intervalo de confianza del 100 (1–α) por
ciento para la respuesta media en el punto x01, x02,…, x0k es:
µ̂𝑦/𝑥0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 𝑥0, (𝑥 𝑥)−1 𝑥0 ≤ µ̂𝑦 ≤ µ̂𝑦 + 𝑡𝛼,𝑛−𝑝 √𝜎̂ 2 𝑥0, (𝑥 𝑥)−1 𝑥0
2 𝑥0 𝑥0 2

 I. de predicción para una observación futura Yi

Es posible usar un modelo de regresión para predecir observaciones futuras de la variable


de respuesta Y correspondiente a valores particulares de las variables independientes.

Un intervalo de predicción para esta observación futura del 100 (1-α) por ciento es:

𝑦̂0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 (1 + 𝑥0, (𝑥 𝑥)−1 𝑥0 ) ≤ 𝑦0 ≤ 𝑦̂0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 (1 + 𝑥0, (𝑥 𝑥)−1 𝑥0 )
2 2

El coeficiente de determinación múltiple

El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado,


es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo
datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el
cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

Algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostración

de .
 Introducción

El coeficiente de determinación múltiple, es una generalización del valor de definida en


la lección de R cuadrado definida para una línea recta.

 Medidas de variación

Se utiliza para medir la reducción en la variabilidad total de debido a la inclusión de las

variables regresoras . Un valor grande de no necesariamente implica que


el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de , ya
sea que las variables contribuyan o no al modelo. Es posible que modelos con valor
de grande sean malos en la predicción o estimación.

 Cálculo del coeficiente e interpretación

Definiendo el coeficiente de determinación R2 como la medida de la cantidad de


reducción en la variabilidad de (y) obtenida a partir de las variables regresoras x1, x2,
x3,… xk tal que R2 puede tener valores entre 0 0≤R^2≤1 aunque un valor grande de R2
no significa que el modelo de regresión es bueno. La raíz cuadrada positiva de R2 en el
coeficiente de correlación múltiple entre (y) y las variables regresoras x1, x2, x3,… xk es
una medida de la asociación lineal entre (y) y x1, x2, x3,… xk

 El coeficiente de determinación “ajustado”

Nos indica el grado de relación lineal que existe entre las variables que están siendo
objeto de estudio, es un número que se encuentra entre -1 y 1.

Evaluación de la adecuación del modelo de regresión

Los principales supuestos que se hacen en el análisis de regresión lineal son los
siguientes:

1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una
línea recta.
2. El término de error  tiene media cero.
3. El término de error  tiene varianza constante 2.
4. Los errores no están correlacionados.
5. Los errores están normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el
supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros.
Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos
básicos de la regresión no sólo lineal sino también la múltiple.
Los residuos están definidos como las n diferencias,
^
ei  Yi  Y i , i  1,2,3..., n
Donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de
regresión.

Como los residuos son las diferencias entre las observaciones reales y las predichas o
estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e
el valor observado de los errores. Así, cualquier desviación anormal de los supuestos
acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo
para descubrir varios tipos de deficiencias del modelo.

Los residuos tienen varias propiedades importantes. Su media es cero y su varianza


aproximada es:

n __ 2 n

 (ei  e ) e i
2

SS E
i 1
 i 1
  MS E
n2 n2 n2

En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y
varianza unitaria aproximada.

ei
di  ,....1  1,2,....., n
MS E

Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las


varianzas de los residuos, un método más apropiado de escalamiento es el de los
residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar de
un promedio de las varianzas como en los residuos estandarizados. Para n grande,
ambos residuos son muy parecidos.

Los residuos pueden ser graficados para:

1. Checar normalidad.
2. Checar el efecto del tiempo si su orden es conocido en los datos.
3. Checar la constancia de la varianza y la posible necesidad de transformar los datos
en Y.
4. Checar la curvatura de más alto orden que ajusta en las X’s.
Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan
un papel importante en la evaluación de la adecuación del modelo, de forma similar que
en la regresión lineal simple. Es conveniente graficar los residuos siguientes:

1. Residuos en papel de probabilidad normal.


2. Residuos contra cada uno de los regresores X’s.
3. Residuos contra cada Yˆi , i  1,2,..., k
4. Residuos en secuencia de tiempo ( si se conoce)
Estas gráficas se usan para identificar comportamientos anormales, outliers, varianza
desigual, y la especificación funcional equivocada para un regresor. Se pueden graficar
los residuos sin escalamiento o con un escalamiento apropiado.

Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la


regresión múltiple, como se describen a continuación.

Gráficas de residuos contra regresores omitidos en el modelo


Estas gráficas podrían revelar cualquier dependencia de la variable de respuesta Y contra
los factores omitidos, se esta forma se puede analizar si su incorporación mejora la
explicación del modelo.
Gráficas de residuos parciales
Estas gráficas están diseñadas para revelar en forma más precisa la relación entre los
residuos y la variable regresora Xj. Se define el residuo parcial i-ésimo para el regresor Xj
como sigue:

eij*  ei  b j X ij , i  1,2,...., n
 Análisis residual

Nos permite observar que se cumplan los supuestos bajo los cuales hemos construido el
modelo de regresión, es este caso del supuesto general de que la varianza del error es la
misma para todos los valores x.

La multicolinealidad o colinealidad múltiple.

Significa que las variables independientes del problema están relacionadas. Puede ser
porque así es el fenómeno y por lo tanto no hay arreglo, o por el diseño de obtención de
los datos, entonces lo que se debe de hacer es obtener más datos con un diseño que
corrija el problema.

¿Cómo se detecta su presencia?

Existen reglas generales, algunas de ellas formales y otras informales, para detectar la
multicolinealidad varias de ellas son:

Se obtiene un coeficiente de determinación muy alto, pero ninguno de los coeficientes de


regresión es estadísticamente significativo, con base en la prueba t.
En un modelo de regresión con dos variables independientes, se puede tener una idea de
la presencia de colinealidad con el coeficiente de correlación simple entre las dos
variables independientes.

Cuando se tiene un modelo con más de dos variables independientes, las correlaciones
elevadas (superiores a 0.8) son una condición suficiente pero no necesaria para la
existencia de multicolinealidad, debido a que ésta puede existir, a pesar de que las
correlaciones simples sean bajas (inferiores a 0.5).

La multicolinealidad surge debido a que una o más variables son combinaciones exactas
o aproximadamente lineales de las otras variables, por lo tanto una manera de averiguar
qué variable X está relacionada con las otras variables independientes consiste en hacer
una regresión entre cada Xi y las demás variables independientes, calculando el
respectivo coeficiente de determinación que se notará como R2i; cada una de estas
regresiones se denomina regresión auxiliar , auxiliar a la regresión principal de Y con las
X. Se define la siguiente variable:

La cual tiene distribución F con k-1 y n-k grados de libertad.

R2Xi.X2X3...XK es el coeficiente de determinación en la regresión de la variable Xi en las


restantes variables independientes.

Si la estadística de trabajo (Fi ) es menor que el valor tabulado F (1- ) , la variable Xi no


es colineal con las restantes X; si es mayor, es colineal por lo tanto la variable X i debe
eliminarse del modelo.

Los métodos presentados para la detección de la multicolinealidad son esencialmente


"métodos de pesca" ya que no se puede decir si ellos funcionan para una determinada
aplicación.

¿Qué medidas correctivas se pueden utilizar para resolver este problema?

Una vez detectada la presencia de multicolinealidad en un modelo, existen varios


métodos para solucionarla, unos más complejos que otros.

You might also like