RLM Regresión Lineal Múltiple

INSTITUTO TECNOLÓGICO DE CAMPECHE
Carrera: ING. INDUSTRIAL Grupo: VI-4
Materia: ESTADISTICA INFERENCIAL II
UNIDAD 1 (segunda parte): REGRESION LINEAL MULTIPLE.
Alumno: MAAS KUC LUCAS Matricula: 11470174
MAESTRO: Ing. RAMON AGUSTIN BOCOS PATRON
San Francisco de Campeche, Campeche; 8 de febrero del 2018

La regresión lineal múltiple
Introducción
Está diseñado para construir un modelo estadístico describiendo el impacto de dos o más
factores cuantitativos X sobre una variable dependiente Y. El procedimiento incluye una
opción para realizar regresión por pasos, en la cual se selecciona una de las variables X
antes establecidas. El modelo colocado puede ser usado para hacer predicciones,
incluyendo límites de confianza y límites de predicción. Los residuos pueden también ser
graficados observando la manera en que influyen.
Desarrollo del modelo
Para dos variables independientes, la fórmula general de la ecuación de regresión

múltiple es:
X1 y X2 son las variables independientes.

a es la intercepción en Y.
b1 es el cambio neto en Y por cada cambio unitario en X1, manteniendo X2 constante. Se
denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente
de regresión.
La ecuación general de regresión múltiple con k varibles independientes es:
El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que
pueden utilizarse para estimarlos.
Determinación de la ecuación de R.L.M

Interpretación de los coeficientes bi del modelo
Inferencias en la R.L.M
 Prueba de hipótesis de que todos los coeficientes de regresión son ceros.
En este caso la hipótesis nula es o sea, que el modelo

no sirve, versus la hipótesis alterna Ha: Al menos uno de los coeficientes es distinto de
cero, o sea, al menos una de las variables del modelo sirve La prueba estadística es la
prueba de F que se obtiene al hacer la tabla del Análisis de varianza para la regresion
múltiple.
Se distribuye como una F con grados de libertad en el numerador y grados de libertad en

el denominador.
 Prueba de hipótesis para un subconjunto de coeficientes de regresión
Algunas veces estamos interesados en probar si algunos coeficientes del modelo de

regresión son iguales a 0 simultáneamente.
. En este caso al modelo que tiene las variables se le
llama el modelo completo y al modelo que queda, asumiendo que la hipótesis nula es
cierta, se le llama modelo reducido. Para probar si la hipótesis nula es cierta se usa una
prueba de F que es llamada F-parcial.
La prueba de F parcial se calcula por:
 Error estándar de la estimación

 P. de H. (de significación p/los coeficientes 𝛽1 , 𝛽2
Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para
regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple
tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar
su verdadera contribución a la explicación de la respuesta. También requerimos de la
suposición de que los errores se distribuyen en forma normal, independientes, con media
cero y varianza 𝜎 2 .
La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver
si la regresión es significativa. Esto se logra probando la siguiente hipótesis:
𝐻0 : 𝛽1 = 𝛽2 = ⋯ 𝛽𝑘 = 0
𝐻1 : 𝛽𝑗 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑗 = 1,2, … , 𝑘
Aceptar 𝐻0 significa que ningún término o variable en el modelo tiene una contribución
significativa al explicar la variable de respuesta, Y. Mientras que rechazar 𝐻0 implica que
por lo menos un término en el modelo contribuye de manera significativa a explicar Y. El
procedimiento para probar esta hipótesis es una generalización del procedimiento
utilizado para probar la hipótesis equivalente en regresión lineal simple.
El estadístico de prueba para la significancia del modelo de regresión lineal múltiple está
dado por:
𝑆𝐶𝑅 /𝐾 𝐶𝑀𝑅
𝐹0 = =
𝑆𝐶𝐸 /(𝑛 − 𝑘 − 1) 𝐶𝑀𝐸
Que bajo 𝐻0 tiene una distribución 𝐹(𝑘,𝑛−𝑘−1). Así, se rechaza 𝐻0 si 𝐹0 >𝐹(𝑘,𝑛−𝑘−1) o

también si valor –p = P (F > 𝐹0 ) < α.
 Prueba de “t” de independencia entre las variables.
𝛽𝑖 = 0
𝛽𝑖 ≠ 0
𝑏𝑖
𝑡𝑐 = ; 𝑐𝑜𝑛 𝑣 = 𝑛 − 𝑝 − 1
𝑠𝑏𝑖
Se rechaza 𝐻0 si |𝑡𝑐 | > 𝑡𝛼/2 ; o alternativamente, si p-valor de tc es menor que α.
 Enfoque del ANDEVA p/la prueba de significación de la regresión.
La división de la suma total de cuadrados en sus componentes, la regresion y suma de

cuadrados del error juega un papel importante. Se puede llevar a cabo un análisis de
varianza para aclarar la calidad de la ecuación de regresion.
 Estimación de los intervalos de confianza para β1, β2,…
En los modelos de regresion múltiple con frecuencia es conveniente construir

estimaciones de intervalos de confianza para los coeficientes de regresion {Bj}. El
desarrollo de un procedimiento para obtener estos intervalos requiere que los errores {εi}
tenga una distribución normal e independiente con media cero y varianza 𝜎 2 . Se trata del
mismo supuesto requerido en la prueba de hipótesis.
 Predicción de la variable dependiente Y
El modelo permite generar predicciones para el valor esperado o para un valor individual
de la variable dependiente (Y) asociado a un valor dado de la variable independiente (X).
En ambos casos la predicción puntual es la misma y se obtiene sustituyendo en el modelo
estimado el valor X0 para el cual se desea realizar la predicción.
Para obtener el intervalo de confianza de los pronósticos y/o contrastar si puede

aceptarse un determinado valor de Y condicionado a un valor X0 es necesario calcular el
error estándar de la predicción, el cual dependerá del valor pronosticado:
 Predicción del valor esperado de Y para X=X0,
 Predicción del valor individual de Y para X=X0,
 I. de C. para la µy, x1, x2,…
También puede obtenerse un intervalo de confianza para la respuesta media en un punto

particular, por ejemplo, x01, x02,…, x0k. Para estimar la respuesta media en un punto, se
define el vector.
1
𝑥01
𝑥02
𝑥0 = .
.
.
[ 𝑥 0𝑘 ]
Para el modelo de regresion lineal múltiple, un intervalo de confianza del 100 (1–α) por
ciento para la respuesta media en el punto x01, x02,…, x0k es:
µ̂𝑦/𝑥0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 𝑥0, (𝑥 𝑥)−1 𝑥0 ≤ µ̂𝑦 ≤ µ̂𝑦 + 𝑡𝛼,𝑛−𝑝 √𝜎̂ 2 𝑥0, (𝑥 𝑥)−1 𝑥0
2 𝑥0 𝑥0 2
 I. de predicción para una observación futura Yi
Es posible usar un modelo de regresión para predecir observaciones futuras de la variable

de respuesta Y correspondiente a valores particulares de las variables independientes.
Un intervalo de predicción para esta observación futura del 100 (1-α) por ciento es:
𝑦̂0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 (1 + 𝑥0, (𝑥 𝑥)−1 𝑥0 ) ≤ 𝑦0 ≤ 𝑦̂0 − 𝑡𝛼,𝑛−𝑝 − √𝜎̂ 2 (1 + 𝑥0, (𝑥 𝑥)−1 𝑥0 )
2 2
El coeficiente de determinación múltiple
El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado,

es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo
datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el
cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:
Algunas otras formas de presentar el coeficiente de determinación son:
Algunas de las equivalencias anteriores pueden verse a partir de la demostración
de .
 Introducción
El coeficiente de determinación múltiple, es una generalización del valor de definida en

la lección de R cuadrado definida para una línea recta.
 Medidas de variación
Se utiliza para medir la reducción en la variabilidad total de debido a la inclusión de las
variables regresoras . Un valor grande de no necesariamente implica que

el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de , ya
sea que las variables contribuyan o no al modelo. Es posible que modelos con valor
de grande sean malos en la predicción o estimación.
 Cálculo del coeficiente e interpretación
Definiendo el coeficiente de determinación R2 como la medida de la cantidad de

reducción en la variabilidad de (y) obtenida a partir de las variables regresoras x1, x2,
x3,… xk tal que R2 puede tener valores entre 0 0≤R^2≤1 aunque un valor grande de R2
no significa que el modelo de regresión es bueno. La raíz cuadrada positiva de R2 en el
coeficiente de correlación múltiple entre (y) y las variables regresoras x1, x2, x3,… xk es
una medida de la asociación lineal entre (y) y x1, x2, x3,… xk
 El coeficiente de determinación “ajustado”
Nos indica el grado de relación lineal que existe entre las variables que están siendo
objeto de estudio, es un número que se encuentra entre -1 y 1.
Evaluación de la adecuación del modelo de regresión
Los principales supuestos que se hacen en el análisis de regresión lineal son los
siguientes:
1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una
línea recta.
2. El término de error  tiene media cero.
3. El término de error  tiene varianza constante 2.
4. Los errores no están correlacionados.
5. Los errores están normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el
supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros.
Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos
básicos de la regresión no sólo lineal sino también la múltiple.
Los residuos están definidos como las n diferencias,
^
ei  Yi  Y i , i  1,2,3..., n
Donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de
regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas o
estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e
el valor observado de los errores. Así, cualquier desviación anormal de los supuestos
acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo
para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza

aproximada es:
n __ 2 n
 (ei  e ) e i
2
SS E
i 1
 i 1
  MS E
n2 n2 n2
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y
varianza unitaria aproximada.
ei
di  ,....1  1,2,....., n
MS E
Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las

varianzas de los residuos, un método más apropiado de escalamiento es el de los
residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar de
un promedio de las varianzas como en los residuos estandarizados. Para n grande,
ambos residuos son muy parecidos.
Los residuos pueden ser graficados para:
1. Checar normalidad.
2. Checar el efecto del tiempo si su orden es conocido en los datos.
3. Checar la constancia de la varianza y la posible necesidad de transformar los datos
en Y.
4. Checar la curvatura de más alto orden que ajusta en las X’s.
Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan
un papel importante en la evaluación de la adecuación del modelo, de forma similar que
en la regresión lineal simple. Es conveniente graficar los residuos siguientes:
1. Residuos en papel de probabilidad normal.

2. Residuos contra cada uno de los regresores X’s.
3. Residuos contra cada Yˆi , i  1,2,..., k
4. Residuos en secuencia de tiempo ( si se conoce)
Estas gráficas se usan para identificar comportamientos anormales, outliers, varianza
desigual, y la especificación funcional equivocada para un regresor. Se pueden graficar
los residuos sin escalamiento o con un escalamiento apropiado.
Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la

regresión múltiple, como se describen a continuación.
Gráficas de residuos contra regresores omitidos en el modelo

Estas gráficas podrían revelar cualquier dependencia de la variable de respuesta Y contra
los factores omitidos, se esta forma se puede analizar si su incorporación mejora la
explicación del modelo.
Gráficas de residuos parciales
Estas gráficas están diseñadas para revelar en forma más precisa la relación entre los
residuos y la variable regresora Xj. Se define el residuo parcial i-ésimo para el regresor Xj
como sigue:
eij*  ei  b j X ij , i  1,2,...., n
 Análisis residual
Nos permite observar que se cumplan los supuestos bajo los cuales hemos construido el
modelo de regresión, es este caso del supuesto general de que la varianza del error es la
misma para todos los valores x.
La multicolinealidad o colinealidad múltiple.
Significa que las variables independientes del problema están relacionadas. Puede ser
porque así es el fenómeno y por lo tanto no hay arreglo, o por el diseño de obtención de
los datos, entonces lo que se debe de hacer es obtener más datos con un diseño que
corrija el problema.
¿Cómo se detecta su presencia?
Existen reglas generales, algunas de ellas formales y otras informales, para detectar la
multicolinealidad varias de ellas son:
Se obtiene un coeficiente de determinación muy alto, pero ninguno de los coeficientes de

regresión es estadísticamente significativo, con base en la prueba t.
En un modelo de regresión con dos variables independientes, se puede tener una idea de
la presencia de colinealidad con el coeficiente de correlación simple entre las dos
variables independientes.
Cuando se tiene un modelo con más de dos variables independientes, las correlaciones
elevadas (superiores a 0.8) son una condición suficiente pero no necesaria para la
existencia de multicolinealidad, debido a que ésta puede existir, a pesar de que las
correlaciones simples sean bajas (inferiores a 0.5).
La multicolinealidad surge debido a que una o más variables son combinaciones exactas
o aproximadamente lineales de las otras variables, por lo tanto una manera de averiguar
qué variable X está relacionada con las otras variables independientes consiste en hacer
una regresión entre cada Xi y las demás variables independientes, calculando el
respectivo coeficiente de determinación que se notará como R2i; cada una de estas
regresiones se denomina regresión auxiliar , auxiliar a la regresión principal de Y con las
X. Se define la siguiente variable:
La cual tiene distribución F con k-1 y n-k grados de libertad.
R2Xi.X2X3...XK es el coeficiente de determinación en la regresión de la variable Xi en las

restantes variables independientes.
Si la estadística de trabajo (Fi ) es menor que el valor tabulado F (1- ) , la variable Xi no

es colineal con las restantes X; si es mayor, es colineal por lo tanto la variable X i debe
eliminarse del modelo.
Los métodos presentados para la detección de la multicolinealidad son esencialmente

"métodos de pesca" ya que no se puede decir si ellos funcionan para una determinada
aplicación.
¿Qué medidas correctivas se pueden utilizar para resolver este problema?
Una vez detectada la presencia de multicolinealidad en un modelo, existen varios

métodos para solucionarla, unos más complejos que otros.

RLM Regresión Lineal Múltiple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

RLM Regresión Lineal Múltiple

Uploaded by

Copyright:

Available Formats

INSTITUTO TECNOLÓGICO DE CAMPECHE

Carrera: ING. INDUSTRIAL Grupo: VI-4

Materia: ESTADISTICA INFERENCIAL II

UNIDAD 1 (segunda parte): REGRESION LINEAL MULTIPLE.

Alumno: MAAS KUC LUCAS Matricula: 11470174

MAESTRO: Ing. RAMON AGUSTIN BOCOS PATRON

San Francisco de Campeche, Campeche; 8 de febrero del 2018

Desarrollo del modelo

Para dos variables independientes, la fórmula general de la ecuación de regresión

X1 y X2 son las variables independientes.

El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.

Determinación de la ecuación de R.L.M

 Prueba de hipótesis de que todos los coeficientes de regresión son ceros.

En este caso la hipótesis nula es o sea, que el modelo

Se distribuye como una F con grados de libertad en el numerador y grados de libertad en

 Prueba de hipótesis para un subconjunto de coeficientes de regresión

Algunas veces estamos interesados en probar si algunos coeficientes del modelo de

La prueba de F parcial se calcula por:

 Error estándar de la estimación

𝐻1 : 𝛽𝑗 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑗 = 1,2, … , 𝑘

Que bajo 𝐻0 tiene una distribución 𝐹(𝑘,𝑛−𝑘−1). Así, se rechaza 𝐻0 si 𝐹0 >𝐹(𝑘,𝑛−𝑘−1) o

 Prueba de “t” de independencia entre las variables.

Se rechaza 𝐻0 si |𝑡𝑐 | > 𝑡𝛼/2 ; o alternativamente, si p-valor de tc es menor que α.

 Enfoque del ANDEVA p/la prueba de significación de la regresión.

La división de la suma total de cuadrados en sus componentes, la regresion y suma de

En los modelos de regresion múltiple con frecuencia es conveniente construir

 Predicción de la variable dependiente Y

Para obtener el intervalo de confianza de los pronósticos y/o contrastar si puede

 Predicción del valor esperado de Y para X=X0,

 Predicción del valor individual de Y para X=X0,

 I. de C. para la µy, x1, x2,…

También puede obtenerse un intervalo de confianza para la respuesta media en un punto

 I. de predicción para una observación futura Yi

Es posible usar un modelo de regresión para predecir observaciones futuras de la variable

El coeficiente de determinación múltiple

El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado,

Algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostración

El coeficiente de determinación múltiple, es una generalización del valor de definida en

Se utiliza para medir la reducción en la variabilidad total de debido a la inclusión de las

variables regresoras . Un valor grande de no necesariamente implica que

 Cálculo del coeficiente e interpretación

Definiendo el coeficiente de determinación R2 como la medida de la cantidad de

 El coeficiente de determinación “ajustado”

Evaluación de la adecuación del modelo de regresión

Los residuos tienen varias propiedades importantes. Su media es cero y su varianza

Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las

Los residuos pueden ser graficados para:

1. Residuos en papel de probabilidad normal.

Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la

Gráficas de residuos contra regresores omitidos en el modelo

La multicolinealidad o colinealidad múltiple.

¿Cómo se detecta su presencia?

Se obtiene un coeficiente de determinación muy alto, pero ninguno de los coeficientes de

La cual tiene distribución F con k-1 y n-k grados de libertad.

R2Xi.X2X3...XK es el coeficiente de determinación en la regresión de la variable Xi en las

Si la estadística de trabajo (Fi ) es menor que el valor tabulado F (1- ) , la variable Xi no

Los métodos presentados para la detección de la multicolinealidad son esencialmente

¿Qué medidas correctivas se pueden utilizar para resolver este problema?

Una vez detectada la presencia de multicolinealidad en un modelo, existen varios

You might also like