You are on page 1of 10

Tabla ANOVA y mejoramiento del modelo de regresión múltiple

Tabla ANOVA para la regresión lineal múltiple


SUMA DE ESTADISTICO
G.L.
CUADRADOS DE PRUEBA
𝑛
Variabilidad explicada 𝑆𝐶𝐸
𝑆𝐶𝐸 = ∑ (𝑦̂𝑖 − 𝑦̅)2 𝑘 𝑆𝐶𝐸
por el modelo 𝑖=1 𝑘
𝐹= 𝑘
Variabilidad NO 𝑛
𝑆𝐶𝑅 𝑆𝐶𝑅
explicada por el 𝑆𝐶𝑅 = ∑ (𝑦𝑖 − 𝑦̂𝑖 )2 𝑛−𝑘−1 𝑛−𝑘−1
modelo 𝑖=1 𝑛−𝑘−1
Suma Total de
cuadrados
𝑆𝑇𝐶 = 𝑆𝐶𝐸 − 𝑆𝐶𝑅 𝑛−1
La tabla ANOVA sufre ligeros cambios con respecto a la regresión lineal simple. Ahora los grados
de libertad de la suma de los cuadrados de los errores es 𝑘, que representa el número de las
variables independientes que contiene la regresión lineal múltiple.

𝑆𝐶𝐸
Coeficiente de correlación múltiple 𝑟=√
𝑆𝑇𝐶
𝑆𝐶𝐸
Coeficiente de determinación múltiple 𝑅2 =
𝑆𝑇𝐶
𝑆𝐶𝐸
Error estándar de estimación múltiple 𝑆=√
𝑛−𝑘−1

2
Coeficiente ajustado de determinación (𝑅ajus ):
Cada nueva variable independiente que se incorpora al modelo de regresión hace que las
predicciones sean más precisas, lo que a su vez reduce la variabilidad no explicada por la regresión
(SCR) y aumenta la variabilidad explicada por la regresión (SCE). Por lo tanto, 𝑅 2 aumenta sólo
debido al número total de variables independientes y no porque la variable independiente agregada
sea un buen factor de predicción de la variable dependiente. Para equilibrar el efecto del número de
variables independientes en el coeficiente de determinación múltiple, se emplea un coeficiente de
determinación ajustado múltiple que se calcula con la fórmula
 n 1 
2
Radj  1  1  R 2   
 n  k 1 
En el análisis de regresión múltiple se tendrán dos alternativas para poder llegar a tener el
mejor modelo posible: el análisis de la matriz de correlación y la prueba de significancia
del modelo de regresión múltiple que consiste en efectuar la prueba F y la prueba t. A
continuación, se explican estas dos herramientas estadísticas:
Matriz de correlación
Antes de poder utilizar la ecuación de regresión múltiple para sus principales usos, estimación y
pronósticos de valores de la variable dependiente, es necesario asegurarse de que se tiene un modelo
adecuado. La multicolinealidad, un problema que se debe evitar en los análisis de regresión, se da
cuando las variables independientes están altamente correlacionadas. Por lo general se considera
que un par de variables independientes son aceptables si su correlación está dentro del rango de
−0.7 < 𝑟 < 0.7.
Para evaluar esto, conviene calcular al inicio del análisis un matriz de correlaciones para ver el
índice de correlación que existe entre cada par de variables independientes.
Adicionalmente, la matriz de correlaciones sirve para elegir las variables que mejor se relacionan
con la variable dependiente ya que, como se recordará, el coeficiente de correlación mide que tan
estrecha es la relación entre 2 variables. En el ejemplo siguiente se analizan estos aspectos.
La matriz de correlación se obtiene en Excel siguiendo los comandos
Datos  “Análisis de datos”  “Coeficiente de correlación”
Ejemplo: Los siguientes son algunos datos representativos de las nueve principales compañías de
2011, del listado de las 500 empresas más importantes de México, que cada ano publica la revista
Expansión.
Ventas
País Activo pasivo Patrimonio Empleados
Empresa (mdp)
Pemex MX 1282064.30 1392715.30 1506498.70 -113783.40 147672
América Móvil MX 607855.70 876694.50 540657.40 336037.20 150618
Walmart de
EU 335857.40 194807.60 71948.00 122859.60 219767
México
CFE MX 254417.30 841202.30 488545.50 352656.80 93254
Cemex MX 178260.00 515097.00 301397.00 213700.00 46523
Fomento
Económico MX 169701.80 223578.40 70565.30 153013.10 108572
Mexicano
General Motors de
EU 158692.00 55191.00 42073.00 13112.00 12000
México
Grupo Alfa MX 136395.00 112255.00 76014.00 36241.00 56332
BBVA Bancomer ESP 121910.00 1114171.00 987910.00 126261.00 34189

a) calcule la matriz de correlación para revisar la relación entre las ventas como variable
dependiente y las restantes como variables independientes.
Ventas Activo Pasivo Patrimonio Empleados
Ventas 1
Activo 0.6617 1
Pasivo 0.7484 0.9544 1
Patrimonio -0.3772 0.0217 -0.2777 1
Empleados 0.5210 0.1466 0.1148 0.0872 1

Analizando la matriz de correlación, se observa que la variable del activo está estrechamente
correlacionada con el pasivo y puede provocar problemas de multicolinealidad. Pero puede
asumirse que ambas aportan información similar a las ventas. También la correlación que rebasa el
0.7 es la correlación entre ventas y pasivo, pero el activo es la variable que esta menos
correlacionada con las ventas (𝑟 = 0.6617). Por lo tanto, se decide eliminar la variable Activo.
Una variable independiente o predictoras, cuando se les utiliza para hacer pronósticos sobre la
variable dependiente, debe tener, preferentemente, una correlación fuerte con la variable
dependiente. De la matriz de correlación, se identifica que la correlación entre ventas y patrimonio
es de -0.3772, considerándose débil. Entonces se elige eliminar también la variable de patrimonio.
Para realizar un segundo análisis, se considera la siguiente tabla
Ventas
País pasivo Empleados
Empresa (mdp)
Pemex MX 1282064.30 1506498.70 147672
América Móvil MX 607855.70 540657.40 150618
Walmart de
EU 335857.40 71948.00 219767
México
CFE MX 254417.30 488545.50 93254
Cemex MX 178260.00 301397.00 46523
Fomento
Económico MX 169701.80 70565.30 108572
Mexicano
General Motors de
EU 158692.00 42073.00 12000
México
Grupo Alfa MX 136395.00 76014.00 56332
BBVA Bancomer ESP 121910.00 987910.00 34189
Se recalcula la matriz de correlación
Ventas (mdp) pasivo Empleados
Ventas (mdp) 1
pasivo 0.7484 1
Empleados 0.5210 0.1148 1
Queda equilibrados los coeficientes de correlación.
La prueba de significancia del modelo
Ejemplo: Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las preguntas
más frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en
calefacción durante el invierno? Al departamento de investigación de Salsberry se le pidió
desarrollar algunas directrices respecto de los costos de calefacción de casas unifamiliares. Se
considera que 3 variables se relacionan con dichos costos: 1) la temperatura externa diaria media, 2)
el número de pulgadas de aislamiento en el ático y 3) los años de uso del calentador.
Para el estudio, el departamento de investigación de Salsberry seleccionó una muestra aleatoria de
20 casas de venta reciente. Determinó el costo de calefacción de cada casa en enero pasado, así
como la temperatura externa en enero en la región, el número de pulgadas de aislamiento del ático y
los años de uso del calentador. La información muestral se reporta en la tabla.
Costo de Temp externa Aislamiento Antigüedad del
Casa
Calefacción ($) media (°F) del ático (in) calentador (años)
1 250 35 3 6
2 360 29 4 10
3 165 36 7 3
4 43 60 6 9
5 92 65 5 6
6 200 30 5 5
7 355 10 6 7
8 290 7 10 10
9 230 21 9 11
10 120 55 2 5
11 73 54 12 4
12 205 48 5 1
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
La información obtenida de Excel empleando las funciones de “Regresión”
Resumen
Estadísticas de la regresión

𝑆𝐶𝐸 171220.473
Coef r múltiple 0.8968 𝑟=√ =√ = 0.89676
𝑆𝑇𝐶 212915.75
171220.473
Coef R2 múltiple 0.8042 𝑅2 = = 0.80417
212915.75
2 19
R2 ajustado 0.7675 𝑅𝑎𝑗𝑢𝑠 = 1 − (1 − 0.80417) ( ) = 0.76745
16

𝑆𝐶𝐸 171220.473
Error típico S 51.0486 𝑆=√ =√ = 51.04855
𝑛−𝑘−1 20 − 3 − 1

Observaciones n 20

ANÁLISIS DE VARIANZA
Promedio de Estadístico
G.L. Suma de cuadrados
los cuadrados F
Regresión Numerador 3 𝑆𝐶𝐸 = 171220.473 57073.491 21.90
Residuos Denominador 16 𝑆𝐶𝑅 = 41695.277 2605.955
Total 19 𝑆𝑇𝐶 = 212915.750

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 427.1938 59.6014 7.17 2.2376E-06
Variable X 1 -4.5827 0.7723 -5.93 2.1004E-05
Variable X 2 -14.8309 4.7544 -3.12 0.00660596
Variable X 3 6.1010 4.0121 1.52 0.14786248

De la columna de coeficientes se obtiene el modelo de regresión múltiple


𝑦̂ = 427.194 − 4.583 𝑥1 − 14.831 𝑥2 + 6.101 𝑥3
Para efectuar la prueba F (global) Se requiere de:
1. Las hipótesis de la prueba
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : al menos uno de los parametros es distinto de cero
Nota: Es importante identificar que, por el hecho de establecer la hipótesis nula como una
igualdad, 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0, el tipo de prueba es de dos extremos y eso define a dos
puntos críticos, el del lado izquierdo es para una probabilidad de 0.025 y para el lado derecho
es para una probabilidad de 0.975.
2. El estadístico de prueba F
𝑭 = 𝟐𝟏. 𝟗𝟎
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de
aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba
Para obtener los puntos críticos se requiere de la tabla F de Fisher completa donde se requiere
del nivel de significancia 𝛼 = 0.05, los grados de libertad del numerador (𝑘 = 3) y los grados
de libertad de denominador (𝑛 − 𝑘 − 1 = 16).

4. La conclusión de la prueba
Por ubicarse el estadístico de prueba en la región de rechazo (color rojo), la hipótesis nula se
rechaza y la hipótesis alternativa se acepta. Esto implica que al menos uno de los parámetros es
diferente de cero. Entonces es necesario aplicar la prueba t a cada uno de los coeficientes
muestrales para identificar cuáles son igual a cero.
𝑦̂ = 427.194 − 4.583 𝑥1 − 14.831 𝑥2 + 6.101 𝑥3
Para efectuar la prueba t (individual) Se requiere de:
1. Las hipótesis de la prueba para este caso son tres, por tener tres variables independientes:
𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0 𝐻0 : 𝛽3 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0 𝐻1 : 𝛽3 ≠ 0

Nota: También, para esta prueba se establece la hipótesis nula como una igualdad, entonces el
tipo de prueba es de dos extremos y eso define a dos puntos críticos. Al ser la distribución
simétrica, el valor obtenido de la tabla t de Student, se coloca en el lado positivo y negativo de
la distribución.
2. El estadístico de prueba t, de cada uno de los coeficientes se obtienen de la columna
“Estadístico t”
𝑏1 −4.5827 𝑏2 −14.8309 𝑏3 6.101
𝑡= = = −5.93 𝑡 = = = −3.12 𝑡 = = = 1.52
𝑆𝑏1 0.7723 𝑆𝑏2 4.7544 𝑆𝑏3 4.0121
Para años de uso del
Para la temperatura Para el aislamiento
calentador
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de
aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba
Para obtener los puntos críticos −𝑡𝛼⁄2 y 𝑡𝛼⁄2 se requiere de la tabla t de Student donde se
requiere del nivel de significancia 𝛼 = 0.05, con grados de libertad de 𝑛 − 𝑘 − 1 = 16.
Entonces −𝑡𝛼⁄2 = −2.12 y 𝑡𝛼⁄2 = 2.12

4. La conclusión de las pruebas individuales


Por ubicarse el estadístico de prueba para la temperatura y el aislamiento en la región de rechazo, las
hipótesis nulas son rechazadas. Esto implica que estas dos variables si están correlacionadas con el
costo de la calefacción. Por otro lado, la 𝐻0 para la antigüedad del calefactor se acepta. Se concluye que
la antigüedad del calentador no es un factor significativo del costo de la calefacción y puede ser retirada
del análisis de regresión múltiple.
Para cuando se toma la decisión de retirar variables del modelo de regresión múltiple, se tiene que analizar
los datos de nuevo para que por segunda vez se verifiquen las dos pruebas.
Resumen
Estadísticas de la regresión
Coef r múltiple 0.8808
2
Coef R múltiple 0.7759
2
R ajustado 0.7495
Error típico 52.9824
Observaciones 20

ANÁLISIS DE VARIANZA
Suma de Promedio de los
G.L. F
cuadrados cuadrados
Regresión 2 165194.521 82597.261 29.424
Residuos 17 47721.229 2807.131
Total 19 212915.750

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 490.286 44.410 11.040 3.5634E-09
Variable X 1 -5.150 0.702 -7.337 1.1606E-06
Variable X 2 -14.718 4.934 -2.983 0.00835087
De la columna de coeficientes se obtiene el modelo de regresión múltiple
𝑦̂ = 490.286 − 5.15 𝑥1 − 14.718 𝑥2
Para efectuar la prueba F (global) Se requiere de:
1. Las hipótesis de la prueba
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 0
𝐻1 : al menos uno de los parametros es distinto de cero
2. El estadístico de prueba F
𝑭 = 𝟐𝟗. 𝟒𝟐𝟒
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación
y rechazo, y la localización en el eje horizontal el estadístico de prueba
Para obtener los puntos críticos se requiere de la tabla F de Fisher completa donde se requiere del nivel
de significancia 𝛼 = 0.05, los grados de libertad del numerador (𝑘 = 2) y los grados de libertad de
denominador (𝑛 − 𝑘 − 1 = 17).

4. La conclusión de la prueba
Por ubicarse el estadístico de prueba en la región de rechazo (color rojo), la hipótesis nula se rechaza y
la hipótesis alternativa se acepta. Esto implica que al menos uno de los parámetros es diferente de cero.
Por lo tanto, es necesario aplicar la prueba t a cada uno de los coeficientes muestrales para identificar
cuáles son igual a cero.
Para efectuar la prueba t (individual) Se requiere de:
1. Las hipótesis de la prueba para este caso son dos, por tener dos variables independientes:
𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0

2. El estadístico de prueba t, de cada uno de los coeficientes se obtienen de la columna “Estadístico t”


𝑏1 −5.15 𝑏2 −14.718
𝑡= = = −7.337 𝑡= = = −2.983
𝑆𝑏1 0.702 𝑆𝑏2 4.934
Para la temperatura Para el aislamiento

3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación
y rechazo, y la localización en el eje horizontal el estadístico de prueba
Para obtener los puntos críticos −𝑡𝛼⁄2 y 𝑡𝛼⁄2 se requiere de la tabla t de Student donde se requiere
del nivel de significancia 𝛼 = 0.05, con grados de libertad de 𝑛 − 𝑘 − 1 = 17. Entonces −𝑡𝛼⁄2 =
−2.11 y 𝑡𝛼⁄2 = 2.11

4. La conclusión de las pruebas individuales


Por ubicarse el estadístico de prueba para la temperatura y el aislamiento en la región de rechazo
(color rojo), las hipótesis nulas son rechazadas. Esto implica que se confirma que estas dos variables
si están correlacionadas con el costo de la calefacción.

Actividad 4: Ejercicios propuestos


1. Con la siguiente captura de pantalla de regresión,
ANÁLISIS DE VARIANZA
Suma de Promedio de los
G.L. cuadrados cuadrados F
Regresión 2 77.907 38.954 4.138
Residuos 62 583.693 9.414
Total 64 661.600

Coeficientes Error típico Estadístico t


Intercepción 84.998 1.863 45.624
Variable X 1 2.391 1.200 1.993
Variable X 2 -0.409 0.172 -2.380
Responda las siguientes preguntas:
a) Elabore la ecuación de regresión.
b) Si 𝑥1 es 4 y 𝑥2 es 11, ¿cuál es el valor de la variable dependiente?
c) ¿Cuál es el tamaño de la muestra? ¿Cuántas variables independientes hay?
d) Realice una prueba de hipótesis global para verificar si alguno de los coeficientes de
regresión del conjunto es diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su
conclusión?
e) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de
significancia 0.05. ¿Qué variables consideraría eliminar?
f) Formule una estrategia para eliminar variables independientes en este caso.
2. La siguiente captura de pantalla de regresión se obtuvo de un estudio de empresas de
arquitectura. La variable dependiente es la cantidad total de honorarios, en millones de dólares.
ANÁLISIS DE VARIANZA
Suma de Promedio de
G.L. F
cuadrados los cuadrados
Regresión 5 3710.00 742.00 12.89
Residuos 46 2647.38 57.55
Total 51 6357.38

Coeficientes Error típico Estadístico t


Intercepción 7.987 2.9670 2.69
Variable X 1 0.12242 0.0312 3.92
Variable X 2 -0.12166 0.0535 -2.27
Variable X 3 -0.06281 0.0390 -1.61
Variable X 4 0.52350 0.1420 3.69
Variable X 5 -0.06472 0.0400 -1.62

𝑥1 es el número de arquitectos que trabajan en la compañía.


𝑥2 es el número de ingenieros que trabajan en la compañía.
𝑥3 es el número de años invertidos en proyectos de cuidado de la salud.
𝑥4 es el número de estados en los que opera la empresa.
𝑥5 es el porcentaje del trabajo de la empresa que se relaciona con el cuidado de la salud.
a) Establezca la ecuación de regresión.
b) ¿Cuál es el tamaño de la muestra? ¿Cuántas variables independientes hay?
c) Realice una prueba de hipótesis global para ver si alguno de los coeficientes de regresión del
conjunto puede ser diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su
conclusión?
d) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de
significancia 0.05. ¿Qué variables consideraría eliminar?
e) Formule una estrategia para eliminar variables independientes en este caso.
3. Una red de computadoras móviles ad hoc consta de varias computadoras (nodos) que se
mueven dentro de un área de la red. Con frecuencia los mensajes se envían de uno a otro nodo.
Cuando el nodo receptor está fuera del alcance, se debe enviar el mensaje a un nodo cercano,
que después lo envía hacia su destino a lo largo de una ruta de direccionamiento. Ésta se
determina por medio de una rutina conocida como un protocolo de direccionamiento. El
porcentaje de mensajes que se distribuye exitosamente se llama goodput (caudal útil), y lo
afecta la velocidad promedio del nodo y la pausa en los nodos en cada destino. La tabla
presenta la velocidad de nodo promedio, el promedio de pausa y el goodput para 25 redes ad
hoc móviles simuladas.
Velocidad Tiempo de Goodput Velocidad Tiempo de Goodput
(m/s) pausa (s) (%) (m/s) pausa (s) (%)
5 10 95.111 20 40 87.800
5 20 94.577 20 50 89.941
5 30 94.734 30 10 62.963
5 40 94.317 30 20 76.126
5 50 94.644 30 30 84.855
10 10 90.800 30 40 87.694
10 20 90.183 30 50 90.556
10 30 91.341 40 10 55.298
10 40 91.321 40 20 78.262
10 50 92.104 40 30 84.624
20 10 72.422 40 40 87.078
20 20 82.089 40 50 90.101
20 30 84.937

a) Establezca la ecuación de regresión.


b) Realice una prueba de hipótesis global para ver si alguno de los coeficientes de regresión del
conjunto puede ser diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su
conclusión?
c) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de
significancia 0.05. ¿Qué variables consideraría eliminar?
4. En un experimento para determinar los factores que afectan el ahorro de combustible en
camiones se midió el consumo de combustible (mi/gal), el peso (toneladas 𝑥1 ) y la lectura de
odómetro (miles de millas 𝑥2 ) en 15 camiones. El análisis de datos en Excel arrojo los
resultados siguientes.
ANÁLISIS DE VARIANZA
Suma de Promedio de los
G.L. F
cuadrados cuadrados
Regresión 2 8.720 4.360 43.06
Residuos 12 1.215 0.101
Total 14 9.935

Coeficientes Error típico Estadístico t


Intercepción 8.241 0.2871 28.70
Variable X 1 -0.10826 0.0119 -9.07
Variable X 2 -0.00393 0.0014 -2.79

a) Establezca la ecuación de regresión


b) Realice una prueba de hipótesis global para ver si alguno de los coeficientes de regresión del
conjunto puede ser diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su
conclusión?
c) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de
significancia 0.05. ¿Cuál es su conclusión?
d) ¿Qué tan factible es Pronosticar las millas por galón para un camión que pesa diez toneladas
y tiene una lectura del odómetro de 50 000 millas?

You might also like