You are on page 1of 12

GUIA DE EJERCICIO PARA REGRESIÓN LINEAL MÚLTIPLE

1) Se desea establecer una ecuación que permita predecir la resistencia a la abrasión del
caucho en función de la cantidad de láminas de sílice 𝑋1 adheridas a él por un agente
amalgamante cuya cantidad 𝑋2 se mide en porcentaje respecto al total de la masa del
caucho.
Se realizaron seis mediciones obteniendo los siguientes resultados:

Resistencia a la abrasión Cantidad en miles de láminas Cantidad de amalgamante

83 6 2

92 2 6

95 4 7

80 4 1

100 7 4

92 1 4

a) A través de una regresión, determine una ecuación lineal que permita predecir la
resistencia en función de las dos variables independientes.
Considere que:
1,94̅ −0, 2̅ −0, 2̅
′ −1
(𝑋 𝑋) = (−0, 2̅ 0,0425 0,0131)
−0, 2̅ 0,0131 0,0425

b) Determine si el modelo de regresión contribuye significativamente a predecir Y en


función de las variables independientes utilizando una significancia de 0,025.
c) Realice un intervalo de estimación para 𝛽1 con un 95% de confianza
d) Calcule el coeficiente de determinación 𝑅 2 e interprételo

2) Un mineral metálico es extraído desde una mina de la región. Una vez extraído, se somete
a un proceso de depuración, luego es fusionado en un horno industrial y posteriormente
solidificado en planchas metálicas. Finalizado este proceso, se mide el porcentaje de
impurezas que tienen las planchas metálicas. Se sospecha que existe una relación entre la
temperatura a la que actuó el horno y el porcentaje de impurezas de la plancha metálica.
Para determinar una ecuación de regresión que relaciones ambas variables, se analizaron
15 planchas metálicas. Los resultados del análisis se presentan en la siguiente tabla:
Temperatura (℃) % impurezas

387 4,87

361 3,93

433 6,46

343 3,33

381 4,38

383 4,70

346 3,50

376 4,50

350 3,58

358 3,64

419 5,90

378 4,43

371 4,38

373 4,42

378 4,25

a) Identifique la variable independiente X y la variable dependiente Y


b) Formule una ecuación de regresión lineal que permita predecir Y en función de X.
(Calcular la inversa de la matriz X’X es relativamente sencillo considerando que será una
matriz simétrica de 2x2)
c) Realice un análisis de varianza para definir si el modelo es significativo utilizando 𝛼 = 0,01
d) Calcule el coeficiente de determinación del modelo e interprételo.
e) Suponga que una plancha metálica de este mineral fue fusionada a 400℃. Estime,
mediante un intervalo del 90% confianza, el porcentaje de impurezas que la plancha
tendrá.

3) Diversos estudios han concluido que, en los días más calurosos, existe un consumo mayor
de energía, probablemente debido a la mayor utilización de ventiladores, aparatos de aire
acondicionado y artículos eléctricos de refrigeración.
El gerente de una planta generadora de electricidad busca un modelo que permita
predecir cuánta electricidad será consumida diariamente por la población de una ciudad
en función de la mínima y la máxima temperatura que tendrá ese día.
Para definir una ecuación de regresión, se observaron 10 días del último año
seleccionados al azar. La ecuación de regresión obtenida, parte de la matriz (𝑋 ′ 𝑋)−1 y
parte del análisis de varianza son mostrados a continuación

𝑌̂ = −255,8657 + 4,873 𝑋1 + 11,6861 𝑋2

17,0178 −0,5783 −0,2111


′ −1
(𝑋 𝑋) =( 0,0387 −0,0037)
0,0089

Fuente de Suma de Grados de Medias 𝐹0


variación cuadrados libertad Cuadráticas
Regresión 17867,5344

Error

Total 19263,6

a) Complete la matriz (𝑋 ′ 𝑋)−1 y la tabla Anova


b) Determine si el modelo es significativo para predecir Y en función de X utilizando una
significancia de 0,05
c) Determine si cada variable independiente ayuda significativamente a predecir la
electricidad consumida utilizando α = 0,05. Interprete los resultados
d) Calcule el coeficiente de determinación e interprételo
e) Realice una estimación del parámetro 𝛽2 con un 97% de confianza
f) Si el día de mañana la temperatura en esa ciudad tendrá 19℃ y 30℃ de mínima y
máxima respectivamente. Realice una estimación con un 95% de confianza del
consumo de electricidad en esa ciudad.

4) Sea Y: ventas de un restaurante de comida rápida (miles de dólares), X1= número de


restaurantes competidores a una milla a la redonda, X2= población dentro de una milla de
radio (miles de personas) y X3 es una variable indicadora igual a uno si el restaurante tiene
una ventanilla para automovilistas y 0 si no la tiene. Suponga que el modelo de regresión
verdadero es

𝑌 = 10 − 1,2𝑋1 + 6,8𝑋2 + 15,3𝑋3 + 𝜀

a) ¿Cuál es el valor medio de ventas cuando el número de restaurantes competidores es


dos, hay 8000 habitantes en un radio de una milla, y el restaurante tiene una
ventanilla para automovilistas?
b) ¿Cuál es el valor medio de ventas de un restaurante sin ventanilla para
automovilistas, que tiene tres restaurantes competidores y 5000 habitantes en un
radio de una milla?
c) Interprete 𝛽3 .
5) Un análisis de regresión efectuado para relacionar Y: tiempo de reparación para un
sistema de filtración de agua (h), con X1: tiempo transcurrido desde el servicio previo
(meses) y X2: tipo de reparación (1 si es eléctrico y 0 si es mecánico), dio el siguiente
modelo basado en 12 observaciones:

𝑌 = 0,950 + 0,400𝑋1 + 1.250𝑋2

Además, Syy= 12,72, SSE=2,09, y √𝑀𝑆𝐸 ∗ 𝐶22 =0,312.

a) ¿Parece haber una relación lineal útil entre el tiempo de reparación y los dos
predictores del modelo? Realice una prueba de las hipótesis apropiadas usando un
nivel de significación de 0,05.
b) Dado que el tiempo transcurrido desde el último servicio sigue en el modelo, ¿el tipo
de reparación da información útil acerca del tiempo de reparación? Exprese y pruebe
las hipótesis apropiadas usando un nivel de significación de 0,01.
c) Calcule e interprete un intervalo de confianza de 95% para 𝛽2 .
d) La desviación estándar estimada de una predicción para el tiempo de reparación,
cuando el tiempo transcurrido sea de 6 meses y la reparación es eléctrica, es de
0,192. Pronostique el tiempo de reparación bajo estas circunstancias al calcular un
intervalo de predicción de 99%. ¿El intervalo sugiere que el modelo estimado dará
una predicción precisa? ¿Por qué sí o por qué no?

6) El diseño eficiente de ciertos tipos de incineradores de desechos municipales exige que se


disponga de información acerca del contenido energético de los desechos. Los autores del
artículo “Modeling the Energy Content of Municipal Solid Waste Using Multiple Regression
Analysis” (J. of the Air and Waste Mgmt. Assoc., 1996: 650-656) bondadosamente nos
proporcionaron la información siguiente acerca de Y:contenido energético (kcal/kg), las
tres variables físicas de composición X1 : % de plástico por peso, X2 : % de papel por peso y
X3: % de basura por peso, y la variable próxima de análisis X4: % de humedad por peso para
especímenes de desechos de cierta región.

Las matrices resultantes de estos datos son:

𝑋 𝑇 ∗ 𝑋:

30 599.98 702.41 1180.38 1515.72


599.98 12161.0686 14016.385 23571.5564 30259.6561
702.41 14016.385 16776.8055 27386.9959 35486.8473
1180.38 23571.5564 27386.9959 46918.768 59665.177
1515.72 30259.6561 35486.8473 59665.177 76896.8488
(𝑋 𝑇 ∗ 𝑋)−1

31.6471823 -0.2940285 -0.2825810 -0.2420727 -0.1898627


-0.2940285 0.0071791 0.0017252 0.0013749 0.0011076
-0.2825810 0.0017252 0.0054440 0.0029867 0.0000614
-0.2420727 0.0013749 0.0029867 0.0037799 -0.0000807
-0.1898627 0.0011076 0.0000614 -0.0000807 0.0033538

𝑋𝑇 ∗ 𝑌

38438
774525.34
900549.22
1510802.26
1928724.17

𝑌 𝑇 ∗ 𝑌 = 49939038

a) Calcule los estimadores para los parámetros de las 4 variables explicativas


b) Exprese y pruebe las hipótesis apropiadas para determinar si el ajuste del modelo a
los datos especifica una relación lineal útil entre contenido energético y al menos uno
de los cuatro predictores.
c) Dado que el % de plástico, % de papel y % de agua permanecen en el modelo, ¿el %
de basura da información útil acerca del contenido energético? Exprese y pruebe las
hipótesis apropiadas usando un nivel de significación de 0,05.

7) La estatura de un bebé al nacer (en cm.) y el período de embarazo (en días) son:

x 48 49 50 51 52
y 277,1 279,3 281,4 283,2 284,8

a) Ajustar una recta de regresión minimizando los desvíos cuadráticos entre los valores
de Y y su correspondiente estimación lineal.
b) Construir intervalos de confianza para sus coeficientes.
c) ¿Es la relación lineal?

8) La variable X representa en miles, el número de asnos en España y la variable Y el tanto


por ciento del presupuesto del Estado dedicado a la Educación en distintos años. Sea:

Año 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2005 2010 2015
X 1.006 1.162 1.479 805 795 747 732 683 686 493 476 386 368
Y 5.5 4.8 7.8 8.2 8.6 9.7 9.6 8.9 11.4 10.6 12.7 11.5 11.4
Se pide construir una recta de regresión e interpretar los resultados.

9) Galton estudió en 1.877 la relación entre el diámetro de los guisantes y el diámetro medio
de sus descendientes con los resultados siguientes:

Diámetro 21 20 19 18 17 16 15
Padres
Diámetro medio 17.26 17.07 16.37 16.40 16.13 16.17 15.98
descendientes

Los datos están en pulgadas x 100 (1 pulgada = 2.54 cm.). Se pide:

a) Por medio de las ecuaciones normales (XTX)-1*(XTY) determine los estimadores de los
coeficientes βi . Calcular la recta de regresión. ¿Qué conclusiones puede extraerse?
b) Prever el diámetro medio en milímetros de los descendientes de guisantes con diámetro 5
milímetros.

10) Se desea verificar si el personal de un laboratorio es capaz de detectar correctamente la


cantidad de un cierto antibiótico presente en muestras de sangre. Se envían al laboratorio
13 muestras de las cuales se conoce la cantidad de antibiótico presente (variable x) y se
pide al personal medir la cantidad de antibiótico presente en cada una de ellas (variable y).
Obteniéndose los siguientes datos:

Cantidad presente (x) Cantidad hallada (y)


g/ml g/ml
0 0
5 4,5
5 5
5 4,8
10 8,9
10 8,9
10 8,9
20 17,0
20 18,2
20 15,4
40 32,6
40 36,1
40 31,5
a) Si el laboratorio pudiese detectar exactamente la cantidad de antibiótico presente en las
muestras, tendríamos que las variables x e y serían iguales y, por lo tanto la recta de
regresión debería ser aquella que tiene pendiente 1 y pasa por el origen. Observe la nube
puntos y diga si esta parece ser la situación en este caso.
b) Ajuste a estos datos un modelo de regresión lineal simple. En base a lo obtenido diga si
cumple la situación planteada en la parte a).
c) Utilizando los resultados de la parte b), realice la prueba para la hipótesis nula H0: 1=1,
frente a la hipótesis alternativa Ha: 1  1. ¿Cuál es el valor p o nivel de significación de lo
observado en este caso?
11) La dirección de una empresa quiere estudiar la rentabilidad de su inversión en publicidad.
Para ello se ha recogido datos del volumen de ventas y del gasto en publicidad referido a
los últimos años y expresados en miles de euros
Año Ventas Gasto publicidad

2007 50 10

2008 100 15

2009 150 18

2010 200 20

2011 200 25

2012 300 35

2013 400 50

2014 500 55

2015 650 60

2016 700 65

a) Especifica y estima el modelo lineal que explique las ventas de la empresa en función de la
inversión publicitaria. Interpreta los parámetros estimados.
b) En el año 2017, la empresa va a invertir 450.000 euros en publicidad. Calcula el volumen
de ventas esperado.
c) Se plantea el modelo

Yi = βXi + εi i = 1, .....n

Hallar el estimador mínimo cuadrático de β.


d) Aplicar el resultado del apartado anterior para explicar el volumen de ventas en función de
los gastos en publicidad. Comprueba que la media de los residuos no es nula.

12) La tabla siguiente contiene la edad X y la máxima presión sanguínea Y de un grupo de 10


mujeres:

Edad 56 42 72 36 63 47 55 49 38 4
Presión 14,8 12,6 15,9 11,8 14,9 13,0 15,1 14,2 11,4 14,1

a) Determine las matrices X e Y y realice el proceso matricial necesario para conseguir los
estimadores de los coeficientes del modelo e interprete que indican
b) Calcular el coeficiente de correlación lineal entre las variables e interpretar qué indica.
c) Determinar la recta de regresión de Y sobre X, justificando el ajuste de un modelo lineal.
Interpretar los coeficientes del modelo.
d) Hacer las predicciones siguientes, considerando la que tenga sentido:
Presión sanguínea de una mujer de 51 años.
Presión sanguínea de una niña de 10 años.
Presión sanguínea de un hombre de 54 años.

13) A menudo se utiliza el tratamiento térmico para carburar partes metálicas como los
engranes. El espesor de la capa carburada se considera una característica importante de
engrane y contribuye a la confiabilidad general de la parte. Debido a la naturaleza crítica
de esta característica, se lleva a cabo una prueba de laboratorio en cada carga del horno.
La prueba es destructiva, donde una parte real se corta de forma transversal y se remoja
en un químico durante cierto tiempo. Esta prueba implica correr un análisis de carbón
sobre la superficie del paso de engranaje (parte superior de los dientes del engrane) y la
raíz del engrane (entre los dientes). Los siguientes datos son los resultados del análisis de
carbón del paso de engranaje para 19 partes.

T.Remojo 0,58 0,66 0,66 0,66 0,66 0,66 1,00 1,17 1,17 1,17
Engranaje 0,013 0,016 0,015 0,016 0,015 0,016 0,014 0,021 0,018 0,019
T.Remojo 1,17 1,17 1,17 1,20 2,00 2,00 2,20 2,20 2,20
Engranaje 0,021 0,019 0,021 0,025 0,025 0,026 0,024 0,025 0,024

a) Ajuste una regresión lineal simple que relacione el análisis de carbón en el paso de
engranaje y contra el tiempo de remojo. Pruebe la hipótesis H0: 1=0.
b) Si la hipótesis de la parte a) se rechaza, determine si el modelo lineal es adecuado.

14) Jay Footclamper es presidenta y oficial ejecutivo en jefe de la Fiber Shoes, Inc., una
compañía que fabrica suecos de madera para las competencias de danza con suecos. Jay
está preocupada por contratar mejor personal de ventas. Uno de los esfuerzos por
contratar mejores opciones de vendedores está basado en un análisis del desempeño de
la fuerza de ventas actual en cuatro pruebas de aptitud que estas personas hicieron
cuando fueron contratadas. Jay ha recabado datos sobre el crecimiento de ventas de 25
vendedores, junto con su resultado en las cuatro pruebas de aptitud (creatividad,
habilidad mecánica, pensamiento abstracto, y cálculos matemáticos). Hizo una regresión y
obtuvo el siguiente resultado.
VARIABLE_DEP. CRECIMIENTO
ANÁLISIS DE VARIANZA
FUENTE DF SUMA DE CUADRADOS CUADRADOS MEDIOS VALOR F PROB>F
MODELO 4 1050,697
ERROR
C TOTAL 24 1134,662
R CUADRADO 0,9261
VARIABLE DF ESTIMACIÓN DE PARAMETRO ERROR ESTANDAR t PROB>t
INTERSECCION 70,065659 2,130314
CREAT 0,421601 0,171915
MEC 0,271403 0,218402
ABSTR 0,745042 0,289818
MATE 0,419545 0,068712
Dé la ecuación de regresión para que Jay pueda predecir el crecimiento en ventas de un
vendedor
a) ¿Cuánto de la variación en el crecimiento de ventas es explicado por las cuatro pruebas de
aptitud?
b) A un nivel de significación de 0,05, ¿Cuáles de las pruebas de aptitud son variables
explicativas significativas del crecimiento en las ventas?
c) ¿Es el modelo completo significativo como un todo?
d) El vendedor Paul ha tenido el siguiente resultado en las cuatro pruebas: CREAT=12,
MEC=14, ABSTR=18 Y MATE=30. Dé un intervalo de confianza aproximado de 95% para el
crecimiento de ventas de Paul.

15) Los datos que se han reunido de 40 muestras, representan el empuje de un motor de
turbina (Y) y seis variables de regresión candidatas: X1 = velocidad de rotación primaria,
X2 = velocidad de rotación secundaria, X3 = rapidez de flujo de combustible, X4 = presión,
X5 = temperatura de escape y X6 = temperatura ambiente al momento de efectuar la
prueba
Los resultados obtenidos se han procesado obteniéndose la siguiente información:
(XTX)-1

8505,21842 0,301897083 0,052095942 -0,405463063 0,635777553 0,693297264 6,986432978


0,301897083 0,000116781 -1,5221E-06 -9,37732E-06 -0,000939899 -2,97837E-05 7,43697E-05
0,052095942 -1,5221E-06 2,08023E-06 -3,19361E-06 -7,1628E-06 8,58106E-07 4,60605E-05
-0,40546306 -9,37732E-06 -3,19361E-06 1,98244E-05 -5,88482E-05 -3,58073E-05 -0,000336697
0,635777553 -0,000939899 -7,1628E-06 -5,88482E-05 0,010268521 0,000510048 0,00321117
0,693297264 -2,97837E-05 8,58106E-07 -3,58073E-05 0,000510048 0,000175071 0,000264616
6,986432978 7,43697E-05 4,60605E-05 -0,000336697 0,00321117 0,000264616 0,009769033

XTY Además se ha calculado la media de los cuadrados del error

156160 CME = 702,71627976079

287571830

3062352081

4631760166

27708929

259142680

15200200

Pregunta: Analice cada variable, indicando que variables son las que es aconsejable considerar
dentro del modelo de regresión lineal múltiple. Justifique sus respuestas
16) La distancia promedio Y requerida para detener un vehículo es una función de la velocidad
del vehículo. El conjunto de datos fue observado en 10 automóviles a diferentes
velocidades, cuyas observaciones han sido registradas y analizadas.

 Modelo 1: Asuma que la distancia de detención promedio varía linealmente con la velocidad.
Esto es 𝑌 = 𝛽0 + 𝛽1 𝑥. Estime 𝛽0 , 𝛽1 y 𝑆𝜀 .

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.985355831
R Square 0.970926114
Adjusted R Square 0.967291879
Standard Error 6.496098168
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 11274.00567 11274.00567 267.1610184 1.9769E-07
Residual 8 337.5943313 42.19929141
Total 9 11611.6

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept -9.758193091 4.151031901 -2.350787304 0.046623921 -19.33048982 -0.185896362 -19.33048982 -0.185896362
Velocidad (mph) 1.998582817 0.122274418 16.34506098 1.9769E-07 1.716617503 2.28054813 1.716617503 2.28054813

 Modelo 2: Asuma que la distancia de detención varía con la velocidad como 𝑌 = 𝛽0 + 𝛽1 𝑥 +


𝛽2 𝑥 2 . Estime 𝛽0 , 𝛽1 , 𝛽2 y 𝑆𝜀 . Compare ambos modelos.

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.986228218
R Square 0.972646099
Adjusted R Square 0.964830699
Standard Error 6.736070903
Observations 10

ANOVA
df SS MS F Significance F
Regression 2 11293.97744 5646.988721 124.4524987 3.38507E-06
Residual 7 317.6225584 45.37465121
Total 9 11611.6

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept -6.043299815 7.062675737 -0.855667178 0.420502775 -22.74387415 10.65727451 -22.74387415 10.65727451
Velocidad (mph) 1.665766841 0.517427028 3.219327074 0.014667084 0.442246342 2.889287341 0.442246342 2.889287341
Velocidad^2 (mph^2) 0.005295599 0.007982032 0.66344001 0.528285139 -0.013578906 0.024170105 -0.013578906 0.024170105

a) Determine el mejor modelo, base su elección en fundamentos estadísticos y los criterios


estudiados en el curso.
b) Calcule un intervalo de confianza para la media al 95% de confianza.
c) Calcule un intervalo de predicción para el valor de una única observación al 99% de
confianza.
17) Las tablas muestran los resultados de veinte tipos de hojas de acero trabajadas en frío que
tienen diferentes composiciones de cobre y temperaturas de templado. Donde se pide
una ecuación que relacione la Dureza de Rockwell 30-T (y) con el contenido de cobre(x1) y
la temperatura de templado (x2).

Estadísticas de la regresión
Coef. correlación 0.94712238
Coef. determinación R^2 0.8970408
R^2 ajustado 0.87416098
Error típico
Observaciones 12

ANÁLISIS DE VARIANZA
G. de Lib. SC Cuad. Medios F
Regresión 2 39.2066346
Residuos 121.3404167 13.4822685
Total 11 1178.529167

Coeficientes Error típico t


Intercepción 154.388542 11.07363741
Contenido de Cu 40.78125 2.51312464
Temperatura -0.0805 0.009480601 8.49102313

a) Complete los datos faltantes en las tablas.


b) ¿Qué porcentaje de la variabilidad de la dureza de Rockwell 30-T es explicado por el
modelo? Interprete.
c) Calcule el valor p del modelo. ¿Qué puede concluir con respecto a la validez del modelo?
d) Calcule los valores p para cada coeficiente. ¿Qué puede concluir con respecto a la
importancia de cada variable independiente?
e) En función de sus respuestas anteriores, ¿cómo evaluaría el modelo? Fundamente.

18) En un artículo se describe un experimento realizado para evaluar el impacto de la fuerza


(gm) x1 , potencia (mW) x2 , temperatura (°C) x3 y tiempo (ms) x4 en la resistencia cortante
de la unión de la bola (gm). Se entregan los resultados incompletos de un modelo de
regresión lineal para estos datos.
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.844961111
R Square 0.713959279
Adjusted R Square 0.668192763
Standard Error
Observations 30

ANOVA
df SS MS F
Regression 15.60003578
Residual 26.60474667
Total 2325.258667

Coefficients Standard Error t Stat


Intercept -37.47666667 -2.86089247
Fuerza 0.211666667 0.210573608
Potencia 0.070191203 7.099655143
Temperatura 0.129666667 0.042114722 3.078891695
Tiempo 0.258333333 0.210573608 1.226807745

1. Construcción del Modelo


a) Complete los datos faltantes en las tablas entregadas.
b) Plantee la ecuación de regresión de acuerdo a los datos ajustados.

2. Aplicación del Modelo


a) Estime la resistencia cortante de la unión de bola cuando la fuerza es de 35 [gm], la potencia
de 75 [mW], la temperatura de 200 [°C] y el tiempo de 20 [ms].
b) Interprete y explique el significado del parámetro 𝛽̂2 .

3. Evaluación del Modelo


a) ¿Qué porcentaje de la variabilidad de la resistencia cortante de unión de la bola es
explicado por el modelo? Interprete.
b) Calcule el valor p del modelo. ¿Qué puede concluir con respecto a la validez del modelo?
c) Calcule los valores p para cada coeficiente. ¿Qué puede concluir con respecto a la
importancia de cada variable independiente?
d) En función de sus respuestas anteriores, ¿cómo evaluaría el modelo? ¿qué recomendaciones
daría al investigador para mejorar su modelo propuesto? Fundamente.

You might also like