Regresion

ANÁLISIS DE REGRESION
ANALISIS DE REGRESION LINEAL
Regresion lineal en Excel

Resolveremos el Ejemplo 1.
Seleccione: herramientas > análisis de datos > Regresion
En la ventana seleccione el rango de entrada para X y Y, el rango de salida y seleccione la opción:
gráfico de residuales y curva de Regresion ajustada.
Página 1
Página 3
Análisis de resultados:
Analizando los resultados:
 En la sección Estadísticas de la Regresion vemos que el coeficiente de correlación = .5873

comparando este valor con la tabla de correlaciones observamos que el valor .5873 < .71
lo cual indica una relación débil entre las variables. En la gráfica “de Regresion ajustada”
observamos que la correlación es negativa ya que al aumentar X, Y disminuye; Cabe
mencionar que el coeficiente de correlación calculado por el sistema siempre es positivo,
por lo cual debemos basarnos la gráfica de Regresion para determinar el signo.
 Ecuación de la Regresion: Para obtener la ecuación de Regresion usamos los coeficientes

de los renglones Intercepción y variable X1, estos son 46.3909 y – 0.1347
respectivamente, siendo la ecuación de Regresion: y = 46.3909- 0.1347X1.
 Análisis de Varianza: La tabla muestra la suma de cuadrados de la Regresion SSR =

28.5901, la suma de cuadrados de los residuos o error SSE = 54.2806, El promedio de
2
los cuadrados de la Regresion que es la varianza residual S e = 9.0468 . El sistema
2
calcula el valor de F dividiendo SSR/ S e como ya se trato anteriormente. El valor crítico F
es menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la
H0:  1  0 , en consecuencia el modelo de Regresion no es apropiado.
 Análisis de residuos: muestra los pronósticos y residuos para cada observación, así como
el gráfico de residuales, en el cual observamos inconsistencias ya que la mayoría de los
puntos se encuentran en la región positiva.
Página 5
ANÁLISIS DE REGRESION MULTIPLE
Cuando se usa más de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama análisis de Regresion múltiple, incluye el uso de ecuaciones
lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de Regresion lineales.
Ejemplo 6 Muchos programas de estudios premédicos usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las
variables que se sabe influencian esos promedios del MCAT(y) son: la combinación de las
calificaciones del SAT en matemáticas y en oratoria (x1) y el GPA (x2) de los prospectos a médicos.
La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de
premedicina y que han presentado el MCAT
Calificación Calificación pro-

Estudiante SAT (X1) GPA (X2) medio del MCAT (Y)
1 1200 3.8 12.4
2 1350 3.4 13.3
3 1000 2.9 9.2
4 1250 3.3 10.6
5 1425 3.9 13.2
6 1340 3.1 11.2
Con esta información podemos encontrar una ecuación lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificación combinada
del SAT.
La ecuación lineal para los datos del ejemplo tiene la forma yˆ  b0  b1 x1  b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el método de mínimos cuadrados, al igual que en el
método de Regresion lineal simple. El método en este caso requiere resolver tres ecuaciones
lineales con tres incógnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
 y  nb 0  b1  x1   b2  x 2 
 x y  b  x   b  x   b  x 
1 0 1 1
2
1 2
2
2
x 2 y  b0  x 2   b1  x1 x 2   b2  x 2
2
Página 6
La siguiente tabla organiza los cálculos para obtener las ecuaciones:
X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y

1200 3.8 12.4 1440000 14.44 4560 14880 47.12
1350 3.4 13.3 1822500 11.56 4590 17955 45.22
1000 2.9 9.2 1000000 8.41 2900 9200 26.68
1250 3.3 10.6 1562500 10.89 4125 13250 34.98
1425 3.9 13.2 2030625 15.21 5557.5 18810 51.48
1340 3.1 11.2 1795600 9.61 4154 15008 34.72
7565 20.4 69.9 9651225 70.12 25886.5 89103 240.2
Las ecuaciones normales para este ejemplo son:
69.9  6b0  7,565b1  20.4b2

89,103  7565b0  9,651,225b1  25,886.5b2
240.2  20.4b0  25,886.5b1  70.12b2
Resolviendo el sistema de ecuaciones lineales obtenemos:
b0 = -2.537, b1=0.005425, b2 = 2.161.
La ecuación de Regresion es:
yˆ  2.537  0.005425 x1  2.161 x 2
Suma de cuadrados
La suma total de cuadrados SST, se descompone en dos componentes: suma de cuadrados para
la Regresion, y suma de cuadrados del error.
SST = SSR + SSE
La suma de cuadrados para la Regresion es aquella parte de la suma total de cuadrados que se
atribuye a las variables independientes. Mientras que la suma de cuadrados del error es aquella
porción de la suma de cuadrados total y que no se debe a las variables independientes, por ello se
llama suma de cuadrados del error.
SST    y  y   12.9950
2
SSE    y  yˆ   2.2403
2
SSR  SST  SSE  10 .7547
Grados de libertad para la Regresion:
glT  gl R  gl E
glT  n  1
gl R  k
gl E  n  (k  1)
donde:
k = número de variables independientes
Página 7
Cálculo de cuadrados medios:
SSR 10.7547
MSR    5.3773
gl R 2
SSE 2.2403
MSE    0.7468
gl E 3
Donde:
MSR= Cuadrado medio de la Regresion
MSE= Cuadrado medio del error.
Prueba de hipótesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hipótesis son:
H 0 : 1   2   0
H 1 : 1  0 o  2  0
El valor del estadístico F se encuentra dividiendo MSR entre MSE.
MSR 5.3773
F   7.20
MSE 0.7468
Buscando el valor crítico para F (1, n  2)  F0.05 1,4  =7.71.

Como 7.71 > 7.20 no podemos rechazar H0, lo cual nos indica que podría ser arriesgado utilizar la
ecuación de Regresion con propósitos predictivos.
Coeficiente de determinación múltiple
SSR
R2 
SST
Utilizando los datos del ejemplo:
10.7547
R2   0.8276  82.8%
12.995
Esto significa que aproximadamente el 83% de la variación en el promedio de las calificaciones se
atribuye a la variación de las variables independientes y solamente el 17% de la variación de la
variable dependiente no se atribuye a eso.
Página 8
Regresion múltiple en Minitab
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galón bajo condiciones
normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc para seis
coches deportivos modelo 1990.
Coche deportivo Capacidad Peso Consumo

Chevrolet 5735 3330 17,9
Kagiar XJ-S 5344 4015 18,7
Mercedes-Benz 500 SL 2174 2865 16,5
Porsche 911 3600 3320 17
Maserrati 228 2790 3020 15,5
BMW 325i 2494 3100 22
a) Determine una ecuación de Regresion para predecir el promedio de consumo de

combustible usando la capacidad del motor y el peso, y calcule el coeficiente de
determinación R2.
Una vez capturados los datos de las variables en Minitab seleccionamos

STAT>REGRESION>REGRESION y se presenta la siguiente pantalla
Página 9
Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las

variables de predicción (predictors): C1 y C2.
Damos Clic en el Icono Graphs, y en la opción gráficos de residuos “residual plots” dejamos la
opción que el sistema da por de fault: “Regular”. y seleccionamos la opción residual vs. fits y
normal plot of residuals. También existen otras opciones de gráficos que podemos usar en caso de
ser necesario.
Página 10
En la opción Resultados “Results” seleccionamos el circulo: Regresion equation....
Damos clic en ok.
Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2
Predictor Coef StDev T P

Constant 10,91 12,90 0,85 0,460
C1 -0,000496 0,001329 -0,37 0,734
C2 0,002702 0,004982 0,54 0,625
S = 2,805 R-2 = 9,1% R-2(adj) = 0,0%
Analysis of Variance
Source DF SS MS F P
Regression 2 2,368 1,184 0,15 0,866
Residual Error 3 23,605 7,868
Total 5 25,973
Analizando los resultados tenemos:
De la tabla resultante podemos determinar que la ecuación de Regresion es Y = 10.9 –

0.00050X1+.00270X2
Donde X1 representa el tamaño del motor (capacidad) y X2 el peso del coche, Y representa el
rendimiento predicho para el consumo del combustible.
Página 11
El coeficiente de determinación R-2 o R2 es 9.1% y esto indica que el 9.1% de la variación en el

consumo de combustible se atribuye a la capacidad y al peso. El 90.9% no se atribuye a estas
variables.
Examinando el valor del estadístico F(F=0.15), que es significativo al nivel P = 0.866 concluimos
que el modelo no es adecuado para fines de predicciòn en un nivel   0.05
Normal Probability Plot of the Residuals

(response is C3)
1
Normal Score
-1
-2 -1 0 1 2 3 4
Residual
Residuals Versus the Fitted Values

(response is C3)
2
Residual
-1
-2
17 18 19
Fitted Value
Analizando los gráficos anteriores, podemos observar en el grafico de probabilidad que las
observaciones aparentan ser normales. Sin embargo en el gráfico de residuales observamos una
tendencia ya que la mayoría de los puntos se encuentran a bajo del cero.
Página 12
Página 13

Regresion

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion

Uploaded by

Copyright:

Available Formats

ANÁLISIS DE REGRESION

ANALISIS DE REGRESION LINEAL

Regresion lineal en Excel

Analizando los resultados:

 En la sección Estadísticas de la Regresion vemos que el coeficiente de correlación = .5873

 Ecuación de la Regresion: Para obtener la ecuación de Regresion usamos los coeficientes

 Análisis de Varianza: La tabla muestra la suma de cuadrados de la Regresion SSR =

ANÁLISIS DE REGRESION MULTIPLE

Calificación Calificación pro-

La siguiente tabla organiza los cálculos para obtener las ecuaciones:

X1 X2 Y X1^2 X2^2 X1X2 X1Y X2Y

Las ecuaciones normales para este ejemplo son:

69.9  6b0  7,565b1  20.4b2

Resolviendo el sistema de ecuaciones lineales obtenemos:

b0 = -2.537, b1=0.005425, b2 = 2.161.

La ecuación de Regresion es:

yˆ  2.537  0.005425 x1  2.161 x 2

SST = SSR + SSE

SSR  SST  SSE  10 .7547

Grados de libertad para la Regresion:

Cálculo de cuadrados medios:

El valor del estadístico F se encuentra dividiendo MSR entre MSE.

Buscando el valor crítico para F (1, n  2)  F0.05 1,4  =7.71.

Coeficiente de determinación múltiple

Regresion múltiple en Minitab

Coche deportivo Capacidad Peso Consumo

a) Determine una ecuación de Regresion para predecir el promedio de consumo de

Una vez capturados los datos de las variables en Minitab seleccionamos

Seleccionamos la variable de respuesta (response) que corresponde a la Columna 3 C3, y las

En la opción Resultados “Results” seleccionamos el circulo: Regresion equation....

Damos clic en ok.

Predictor Coef StDev T P

S = 2,805 R-2 = 9,1% R-2(adj) = 0,0%

Analizando los resultados tenemos:

De la tabla resultante podemos determinar que la ecuación de Regresion es Y = 10.9 –

El coeficiente de determinación R-2 o R2 es 9.1% y esto indica que el 9.1% de la variación en el

Normal Probability Plot of the Residuals

Residuals Versus the Fitted Values

You might also like