You are on page 1of 22

CAPTULO 11.

REGRESIN Y CORRELACIN SIMPLE


Son dos herramientas para investigar la dependencia de una variable dependiente Y en funcin de
una variable independiente X
Y = f(X)
Y = Variable dependiente que se desea explicar o predecir, tambin se llama regresor o respuesta
X = Variable independiente, tambin se llama variable explicativa, regresor o predictor
Regresin lineal - La relacin entre X y Y se representa por medio de una lnea recta
Regresin curvilinea - La relacin entre X y Y se representa por medio de una curva

*
**
*

*
*

*
*

*
b1

* *

* *

*
*

*
*

b0

Correlacin positiva

Correlacin negativa

Sin correlacin

La ecuacin de la recta es la siguiente:

Y = 0 + 1 X +. . . .. . . .. Con. base . en. la. poblacin


Y =b 0 +b 1 X + e .. . . .. . . .. . Con. base. en . datos . de . la. muestra

e = error aleatorio

Y =b 0 +b 1 X . .. . . .. . . .. . . .. . Modelo . de . regresin. estimada


El trmino de error es la diferencia entre los valores reales observados Yi y los valores estimados por
la ecaucin de la recta. Se trata de que estos sean mnimos, para lo cual se utiliza el mtodo de
mnimos cudrados
Y

Error=Re siduo=(YiYi )

X
Se trata de minimizar la suma de todos los errores o residuos:

( YiY i )2 =min imo


Al aplicar esta regla a las ecuaciones correspondientes se obtienen las siguientes sumas de cuadrados:

( Xi )2
SCx= ( Xi X ) = Xi
n
2
2
2 ( Yi)
SCy= (YiY ) = Yi
n
2

De esta forma los mnimos cuadrados


se basan en las diferencias al cuadrado
respecto a las medias tanto en X como
en Y

SCxy= ( Xi X )(YiY )= XiYi

( Xi )( Yi)
n

Los coeficientes de la recta son:

SCxy
............. Pendiente.de .la .recta
SCx
b o=Yb1 X .......... Intercepcin.de.la.recta.con.el.eje .Y
b1 =

Ejemplo:

Suma
Media

Observacin Publicidad X
1
10
2
12
3
8
4
17
5
10
6
15
7
10
8
14
9
19
10
10
11
11
12
13
13
16
14
10
15
12
187
12.4667

Pasajeros Y
15
17
13
23
16
21
14
20
24
17
16
18
23
15
16
268
17.8667

XY
150
204
104
391
160
315
140
280
456
170
176
234
368
150
192
3490

X*X
100
144
64
289
100
225
100
196
361
100
121
169
256
100
144
2469

Y*Y
225
289
169
529
256
441
196
400
576
289
256
324
529
225
256
4960

SCx =

137.7333

SCy =

171.7333

SCxy =

148.9333

b1 =

1.0813

b0 =

4.3865

El modelo de regresin es:


*
Y = 4.40 + 1.08 X

Para pronosticar en X = 10 se tiene:


*
Y = 15.2

SUPUESTOS DEL MODELO DE REGRESIN LINEAL


1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresin poblacional

*
*
*
*

*
*
*
*
*

2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad)
en caso contrario se tiene (Heteroscedasticidad)
3. Los errores o residuos son independientes: No se muestra algun patrn definido+B170
Los residuos o errores se muestran a continuacin:
Obs
1
2
3
4
5
6
7
8

X
Y
10.0 15.000
12.0 17.000
8.0 13.000
17.0 23.000
10.0 16.000
15.0 21.000
10.0 14.000
14.0 20.000

Fit
SE Fit Residual St Resid
15.199
0.302
-0.199
-0.23
17.362
0.237
-0.362
-0.41
13.037
0.417
-0.037
-0.05
22.769
0.421
0.231
0.29
15.199
0.302
0.801
0.94
20.606
0.305
0.394
0.46
15.199
0.302
-1.199
-1.40
19.525
0.262
0.475
0.55

9
10
11
12
13
14
15

19.0
10.0
11.0
13.0
16.0
10.0
12.0

24.000
17.000
16.000
18.000
23.000
15.000
16.000

24.931
15.199
16.281
18.443
21.687
15.199
17.362

0.556
0.302
0.260
0.238
0.360
0.302
0.237

-0.931
1.801
-0.281
-0.443
1.313
-0.199
-1.362

-1.30
2.11R
-0.32
-0.51
1.58
-0.23
-1.56

Norm al Probability Plot of the Res iduals


(response is Y)
2

Normal Score

-1

-2
-2

-1

Standardized Resi dual

+e

Cuando los errores forman un patrn como los siguientes, indicara que los errores tienen
autocorrelacin (no son independientes)
+e

*
'0

*
*

**

**
*

-e

-e
Autocorrelacin Positiva de los residuos

Autocorrelacin negativa de los residuos

Para probar la autocorrelacin se utiliza el estadstico de Durbin Watson:


2
(e iei1 )

d=
ei2

Ho: ei , ei1 =0 . . .. No . existe . autocorrelacin


Ha: ei , ei1 =0 . . .. Si. existe. autocorrelacin

Haciendo los clculos

d = 2.48

(e iei1 )2

d=
ei2

De MINITAB
Durbin-Watson statistic = 2.48

Ho: ei , ei1 =0 . . .. No . existe . autocorrelacin


Ha: ei , ei1 =0 . . .. Si. existe. autocorrelacin

De la tabla III del Apndice K para un alfa = 0.01, n = 15 y k=1 variables independientes, se tiene:
dl = 0.81

du = 1.07

INDEFINIDO

dl = 0.81

SIN AUTOCORRELACIN

du =1.07

4 - du = 2.93

AUTOCORRELACIN POSITIVA
Se rechaza Ho

INDEFINIDO

4 - dl = 3.19

AUTOCORRELACIN NEGATIVA
Se rechaza Ho

NOTA: Normalmente no habr Autocorrelacin si el estadstico Durbin Watson es cercano a 2.

ERROR ESTNDAR
DE ESTIMACIN Se

Es una medida del grado de dispersin de los valores Yi alrededor de la recta de regresin
y proporciona una medida del error que se presentar en la estimacin de Yi.

Se==

(YiY )2

n2
(SCxy )2
SCE=SCy
SCx
SCE
CME=
n2
Se= CME
En el caso del ejemplo:
SCE = 10.6893
CME = 0.8222
Se = 0.907

ANALISIS DE CORRELACIN
El coeficiente de Correlacin r desarrollado por Carl Pearson es un indicador de la fuerza de la relacin
entre las variables X y Y, puede asumir valores entre -1 y 1 para correlacin negativa y positiva perfecta
respectivamente.
Se identifican tres medidas de desviacin como sigue:

Y
Yest = 4.4 + 1.08 X

Yi = 23

Desviacin no explicada
Error = (Yi - Yest) = 1.32

Variacin total
(Yi-Ymedia)=5.13

Desviaci explicada
(Yest-Ymedia) = 3.81

Ymedia =17.87

X = 16
2

( Yi )
Suma . de . cuadrados. total=SCT= (YiY ) = Yi
n
2

2
2
2 ( Y iest )
Suma . de . cuadrados. de . la. regresin=SCR= (Y iest Y ) = Y i est
n

Suma . de . cuadrados. del . error=SCE= (YiYest )2 =SCTSCR


Variacin. exp licada SCR SCx
Coeficiente . de . correlacin=r=
=
=
Variacin. total
SCT ( SCx )( SCy )
(SCxy )2
Coeficiente . de . det er min acin=
=Medida. de . bondad . de . ajuste
(SCx )(SCy )

Calculando el valor de r = 0.9683


Y el coeficiente de determinacin r2 = 0.94

PRUEBAS PARA EL COEFICIENTE DE LA RECTA BETA 1


Ho: Beta1 = 0
Ha: Beta1 <>0
La prueba t es:

b1
Se
.. . . .. . .. sb 1 =
s b1
SCx
Intervalo. de . confianza . para . 1=b1 t (s b1 )

tm=

b1
Se
.. . . .. . .. sb 1 =
s b1
SCx
Intervalo. de . confianza . para . 1=b1 t (s b1 )

tm=

Sb1 = 0.0772
tm = 13.995

t de excel para alfa=0.05 y gl=n-2=13 es 2.169


Por tanto se rechaza Ho y el coeficiente Beta 1 es signif.

IC Beta 1 = 1.08 +- (2.16)(0.07726) = 0.913 <= Beta 1 <= 1.247

PRUEBAS PARA EL COEFICIENTE DE CORRELACIN POBLACIONAL RO


Ho: Ro = 0
Ha: Ro<>0
La prueba t es:

t=

r
sr

1r 2
sr=
n2
Sr = 0.069
t = 13.995
La t de Excel es para un alfa del 5% y gl = n-2 = 12 es

2.160368656

Por tanto se rechaza la hiptesis nula y el coeficiente de correlacin Ro es significativo

INTERVALO DE CONFIANZA PARA LA MEDIA DE LA Y ESTIMADA CONDICIONADA A Xo


El intervalo de confianza para la media de la Yestimada dado un valor de Xo se calcula como sigue:

Sy =Se

Y
2

1 ( XiX )
+
n SCx

IC . para . y ! x =Y esttSy
En el ejemplo:
Xo
Xo = 10
Yest = 15.2
Sy = 0.303
IC = 15.2 + - 2.160(0.303)

14.55 <= Mu y <= 15.85

Considerando todos los valores se forma una banda de confianza alrededor de la recta de regresin

INTERVALO DE PREDICCIN PARA UN VALOR NICO DE Y ESTIMADA


El intervalo de prediccin para un valor nico de Y estimada dado un valor de Xo se calcula como sigue:

2
1 ( Xi X )
Syi=Se 1+ +
n SCx

IP . para . Yx=Y esttSyi


Xo = 10
Yest = 15.2
Sy10 = 0.907
IP = 15.2 + - 2.160(0.956)

13.14 <= Mu y <= 17.27

Considerando todos los valores se forma una banda de prediccin alrededor de la recta de regresin
la cual es ms amplia que la banda de confianza

ANLISIS DE VARIANZA EN LA REGRESIN


Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Cuadrado
medio

Fm

Regresin

SCR

CMR = SCR/k

CMR/CME

Error

SCE

n-k-1

CME=SCE / (n-k-1)

Total

SCT
NOTA: k variables predictoras

( SCxy )2
SCR =
SCx
(SCxy )2
SCE =SCy
SCx
Fuente de

Suma de

Grados de

Cuadrado

variacin

cuadrados

libertad

medio

Fm

Regresin

161.04

161.04

196.39

Error

10.69

13

0.82

Total

SCT

14

A un valor de alfa de 0.05 el estadstico F de Excel es F0.05,1,13 = 4.67


Por tanto se comprueba que existe la regresin y es significativa o sea Beta 1<>0
NOTA: Aqu el valor F es el cuadrado del valor de t para comprobar la hiptesis de Beta 1<> 0

SALIDA DE MINITAB
Regression Analysis: Y versus X
The regression equation is
Y = 4.39 + 1.08 X
Predictor
Coef SE Coef
T
P
Constant
4.3863
0.9913
4.42 0.001
X
1.08132 0.07726
13.99 0.000
S = 0.9068

R-Sq = 93.8%

R-Sq(adj) = 93.3%

Analysis of Variance
Source
DF
SS
Regression
1
161.04
Residual Error 13
10.69
Total
14
171.73

MS
161.04
0.82

F
P
195.86 0.000

EJEMPLO DE REGRESIN
Y = 4.38625 + 1.08132 X1
S = 0.906780

R-Sq = 93.8 %

R-Sq(adj) = 93.3 %

28
26
24
22

20
18
16
14
12
10

Regression
95% CI
95% PI

Y = 4.38625 + 1.08132 X1
S = 0.906780

R-Sq = 93.8 %

R-Sq(adj) = 93.3 %

28
26
24
22

20
18
16
14

Regression
95% CI

12

95% PI

10
10

15

X1

20

e Y en funcin de

resor o respuesta

*
*
*
*

*
X

Sin correlacin

= error aleatorio

lores estimados por


a el mtodo de

uo=(YiYi )

s sumas de cuadrados:

os mnimos cuadrados
diferencias al cuadrado
medias tanto en X como

gresin poblacional

cedasticidad)

*
negativa de los residuos

lculos

d = 2.48

statistic = 2.48

dientes, se tiene:

ACIN NEGATIVA

on es cercano a 2.

de la recta de regresin

la fuerza de la relacin
tiva y positiva perfecta

est = 4.4 + 1.08 X

esviacin no explicada
rror = (Yi - Yest) = 1.32

2
2 ( Y iest )
st
n

x )( SCy )

e . ajuste

CIONADA A Xo

alcula como sigue:


Banda del
95% de
Confianza

a recta de regresin

se calcula como sigue:

Banda de
Prediccin
del 95%

a recta de regresin

e Beta 1<> 0

Problema 10. Investigar si existe una relacin entre los niveles de Consumo (Y) y el ingreso de los consumindores (X).
a) Establecer la ecuacin de regresin
b) Hacer un diagrama de Dispersin para los datos (Agregar lnea de tendencia, ecuacin y R2)
c) Qu consumo se pronostica para alguien que gane $27,000?
Datos:
X=Ingreso
Y=Consumo
24.3
16.2
12.5
8.5
31.2
15
28
17
35.1
24.2
10.5
11.2
23.2
15
10
7.1
8.5
3.5
15.9
11.5
14.7
10.7
15
9.2

greso de los consumindores (X).

dencia, ecuacin y R2)

You might also like