You are on page 1of 28

REGRESIN Y CORRELACIN

Por Ruth Mateos de Cabo

1. Introduccin

NDICE:

a. Regresin en sentido estricto b. Regresin en sentido amplio

2. Rectas de regresin o Regresin lineal 3. La varianza residual o de la regresin lineal 4. Regresin y correlacin no lineal
a. Regresin parablica b. Correlacin parablica

5. Regresin y correlacin lineal mltiple


a. Regresin mltiple b. Varianza residual y coeficiente de correlacin mltiple c. Correlacin parcial

Introduccin
Se trata de aprovechar la informacin de una variable (por ejemplo x) para mejorar la media de la otra ( y ).

Regresin: media de y dependiendo de los valores de x


Variable y Distribucin
Media Varianza f (y) Nueva f ( y / x)

y (x ) y / x

Variable y/x
Distribucin condicionada Regresin de y/x Varianza residual ( s r2 )

y
2 sy

informacin dada
por x

y (x )
2 sy / x

Coeficiente de determinacin (de correlacin al cuadrado): nos habla, en


tanto por uno, de lo que hemos mejorado el promedio de y con la introduccin de la variable x: 0 ry2/ x 1

ry2/ x =

s s
2 y 2 sy

2 r

s = 1 s

2 r 2 y

ry2/ x = 0
ry2/ x = 1

2 s y = s r2

No mejora nada Mejora al 100%

s r2 = 0

Introduccin
a. Regresin en sentido estricto Regresin emprica de y sobre x: es la media de la distribucin condicionada, es decir: m y / xi = y j f j / i = y (x ) depende de x
j =1

Regresin emprica

Regresin mnimo cuadrtica

y / xi Ajuste: consiste en aproximar dichos puntos por una lnea matemtica de tipo conocido
0 ( xi ; a0 , b0 ,K)

x xi Regresin mnimo cuadrtica (m.c.): llamaremos regresin mnimo cuadrtica a la curva 0 de una familia de curvas , que verifica

min D = min [ y / xi ( xi ; a, b,K)] f i = [ y / xi 0 ( xi ; a0 , b0 , K)] f i


2 2 i =1 i =1

Introduccin
b. Regresin en sentido amplio
min y j (xi ; a, b,K) f ij = y j 0 (xi ; a, b, K) f ij
2 2 i =1 j =1 i =1 j =1 n m

Nube de puntos

Ajuste a la nube de puntos

yj

0 ( xi ; a0 , b0 ,K)

xi

La regresin en sentido amplio coincide con la regresin en sentido estricto

Introduccin
Ejemplo: Calcular la recta regresin en sentido amplio y en sentido estricto de la siguiente distribucin bidimensional
x y 1 2 3
ni x i ni

3 1 1

n j

y j n j

y 2 n j j
1 16 45 62

x n
i i

ij

y j xi nij
i

1 1 3 2 2 4 20 100 10 50 4 5 10 42 182 24 103

1 8 15 24

3 17 22 42

3 34 66 103

2 6 18
ij

4 16 64 11 44

xi2 ni

y n
j j
j

3 9

xi y j nij

Introduccin
a. Regresin en sentido estricto Primero tenemos que calcular las medias condicionadas:
y j x1 = 3 n j /1 y j n j /1

1 2 Total

1 1
n1 = 2

1 2
3

y / x1 = y j f j /1 =
j =1

3 = 1,5 2

y j x2 = 4
2 3 Total

nj/2
1 3

y j nj/2
2 9 11

y / x2 = y j f j / 2 =
j =1

11 = 2,75 4

n 2 = 4

y j x3 = 5

n j /3

y j nj/3

2 3 Total

2 2 n3 = 4

4 6 10

y / x3 = y j f j / 3 =
j =1

10 = 2,5 4

Introduccin
a. Regresin en sentido estricto Para ajustar una funcin lineal habr que encontrar los valores a y b que hacen mnima la expresin:

min (a, b ) = min [ y / xi a bxi ] f i


2
n (a, b ) = 2 [ y / xi a bxi ] f i = 0 a i =1 n (a, b ) = 2 [ y / xi a bxi ]xi f i = 0 b i =1

i =1

y/x
i =1

f i =a + b xi f i
i =1

y/x
i =1

xi f i =a xi f i + b xi2 f i
i =1 i =1

y / xi

xi

f i

y / xi f i

y / xi xi f i

xi f i

xi2 f i

3/2 11/4 10/4

3 4 5

2/10 4/10 4/10 1

3/10 11/10 10/10 2,4

9/10 44/10 50/10 10,3

6/10 16/10 20/10 4,2

18/10 64/10 100/10 18,2

2,4 = a + 4,2b 10,3 = 4,2a + 18,2b

y1 = 0,75 + 0,392 x

Introduccin
b. Regresin en sentido amplio Se trata de minimizar la siguiente expresin:
min (a, b ) = y j a bxi
i =1 j =1
n m (a, b ) = 2 y j a bxi f ij = 0 a i =1 j =1 n m (a, b ) = 2 y j a bxi xi f ij = 0 b i =1 j =1

f ij

a 01 = a + ba10 a11 = aa10 + ba 20

2,4 = a + 4,2b 10,3 = 4,2a + 18,2b

Aplicando Cramer:
2,4 a= 4,2 b= 1 2,4

10,3 18,2 = 0,75 1 4,2 4,2 18,2

4,2 10,3 = 0,392 1 4,2 4,2 18,2

y = 0,75 + 0,392 x

Rectas de regresin o Regresin lineal


La recta de regresin de y/x ser aquella y=a+bx que haga:
min (a, b ) = y j a bxi
i =1 j =1 n m

f ij

Aplicando la condicin necesaria de mnimo tenemos las ecuaciones normales:


n m (a, b ) = 2 y j a bxi f ij = 0 a i =1 j =1 n m (a, b ) = 2 y j a bxi xi f ij = 0 b i =1 j =1

y
n i =1 j =1 m i =1 j =1 i

f ij = a f ij + b xi f ij
j

x y

f ij = a xi f ij + b xi2 f ij
i =1 j =1 i =1 j =1

i =1 j =1 n m

i =1 j =1 n m

En notacin de momentos: a 01 = a + ba10 a11 = aa10 + ba 20


a10

a11 = aa10 + ba 20
2 a10 a01 = aa10 + ba10

Coeficiente de regresin

a11 a01 a01 = b a20 a

2 10

b=

s a11 a10 a01 s xy = 2 =r y 2 a20 a10 sx sx

a = y bx

Rectas de regresin o Regresin lineal


La recta de regresin de y/x buscada es:
a

y= y

s xy s s xy
2 x

x+

s xy s
2 x

x=

= y+

2 x

(x x ) = (x x )

y y (x x ) =r sy sx

= y+r

sy sx

De la misma manera la recta de regresin de x/y x = a + by , tiene la siguiente expresin:


x=x+

(y y) = 2 sy s = x + r x (y y) sy

s xy

(y y) xx =r sx sy

La varianza residual o de la regresin lineal


La varianza residual para la regresin de y/x : medida de la concentracin del diagrama de dispersin en torno a la recta de regresin a+bx

s sr2 = y j r y (xi x ) + y f ij = s i =1 j =1 x
n m

s ( y j y ) r y ( xi x ) f ij = sx i =1 j =1
n m

2 sy sy 2 ( y j y ) 2r ( y j y )( xi x ) + r 2 2 ( xi x )2 f ij = = sx sx i =1 j =1 n m

= s 2r
2 y

sy sx

s xy + r

s2 y s
2 x

2 sx =

donde

s xy = r s x s y

2 2 2 = s y 2r 2 s y + r 2 s y =

2 2 2 = sy r 2sy = sy 1 r 2

2 0 sr2 s y

sr2 r = 1 2 sy
2

r2 1

1 r 1

La varianza residual o de la regresin lineal


Anlisis cualitativo y cuantitativo de r:

sr2 r = 1 2 sy
2

r 1
2

y 1 r 1

r = b b =

m11 m11 m11 2 = 2 sx s y sx s y

1. Cuando r > 0 hay correlacin positiva:

r >0
y

2. Cuando r < 0 hay correlacin negativa:

r<0
y

La varianza residual o de la regresin lineal


3. Interpretaciones extremas: a. Si r = 1 sr2 = 0 hay correlacin perfecta o dependencia rgida lineal
r =1
y y

r = 1

x
2 2 b. Si r = 0 sr = s y hay incorrelacin

r =0
y

La varianza residual o de la regresin lineal


4. Casos intermedios: si 1 < r < 1 grado de correlacin

5. Interpretacin cuantitativa de r: r2 nos indica el porcentaje (100 r2 ), en que hemos mejorado nuestra prediccin de y con la introduccin de la recta de regresin, comparada con aquella situacin donde no se supona ninguna relacin lineal entre las variables, es decir, cuando utilizbamos la media en lugar de la recta de regresin.

La varianza residual o de la regresin lineal


Determinante de momentos: su rango informa de la forma de la distribucin
2 sx = s xy

s xy s2 y

2 sx = sx s y r

sx s y r r 2 21 2 2 = sx s y = sx s y 1 r 2 2 sy r 1

a. Si rango = 2 0 (caso 4) la distribucin no se concentra ni en una recta ni en un punto


2 b. Si rango = 1 = 0 pero s x 0 y s 2 0 (caso 3 a) la distribucin y (singular) se concentra en una recta
2 2 c. Si rango = 0 = 0 y s x = s y = 0 (caso 3 b) la distribucin (singular) se concentra en un punto

Regresin y correlacin no lineal


Cuando ajustamos otras lneas que no sean rectas. a. Regresin parablica:
2 p Sea y = b0 + b1 xi + b2 xi + L + b p xi una familia de parbolas. La parbola de regresin de y sobre x ser:

min (b0 , b1 ,K, bp ) = y j b0 + b1 xi + b2 xi2 + L + b p xip


n m i =1 j =1

)]

f ij

Sistema de ecuaciones normales:

(b0 , b1 ,K , b p ) bk

= 2 y j b0 + b1 xi + b2 xi2 + L + b p xip xik f ij = 0


i =1 j =1

)]

En notacin de momentos y para:

k =0 k =1 k=p

b0 + b1a10 + b2 a20 + L + b p a p 0 = a01 b0 a10 + b1a20 + b2 a30 + L + b p a p +1, 0 = a11 ......................................................... b0 a p , 0 + b1a p +1, 0 + b2 a p + 2, 0 + L + bp a2 p , 0 = a p1
p+1 ecuaciones

Regresin y correlacin no lineal


b. Correlacin parablica: Varianza residual: nos habla de una mayor o menor concentracin de los puntos del diagrama en torno a la parbola ajustada:
s = y j b0 + b1 xi + b2 xi2 + L + bp xip
2 r i =1 j =1 n m n m

)]

f ij =

= y j b0 + b1 xi + b2 xi2 + L + b p xip y j b0 + b1 xi + b2 xi2 + L + b p xip f ij = = y j y j b0 + b1 xi + b2 xi2 + L + b p xip f ij =


i =1 j =1

i =1 j =1 n m

)][

)]

)]

= a02 b0 a01 b1a11 b2 a21 L b p a p1

2 0 s r2 s y

Coeficiente o ndice de correlacin parablico: es independiente de la unidad de medida elegida:


sr2 r = 1 2 sy
2 p

Regresin y correlacin no lineal


b. Correlacin parablica: Interpretacin de rp2 : 1. Si rp2 = 1 sr2 = 0
2 2. Si rp2 = 0 sr2 = s y

dependencia rgida parablica incorrelacin parablica

3. Para cualquier otro valor0 < rp2 < 1 mayor o menor grado de correlacin parablica
2 4. Interpretacin cuantitativa de rp : nos indica el porcentaje en que hemos mejorado nuestra prediccin de y con la introduccin de la regresin parablica. rp2 = 1

Regresin y correlacin lineal mltiple


Se trata de mejorar la media de una variable introduciendo la informacin que proporcionan dos nuevas variables que estn relacionadas estadsticamente con aquella.
Variable x1 Distribucin
Media Varianza f ( x1 ) x1

Variable x1/x2, x3 Nueva informacin


x2 y x3

f ( x1 / x 2 , x3 ) x1 ( x 2 , x3 )
s12(2,3 ) = s r2

Distribucin condicionada Regresin de x1/x2, x3 Varianza residual

s12

Coeficiente de correlacin mltiple: nos habla, en tanto por uno, de lo que


hemos mejorado el promedio de x1 con la introduccin de las variables x2 y x3.

2 1 ( 2 ,3 )

s12 sr2 sr2 = = 1 2 s12 s1

Regresin y correlacin lineal mltiple


Determinante de momentos y de correlacin: su rango informa de la forma de la distribucin s12 s12
2 s2 s32

s13

l11

l12

l13 l23 l33

r12 1 r32

r13 r23 1

L = s21
s31

s23 = l21 l22 2 s3 l31 l32

R = r21
r31

Estn relacionados de la siguiente forma:

s1s1r11 L = s2 s1r21 s3 s1r31

s1s2 r12 s2 s2 r22 s3 s2 r32

s1s3r13 1 2 2 s2 s3 r23 = s12 s2 s3 r21 s3 s3r33 r31

r12 1 r32

r13 2 2 r23 = s12 s2 s3 R 1

Regresin y correlacin lineal mltiple


Determinante de momentos y de correlacin: su rango informa de la forma de la distribucin a. Si rango L= 2 ( rango R = 2) todos los puntos del diagrama de dispersin se hallan en un plano

L=R=
0

b. Si rango L= 1 ( rango R = 1) todos los puntos del diagrama de dispersin se hallan sobre una recta singular c. Si rango L= 3 L 0 R 0 plano ni en una recta. x1 la distribucin no se encuentra en un x1

x2 x3 x3

x2

Regresin y correlacin lineal mltiple


a. Regresin mltiple Regresin emprica de x1 sobre x2 y x3: es la media de la distribucin condicionada, es decir: n x1 / x2 , x3 = x1i f1i / x2 , x3
i =1

Regresin lineal mnimo cuadrtica de x1 sobre x2 y x3: el plano de regresin m.c. de x1 sobre x2 y x3 ser aquel que cumpla

(b10 , b12 , b13 ) = [x1i (b10 + b12 x2i + b13 x3i )]


i

1 = min n

Para obtener el sistema de ecuaciones normales conviene eliminar primero b10:

1 = 2 [x1i b10 b12 x2i b13 x3i ] = 0 b10 n i


b10 = x1 b12 x2 b13 x3 Sustituyendo queda:

(b12 , b13 ) = [( x1i x1 ) b12 ( x2i x2 ) b13 ( x3i x3 )]


i

1 = min n

Regresin y correlacin lineal mltiple


a. Regresin mltiple Clculo coeficientes de regresin parcial b12 y b13 :
(b12 , b13 ) 1 = 2 [( x1i x1 ) b12 ( x2i x2 ) b13 ( x3i x3 )]( x2i x2 ) = 0 n b12 i

(b12 , b13 ) 1 = 2 [( x1i x1 ) b12 ( x2i x2 ) b13 ( x3i x3 )]( x3i x3 ) = 0 b13 n i

Haciendo operaciones: b12l22 + b13l23 = l21 b12l32 + b13l33 = l31 l11 l12 L = l21 l22 l31 l32 l13 l23 l33 l22 l21 l23 l l l L12 ; b13 = 32 b12 = 31 33 = l22 l22 l23 L11 l32 l32 l33 l11 l12 L = l21 l22 l31 l32 l13 l23 l33 l22 L11 = l32 l23 l33 l21 l 21 l31 l = 31 l23 l22 l33 l32 l13 l23 l33 L13 = l22 l32 l23 l33 = L13 L11

l21 l23 L12 = l31 l33 l11 l12 L = l21 l22 l31 l32

l21 l22 l31 l32

Regresin y correlacin lineal mltiple


a. Regresin mltiple Plano de regresin de x1/ x2, x3:
x1 = x1 L12 (x2 x2 ) L13 (x3 x3 ) L11 L11

L11 (x1 x1 ) + L12 (x2 x2 ) + L13 (x3 x3 ) = 0


Plano de regresin de x2/ x1, x3:

L21 (x1 x1 ) + L22 ( x2 x2 ) + L23 (x3 x3 ) = 0


Plano de regresin de x3/ x2, x1:

L31 (x1 x1 ) + L32 (x2 x2 ) + L33 (x3 x3 ) = 0

Regresin y correlacin lineal mltiple


b. Varianza residual y coeficiente de correlacin mltiple Para la regresin de x1/ x2, x3, la varianza residual es:
sr2 = [(x1i x1 ) b12 ( x2i x2 ) b13 (x3i x3 )]
i 2

1 = n

= [( x1i x1 ) b12 ( x2i x2 ) b13 ( x3i x3 )][( x1i x1 ) b12 ( x2i x2 ) b13 ( x3i x3 )]
i

1 n

Efectuando cada producto y teniendo en cuenta las ecuaciones normales:


1 sr2 = [(x1i x1 ) b12 ( x2i x2 ) b13 ( x3i x3 )](x1i x1 ) = n i L L = l11 b12l12 b13l13 = l11 + 12 l12 + 13 l13 = L11 L11 2 2 l11L11 + l12 L12 + l13 L13 L s12 s2 s3 R R = = = 2 2 = s12 L11 L11 s2 s3 R11 R11

0 sr2 s12

Coeficiente de correlacin mltiple:

2 1 (2 3 )

R L s12 sr2 = 1 = 1 2 = R11 s1 L11 s12

Regresin y correlacin lineal mltiple


b. Varianza residual y coeficiente de correlacin mltiple Anlisis del coeficiente de correlacin mltiple: 1. Si r12(2 3 ) = 1 sr2 = 0 correlacin perfecta, todos los puntos del diagrama de dispersin estn sobre un plano o una recta (R = L= 0)
2 2 2. Si r12(2 3) = 0 sr = s1 ; x1 est incorrelacionado con x2 y x3

(R = R11 r12= r13= 0) 3. Si 0 < r12(2 3 ) < 1 cierto grado de correlacin 4. Interpretacin cuantitativa de r122 3) : nos indica el porcentaje en que ( hemos mejorado nuestra prediccin de x1 con la introduccin de las variables x2 y x3 .

Regresin y correlacin lineal mltiple


c. Correlacin parcial Es la que estudia la correlacin entre dos variables despus de eliminar la influencia de las dems. En el caso de tres variables: x2
Influye directamente

x1

Pero tambin a travs de x3

x3

Se calcula como media geomtrica de los coeficientes de regresin lineal mltiple de las correspondientes variables: De x1 sobre x2 y x3: De x2 sobre x1 y x3: x1 = b10 + b12 x2 + b13 x3 x2 = b20 + b21 x1 + b23 x3 b12 = b21 = L12 L11 L21 L22

L12 R12 L L = r122, 3 = b12 b21 = 12 21 = L L L11 L22 R11 R22 11 22 El signo es el mismo que el del coeficiente de regresin.

You might also like