You are on page 1of 13

48

U.T.N. - F.R.R - Ao 2005

ESTADISTICA DESCRIPTIVA
RELACIONES ENTRE VARIABLES
Unidad 6 -TEORIA DE LA CORRELACION LINEAL
Profesor Titular: E Mario J. Garber
1 - CONCEPTO:
La Teora de la Correlacin Lineal rene el conjunto de procedimientos matemticos que
permiten calcular un coeficiente de correlacin lineal ( r ) que mide
en forma directa, el grado de relacin lineal entre dos variables Xi e Yi.
en forma indirecta, si un ajustamiento lineal es o no es bueno en el caso de
un diagrama de dispersin determinado.
Por consiguiente, el coeficiente de correlacin lineal, que puede calcularse cuando se
desea resolver un problema de ajustamiento lineal, suministra al investigador un valor
objetivo mediante el cual l puede decidir si resulta conveniente o apropiado realizar el
ajuste lineal o, en caso contrario, buscar una solucin diferente, tal vez no lineal.
2 - TIPOS DE CORRELACION LINEAL:
En los grficos que se muestran ms adelante se presentan los diferentes tipos de
correlacin lineal.
El caso 1 presenta un conjunto de puntos con una relacin lineal directa entre las dos
variables bajo estudio, es decir que a un crecimiento de cualquiera de las dos variables, le
corresponde un crecimiento de la otra. En cambio, el caso 2 muestra al conjunto de puntos con
una relacin lineal inversa, lo que significa que al crecimiento de una variable le corresponde
el decrecimiento de la otra, y viceversa. Los puntos del caso 3 muestran una situacin en la que
la correlacin lineal es inexistente, pero podra existir una correlacin de cualquier otro
tipo (se observa que la disposicin de los puntos tiene una apariencia ms bien circular). En ese
caso, el valor del coeficiente de correlacin lineal debera indicar que lo que no existe es una
relacin lineal entre las variables, pero eso no significa, se reitera, que no pueda ser posible la
existencia de una relacin circular entre ellas. Aqu se puede observar el importante detalle que
las rectas de ajustamiento Yi y X i se cruzan formando un ngulo de 90 grados.
GRAFICO N 1- TIPOS DE CORRELACION LINEAL

-----------------------------------Probabilidades y Estadstica Ao 2005

49

Existe un caso extremo poco frecuente desde el punto de vista emprico denominado de
correlacin lineal perfecta (directa o inversa), en el cual todos lo puntos del diagrama de
dispersin se encuentran perfectamente alineados y, por consiguiente, coinciden con las dos
rectas de ajustamiento Yi y X i . Se presenta en sus dos versiones en los siguientes grficos:
GRAFICOS N 2 - CORRELACION LINEAL PERFECTA

Correlacin lineal perfecta


directa

Correlacin lineal perfecta


inversa

3 - CALCULO DEL r - FORMULA DE LOS MOMENTOS:


El coeficiente de correlacin r puede calcularse mediante la frmula de los momentos
propuesta por el matemtico Pearson y cuya expresin simblica es la siguiente:
r

siguiente expresin:

S
COV ( XY )
xy . La frmula algebraica tiene la
DS X DS Y
Sx S y

1 X X Y Y
i

n i
r
1 X X 2 1 Y Y

n i
n i

, a partir de la cual, recordando

-----------------------------------Probabilidades y Estadstica Ao 2005

50

que la covariancia y los desvos estndar tienen sus correspondientes frmulas de trabajo, puede
construirse la frmula de trabajo del coeficiente de correlacin

X iYi X Y
n

X i2 X 2
n

Yi2 Y 2
n

que es utilizada empricamente

para calcular el coeficiente de correlacin en la mayora de los casos. Finalmente, mediante


la simplificacin de los trminos

1 del numerador y denominador de la frmula algebraica, se


n

obtiene una nueva expresin para el r denominada frmula abreviada, que ser utilizada
fundamentalmente en demostraciones tericas por su sencillez y brevedad:
r

X i X Yi Y

X i X

Yi Y

xi yi
(recordando que
xi2 yi2

xi X i X

y que yi Yi Y ).

Para calcular r mediante la aplicacin de la frmula de trabajo, se utiliza una tabla de


datos empricos con tantas columnas como sean necesarias para obtener los resultados que
requiere la frmula, segn el siguiente formato:
Xi
Yi
XiYi
Xi2
Yi2
X1
X1Y1
X12
Y12
2
X2
X2Y2
X2
Y22

2
Xn
XnYn
Xn
Yn2

Xi

Yi

XiYi Xi2

Yi2

Con los cinco resultados del cuadro anterior, se calcula el coeficiente de correlacin.
Obsrvese que las primeras cuatro sumas coinciden con las requeridas para calcular los
parmetros en el ajustamiento lineal, de modo que en caso de disponerse de ellas slo se
deber agregar la Yi2 .
Ejemplo: Calcular el coeficiente de correlacin lineal en el problema del captulo
correspondiente al ajustamiento lineal (ver fascculo anterior). El cuadro obtenido en aqul
clculo es totalmente aprovechable y slo debe agregrsele una columna para calcular Yi2.
Xi
Yi
Xi2
Xi Yi
Yi2
El clculo de las medias aritmticas de
1
3
1
3
9
las variables Xi e Yi dan, cada una de
2
5
4
10
25
ellas, un resultado igual a 3.
3
1
9
3
1
4
2
16
8
4
5
4
25
20
16
15
15
55
44
55
44
3 3
8,8 9
0,2
0,2
5
r

0,1
2
55 2 55 2
11 9 11 9
2 2
3
3
5
5

-----------------------------------Probabilidades y Estadstica Ao 2005

51

En posteriores pasos se ver qu significa que el coeficiente de correlacin tenga ese


valor y que adopte el signo negativo.
4 - CALCULO DEL r A PARTIR DEL PRODUCTO DE LAS
PENDIENTES:
El mtodo abreviado de clculo que fuera desarrollado en el tema ajustamiento lineal,
permite encontrar la pendiente b1 de la recta de ajustamiento Yi mediante la frmula
b1

xiYi
xi2

. Como se sabe que

yi Yi Y , efectuando un pasaje de trminos, resultar

Yi yi Y , y reemplazando Yi en la frmula de b1, finalmente quedar

xi yi Y
b1 b1
xi2

xi yi Y xi
xi2

xi yi (debido a que xi 0 ).
xi2

Con idntico criterio, como xi X i X , tendremos que Xi xi X , de modo que en la


frmula de b2, al reemplazar Xi y operar algebraicamente, se obtendr una nueva versin para
calcular ese parmetro, resultando b2 b2

xi yi
.
yi2

Multiplicando las pendientes de ambas rectas de ajustamiento as expresadas,


obtendremos:
2

xi yi
xi yi
xi yi r 2 , de suerte que, finalmente,
b1b2 2 2
xi yi xi2 yi2

r bb1 2

Esta expresin, ms que permitir el clculo del r, permite extraer dos conclusiones:
a) las pendientes de las rectas de ajustamiento Yi y X i tienen el
mismo signo
(lo cual las hace crecientes o decrecientes
simultneamente) o ambas son nulas. De lo contrario el r no podra
ser calculado.
b) el signo del coeficiente de correlacin es, por convencin, similar al
de las pendientes. Si la relacin es directa, el signo del r ser positivo;
si la relacin es inversa, el signo del r ser negativo.
5 - CALCULO DEL r A PARTIR DE LAS VARIACIONES:
5.a) Definicin de las variaciones, las variancias y los errores estndar: Definiremos
las siguientes variaciones, fcilmente observables en el grfico que se presenta ms abajo, y que
muestra la situacin referida a un solo punto Yj con el propsito de simplificar la observacin:
Variacin total: es la sumatoria de los desvos al cuadrado entre los
puntos empricos Yi y la media aritmtica Y.
2
VT Yi Y
Si dividimos VT por n obtendremos,

obtendremos la variancia de Yi:


VT
S y2
n

y la raz cuadrada de esa variancia permite calcular permite calcular el Desvo Estndar de y (Sy).
-----------------------------------Probabilidades y Estadstica Ao 2005

52

Variacin explicada: es la sumatoria de los desvos al cuadrado


entre los puntos tericos Yi y la media aritmtica Y.
2

VE Yi Y

Variacin no explicada: es la sumatoria de los desvos al cuadrado


entre los puntos empricos Yi y los tericos (dados por la recta de
ajustamiento) Yi .
2

VE Yi Yi

. Dividindola por n, se obtiene

Y Yi

VE i

Sy2. x .

GRAFICO N 3 - DETALLE DE LAS VARIACIONES

Recordando que en un punto anterior se defini a la recta de ajustamiento como una


media dinmica, al observar la expresin precedente se ve claramente que ella tiene el aspecto de
una variancia, y efectivamente lo es, porque mide cmo se alejan los puntos del diagrama de
dispersin respecto de la media dinmica, que es la recta de ajustamiento Yi . Por eso se
la simboliza con Sy.x2, y se la denomina variancia del estimador de Y en X o simplemente
variancia del estimador.
La raz cuadrada de la variancia del estimador permite obtener el error estndar del
estimador (Sy.x). El grfico siguiente permite observar cmo se presentan los errores estndar Sy
y Sy.x .

GRAFICO N 4 - ERRORES ESTANDAR

-----------------------------------Probabilidades y Estadstica Ao 2005

53

El nombre que reciben las variaciones se debe a la siguiente circunstancia:


la variacin explicada se denomina as porque en su clculo intervienen los
puntos tericos Yi cuya disposicin en el diagrama de dispersin se
encuentra explicada por el modelo lineal calculado de acuerdo con la
Teora del ajustamiento.
la variacin no explicada se denomina as porque en su clculo intervienen
los puntos empricos Yi , cuya presencia en el diagrama de dispersin no se
encuentra explicada por ningn modelo ya que responden a datos originados
en observaciones experimentales y, por ende, sujetos al azar.
la variacin total se denomina as porque resulta ser la suma de las dos
anteriores.
Ahora bien, observando detenidamente las expresiones correspondientes a cada una de
las variaciones, se puede verificar que:
a) las tres son positivas, ya que son calculadas como sumas de desvos al
cuadrado. No pueden adoptar valores negativos.
b) la VE y VE pueden ser nulas. Eso ocurre cuando los puntos tericos
coinciden con la media aritmtica de Yi, en el primer caso, y cuando los puntos
empricos coinciden con los tericos Yi , en el segundo caso.

VT 0

Por consiguiente VE 0

VE 0
5.b) Relaciones entre las variaciones: Se ha mencionado precedentemente que la
variacin total es la suma de las variaciones explicada y no explicada, es decir que VT VE VE
. A continuacin se demostrar esta relacin:

Sea Yi Y Yi Y Yi Yi Yi Yi Yi Y . Elevando al cuadrado ambos


2

miembros, quedar: Yi Y Yi Yi Yi Y Yi Yi
aplica
sumatoria
en
2

Yi Y Yi Yi Yi Y 2 Yi Yi Yi Y
2

Yi Y

ambos

-----------------------------------Probabilidades y Estadstica Ao 2005

2 Yi Yi Yi Y

. Se
miembros:

54

La ltima de las sumatorias precedentes se anula:

Yi Yi Yi Y Yi a1 b1 X i a1 b1 X i Y
a1 Yi a1 b1 X i b1 X i Yi a1 b1 X i Y Yi a1 b1 X i 0

Esto es as debido a las propiedades de las ecuaciones normales de Gauss, ya que


Yi a1 b1 X i 0 y Yi X i a1 X i b1 X i2 0 (Unidad 6-Teora del Ajustamiento).
5.c) Clculo de las variaciones: Las variaciones pueden ser calculadas en forma
particular e independiente. Analizaremos cada una de ellas caso por caso:
5.c.1. -Clculo de la variacin no explicada:
VE Yi Yi
Yi a1 b1 X i

Yi a1 b1 X i Yi a1 b1 X i Yi Yi a1 b1 X i a1 Yi a1 b1 X i b1 X i Yi a1 b1 X i

Yi2 a1 Yi b1 Yi X i a1 Yi a1 b1 X i b1 X i Yi a1 b1 X i

Las dos ltimas sumatorias se anulan por la propiedad de las ecuaciones normales de
Gauss, de modo que, en definitiva, resulta
VE Yi2 a1 Yi b1 Yi X i

5.c.2. -Clculo de la variacin explicada:


A partir de la existencia de la relacin entre las variaciones, se efecta la siguiente
operacin:
VE VT VE

Yi2

nY

Yi2 Y

Yi Y

Yi2 a1 Yi b1 Yi X i

2Yi Y Yi2 a1 Yi b1 Yi X i

2Y Yi Yi2 a1 Yi b1 Yi X i

, y simplificando Yi2

Y
2
2
, y reordenando los trminos
nY 2Yn Yi a1 Yi b1 Yi X i
n
2
a1 Yi b1 Yi X i nY 2nYY
2
a1 Yi b1 Yi X i nY

5.d) Deduccin de la frmula del r a partir de las variaciones: En funcin de todas las
definiciones y relaciones indicadas anteriormente, recordando adems que a Y ; que
b1

xi yi
xi2

y que la recta de ajustamiento se puede escribir como Yi a1 b1xi , en esta ltima

ecuacin se efecta un pasaje de trminos que permite escribir Yi a1 b1xi o, lo que es lo


mismo, Yi Y b1xi .
Elevando al cuadrado en ambos miembros de la igualdad y sumando para todo i, se tiene
Yi Y b12 xi2 .
Ahora partamos de la frmula del r2 escrita por el mtodo abreviado de clculo
2

-----------------------------------Probabilidades y Estadstica Ao 2005

55

xi yi . Multiplicando y dividiendo
r2
xi2 yi2

xi yi xi2 xi yi xi2 b12 xi2


r2
.
xi2 yi2 xi2 xi2 2 yi2 yi2

por

xi2 ,

tenemos

Reemplazando

adecuadamente

el

numerador y el denominador de esta ltima expresin por los trminos hallados en este mismo
2

Yi Y VE
r2
punto ms arriba, se obtiene
.
Yi Y VT
VE , frmula sta que, prcticamente, es utilizada poco y nada
Por consiguiente r
VT

para calcular el coeficiente de correlacin, pero que permite extraer las siguientes conclusiones:
De acuerdo con la demostracin que dice que VE VE VT y con el hecho que las
variaciones explicada y no explicada pueden ser, o nulas o positivas, tenemos que

si

VE

si

VE

VT

VE

VT

VE

Si ahora consideramos que r 1 r 2 1 VE VT VE 0 . Observando las


frmulas de las variaciones explicada y total, se verifica que VE=VT si Yi Yi , es
decir, si los puntos empricos coinciden con Yi , esto es, estn perfectamente
alineados. El grfico que se presenta ms abajo ilustra cundo ocurre esto: cuando las
dos rectas coinciden entre s y con los puntos empricos. En ese caso, la correlacin es
perfecta con pendiente positiva.
Idntica situacin se presenta cuando r 1 r 2 1 VE VT VE 0 . Slo que en
este caso la correlacin es perfecta pero con pendiente negativa. Vase, en el
grfico indicado, esta circunstancia.

Si r 0 r 2 0 VE 0 VE VT. Esto ocurre cuando Yi Y , es decir cuando


los puntos tericos de la recta Yi coinciden con la media de Yi, y, en ese caso, la
correlacin lineal es nula y las rectas de ajustamiento se cruzan a 90. Eso tambin se
ilustra en el grfico.

GRAFICO N 5 - CASOS PARA DIFERENTES VALORES DE r

-----------------------------------Probabilidades y Estadstica Ao 2005

56

Caso en que r =+1 Caso en que r =-1 Caso en que r = 0


5.e) Conclusin: De todo lo deducido precedentemente, se concluye que
y que
1 r 1
0 r 2 1
6 - COEFICIENTE DE DETERMINACION:
Se denomina de esa manera al coeficiente de correlacin lineal al cuadrado (r2), e
indica cul es la proporcin de la Variacin total que se encuentra explicada por el modelo
aplicado en un determinado ajustamiento lineal.
De otra manera, el coeficiente de determinacin, que se calcula dividiendo VE sobre VT y
que puede multiplicarse por cien, es un excelente indicador objetivo para determinar (de all su
nombre) qu porcentaje de la variacin total est explicada por el modelo lineal.
A modo exclusivamente orientativo, se agrega a continuacin un cuadro en el que se
presentan diferentes valores del coeficiente de correlacin con su correspondiente valor del
coeficiente de determinacin, y una calificacin respecto de la calidad del ajustamiento lineal en
cada caso:
Porcentaje Calidad del
r
r2
explicado
Ajuste lineal
0,81 a 1,00 81% a 100 % Muy bueno
0,90 /
1,00
Bueno
0,80/ 0, 0,64 a 0,81 64% a 81 %
90
Regular
0,70/ 0, 0,49 a 0,64 49 % a 64 %
80
Malo
0,60/ 0, 0,36 a 0,49 36 % a 49 %
70
Menos de
Menos de
Menos del
Muy Malo
0,60
0,36
36 %
7 - CORRELACION Y DEPENDENCIA ESTADISTICA CONCLUSIONES:
Deben tomarse en cuenta las siguientes conclusiones:
a) La existencia de dependencia estadstica entre dos variables implica que entre
ellas existe algn grado de correlacin, pero la inversa no es cierta: la existencia de
correlacin entre dos variables no implica que exista dependencia estadstica
entre ellas. Eso quiere decir que la relacin entre dos variables puede existir y ser
-----------------------------------Probabilidades y Estadstica Ao 2005

57

alta, pero esa relacin no significa que dependan estadsticamente la una de la otra. Por
ejemplo: entre las variables nmero de fallecidos en una ciudad y cantidad de
pjaros en la misma ciudad puede haber un grado de relacin inversa muy estrecha (a
menor nmero de pjaros mayor nmero de fallecidos), pero sin embargo entre ellas
no existe ninguna dependencia, ni funcional ni estadstica. Lo que s existe en este
caso es una tercera variable no visible, la temperatura, o, en otras palabras, los meses
del ao para los cuales se toma la informacin, (el investigador debe profundizar en su
bsqueda para descubrir la posible existencia de esas variables ocultas cuando realiza
una investigacin de cualquier naturaleza), ya que se puede comprobar fcilmente que
en los meses de baja temperatura, tradicionalmente los de invierno, aumenta el nmero
de fallecidos y disminuye el nmero de pjaros debido a las migraciones. En realidad,
entonces, las variables nmero de fallecidos y cantidad de pjaros son
estadsticamente independientes.
b) La obtencin de un resultado nulo para el coeficiente de correlacin lineal r, indica
que las variables bajo estudio no tienen correlacin lineal o, lo que es lo mismo,
indica que las variables bajo estudio son linealmente independientes. Sin embargo
entre las variables s puede existir alguna correlacin de tipo no lineal (circular,
elptica, parablica, etc.). El coeficiente de correlacin r slo mide el grado de
relacin lineal entre dos variables, pero permite abrir juicio sobre la existencia de
otro tipo de relacin no lineal.
c) En el tema Medidas de dispersin se demostr cul es el resultado de calcular la
variancia de una suma o de una diferencia de variables (5 propiedad), a travs de la
cual se verific que
V (x y) V (x) V ( y) 2Cov (x , y) o bien que
V ( x y) V ( x) V ( y) 2Cov ( x, y) .
Cov(x , y )
Recordando que r S S
, se puede efectuar el siguiente proceso de anlisis:
x y

Si las variables son linealmente independientes, luego r 0 .


Un resultado r 0 se presenta nicamente cuando Cov (x , y ) 0 (ver la
frmula).
Si Cov(x , y ) 0 , eso quiere decir que V ( x y) V ( x) V ( y)
o que V ( x y) V ( x) V ( y) .
Por consiguiente cuando dos variables Xi e Yi son linealmente
independientes, la variancia de su suma o de su diferencia es siempre igual
a la suma de sus respectivas variancias.
Ejemplo: Con los datos que se indican a continuacin
a) construir el diagrama de dispersin
b) calcular el coeficiente de correlacin lineal
c) calcular la variancia de Yi
d) obtener el error estndar de Yi
e) calcular la variacin total
f) calcular la variacin no explicada
g) calcular la variacin explicada
h) calcular el coeficiente de determinacin
-----------------------------------Probabilidades y Estadstica Ao 2005

58

indicar la calidad del ajustamiento hallado

i)

Soluciones:
a)

Nota: la recta de ajustamiento que corresponde a este diagrama de


dispersin
Xi
2
5
8
10
15
40

es Yi 15,836 0,9796 X i .
Yi
Xi Yi
15
30
10
50
8
64
5
50
2
30
40
224

X 8

b) r

Y 8

X iYi X Y
n

X i2 X 2
n

Yi2 Y 2
n

44,8 64

83,6 64 83,6 64

c) S y2

Xi2
4
25
64
100
225
418

224
(8)(8)
5

418 2 418 2
8 8
5 5

19,2
19,2

0,9796
19,6
19,6 19,6

Yi2 Y 2 418 82 19,6


n

d) Sy2 19,6 4,4271


e)

VT

( n)Y 418 (5)82 98

-----------------------------------Probabilidades y Estadstica Ao 2005

Yi2
225
100
64
25
4
418

59

f)
VE

Yi2 a1 Yi b1 Yi X i

418 15,836 40 0,9796 224 3,9904

g) VE VT VE 98 3,9904 94,0096
h) r 2 0,97962 0,9596 (haciendo el cuadrado del coeficiente de correlacin)
r2

VE 94,0096

0,9593 (haciendo el cociente entre VE y VT)


VT
98

i) el ajustamiento lineal aplicado resulta muy bueno porque explica el 95,96


% de la variacin total.
CUADRO SINOPTICO SOBRE TEORIA DE LA CORRELACION
Colaboracin de la Profesora Mara de los Arcos Martnez

T E O R IA D E L A C O R R E L A C IO N
C o e fic ie n t e
D e t e r m in a c i n
C o r r e la c i n
F r m u la
M o m e n to s

P ro d u c to
d e la s
P e n d ie n t e s

C o c ie n t e d e
V a r ia c io n e s

V a r ia c i n
T o ta l

V a r ia c i n
E x p lic a d a

V a r ia c i n
n o E x p lic a d a

PREGUNTAS TEORICAS SOBRE TEORIA DE LA CORRELACION:


1) Suponga que en un problema de ajustamiento lineal se obtienen los siguientes datos:
a1 11 ; X 8 ; Y 6 . En ese caso, cmo es el coeficiente de correlacin lineal?
a) positivo
b) negativo
c) nulo
2) La recta de ajustamiento Yi 10 1,5X i y la recta de ajustamiento X i 1,9 0,65Yi .
En ese caso:
a) la correlacin es perfecta
b) la correlacin no es perfecta
-----------------------------------Probabilidades y Estadstica Ao 2005

60

c) el problema es insoluble
3) Si el coeficiente de correlacin r =0,50, entonces
a) VE VE
b) VE VE
c) VE VE
BIBLIOGRAFIA CONSULTADA:
Berenson Levine
Estadstica bsica en Administracin
Editorial Prentice Hall - 6 Edicin
Kazmier L. Daz Matta A.
Estadstica Aplicada a Administracin y Economa
Editorial McGraw Hill - 2 Edicin
Levin Rubin
Estadstica para Administradores
Editorial Prentice Hall 6 Edicin
Montiel Ros Barn
Elementos Bsicos de Estadstica Econmica y Empresarial
Editorial Prentice Hall - Ao 1996
Mendenhall Reinmuth
Estadstica para Administracin y Economa
Grupo Editorial Iberoamrica - Ao 1993
Johnston
Mtodos de Econometra
Editorial Vinces-Vives - 3 Edicin - Ao 1975
Gujarati
Econometra
Editorial McGraw Hill - 2 Edicin - Ao 1993
Spiegel M. - Teora y Problemas de Estadstica Editorial Shaum

-----------------------------------Probabilidades y Estadstica Ao 2005

You might also like