Professional Documents
Culture Documents
ESTADISTICA DESCRIPTIVA
RELACIONES ENTRE VARIABLES
Unidad 6 -TEORIA DE LA CORRELACION LINEAL
Profesor Titular: E Mario J. Garber
1 - CONCEPTO:
La Teora de la Correlacin Lineal rene el conjunto de procedimientos matemticos que
permiten calcular un coeficiente de correlacin lineal ( r ) que mide
en forma directa, el grado de relacin lineal entre dos variables Xi e Yi.
en forma indirecta, si un ajustamiento lineal es o no es bueno en el caso de
un diagrama de dispersin determinado.
Por consiguiente, el coeficiente de correlacin lineal, que puede calcularse cuando se
desea resolver un problema de ajustamiento lineal, suministra al investigador un valor
objetivo mediante el cual l puede decidir si resulta conveniente o apropiado realizar el
ajuste lineal o, en caso contrario, buscar una solucin diferente, tal vez no lineal.
2 - TIPOS DE CORRELACION LINEAL:
En los grficos que se muestran ms adelante se presentan los diferentes tipos de
correlacin lineal.
El caso 1 presenta un conjunto de puntos con una relacin lineal directa entre las dos
variables bajo estudio, es decir que a un crecimiento de cualquiera de las dos variables, le
corresponde un crecimiento de la otra. En cambio, el caso 2 muestra al conjunto de puntos con
una relacin lineal inversa, lo que significa que al crecimiento de una variable le corresponde
el decrecimiento de la otra, y viceversa. Los puntos del caso 3 muestran una situacin en la que
la correlacin lineal es inexistente, pero podra existir una correlacin de cualquier otro
tipo (se observa que la disposicin de los puntos tiene una apariencia ms bien circular). En ese
caso, el valor del coeficiente de correlacin lineal debera indicar que lo que no existe es una
relacin lineal entre las variables, pero eso no significa, se reitera, que no pueda ser posible la
existencia de una relacin circular entre ellas. Aqu se puede observar el importante detalle que
las rectas de ajustamiento Yi y X i se cruzan formando un ngulo de 90 grados.
GRAFICO N 1- TIPOS DE CORRELACION LINEAL
49
Existe un caso extremo poco frecuente desde el punto de vista emprico denominado de
correlacin lineal perfecta (directa o inversa), en el cual todos lo puntos del diagrama de
dispersin se encuentran perfectamente alineados y, por consiguiente, coinciden con las dos
rectas de ajustamiento Yi y X i . Se presenta en sus dos versiones en los siguientes grficos:
GRAFICOS N 2 - CORRELACION LINEAL PERFECTA
siguiente expresin:
S
COV ( XY )
xy . La frmula algebraica tiene la
DS X DS Y
Sx S y
1 X X Y Y
i
n i
r
1 X X 2 1 Y Y
n i
n i
50
que la covariancia y los desvos estndar tienen sus correspondientes frmulas de trabajo, puede
construirse la frmula de trabajo del coeficiente de correlacin
X iYi X Y
n
X i2 X 2
n
Yi2 Y 2
n
obtiene una nueva expresin para el r denominada frmula abreviada, que ser utilizada
fundamentalmente en demostraciones tericas por su sencillez y brevedad:
r
X i X Yi Y
X i X
Yi Y
xi yi
(recordando que
xi2 yi2
xi X i X
y que yi Yi Y ).
2
Xn
XnYn
Xn
Yn2
Xi
Yi
XiYi Xi2
Yi2
Con los cinco resultados del cuadro anterior, se calcula el coeficiente de correlacin.
Obsrvese que las primeras cuatro sumas coinciden con las requeridas para calcular los
parmetros en el ajustamiento lineal, de modo que en caso de disponerse de ellas slo se
deber agregar la Yi2 .
Ejemplo: Calcular el coeficiente de correlacin lineal en el problema del captulo
correspondiente al ajustamiento lineal (ver fascculo anterior). El cuadro obtenido en aqul
clculo es totalmente aprovechable y slo debe agregrsele una columna para calcular Yi2.
Xi
Yi
Xi2
Xi Yi
Yi2
El clculo de las medias aritmticas de
1
3
1
3
9
las variables Xi e Yi dan, cada una de
2
5
4
10
25
ellas, un resultado igual a 3.
3
1
9
3
1
4
2
16
8
4
5
4
25
20
16
15
15
55
44
55
44
3 3
8,8 9
0,2
0,2
5
r
0,1
2
55 2 55 2
11 9 11 9
2 2
3
3
5
5
51
xiYi
xi2
xi yi Y
b1 b1
xi2
xi yi Y xi
xi2
xi yi (debido a que xi 0 ).
xi2
xi yi
.
yi2
xi yi
xi yi
xi yi r 2 , de suerte que, finalmente,
b1b2 2 2
xi yi xi2 yi2
r bb1 2
Esta expresin, ms que permitir el clculo del r, permite extraer dos conclusiones:
a) las pendientes de las rectas de ajustamiento Yi y X i tienen el
mismo signo
(lo cual las hace crecientes o decrecientes
simultneamente) o ambas son nulas. De lo contrario el r no podra
ser calculado.
b) el signo del coeficiente de correlacin es, por convencin, similar al
de las pendientes. Si la relacin es directa, el signo del r ser positivo;
si la relacin es inversa, el signo del r ser negativo.
5 - CALCULO DEL r A PARTIR DE LAS VARIACIONES:
5.a) Definicin de las variaciones, las variancias y los errores estndar: Definiremos
las siguientes variaciones, fcilmente observables en el grfico que se presenta ms abajo, y que
muestra la situacin referida a un solo punto Yj con el propsito de simplificar la observacin:
Variacin total: es la sumatoria de los desvos al cuadrado entre los
puntos empricos Yi y la media aritmtica Y.
2
VT Yi Y
Si dividimos VT por n obtendremos,
y la raz cuadrada de esa variancia permite calcular permite calcular el Desvo Estndar de y (Sy).
-----------------------------------Probabilidades y Estadstica Ao 2005
52
VE Yi Y
VE Yi Yi
Y Yi
VE i
Sy2. x .
53
VT 0
Por consiguiente VE 0
VE 0
5.b) Relaciones entre las variaciones: Se ha mencionado precedentemente que la
variacin total es la suma de las variaciones explicada y no explicada, es decir que VT VE VE
. A continuacin se demostrar esta relacin:
miembros, quedar: Yi Y Yi Yi Yi Y Yi Yi
aplica
sumatoria
en
2
Yi Y Yi Yi Yi Y 2 Yi Yi Yi Y
2
Yi Y
ambos
2 Yi Yi Yi Y
. Se
miembros:
54
Yi Yi Yi Y Yi a1 b1 X i a1 b1 X i Y
a1 Yi a1 b1 X i b1 X i Yi a1 b1 X i Y Yi a1 b1 X i 0
Yi a1 b1 X i Yi a1 b1 X i Yi Yi a1 b1 X i a1 Yi a1 b1 X i b1 X i Yi a1 b1 X i
Yi2 a1 Yi b1 Yi X i a1 Yi a1 b1 X i b1 X i Yi a1 b1 X i
Las dos ltimas sumatorias se anulan por la propiedad de las ecuaciones normales de
Gauss, de modo que, en definitiva, resulta
VE Yi2 a1 Yi b1 Yi X i
Yi2
nY
Yi2 Y
Yi Y
Yi2 a1 Yi b1 Yi X i
2Yi Y Yi2 a1 Yi b1 Yi X i
2Y Yi Yi2 a1 Yi b1 Yi X i
, y simplificando Yi2
Y
2
2
, y reordenando los trminos
nY 2Yn Yi a1 Yi b1 Yi X i
n
2
a1 Yi b1 Yi X i nY 2nYY
2
a1 Yi b1 Yi X i nY
5.d) Deduccin de la frmula del r a partir de las variaciones: En funcin de todas las
definiciones y relaciones indicadas anteriormente, recordando adems que a Y ; que
b1
xi yi
xi2
55
xi yi . Multiplicando y dividiendo
r2
xi2 yi2
por
xi2 ,
tenemos
Reemplazando
adecuadamente
el
numerador y el denominador de esta ltima expresin por los trminos hallados en este mismo
2
Yi Y VE
r2
punto ms arriba, se obtiene
.
Yi Y VT
VE , frmula sta que, prcticamente, es utilizada poco y nada
Por consiguiente r
VT
para calcular el coeficiente de correlacin, pero que permite extraer las siguientes conclusiones:
De acuerdo con la demostracin que dice que VE VE VT y con el hecho que las
variaciones explicada y no explicada pueden ser, o nulas o positivas, tenemos que
si
VE
si
VE
VT
VE
VT
VE
56
57
alta, pero esa relacin no significa que dependan estadsticamente la una de la otra. Por
ejemplo: entre las variables nmero de fallecidos en una ciudad y cantidad de
pjaros en la misma ciudad puede haber un grado de relacin inversa muy estrecha (a
menor nmero de pjaros mayor nmero de fallecidos), pero sin embargo entre ellas
no existe ninguna dependencia, ni funcional ni estadstica. Lo que s existe en este
caso es una tercera variable no visible, la temperatura, o, en otras palabras, los meses
del ao para los cuales se toma la informacin, (el investigador debe profundizar en su
bsqueda para descubrir la posible existencia de esas variables ocultas cuando realiza
una investigacin de cualquier naturaleza), ya que se puede comprobar fcilmente que
en los meses de baja temperatura, tradicionalmente los de invierno, aumenta el nmero
de fallecidos y disminuye el nmero de pjaros debido a las migraciones. En realidad,
entonces, las variables nmero de fallecidos y cantidad de pjaros son
estadsticamente independientes.
b) La obtencin de un resultado nulo para el coeficiente de correlacin lineal r, indica
que las variables bajo estudio no tienen correlacin lineal o, lo que es lo mismo,
indica que las variables bajo estudio son linealmente independientes. Sin embargo
entre las variables s puede existir alguna correlacin de tipo no lineal (circular,
elptica, parablica, etc.). El coeficiente de correlacin r slo mide el grado de
relacin lineal entre dos variables, pero permite abrir juicio sobre la existencia de
otro tipo de relacin no lineal.
c) En el tema Medidas de dispersin se demostr cul es el resultado de calcular la
variancia de una suma o de una diferencia de variables (5 propiedad), a travs de la
cual se verific que
V (x y) V (x) V ( y) 2Cov (x , y) o bien que
V ( x y) V ( x) V ( y) 2Cov ( x, y) .
Cov(x , y )
Recordando que r S S
, se puede efectuar el siguiente proceso de anlisis:
x y
58
i)
Soluciones:
a)
es Yi 15,836 0,9796 X i .
Yi
Xi Yi
15
30
10
50
8
64
5
50
2
30
40
224
X 8
b) r
Y 8
X iYi X Y
n
X i2 X 2
n
Yi2 Y 2
n
44,8 64
83,6 64 83,6 64
c) S y2
Xi2
4
25
64
100
225
418
224
(8)(8)
5
418 2 418 2
8 8
5 5
19,2
19,2
0,9796
19,6
19,6 19,6
VT
Yi2
225
100
64
25
4
418
59
f)
VE
Yi2 a1 Yi b1 Yi X i
g) VE VT VE 98 3,9904 94,0096
h) r 2 0,97962 0,9596 (haciendo el cuadrado del coeficiente de correlacin)
r2
VE 94,0096
T E O R IA D E L A C O R R E L A C IO N
C o e fic ie n t e
D e t e r m in a c i n
C o r r e la c i n
F r m u la
M o m e n to s
P ro d u c to
d e la s
P e n d ie n t e s
C o c ie n t e d e
V a r ia c io n e s
V a r ia c i n
T o ta l
V a r ia c i n
E x p lic a d a
V a r ia c i n
n o E x p lic a d a
60
c) el problema es insoluble
3) Si el coeficiente de correlacin r =0,50, entonces
a) VE VE
b) VE VE
c) VE VE
BIBLIOGRAFIA CONSULTADA:
Berenson Levine
Estadstica bsica en Administracin
Editorial Prentice Hall - 6 Edicin
Kazmier L. Daz Matta A.
Estadstica Aplicada a Administracin y Economa
Editorial McGraw Hill - 2 Edicin
Levin Rubin
Estadstica para Administradores
Editorial Prentice Hall 6 Edicin
Montiel Ros Barn
Elementos Bsicos de Estadstica Econmica y Empresarial
Editorial Prentice Hall - Ao 1996
Mendenhall Reinmuth
Estadstica para Administracin y Economa
Grupo Editorial Iberoamrica - Ao 1993
Johnston
Mtodos de Econometra
Editorial Vinces-Vives - 3 Edicin - Ao 1975
Gujarati
Econometra
Editorial McGraw Hill - 2 Edicin - Ao 1993
Spiegel M. - Teora y Problemas de Estadstica Editorial Shaum