Professional Documents
Culture Documents
TEMA 6
ANÁLISIS DE DOS VARIABLES CUANTITATIVAS:
CORRELACIÓN
6.1 Introducción.
6.2 Distribuciones de frecuencias Conjunta , marginales y
condicionadas
6.3 Representaciones gráficas.
6.4 Independencia Estadística.
6.5 Covarianza entre variables. Propiedades.
6.6 Correlación lineal
6 .1 Introducción.
Hasta ahora cuando hemos observado un individuo de la población estudiábamos en
él una sola característica; por ejemplo, el nivel de ingresos. En consecuencia, cada
observación venia dada por un dato unidimensional. Así, hemos obtenido, por ejemplo, que
el nivel de ingresos de 10 empresas analizadas ha sido:
0,1,1,2,2,3,3,3,3,4
Veamos un ejemplo. Se analizan diez empresas y para cada una de ellas medimos,
para el mes anterior, el ingreso que han tenido (variable X) y los gastos de producción
experimentados (variable Y). Los datos que hemos obtenido aparecen a continuación.
(X,Y): (0,0), (1,0), (1,3), (2,2), (2,2), (3,2), (3,3), (3,3), (3,3), (4,3 )
X/Y 0 2 3
0 1 0 0
1 1 0 1
2 0 2 0
3 0 1 3
4 0 0 1
N=10
. . . .
. . . .
Así pues, nij es la frecuencia absoluta del par (xi,yj); lo que no es mas que el nº de
veces que aparece simultáneamente el valor xi en la variable X con el valor yj en la variable
Y. La tabla de correlación nos proporciona la llamada distribución conjunta de frecuencias,
que no es mas que un resumen numérico inicial que hacemos a los datos de partida.
La tabla de correlación también puede expresarse como una tabla de una sola
entrada en la que junto a cada par de valores, que ahora si pueden enumerarse de forma
correlativa: primero, segundo,......, aparece la frecuencia de dicho par:
xi yi ni
0 0 1
1 0 1
1 3 1
2 2 2
3 2 1
3 3 3
4 3 1
Asociada a la tabla de correlación con las frecuencias absolutas, existe otra tabla de
frecuencias relativas. Si definimos la frecuencia relativa del par (3,2) como la proporción
que hay entre el nº de veces que se presenta ese par (la llamada frecuencia absoluta) y el nº
total de observaciones, tendremos que esa frecuencia relativa es 1/10. En general la
frecuencia relativa del par (xi,yj) es nij/N , y se denota por fij. Es decir,
n ij
fij=
N
. . . . 0 1/10 0 0
. . . . 2 0 2/10 0
Obviamente, f
i j
ij =1.
En nuestro caso 1/10 +1/10 + 2/10 + 1/10 + 1/10 + 3/10 + 1/10 = 10/10 = 1
X\Y 0 2 3 ni.
0 1 0 0 1 (1+0+0) Comentario [JER3]: El nº total
de empresas en las que el
1 1 0 1 2 (1+0+1) ingreso ha sido 1 es la suma de
1,0,1
2 0 2 0 2 (0+2+0) Comentario [JER4]: El nº total
de empresas en las que el
3 0 1 3 4 (0+1+3) ingreso ha sido 3 es la suma de
0,1,3
4 0 0 1 1 (0+0+1)
Comentario [JER5]: El nº total
n.j 2 3 5 N=10 de empresas en las que los
gastos ha sido 0 es la suma de
1,1,0,0,0
Comentario [JER6]:
se observa que los valores de X, los ingresos, que hemos observado en las empresas Comentario [JER7]: El nº
examinadas han sido 0,1,1,2,2,3,3,3,3,4. Por tanto, la distribución de frecuencias de X es total de empresas en las que el
gasto ha sido 2 es la suma de
0,0,2,1,0
Comentario [JER8]: La suma
de 0,1,0,3,1
Comentario [JER9]: Obsérve
se que 2+3+5=10 y
1+2+2+4+1=10.
4
Estadística. ADE Tema 6: Correlación
xi ni. fi.
0 1 1/10
1 2 2/10
2 2 2/10
3 4 4/10
4 1 1/10
Comentario [JER10]: La
10 1 suma de todas las frecuencias
absolutas es igual al nº total de
observaciones; en este caso 10.
Comentario [JER11]:
Comentario [JER12]: La
Es decir, hay 4 empresas cuyos ingresos son 3 u.m., 1 empresa cuyos ingresos son 4 suma de todas las frecuencias
u.m., y así sucesivamente. relativas es igual a la unidad.
n i.
ni.= n ij , f i. fij
j N j
ni
i. N, f
i
i. 1
n .j
n.j= n ij , f.j f ij
i N i
n
j
.j N, f
j
.j 1
n .j
n .j
=1 Comentario [JER32]: La
frecuencia relativa de la
distribución condicional es igual
a la conjunta dividida entre la
2) Las distribuciones condicionadas de la forma Y/X=xi toman los mismos valores marginal de la de abajo (en este
que Y, los yj , pero sus frecuencias absolutas (nj/X= xi, también notadas como caso de la Y), ya sean absolutas
o relativas.
nj/i) y relativas (fi/X= xi, también notadas por fj/i) son diferentes. Se verifica que:
b.
j
( nj/X= xi) = nij = ni.
j
Comentario [JER33]: La
frecuencia relativa de la
n ij n ij/N f ij n ij f ij distribución condicional es igual
c. fj/X= xi, fj/i, coincide con = . Es decir, fj/i= = a la conjunta dividida entre la
n i. n i. /N f i. n i. fi. marginal de la de abajo (en este
caso de la X), ya sean absolutas
o relativas.
n ij n
j
ij
n i.
d.
j
(fj/X= xi) = j n i.
=
n i.
n i.
=1
X r
x i ni
r
a = X
r
i
xi f i
N i
r
x X i ni
r
mrX= X-X i
N
xi X f i
i
En el caso bidimensional se procede tal como se indica a continuación.
r s
x X y i j Y n ij r s
X-X Y-Y i j
N
xi X
i j
y j
Y f ij
8
Estadística. ADE Tema 6: Correlación
a11= X Y xi y j f ij
N i j
Comentario [JER35]: La
media del producto de la
xi X
y j Y n ij desviaciones de los valores de
m11= X-X Y-Y i j
N
xi X
i j
y j
Y f ij las variables con relación a sus
medias respectivas
gráfico de dispersión
2.5
frecuencia 2
1.5
3
1 2
2
1
3
x y
4
Gráfico de Dispersión
3.5
Comentario [JER36]: Obsérv
3 ese que esa frecuencia no es
Valores de Ventas (Y)
4 1 8 1 Comentario [JER43]: La
suma de todas las frecuencias
relativas es igual a la unidad.
Comentario [JER44]: La
suma de todas las frecuencias
absolutas es igual al nº total de
trabajadores de la empresa E2,
en este caso 8
Está claro, que tanto en la primera como en la seguda empresa hay un 75% de Comentario [JER45]: La
hombres : fHombre/E1= 3*100/4 =75, que coincide con fHombre/E2= 6*100/8=75; y un 25% de suma de todas las frecuencias
relativas es igual a la unidad.
10
mujeres: fMujer/E1= 1*100/4 =25, que coincide con fMujer/E2=2*100/8=25, Comentario [JER46]: Obsérv
independientemente de que en la primera empresa haya 3 hombres y en la segunda empresa ese que esa frecuencia no es
mas que el nº de veces que
6, y en la primera empresa haya 1 mujer y en la segunda 2 mujeres. Por tanto, la aparecen simultáneamente el
composición del nº de trabajadores en cuanto al sexo es equivalente en las dos empresas; y valor yj en Y, junto al valor 3 en
X;es decir, que coincide con
diremos que la composición en cuanto al sexo es independiente de la empresa. nij(X=3, Y=yj )
El ejemplo anterior, muestra claramente que para estudiar si dos variables X e Y son Comentario [JER47]: Como
independientes entre sí (en el ejemplo esas variables eran el sexo y la empresa) es necesario siempre, la frecuencia relativa es
igual a la correspondiente
comparar las frecuencias relativas de las distribuciones condicionas; y han de coincidir para frecuencia absoluta dividida
cada uno de todos los posibles valores de dichas distribuciones condicionadas. Es decir, entre el nº total de
observaciones. En este caso, el
nº total de observaciones en las
X,Y son independientes Y/X=x1 Y/X=x2 ........... Y/X=xk que se presenta el valor 3 en X;
es decir ni.(X=3), que en nuestro
caso es 4.
En general, se verifica que
Comentario [JER48]: Como
siempre, la frecuencia relativa es
X e Y son independientes yj: fj /x1 = fj /x2 = .......= fj /xk igual a la correspondiente
frecuencia absoluta dividida
entre el nº total de
n1j n kj observaciones. En este caso, el
yj: =.......= nº total de observaciones en las
que se presenta el valor 2 en X;
n1. n k. es decir ni.(X=2), que en nuestro
caso es 2.
En el ejemplo anterior, la distribución del sexo de los empleados es independiente de Comentario [JER49]: Obsérv
ese que esa frecuencia no es
la empresa en la que trabajen, pues: mas que el nº de veces que
aparecen simultáneamente el
fHombre/E1= 3/4 , que coincide con fHombre/E2= 6/8=3/4 valor 2 en X, junto al valor ...
3 en
[10]
Comentario [JER50]: Obsérv
ese que esa frecuencia no es
fMujer/E1= 1/4 , que coincide con fMujer/E2=2/8=1/4 mas que el nº de veces que
aparecen simultáneamente el
Para el ejemplo de partida se tiene que valor 2 en X, junto al valor ...
3 en
[11]
Comentario [JER51]: Obsérv
ese que esa frecuencia no es
yj/X=3 nj/X=3 fj/X=3 yj/X=2 nj/X=2 fj/X=2 mas que el nº de veces que
aparecen simultáneamente el
0 0 0/4 0 0 0/2 valor 3 en X, junto al valor ...
3 en
[12]
Comentario [JER52]: Obsérv
ese que esa frecuencia no es
2 1 1/4 2 2 2/2 mas que el nº de veces que
aparecen simultáneamente el
3 3 3/4 3 0 0/2 valor 3 en X, junto al valor ...
3 en
[13]
Comentario [JER53]: La
suma de todas las frecuencias
totales 4 1 totales 2 1 absolutas es igual al nº total de
observaciones en las que la
variable X toma el valor tres
... (el
[14]
Comentario [JER54]: La
suma de todas las frecuencias
relativas es igual a la unidad.
Comentario [JER55]: La
Luego X e Y no son independientes; puesto que la frecuencia relativa de, por suma de todas las frecuencias
ejemplo, el valor 2, es 1/4 en Y/X=3, y 2/2=1 en Y/X=2; luego no son iguales, y por tanto, absolutas es igual al nº total de
observaciones en las que la
Y/X=3 no es equivalente a Y/X=2. variable X toma el valor tres
... (el
[15]
Comentario [JER56]: La
suma de todas las frecuencias
relativas es igual a la unidad.
11
n i1 n
xi: =.......= im
n .1 n.m
6.5.1 Interpretación.
Veamos, como habíamos señalado anteriormente, que Cov(X,Y) nos indica cómo
varían conjuntamente X e Y. Para ello, recordemos que Cov(X,Y)= X-X Y-Y ; es decir
el representante de los productos de la forma xi -X y -Y .
j
Por tanto,
Si Cov(X,Y) es +, eso significará que los valores positivos predominan sobre los
negativos en los productos del tipo
xi -X y j -Y . Pero si xi -X y j -Y >0
xi -X 0, y j -Y 0 xi X, y j Y
o bien
xi -X 0, y j -Y 0 xi X, y j Y
Eso significa que predominan los puntos situados en el primer y el tercer cuadrante
sobre los situados en el segundo y cuarto cuadrantes (Véase figura de final del apartado)
Es decir, que valores grandes de X, en el sentido que son mayores que el valor
medio, se asocian con valores grandes de Y, en el sentido que también son mayores que su
media; y valores pequeños de X se asocian con valores pequeños de Y. En este caso diremos
que existe una asociación directa, o positiva, entre las variables X e Y.
12
Estadística. ADE Tema 6: Correlación
Eso significa que predominan los puntos situados en el segundo y cuarto cuadrante
sobre los situados en el primer y el tercer cuadrantes (Véase figura de final del apartado)
Es decir, que valores grandes de X, en el sentido que son mayores que su valor
medio, se asocian con valores grandes de Y, en el sentido que son menores que su media; y
valores grandes de X se asocian con valores pequeños de Y. En este caso diremos que existe
una asociación inversa, o negativa, entre las variables X e Y.
Segundocuadrante PrimerCuadrante
Cuartocuadrante
Tercercadrante
2) Cov(X,Y) = Cov(Y,X)
13
2
Cov(X,X)= XX XX X 2 X S x2
Comentario [c60]: Propiedad
5) Cov(X,Y+Z)= Cov(X,Y)+ Cov(X,Z) distributiva de la covarianza
= COV(X,Z)+COV(Y,Z)
Comentario [c61]: La
6) Cov(X,a+Y)=Cov(X,Y) covarianza es invariante a
cambios de origen
Puesto que,
Comentario [c62]: Por la
COV(X,a+Y)=COV(X,a)+COV(X,Y)=COV(X,Y) propiedad 4
Comentario [c63]: Por la
propiedad 2, la Covarianza entre
7) Cov(X,bY)= bCov(X,Y) una variable y una constante es
cero
Dado que Cov(X,bY)= XbY XbY bXY bXY b(XY XY) =bCOV(X,Y)
8) Cov(X,a+bY)=bCov(X,Y)
Se tiene que
Comentario [c64]: Por la
Cov(X,a+bY)=COV(X,a) + COV(X,bY)=bCOV(X,Y) propiedad 4
Comentario [c65]: Por la
propiedad 2 y la propiedad 6
9) Cov(a+bX,c+dY)=bdCov(X,Y)
Comentario [c66]: Propiedad
de linealidad de la covarianza
En efecto,
Comentario [c67]: Por la
Cov(a+bX,c+dY)= Cov(a,c+dY) +Cov(bX,c+dY)= propiedad 4
Comentario [c68]: Por la
propiedad 2
=Cov(bX,c+dY)= Cov(bX,c) + Cov(bX,dY)=
Comentario [c69]: Por la
propiedad 4
=Cov(bX,dY) = bCov(X,dY)= bdCov(X,Y)
Comentario [c70]: Por la
propiedad 2
9) Si X, Y son independientes Cov( X,Y)=0 Comentario [c71]: Por la
propiedad 6
Comentario [c72]: Por la
propiedad 6
14
Obviamente, la propia covarianza, tal cual, no nos sirve, pues depende de las escalas
de medida de las variables. En efecto, si llamamos X´ a la misma variable X pero medida en
distinta unidad (Por ejemplo X´= Ingreso en miles de pesetas), y llamamos Y´ a la variable Y
pero medida en distinta unidad (Por ejemplo Y´= Gasto en miles de pesetas), tendremos que
X´= 103 X y que Y´=103 Y, con lo que Cov(X´,Y´)=Cov(103 X, 103 Y)= 103103 Cov(X,Y).
Es decir X´, Y´ no tienen la misma covarianza que X,Y. Además las unidades también serían
diferentes, ya que Cov(X,Y) tiene por unidades las unidades de X multiplicadas por las
unidades de Y (antes era millones2, y ahora es miles2).
Pues dadas las variables X,Y, se calculan sus variables tipificadas (quitándoles sus
medias y dividiéndolas por sus respectivas desviaciones típicas); es decir, se calculan X´=
(X- x )/Sx e Y´= (Y- y )/Sy, donde Sx y Sy son las desviaciones típicas de X e Y,
respectivamente; con lo que X´ e Y´ ya no tienen unidades (además tienen de media cero, y
de varianza uno). Ahora, ya se puede calcular la intensidad de la variación conjunta entre X
e Y como
Cov(X,Y)
rx,y =Cov(X´, Y´)=
SX .SY
6.6.2 Propiedades
1) El coeficiente de correlación lineal, r, es adimensional.
15
bd
r(a+bX,c+dY)= r(X,Y).
b d
En efecto,
Comentario [c73]: El
coeficiente de correlación lineal
4) Puede comprobarse que –1 r 1 está entre –1 y 1
Mientras mas cerca de 1, mayor relación lineal directa (cuando sea 1, diremos
que la relación lineal es perfecta y directa); y Mientras mas cerca de -1, mayor
relación lineal inversa (cuando sea -1, diremos que la relación lineal es perfecta e
inversa)
16
Página 6: [1] Comentario [JER15] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 0 en X, junto al valor 0 en Y;es decir, que coincide con nij(X=0,Y=0)
Página 6: [2] Comentario [JER16] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 1 en X, junto al valor 0 en Y;es decir, que coincide con nij(X=1,Y=0)