You are on page 1of 19

Estadística.

ADE Tema 6: Correlación

TEMA 6
ANÁLISIS DE DOS VARIABLES CUANTITATIVAS:
CORRELACIÓN

6.1 Introducción.
6.2 Distribuciones de frecuencias Conjunta , marginales y
condicionadas
6.3 Representaciones gráficas.
6.4 Independencia Estadística.
6.5 Covarianza entre variables. Propiedades.
6.6 Correlación lineal

6 .1 Introducción.
Hasta ahora cuando hemos observado un individuo de la población estudiábamos en
él una sola característica; por ejemplo, el nivel de ingresos. En consecuencia, cada
observación venia dada por un dato unidimensional. Así, hemos obtenido, por ejemplo, que
el nivel de ingresos de 10 empresas analizadas ha sido:

0,1,1,2,2,3,3,3,3,4

Parece evidente que el estudio de los fenómenos económicos y empresariales, dada


su complejidad, ha de llevar aparejada el análisis de más de una característica en cada
individuo que compone nuestra población objeto de estudio. En este caso, nuestras
observaciones serán bidimensionales; por ejemplo, el nivel de ingreso y el nivel de gasto.

Veamos un ejemplo. Se analizan diez empresas y para cada una de ellas medimos,
para el mes anterior, el ingreso que han tenido (variable X) y los gastos de producción
experimentados (variable Y). Los datos que hemos obtenido aparecen a continuación.

(X,Y): (0,0), (1,0), (1,3), (2,2), (2,2), (3,2), (3,3), (3,3), (3,3), (4,3 )

Este tema realizará el estudio de las variables estadísticas bidimensionales; tales


como la del ejemplo que acabamos de presentar.

Apuntes descargados de wuolah.com


Estadística. ADE Tema 6: Correlación

6.2 Distribuciones de frecuencias Conjunta , marginales y


condicionadas.

6.2.1 Distribución Conjunta.


Los datos anteriores pueden venir resumidos en la siguiente tabla, denominada tabla
de correlación.

X/Y 0 2 3
0 1 0 0
1 1 0 1
2 0 2 0
3 0 1 3
4 0 0 1
N=10

En la columna exterior izquierda de la tabla aparecen los valores de la variable X


(0,1,2,3,4), y en la fila exterior de arriba de la tabla aparecen dispuestos los valores de la
variable Y (0,2 y 3); dentro de la tabla aparecen las denominadas frecuencias absolutas de
cada pareja de valores. Así, vemos que 1 es la frecuencia absolutas del par (3,2). Ello quiere
decir que únicamente ha aparecido una vez el par (3,2). Por contra, la frecuencia absoluta
del par (2,2) es dos; puesto que este par , haber ingresado dos millones y haber gastado
simultáneamente otros dos, ha aparecido en dos ocasiones en las empresas estudiadas.

En general, si los valores diferentes de la variable X los representamos por


x1,...,xi,..,xk, y los valores diferentes de la variable Y los representamos por y1,..,yj,..ym, la
tabla de correlación vendrá dada por:

X\Y y1 .........yj........... .ym


.

x1 n11 ……n1j……… n1m

. . . .

xi nk1 ……nij……… nim

. . . .

xk nk1 ……. nkj…….. nkm

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

Así pues, nij es la frecuencia absoluta del par (xi,yj); lo que no es mas que el nº de
veces que aparece simultáneamente el valor xi en la variable X con el valor yj en la variable
Y. La tabla de correlación nos proporciona la llamada distribución conjunta de frecuencias,
que no es mas que un resumen numérico inicial que hacemos a los datos de partida.

Notemos N al nº total de observaciones; es decir, N=  n ij . En nuestro ejemplo Comentario [JER1]: La suma


de todas las frecuencias
i j
absolutas conjuntas es igual al
N=10. nº de observaciones.

La tabla de correlación también puede expresarse como una tabla de una sola
entrada en la que junto a cada par de valores, que ahora si pueden enumerarse de forma
correlativa: primero, segundo,......, aparece la frecuencia de dicho par:

xi yi ni

0 0 1

1 0 1

1 3 1

2 2 2

3 2 1

3 3 3

4 3 1

Asociada a la tabla de correlación con las frecuencias absolutas, existe otra tabla de
frecuencias relativas. Si definimos la frecuencia relativa del par (3,2) como la proporción
que hay entre el nº de veces que se presenta ese par (la llamada frecuencia absoluta) y el nº
total de observaciones, tendremos que esa frecuencia relativa es 1/10. En general la
frecuencia relativa del par (xi,yj) es nij/N , y se denota por fij. Es decir,

n ij
fij=
N

La tabla de frecuencias relativas vendrá dada por

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

X\Y y1 .........yj........... .ym


.

x1 f11 ……f1j……… f1m X\Y 0 2 3

. . . . 0 1/10 0 0

xi fk1 ……fij……… fim 1 1/10 0 1/10

. . . . 2 0 2/10 0

xk fk1 ……. fkj…….. fkm 3 0 1/10 3/10


Comentario [JER2]: La suma
1 de todas las frecuencias
4 0 0 1/10 relativas es la unidad.

Obviamente,  f
i j
ij =1.

En nuestro caso 1/10 +1/10 + 2/10 + 1/10 + 1/10 + 3/10 + 1/10 = 10/10 = 1

6.2.2 Distribuciones de frecuencias Marginales.


A partir de nuestro ejemplo de partida,

X\Y 0 2 3 ni.
0 1 0 0 1 (1+0+0) Comentario [JER3]: El nº total
de empresas en las que el
1 1 0 1 2 (1+0+1) ingreso ha sido 1 es la suma de
1,0,1
2 0 2 0 2 (0+2+0) Comentario [JER4]: El nº total
de empresas en las que el
3 0 1 3 4 (0+1+3) ingreso ha sido 3 es la suma de
0,1,3
4 0 0 1 1 (0+0+1)
Comentario [JER5]: El nº total
n.j 2 3 5 N=10 de empresas en las que los
gastos ha sido 0 es la suma de
1,1,0,0,0
Comentario [JER6]:
se observa que los valores de X, los ingresos, que hemos observado en las empresas Comentario [JER7]: El nº
examinadas han sido 0,1,1,2,2,3,3,3,3,4. Por tanto, la distribución de frecuencias de X es total de empresas en las que el
gasto ha sido 2 es la suma de
0,0,2,1,0
Comentario [JER8]: La suma
de 0,1,0,3,1
Comentario [JER9]: Obsérve
se que 2+3+5=10 y
1+2+2+4+1=10.

4
Estadística. ADE Tema 6: Correlación

xi ni. fi.

0 1 1/10

1 2 2/10

2 2 2/10

3 4 4/10

4 1 1/10
Comentario [JER10]: La
10 1 suma de todas las frecuencias
absolutas es igual al nº total de
observaciones; en este caso 10.
Comentario [JER11]:
Comentario [JER12]: La
Es decir, hay 4 empresas cuyos ingresos son 3 u.m., 1 empresa cuyos ingresos son 4 suma de todas las frecuencias
u.m., y así sucesivamente. relativas es igual a la unidad.

Como esta distribución de frecuencias de X la hemos obtenido de la distribución


conjunta, no teniendo en cuenta , “marginando”, los valores que presentaba Y; por ello la
vamos a denominar distribución de frecuencias marginal X. Igualmente a la frecuencia
absoluta del valor xi la hemos notado por ni., que no es mas que el nº total de veces que
aparece el valor xi en la variable X, y su frecuencia relativa por fi.

Obsérvese igualmente que

n i.
ni.=  n ij , f i.    fij
j N j

ni
i. N, f
i
i. 1

Si ahora notamos n.j al nº de veces que se presenta el valor yj en la variable Y, y por


f.j a su frecuencia relativa, obviamente,

n .j
n.j=  n ij , f.j    f ij
i N i

n
j
.j N, f
j
.j 1

En consecuencia, se obtiene que la distribución de frecuencias marginal Y es:

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

Comentario [JER13]: Obsérv


ese que esa frecuencia no es
mas que el nº de veces que
yj n.j f.j aparecen simultáneamente el
valor xi en X, junto al valor 0 en
0 2 2/10 Y;es decir, que coincide con
nij(X=xi, Y=0)

2 3 3/10 Comentario [JER14]: Como


siempre, la frecuencia relativa es
igual a la correspondiente
3 5 5/10 frecuencia absoluta dividida
entre el nº total de
10 1 observaciones. En este caso, el
nº total de observaciones en las
que se presenta el valor 0 en Y;
es decir n.j(Y=0), que en nuestro
caso es 2.
Comentario [JER15]: Obsérv
6.2.3 Distribuciones de frecuencias Condicionadas. ese que esa frecuencia no es
mas que el nº de veces que
Observemos, por un momento, los pares iniciales en los que la variable Y ha tomado aparecen simultáneamente el
valor 0 en X, junto al valor 0 en
el valor 0, son dos pares: (0,0), (1,0). Y;es decir, que coincide con... [1]
Comentario [JER16]: Obsérv
Obviamente; en este caso, los únicos valores que toma la variable X (el nivel de ese que esa frecuencia no es
mas que el nº de veces que
ingreso) son 0 y 1. aparecen simultáneamente ...
el [2]
Comentario [JER17]: La
Podemos decir pues, que si estudiamos solo los casos en que los gastos (variable Y) suma de todas las frecuencias
son cero tenemos que los únicos valores de los ingresos (variable X) son 0 y 1. Los valores absolutas es igual al nº total de
observaciones en las que la... [3]
que toma X cuando nos restringimos a los casos en que Y es cero se denomina distribución
Comentario [JER18]: La
de X condicionada a que Y toma el valor cero; y se denota por X/Y=0. Por tanto, la suma de todas las frecuencias
distribución de frecuencias de X/Y=0 viene dada por: relativas es igual a la unidad.
Comentario [JER19]: Obsérv
xi/Y=0 ni/Y=0 fi/Y=0 ese que esa frecuencia no es
mas que el nº de veces que
aparecen simultáneamente ...
el [4]
0 1 1/2 Comentario [JER20]: Como
siempre, la frecuencia relativa es
1 1 1/2 igual a la correspondiente
frecuencia absoluta dividida... [5]
Comentario [JER21]: Obsérv
2 1 ese que esa frecuencia no es
mas que el nº de veces que
aparecen simultáneamente ...
el [6]
Por la misma razón, la distribución de X condicionada a que Y toma el valor 3,
X/Y=3, viene dada por: Comentario [JER22]: Obsérv
ese que esa frecuencia no es
mas que el nº de veces que
xi/Y=3 ni/Y=3 fi/Y=3 aparecen simultáneamente ...
el [7]
Comentario [JER23]: Obsérv
1 1 1/5 ese que esa frecuencia no es
mas que el nº de veces que
aparecen simultáneamente ...
el [8]
3 3 3/5 Comentario [JER24]: La
suma de todas las frecuencias
absolutas es igual al nº total de
4 1 1/5 observaciones en las que la... [9]
Comentario [JER25]: La
5 1 suma de todas las frecuencias
relativas es igual a la unidad: 1/5
+ 3/5 + 1/5 =1.

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

De igual forma se definen las distribuciones condicionadas de Y a que X toma un


valor determinado. Así, tenemos que, por ejemplo, la distribución Y/X=3 viene dada por
Comentario [JER26]: Obsérv
yj/X=3 nj/X=3 fj/X=3 ese que esa frecuencia no es
mas que el nº de veces que
aparecen simultáneamente el
2 1 1/4 valor yj en Y, junto al valor 3 en
X;es decir, que coincide con
nij(X=3, Y=yj )
3 3 3/4
Comentario [JER27]: Como
4 1 siempre, la frecuencia relativa es
igual a la correspondiente
frecuencia absoluta dividida
entre el nº total de
observaciones. En este caso, el
nº total de observaciones en las
Como ejercicio dejamos para el alumno que calcule las distribuciones condicionadas que se presenta el valor 3 en X;
que quedan pendientes de obtener. es decir ni.(X=3), que en nuestro
caso es 4.
Comentario [JER28]: Obsérv
Observaciones.- ese que esa frecuencia no es
mas que el nº de veces que
1) Las distribuciones condicionadas de la forma X/Y=yj toman los mismos valores aparecen simultáneamente el
valor 2 en X, junto al valor 3 en
que X, los xi , pero sus frecuencias absolutas (ni/Y= yj, también notadas como ni/j Y;es decir, que coincide con
) y relativas (fi/Y= yj , también notadas por fi/j) son diferentes. nij(X=2,Y=3)
Comentario [JER29]: Obsérv
ese que esa frecuencia no es
Se verifica que: mas que el nº de veces que
aparecen simultáneamente el
a. ni/Y= yj , ni/j ,coincide con nij valor 3 en X, junto al valor 3 en
Y;es decir, que coincide con
nij(X=3,Y=3)
b. 
i
( ni/Y= yj ) =  nij = n.j
i
Comentario [JER30]: La
suma de todas las frecuencias
absolutas es igual al nº total de
observaciones en las que la
n ij n ij/N f ij n ij f ij variable X toma el valor tres (el
c. fi/Y= yj , fi/j ,coincide con =  . Es decir, fi/j = = llamado ni.(X=3); en este caso 4
n .j n .j/N f.j n .j f.j
Comentario [JER31]: La
suma de todas las frecuencias
n ij n ij
n .j relativas es igual a la unidad.
d. 
i
( fi/Y= yj ) =  i n .j
= i

n .j

n .j
=1 Comentario [JER32]: La
frecuencia relativa de la
distribución condicional es igual
a la conjunta dividida entre la
2) Las distribuciones condicionadas de la forma Y/X=xi toman los mismos valores marginal de la de abajo (en este
que Y, los yj , pero sus frecuencias absolutas (nj/X= xi, también notadas como caso de la Y), ya sean absolutas
o relativas.
nj/i) y relativas (fi/X= xi, también notadas por fj/i) son diferentes. Se verifica que:

a. nj/X= xi , nj/i ,coincide con nij

b. 
j
( nj/X= xi) =  nij = ni.
j
Comentario [JER33]: La
frecuencia relativa de la
n ij n ij/N f ij n ij f ij distribución condicional es igual
c. fj/X= xi, fj/i, coincide con =  . Es decir, fj/i= = a la conjunta dividida entre la
n i. n i. /N f i. n i. fi. marginal de la de abajo (en este
caso de la X), ya sean absolutas
o relativas.

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

n ij n
j
ij
n i.
d. 
j
(fj/X= xi) =  j n i.
=
n i.

n i.
=1

3) Tanto las distribuciones marginales, como las condicionadas son distribuciones


unidimensionales; luego les podemos calcular los mismos momentos que a las
distribuciones unidimensionales estudiadas en temas anteriores. Así, podemos
calcularles la media, la varianza, etc. Así, tenemos que

a. La media de la distribución X/Y=3, se denota por X/Y=3 o por X /Y=3,


1*1  3*3  4*1 14
vale 
5 5

b. La media de la distribución Y/X=3, se denota por Y/X=3 o por Y /X=3


2*1  3*3 11
vale 
4 4

4) Por su parte, a la distribución conjunta bidimensional, también le podemos


calcular los momentos respecto al origen y respecto a la media, de forma similar
a cuando teníamos una variable unidimensional. En el caso unidimensional,
teníamos que
r

X r
x i ni
r
a = X 
r
i
  xi f i
N i

r
x  X i ni
r
mrX= X-X    i
N

  xi  X f i
i

En el caso bidimensional se procede tal como se indica a continuación.

a. El momento respecto al origen de orden r en X y de orden s en Y, se


define como:
r s
 x i j
i y j n ij
r s
r s
ar,s= X Y    xi y j f ij
N i j

b. El momento respecto a la media de orden r en X y de orden s en Y, se


representa por mr,s, y se define como:
r s

r s
  x  X   y i j  Y n ij r s
 X-X   Y-Y   i j

N
  xi  X
i j
  y j 
 Y f ij

8
Estadística. ADE Tema 6: Correlación

Los dos momentos mas significativos son


Comentario [JER34]: La
media del producto
 x y n
i j
i j ij

a11= X Y    xi y j f ij
N i j
Comentario [JER35]: La
media del producto de la
  xi  X  
y j  Y n ij desviaciones de los valores de


m11= X-X Y-Y    i j

N

  xi  X
i j
 y j 
 Y f ij las variables con relación a sus
medias respectivas

Este último se le denomina covarianza, puesto que indica como varían


conjuntamente X e Y, tal cómo veremos seguidamente, en el apartado 5.5 ; y
también se nota por Cov(X,Y).

6.3 Representaciones gráficas.


La representación gráfica más importante para el caso de dos variables sin agrupar es
el diagrama de dispersión o nube de puntos.

gráfico de dispersión

2.5

frecuencia 2

1.5

3
1 2
2
1
3
x y
4

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

Es similar al de la variable unidimensional pero ahora, en lugar de estar en el plano,


está en el espacio; es decir, cada tripleta (xi, yj, nij ) se representa como un punto en el
espacio. También podemos representar las observación solo como los pares (xi, yj), sin
representar su frecuencia absoluta. En tal caso, el gráfico es de la forma:

Gráfico de Dispersión

3.5
Comentario [JER36]: Obsérv
3 ese que esa frecuencia no es
Valores de Ventas (Y)

mas que el nº de hombres y el


2.5 de mujeres que hay en la
empresa E1
2
Comentario [JER37]: Como
1.5 siempre, la frecuencia relativa es
igual a la correspondiente
frecuencia absoluta dividida
1 entre el nº total de
observaciones. En este caso, el
0.5 nº total de trabajadores de la
empresa E1, que en nuestro
0 caso es 3.

0 1 2 3 4 5 Comentario [JER38]: Obsérv


ese que esa frecuencia no es
Valores de Ingresos (X) mas que el nº de veces que
aparecen simultáneamente el
valor 0 en X, junto al valor 0 en
Y;es decir, que coincide con
nij(X=0,Y=0)
Comentario [JER39]: Obsérv
ese que esa frecuencia no es
6.4 Independencia Estadística. mas que el nº de hombres que
trabajan en la empresa E2
Supongamos que para dos empresas, E1 y E2, de las estudiadas hasta el momento, Comentario [JER40]: Obsérv
ese que esa frecuencia no es
se analiza la composición de la plantilla y se obtienen los siguientes datos: mas que el nº de mujeres que
hay en la empresa E1
E1 E2
Comentario [JER41]: Obsérv
ese que esa frecuencia no es
ni/E1 fi/E1 ni/E2 fi/E2 mas que el nº de mujeres que
trabajan en la empresa E2
Hombres 3 3/4 Hombres 6 6/8
Comentario [JER42]: La
suma de todas las frecuencias
1 1/4 Mujeres 2 2/8 absolutas es igual al nº total de
Mujeres trabajadores de la empresa E1,
en este caso 4

4 1 8 1 Comentario [JER43]: La
suma de todas las frecuencias
relativas es igual a la unidad.
Comentario [JER44]: La
suma de todas las frecuencias
absolutas es igual al nº total de
trabajadores de la empresa E2,
en este caso 8
Está claro, que tanto en la primera como en la seguda empresa hay un 75% de Comentario [JER45]: La
hombres : fHombre/E1= 3*100/4 =75, que coincide con fHombre/E2= 6*100/8=75; y un 25% de suma de todas las frecuencias
relativas es igual a la unidad.

10

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

mujeres: fMujer/E1= 1*100/4 =25, que coincide con fMujer/E2=2*100/8=25, Comentario [JER46]: Obsérv
independientemente de que en la primera empresa haya 3 hombres y en la segunda empresa ese que esa frecuencia no es
mas que el nº de veces que
6, y en la primera empresa haya 1 mujer y en la segunda 2 mujeres. Por tanto, la aparecen simultáneamente el
composición del nº de trabajadores en cuanto al sexo es equivalente en las dos empresas; y valor yj en Y, junto al valor 3 en
X;es decir, que coincide con
diremos que la composición en cuanto al sexo es independiente de la empresa. nij(X=3, Y=yj )

El ejemplo anterior, muestra claramente que para estudiar si dos variables X e Y son Comentario [JER47]: Como
independientes entre sí (en el ejemplo esas variables eran el sexo y la empresa) es necesario siempre, la frecuencia relativa es
igual a la correspondiente
comparar las frecuencias relativas de las distribuciones condicionas; y han de coincidir para frecuencia absoluta dividida
cada uno de todos los posibles valores de dichas distribuciones condicionadas. Es decir, entre el nº total de
observaciones. En este caso, el
nº total de observaciones en las
X,Y son independientes  Y/X=x1  Y/X=x2  ...........  Y/X=xk que se presenta el valor 3 en X;
es decir ni.(X=3), que en nuestro
caso es 4.
En general, se verifica que
Comentario [JER48]: Como
siempre, la frecuencia relativa es
X e Y son independientes   yj: fj /x1 = fj /x2 = .......= fj /xk  igual a la correspondiente
frecuencia absoluta dividida
entre el nº total de
n1j n kj observaciones. En este caso, el
 yj: =.......= nº total de observaciones en las
que se presenta el valor 2 en X;
n1. n k. es decir ni.(X=2), que en nuestro
caso es 2.
En el ejemplo anterior, la distribución del sexo de los empleados es independiente de Comentario [JER49]: Obsérv
ese que esa frecuencia no es
la empresa en la que trabajen, pues: mas que el nº de veces que
aparecen simultáneamente el
fHombre/E1= 3/4 , que coincide con fHombre/E2= 6/8=3/4 valor 2 en X, junto al valor ...
3 en
[10]
Comentario [JER50]: Obsérv
ese que esa frecuencia no es
fMujer/E1= 1/4 , que coincide con fMujer/E2=2/8=1/4 mas que el nº de veces que
aparecen simultáneamente el
Para el ejemplo de partida se tiene que valor 2 en X, junto al valor ...
3 en
[11]
Comentario [JER51]: Obsérv
ese que esa frecuencia no es
yj/X=3 nj/X=3 fj/X=3 yj/X=2 nj/X=2 fj/X=2 mas que el nº de veces que
aparecen simultáneamente el
0 0 0/4 0 0 0/2 valor 3 en X, junto al valor ...
3 en
[12]
Comentario [JER52]: Obsérv
ese que esa frecuencia no es
2 1 1/4 2 2 2/2 mas que el nº de veces que
aparecen simultáneamente el
3 3 3/4 3 0 0/2 valor 3 en X, junto al valor ...
3 en
[13]
Comentario [JER53]: La
suma de todas las frecuencias
totales 4 1 totales 2 1 absolutas es igual al nº total de
observaciones en las que la
variable X toma el valor tres
... (el
[14]
Comentario [JER54]: La
suma de todas las frecuencias
relativas es igual a la unidad.
Comentario [JER55]: La
Luego X e Y no son independientes; puesto que la frecuencia relativa de, por suma de todas las frecuencias
ejemplo, el valor 2, es 1/4 en Y/X=3, y 2/2=1 en Y/X=2; luego no son iguales, y por tanto, absolutas es igual al nº total de
observaciones en las que la
Y/X=3 no es equivalente a Y/X=2. variable X toma el valor tres
... (el
[15]
Comentario [JER56]: La
suma de todas las frecuencias
relativas es igual a la unidad.

11

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

Lógicamente, X,Y son independientes sii Y, X son independientes. Y por tanto,


también se cumple que:

X e Y son independientes   xi: fi/y1 = fi/y2 =............. fi/ym 

n i1 n
 xi: =.......= im
n .1 n.m

Como observación, diremos que si X e Y son independientes, puede verificarse


fácilmente que se cumple la siguiente propiedad respecto a los momentos conjuntos:
Comentario [c57]: Es decir,
Mr,s = mrX. msY el momento conjunto es el
producto de los momentos de las
marginales

6.5 Covarianza entre variables. Propiedades.

6.5.1 Interpretación.
Veamos, como habíamos señalado anteriormente, que Cov(X,Y) nos indica cómo
 
varían conjuntamente X e Y. Para ello, recordemos que Cov(X,Y)= X-X Y-Y ; es decir 

el representante de los productos de la forma xi -X  y -Y  .
j

Por tanto,

 Si Cov(X,Y) es +, eso significará que los valores positivos predominan sobre los
negativos en los productos del tipo    
xi -X y j -Y . Pero si xi -X y j -Y >0  
 xi -X  0, y j -Y  0  xi  X, y j  Y

 o bien

 xi -X  0, y j -Y  0  xi  X, y j  Y

Eso significa que predominan los puntos situados en el primer y el tercer cuadrante
sobre los situados en el segundo y cuarto cuadrantes (Véase figura de final del apartado)

Es decir, que valores grandes de X, en el sentido que son mayores que el valor
medio, se asocian con valores grandes de Y, en el sentido que también son mayores que su
media; y valores pequeños de X se asocian con valores pequeños de Y. En este caso diremos
que existe una asociación directa, o positiva, entre las variables X e Y.

12
Estadística. ADE Tema 6: Correlación

 Si Cov(X,Y) es -, eso significará que los valores negativos predominan sobre


   
los positivos en los productos del tipo xi -X y j -Y . Pero si xi -X y j -Y <0  
 xi -X  0, y j -Y  0  xi  X, y j  Y

 o bien

 xi -X  0, y j -Y  0  xi  X, y j  Y

Eso significa que predominan los puntos situados en el segundo y cuarto cuadrante
sobre los situados en el primer y el tercer cuadrantes (Véase figura de final del apartado)

Es decir, que valores grandes de X, en el sentido que son mayores que su valor
medio, se asocian con valores grandes de Y, en el sentido que son menores que su media; y
valores grandes de X se asocian con valores pequeños de Y. En este caso diremos que existe
una asociación inversa, o negativa, entre las variables X e Y.

Cov(X,Y)>0  Relac. directa



Por tanto, tenemos que si 
 Cov(X,Y)  Relac. Inversa

Segundocuadrante PrimerCuadrante

Cuartocuadrante

Tercercadrante

6.5.2 Propiedades de la covarianza.


Comentemos seguidamente algunas propiedades que verifica la covarianza, y que
van a sernos útiles posteriormente.

1) Cov(X,Y) tiene por unidades las unidades de X multiplicadas por las de Y

Evidente, pues Cov(X,Y)= XY  XY

2) Cov(X,Y) = Cov(Y,X)

Evidente, pues Cov(X,Y)= XY  XY

13

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

3) Cov(X,a) = 0, donde a es una constante cualquiera.


Comentario [c58]: Evidente,
Estamos diciendo que la covarianza de una variable con una constante es cero. pues la variable varia y la
constante no; luego la variación
conjunta es nula
Cov(X,a) = Xa  Xa  aX  Xa=0
Comentario [c59]: La
2 covarianza de una variable con
4) Cov(X,X) = S x ella misma es su varianza

2
Cov(X,X)= XX  XX  X 2  X    S x2
Comentario [c60]: Propiedad
5) Cov(X,Y+Z)= Cov(X,Y)+ Cov(X,Z) distributiva de la covarianza

En efecto, Cov(X,Y+Z)= X(Y+Z)  X(Y+Z)  XY+XZ  X(Y  Z) 

= (XY  XZ)  XY  XZ  (XY  XY)  (XZ  XZ) =

= COV(X,Z)+COV(Y,Z)
Comentario [c61]: La
6) Cov(X,a+Y)=Cov(X,Y) covarianza es invariante a
cambios de origen

Puesto que,
Comentario [c62]: Por la
COV(X,a+Y)=COV(X,a)+COV(X,Y)=COV(X,Y) propiedad 4
Comentario [c63]: Por la
propiedad 2, la Covarianza entre
7) Cov(X,bY)= bCov(X,Y) una variable y una constante es
cero
Dado que Cov(X,bY)= XbY  XbY  bXY  bXY  b(XY  XY) =bCOV(X,Y)

8) Cov(X,a+bY)=bCov(X,Y)

Se tiene que
Comentario [c64]: Por la
Cov(X,a+bY)=COV(X,a) + COV(X,bY)=bCOV(X,Y) propiedad 4
Comentario [c65]: Por la
propiedad 2 y la propiedad 6
9) Cov(a+bX,c+dY)=bdCov(X,Y)
Comentario [c66]: Propiedad
de linealidad de la covarianza
En efecto,
Comentario [c67]: Por la
Cov(a+bX,c+dY)= Cov(a,c+dY) +Cov(bX,c+dY)= propiedad 4
Comentario [c68]: Por la
propiedad 2
=Cov(bX,c+dY)= Cov(bX,c) + Cov(bX,dY)=
Comentario [c69]: Por la
propiedad 4
=Cov(bX,dY) = bCov(X,dY)= bdCov(X,Y)
Comentario [c70]: Por la
propiedad 2
9) Si X, Y son independientes  Cov( X,Y)=0 Comentario [c71]: Por la
propiedad 6
Comentario [c72]: Por la
propiedad 6

14

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

6.6 Correlación lineal.

6.6.1 Concepto. Coeficiente de correlación lineal.


Hemos visto que la covarianza nos indica el sentido de la variación conjunta
experimentada por dos variables, pero ahora nos hacemos la siguiente pregunta ¿Qué
parámetro podríamos usar para medir no solo el sentido de la variación conjunta sino
también la intensidad de esa variación conjunta?.

Obviamente, la propia covarianza, tal cual, no nos sirve, pues depende de las escalas
de medida de las variables. En efecto, si llamamos X´ a la misma variable X pero medida en
distinta unidad (Por ejemplo X´= Ingreso en miles de pesetas), y llamamos Y´ a la variable Y
pero medida en distinta unidad (Por ejemplo Y´= Gasto en miles de pesetas), tendremos que
X´= 103 X y que Y´=103 Y, con lo que Cov(X´,Y´)=Cov(103 X, 103 Y)= 103103 Cov(X,Y).
Es decir X´, Y´ no tienen la misma covarianza que X,Y. Además las unidades también serían
diferentes, ya que Cov(X,Y) tiene por unidades las unidades de X multiplicadas por las
unidades de Y (antes era millones2, y ahora es miles2).

Obviamente si X, Y no tuviesen unidades parece que el problema quedaría resuelto,


puesto que tampoco se verían influenciadas por los cambios de escala. ¿Cómo procedemos
entonces?.

Pues dadas las variables X,Y, se calculan sus variables tipificadas (quitándoles sus
medias y dividiéndolas por sus respectivas desviaciones típicas); es decir, se calculan X´=
(X- x )/Sx e Y´= (Y- y )/Sy, donde Sx y Sy son las desviaciones típicas de X e Y,
respectivamente; con lo que X´ e Y´ ya no tienen unidades (además tienen de media cero, y
de varianza uno). Ahora, ya se puede calcular la intensidad de la variación conjunta entre X
e Y como

Cov(X,Y)
rx,y =Cov(X´, Y´)=
SX .SY

es decir, la covarianza entre las variables tipificadas. A ese parámetro lo vamos a


denominar coeficiente de correlación lineal. La justificación de este nombre aparecerá en el
tema siguiente.

6.6.2 Propiedades
1) El coeficiente de correlación lineal, r, es adimensional.

2) El signo de r es el mismo que el de la covarianza (Pues las desviaciones


típicas siempre son positivas)

3) El coeficiente de correlación lineal es cero si y solo si la covarianza es cero


(r=0 si y solo si Cov=0). Además rx,a=0, para toda constante a.

15

BNext, tu cuenta sin banco.


Estadística. ADE Tema 6: Correlación

En este caso diremos que X, Y están incorreladas linealmente; es decir, que


no tienen ninguna relación lineal.

4) El coeficiente de correlación lineal es invariante, salvo en signo, a


transformaciones lineales:

bd
r(a+bX,c+dY)= r(X,Y).
b d

En efecto,

Sa+bX=|b| Sx y Sc+dY=|d| SY, luego

 a+bX c+dY  bd Cov(X,Y) bd


ra+bx,c+dy= Cov 
 b S , d S   b d S S 
b d
rx,y
 X Y  X Y

Comentario [c73]: El
coeficiente de correlación lineal
4) Puede comprobarse que –1  r 1 está entre –1 y 1

Mientras mas cerca de 1, mayor relación lineal directa (cuando sea 1, diremos
que la relación lineal es perfecta y directa); y Mientras mas cerca de -1, mayor
relación lineal inversa (cuando sea -1, diremos que la relación lineal es perfecta e
inversa)

16
Página 6: [1] Comentario [JER15] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 0 en X, junto al valor 0 en Y;es decir, que coincide con nij(X=0,Y=0)
Página 6: [2] Comentario [JER16] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 1 en X, junto al valor 0 en Y;es decir, que coincide con nij(X=1,Y=0)

Página 6: [3] Comentario [JER17] José E. Romero


La suma de todas las frecuencias absolutas es igual al nº total de observaciones en las que la
variable Y toma el valor cero (el llamado n.j(Y=0)); en este caso 2
Página 6: [4] Comentario [JER19] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor xi en X, junto al valor 3 en Y;es decir, que coincide con nij(X=xi, Y=3)

Página 6: [5] Comentario [JER20] José E. Romero


Como siempre, la frecuencia relativa es igual a la correspondiente frecuencia absoluta dividida
entre el nº total de observaciones. En este caso, el nº total de observaciones en las que se
presenta el valor 3 en Y; es decir n.j(Y=3), que en nuestro caso es 5. Es decir,
nij(X=xi, Y=3)/ n.j(Y=3)
Página 6: [6] Comentario [JER21] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 1 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=1,Y=3)
Página 6: [7] Comentario [JER22] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 3 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=3,Y=3)

Página 6: [8] Comentario [JER23] José E. Romero


Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 4 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=4,Y=3)

Página 6: [9] Comentario [JER24] José E. Romero


La suma de todas las frecuencias absolutas es igual al nº total de observaciones en las que la
variable Y toma el valor cero (el llamado n.j(Y=3)); en este caso 5
Página 11: [10] Comentario [JER49] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 2 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=2,Y=3)
Página 11: [11] Comentario [JER50] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 2 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=2,Y=3)
Página 11: [12] Comentario [JER51] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 3 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=3,Y=3)
Página 11: [13] Comentario [JER52] José E. Romero
Obsérvese que esa frecuencia no es mas que el nº de veces que aparecen simultáneamente el
valor 3 en X, junto al valor 3 en Y;es decir, que coincide con nij(X=3,Y=3)
Página 11: [14] Comentario [JER53] José E. Romero
La suma de todas las frecuencias absolutas es igual al nº total de observaciones en las que la
variable X toma el valor tres (el llamado ni.(X=3); en este caso 4

Página 11: [15] Comentario [JER55] José E. Romero


La suma de todas las frecuencias absolutas es igual al nº total de observaciones en las que la
variable X toma el valor tres (el llamado ni.(X=3); en este caso 4

BNext, tu cuenta sin banco.


BNext, tu cuenta sin banco.

You might also like