You are on page 1of 13

7

MEDIDAS

DE

CORRELACION

I I
l

INTRODUCCION

II l',tc

captulo se iniciar la de cripcin de relaciones entre variables. Esperamos


de abandonar el tema general al final del Cap. 9, se haya cubierto la
111.1\llt
parte de la de cripcin de las relaciones entre variables tan til para el es11111t11ntc: se requerira un texto diez veces ms largo que este capitulo para abarcar
11 11 totalidad el tema referente a la medida de las relaciones o correlaciones, tema
1111
ha ocupado el inters de los invcstigadore
durante casi un siglo. Los temas
11111 mtcncionalmentc
se omitirn en este texto pueden encontrarse citados en las
"lurnt'ias de la Sec. 7.1 O. al final de este capitulo.
11111

I 'J

.111Lcs

El COEFICIENTE DE CORRELACION
PRODUCTO-MOMENTO
DE PEARSON

\ menudo los investigadores

se interesan por saber cmo se relacionan entre s


grupo de pcr onas (cla cs. escuela , naciones, ctc.).
t,,, ejemplo. lo estudiantes que tienden a leer ms pronto que otros. tienden
11111hu:n a obtener mejor rendimiento en ciencias en quinto de elemental? Mues1, 111 l,1, clases numerosas menor adquisicin de conocimientos
durante un se"" 11~ que clases menos numerosas'? Puede relacionarse directamente el tiempo

it,, vunables en determinado

109

Ml.101)0$

110

ES1Al)ISIICOS

Af'Ll(Al)m

' 111

N( IM1 ,;QCIAI IS

promedio de empleo de los profesores en una escuela con el sahn io promedio que
reciben? Evidentemente, para responder a taJes preguntas debemos observar cada
variable dentro de un grupo de unidades (tpicamente, personas, aunque puede
tambin tratarse de clases, escuelas, condados, etc.). Para responder a esta clase
de preguntas, podran obtenerse datos como los siguientes:

Estudiante
nmero

C/ en el
Stanford-Binet (X)

120
112
110
120
103
126

2
3

Puntuacin bruta en
una prueba de rendimiento
en Qumica ( Y)

31
2S
19
24
17

28
18
20
16
IS
27
19

113
114

8
9
10
11
12

106
108
128
109

Las variables observadas sobre doce estudiantes eran, en este caso, los CI,
determinados por la escala de inteligencia de Stanford-Binet, aplicada en quinto
de elementaJ y el rendimiento en qumica de primero de secundaria, medido por
una prueba de 35 tems construida por el profesor. En un diagrama de dispersin

30

20

~lbo

105

do

111

I ACION

clc describirse grficamente la relacin entre estas dos variables, tal como se
11111r.,1 rn en la Fig, 7. l.
t-n el diagrama de dispersin, cada unidad se representa por un punto. Por
1 ,hh
individuo. se coloca una marca o punto en el lugar de interseccin de las
11111" trazadas a partir de la puntuacin del CI, perpendicular aJ eje de las X, y
II pu 11 ir de la puntuacin en qumica, perpendicular aJ eje de las Y. El diagrama
,h 1li-.pcrsin de la Fig. 7.1 muestra una relacin moderadamente positiva entre
\ y I'. Sin embargo, por el momento, carecemos de una medida precisa para estas
h1l rones.
H problema generaJ de relacin debe tener un significado algo ms preciso.
1,11 ejemplo, tiene que ver la puntuacin obtenida por alguien en X, con su puntu,1116n en Y, o no existe un apareamiento sistemtico entre puntuaciones aJtas
" h11J:tS'!
1-11 trminos de las medidas de ambas distribuciones de puntuaciones tanto
,11 1 como en X, la posicin de un individuo respecto de la de los dems, se refleja
t>H l'I tamao y en los signos aJgebraicos de las puntuaciones de desviacin (X1 - X.)
t ( 11 - Y.). Si un sujeto obtiene puntuaciones altas en ambas variables, como
,1 ,. tudiante nmero 11 del ejemplo citado, el producto (X1 - X.) y (Y, - Y.)
1111\ alto y positivo. Pero tambin debe estudiarse el caso de que alguien obtenga
e1111111aciones bajas, tanto en X como en Y. Entonces, la relacin tambin ser
ll,1 y positiva (puesto que el producto de dos nmeros negativos es positivo). Si X y
1 .e relacionan sustancialmente de modo directo (es decir, que las puntuaciones
1111,,, estn apareadas con las altas y las bajas con tas bajas), la mayora de los pro1l1111os (X1 - X.)(Y1 - Y.) sern positivos; en consecuencia, la suma de tales
11111

111,1ductos

para todas las personas [ es decir,

111111 y positiva.

i (Xi _ X.)( Y, - Y.>] debera

i-i

Si X y Y muestran entre s una relacin inversa (una puntuacin alta en X, apa1111da con una baja en Y o viceversa), muchos sujetos con puntuaciones positivas
1 \1
X.) obtendrn puntuaciones negativas ( Y1 - f.) y, a su vez, puntuaciones
11q111ivas (X1 - X.) tendern a aparearse con puntuaciones positivas ( Y1 - Y.).
111 este caso, los productos (X1 - X.)(Y1 - Y.) generalmente sern negativos y,
"' consecuencia,
(X1 - X.)(Y1 - Y.)

11411\ negativa cuando X y Y se relacionen inversamente.

Si X y Y mantienen entre si una relacin sistemtica (es decir, que las puntua-

1c1ncs altas en X pueden aparearse o no con puntuaciones bajas o altas en Y, y lo

mi.. mo para puntuaciones bajas en X), tendremos entonces, que de los individuos
- X.), algunos tendrn puntat111ncs positivas ( Y1 - f.) y otros puntuaciones negativas ( Y1 - f.). Cuando se
1111 man los productos (X1 - X.)( Y1 - f.), algunos sern positivos y otros negaItvos. La suma de los productos,

1111c obtuvieron puntuaciones altas positivas (X1


1

115

'~

ser

1-1

<.'ORRI

I"

25

MI 1111 lA~ UI

125

FIG. 7.1
Diagrama de dispersin que muestra la relacin entre el CI (X)
con el rcudirnieruo en qumica ( Y) de 12 estudiantes.

I"
1-1

(X1 - X.)( Y1 -

Y.),

112

Ml101>0S

h:.IAl)ISI

1{'0

Al'LI

AOO:, A I A\ 1 11 N< IA\ SO IALl!S

debera contener un nmero ms o menos equilibrado de trminos


positivos y, por tanto, debera estar prxima a cero.
Tenemos que la cantidad

..

negativos y

(X, - X.)( Y, - Y) es alta y positiva cuando

11 1)1 l)AS lW CORRPLACION

113

hunente se necesita dividir sx, por Sx y s,. y el resultado ser la relacin entre X y Y.
"1 conoce como coeficiente de correlacin producto-momento de Pearson y se de1111111 por

'x,:

,-1

X y Y se relacionan estrechamente, que es prxima a O cuando X y Y no se relacionan y que es alta y negativa cuando X y Y se relacionan inversamente. Sin em-

bargo, la suma de los productos de las puntuaciones de desviacin no constituye


una medida precisa de relacin. Por un lado, su tamao depende del nmero de
pares de puntuaciones incluidas en sus clculos. Si se desea comparar el grado
de relacin entre X y Y en dos grupos de diferente tamao tendremos que medir
la relacin, independientemente del tamao del grupo a partir del cual se calcul.
Esto puede efectuarse mediante un sencillo procedimiento de promedio. En trminos de la localizacin de puntuaciones centrales, pueden compararse dos medias
de grupos diferentes, aunque las sumas en s no puedan compararse. Esta es la
razn por la cual calculamos el promedio para obtener un estadgrafo independiente del tamao del grupo. Sin embargo, por lo mismo que
se defina dividiendo
la suma de las desviaciones al cuadrado por 11 - 1, y no por 11, en este caso, deberamos dividir

s;

I" (X, -

,-1

La cantidad

I" (X, -

Y.) por n - 1.

X.)(Y, -

X.)(Y, -

Y.)/(n _ l) mide la relacin entre X y Y y

1-1

se denomina la couarianza de X y Y, y se denota por sx,:

"
I(X,
- X.XY, ,-1
s.,,=
n-1

(7.2)
La designacin r viene de la palabra regresin. Sus primeras aplicaciones hechas
Francis Galton y Karl Pearson (1857-1936) mostraron el importante papel
,,1,c desempea este coeficiente en el estudio de la asociacin de caractersticas
11~1ctts humanas, estudio que por primera vez mostr la naturaleza regresiva de
111 medidas fisicas entre una generacin y la siguiente. Aunque Pearson desem111 M el papel ms importante al establecer las propiedades matemticas de '" ,
111 nocin de un coeficiente iguaJ a s,,,f(s,,s,) puede encontrarse ya en los escritts
,1, Galton, as como en un artculo publicado en 1846 por el francs Bravais.
1111

l,3

FORMULA PARA
CALCULO DE rxy

1 ,1 lc. (7.2) se basa en una definicin y no es conveniente para calcular el '"Y' A con1111111,cio derivaremos una frmula ms adecuada para cmputos mecnicos, dis1'1111cndo de los totales directos de X y Y. Principiemos con

I" (X 1 - .f.XY, - Y.)/(n - 1)


r,.,, -- Sz - --;:===='=-=l==========--;::==============

Y)
(7.1)

s.,s,,

Obsrvese que la covarianza de X consigo misma no es sino la varianza de X:

I" (X,

s,.,. =' _-..;;.1

EL

Ji

.f.)1/(n -

(X, -

1-1

l)JI (Y, -

(7.3)

Y.)8/(n - 1)

1-1

Ntese que en el denominador de la Ec. (7.3) puede factorizarse en los dos


h'11111nos (!/.;,:::- para cada trmino), con lo cual se cancela el 1.;,:::-r
1td numerador de la Ec, (7.3). Recurdese tambin que como Jafi = fa
111 (crminos del denominador de la Ec. (7.3) pueden combinarse bajo el radical

X)(X, - X)
_

n-1
La covarianza constituye una excelente medida para muchos problemas de
ciencias fisicas y de ingeniera (de hecho, los fisicos llaman aJ respetable coeficiente
de correlacin de las ciencias de la conducta. covarianza adimensional) y es
tambin una medida adecuada, siempre y cuando la escala (media y varianza)
de las variables no sea arbitraria y tenga algn significado, puesto que muchas
de las variables que tratamos estn medidas en e calas arbitrarias: la media y la
varianza pueden asumir cualquier valor puesto que, generalmente, solamente nos
interesa las posiciones relativas en un grupo y esto es particularmente cierto para
los datos de pruebas psicolgicas y educacionales.
Al desviar las puntuaciones X y Y respecto de sus media . se independiza
de los promedio de las puntuaciones. Para que la medida de relacin deseada
sea independiente de la desviacin tpica de ambos grupo de puntuaciones. so-

s,.,

I" ex, -

1-1

x.xr1 - Y.>
(7.4)

Considrese solamente el numerador de (7.4):

l (X,
,-1
"

.f.XY, - Y.)=

IX1Y, - x.I,-1
,-1
"

"

Y, - Y.

S, necesitan varias operaciones para pasar de la

ne.

I, . . 1 x, + n.f.Y..
n

(7.5)

(7.4) a la (7.5): desarrollo

1M hmomio, extraccin de las constantes (por ejemplo. R) fuera de los signos

MHOl)OS

114

LS1

DISTl('OS

PLIC/\OOS A I A', < 11 Nt IA\ '>0 IALES

de sumatoria y sumatoria de lo anterior. El estudiante debe tratar de encontrar


estos detalles.
Si recordamos que I: Y = n Y y que I: X = nX, podemos escribir el trmino
de la derecha de la Ec. (7 .5) as:
ft

ft

X;Y, - nX)'. -.n Y.X.+ nx.Y. = X;Y;-

nX.Y..

(7.6)

115

MI IIIIMS DE CORRPLACION

(X) y la otra. razonamiento verbal (Y). Ambas pruebas se administran a


ltl evtudiantes avanzados de una clase de la nica escuela secundaria de una ciu,t111I de Jllinois de unos 30.000 habitantes. En la Tabla (7.1) se muestran las pun11111c1oncs de estos 40 estudiantes. Cada prueba constaba de 50 tems, y la puntuacin
, ,111",tla en el nmero de respuestas correctas. En la Fig. 7.2 se muestra el dia111,11110 de dispersin de los datos bivariados de la Tabla 7.1.
1,uc10

=1

Si se remplaza

IUIA 7.1

X. por I: X/11 y Y. por I: Y/n, se obtiene


(7.7)

Tanto la Ec, (7.6) como la (7.7) constituyen una sencilla frmula para expresar
el numerador de rx,, cuyo denominador puede computarse por un mtodo ya conocido

L (X; -

X.)'I. =

L x: - ( X,)2.

(7.8)

(7.9)
Si se combinan las Ecs. (7.7), (7.8) y (7.9) se obtiene la siguiente frmula para rx,,

'~ = JrI X~ - ( x,)2/n)[ r:- <I

})2/n)

(7.10)

la cual puede simplificarse an ms, reducindose a la frmula computacional.


(7 .11)

PUNTUACIONES DIRECTAS OBTENIDAS POR ESTUDIANTES DE SECUNDARIA DE 40 ESCUELAS DE ILLINOIS EN


DOS PRUEBAS DE 50 ITEMS. DE HABILIDAD VERBAL Y DE RAZONAMIENTO"

X
y
Razonamiento
Razonamiento
abstracto

l 1111dw11e

I inda J.

19
32
33

l'cggy Y.
l>canc L.
Constan.ce L.
WllliamP.
ltoger D.
Curoline E.
frudy R.

44

28
35
39
39

Peter A.

44
44

l)avid E.
( hcryl G.
Oeorgia S.
I rma J.

24
37
29

Ronald L.

40

l'nmcla J.
I dward B.
Rosa L.
Knrcn M.
ltogcr W.
Richard T.

42
32
48
43
33

47

terbal

17
7
17
28
27
31
20
17
35
43
10
28
13
43
45
24
45
26
16
26

Razonamiento Razonamiento
Estudiante

abstracto

verbal

Martn T.
Sharon L.
Julie E.
Natalie J.
Maryjcan K.
Larry N.
Mchael B.
Carleen M.
Scott C.
Sigrid K.
Jan W.
Roger B.
Richard H.
Bonita G.
RexN.
Richard S.
MauriceD.
Warren W.
Jack G.
Stanley L.

38
25
35
22

30
18
26
17
17
26
16
37
26
21
16
37
37
14
41
19
18
39
37
47

40

42
41
41
37
30
31
41
42
24
43
36
39
39
39
48

' llt"-carnos expresar nuestra gratitud al Dr. J. Thomas Hastiugs, director del lllinois Statcwidc Tcsting Program,
I"'' 11,,t~r permltldo la reproduccin de estos datos.

La Ec. (7.1 t) resulta ms conveniente que la (7.10) para hallar el r,.1 con calculadora en la cual sea posible efectuar multiplicaciones negativas. Entonces serai
posible calcular el numerador de la Ec. (7 .11) sin divisiones y sin escribir nmeros.
Esto tambin vale para los trminos entre parntesis del denominador de la Ec. (7 .11 ).

7.4

ILUSTRACION DEL
CALCULO DE r,,,

Part ilustrar los clculos de las Ecs. (7.10) y (7.11), se utilizarn algunos datos de
pruebas de aptitud. Supongamos que se investiga la relacin entre dos tipos de
aptitud de razonamiento entre estudiantes de primaria: razonamiento abstracto
y razonamiento verbal. Se construyen dos pruebas que miden razonamiento abs-

Fn la Tabla 7.2 aparecen los clculos intermedios y finales para hallar r,.y con
1 lrmulas (7.10) y (7.11), clculos que fueron realizados en calculadora. (En
"1'nciu de artefactos mecnicos, el clculo del coeficiente de correlacin producto11111111c11to generalmente es tedioso.) Probablemente la nica cantidad de la Tabla 7.2
111yo origen no queda del todo claro es

! X, Y,. Esta cantidad

. 1-1

es la suma de todos

111 pruductos de las puntuaciones de X y Y de cada persona. En la Tabla 7.1, te11111111, que para el primer individuo, Linda J., X1 = 19 y Y1 = 17. Para la segun1111 nlumna, Peggy Y .. X2 = 32 y Y2 = 7. La cantidad
40

,_,LX, Y

(19 17) 1 (32 7) 1- ..

J (48 47) = 40.798.

MI

renos

1-!,IAl)ISIIC()S

i\l'LI( 1\1)0~ 11 l ,\'I \ 11 NI 11\S 'i()('li\l

P!!

-;;

:;

>

e.,

e..

..

e
o
N

a:

'l:.1, 1

1 1 1

20

I b

MARGEN

TABLA 7.3

DE VALORES

DE

rxy

INTERPRETACION DE LOS VALORES DE r,..

Valor de
r~,

+l,00

1 1 1 1 1 1 1

Razonamiento

117

CORIU.l,ll{'ION

vunquc es dificil de probar, rx, no puede tomar nunca un valor menor de -1 ni mayor
ti, 1 1 . (Si la aparente dificultad de esta demostracin desmoraliza aJ estudiante, al

30

l)li

11111y fuerte y directa entre la aptitud de razonamiento verbal y abstracto, tal como
111 miden estas pruebas .

~11 llllMS

Descripcin de la
relacin lineal

Diagrama de
dispersin

Relacin perfecta, directa

40

abstracto

FIG. 7.2 Diagrama de dispersin de los 40 pares de puntuaciones ilustradas en la Tabla 7 .1

Aprox. +0.50


.
...

.
. . , .....
....

Relacin moderada, directa

TABLA 7.2

ILUSTRACION OE LOS CALCULOS PARA OBTENER ,., A PARTIR OE LOS DATOS DE LA TABLA 7.1

La Ec. (7.10):
40.798 - (1465)(1057)/40

40

X,=

,.,=-:-:============================
v l55.72S - (1465) /401

1-1

'
xl-

55.725

i-l
40

X1 Y, =

,-1


: :

Aprox. -0.50

Relacin moderada. inversa

Relacin perfecta. inversa

... ...

..

,I Y= 32.551
40.798

{32.SSI - (1057)1/40)

== 2085,375 = O 67.
3091,932
'
La Ec. (7.11):
40(40.798) - (1465)(1057)

-1.00

' - -::=====================
v'[40(55.72S) - (1465)'1

X {40(32.551) - (1057)11

83.415
123.761,128

1465

Relacin nula
(es decir. covarianza de X y Y
nula)

Clculos [lnales

Clculos intermedios

n =40

0.00

...

= O 67.

'

Para probar que el valor de r,, no 'puede exceder 11 + 1. dcsarrollur


,,,..111prc ,cr:l igual o mayor que cero. y buscar que

Los ltimos clculos de la derecha de la Tabla 7.2 muestran que r">' es 0,67 y,
a C'>IC resultado .... e llega bien sea por la Ec. (7.1 O) o (7.11 ). Sin lugar a error. ambas
16nnulas producirn siempre el mi ... 1110 valor. Asl, pues. parece existir una relacin

"""' z;
1

:_ z:

,, - 1

)'

1'11111 dcmo-rrur que , ., no puede ser menor que

L" (z. -

z,)', que

Iz~z.
r~,.,----.
(11 - 1)

1. 1rnhnj111 con

L (z. -l

z,)'.

MI 101)0\ l \l.'\l>l\11(.0\

111

Al'I I( 1\1>0'1 1\ 1'\\111

''"

,11\ 11\11"

meno puede consolarse pensando que la prueba ms sencilla otrccidu en textos


elementales es falaz.) La Tabla 7.3 enumera diversos valores de r.,1 con ilustraciones
obre el tipo de relacin lineal existente entre X y Y para los valores dados de r.,,..
En la Tabla 7.4 se presentan algunos coeficientes de correlacin significativos.

'111111 IA\ IJI

fue de 0,88, cuando stos se educaban juntos. La correlacin tpica entre


l,1 CI de gemelos idnticos criados por separados fue de 0,75. En la Tabla 7.5
1 muestran
stos y otros datos.
111 n ( )')

TABLA 7.5 CORRELACION ENTRE El CI DE NIAOS EMPARENTADOS Y NO


EMPARENTADOS EN FUNCION DE LA SIMILARIDAD GfNETICA
Y AMBIENTAL

TABLA 7.4 VALORES TIPICOS OE ,,..

...

e ORIU I AC:..ION

Descripcin de cariabtes
y

Naturaleza de
los sujetos

Valor tpico
de r,,.,

lowa Test of Educational


Development (primero
bachillerato)

Puntuacin promedio en los


dos primeros semestres de
universidad

Ms de 600 universitarios

0,58

CI en el Stanford-Binet

La misma prueba
administrada una
semana despus

Alumnos de escuelas
elementales

0.90

Aptitud en razonamiento
verbal. segn el DAT

Aptitud en razonamiento
no verbal

Alumnos de secundaria

0,65

Estatura

Rendimiento en sica de
universidad

Universitarios de semestres
terminales

0,00

7,8
Con un poco de experiencia en manejo de datos reales, se desarrolla una especie
de intuicin para detectar el grado de relacin indicado por un valor detenninado de r. Probablemente, el estudiante aprender a asociar un diagrama de dispersin de puntos con el correspondiente valor aproximado de r. No somos partidarios de aplicar adjetivos descriptivos a los valores que puede tomar r, como
llamar un r de 0,80 alto o un r de 0,20 bajo. El que un r determinado sea alto,
bajo o moderado, depende de cmo se han asociado en el pasado ambas variables al relacionarse, as como del empleo que se pretenda hacer de la relacin
entre las variables, etc. Adems, por qu usar un epteto tan ambiguo para una
relacin de r cuando es tan sencillo informar simplemente de su valor?
Erlenmeyer-Kimliog y Jarvik (1963) presentaron datos que constituyen ilustraciones muy explicativas sobre el uso de r. Encontraron valores tpicos de r en
estudios muy extensos, en los cuales se correlacionaron puntuaciones de pruebas
de inteligencia de nios con los de sus hermanos, parientes y nios no relacionados
con ellos. Por ejemplo, en un grupo numeroso de gemelos idnticos el valor tipico del coeficiente de correlacin entre el CI (X) de un nio y el de su gemelo idn-

Naturaleza de la relacin

Valor t lpico de r,,,

Gemelos idnticos, educados junios


Gemelos idnticos, educados por separado
Gemelos fraternos del mismo sexo
Gemelos fraternos del sexo opuesto
Hermanos. educados juntos
Hermanos, educados por separado
Padres con sus propios hijos
Padres adoptivos e hijos
No emparentados. educados junios

0,88
0,75
0,53
0,53
0,49
0,46
0,52
0,19
0,16

EFECTO DE PUNTUACIONES
TRANSFORMADAS SOBRE EL rxy

frecuencia, la media y la varianza de las puntuaciones de X y Y son arbitraParece como si se pudieran cambiar a voluntad y sin consecuencias. Pero
1111onces, cabe preguntarse si el valor de r.,y depende de la media y varianza de X
t r La respuesta es no, y ya estaba implcita en nuestro desarrollo de la frmula
,.,. pero ahora deseamos hacerla ms clara y explcita.
La media y la varianza de X (o de Y) puede cambiarse a cualquier valor que
dr,ccmos, multiplicando X por una constante b diferente de cero y aadiendo
111111 constante al producto, es decir, formando la ecuacin bX + a. Este proceso
conoce como transformacin lineal de X. Supongamos ahora que tomamos
1111,1 (o la misma transformacin lineal de Y), dY + e, donde a -+ O. Seria el coelk tente de correlacin entre X y Y, en este caso, el mismo que entre el bX + a y
1111

111,~

,lt

t e?
Lu correlacin entre bX + a y dY + e es la varianza de ambos dividida por el

raoducto de las desviaciones tpicas. Sabemos que si se aade una constante a


1m11 variable, no cambia la desviacin. tpica de sta, pero si se multiplica tal variahll' por una constante, la desviacin tpica se multiplica por el valor absoluto de
dit hu constante. As, pues, la desviacin tpica de bX + a es
sx, desviacin
111,ka de
s .

lbl

ldl

El tipo de relacin que mide '~, se discutir en el Cap. 8. Si se desea ampliar este punto. consullar la Sec. 7.7, sobre relaciones curvilnea entre X y Y del mismo capitulo.

SbX+o

= lbl S,.,

SdY+c

ldl s.,.

(7.12)

METODOS ESTADISTICOS APLICAl)OS A lA\ 111 M IA.; SOCIALCS

120

La covarianza de bX

+a

.2 [bX, + a n

S1&X+ellt1Y+c)

+e

y dY

I I

es

+ a)J[dY, + e -

(bX.

1-1

(dY.

n-1

..
1

bdsrv.

(7. 13)

Dicho en palabras, la covarianz.a de bX + a y dY + e es bd veces el valor de la


covarianza de X y Y. Podemos combinar los resultados de las Ecs. (7.12) y (7.13)
en la expresin de la correlacin entre bX + a y dY + c.
bdsrv

'bX+e,dY+

bd

= lbl ldl sz-5. = lbl ldl 'n

(7.14)

Verbalmente, esto significa que la correlacin entre bX + a y dY + e es r,,, veces


el producto de b y d sobre el de los valores absolutos de b y d. Supongamos, por
caso, que X se transforma en 3X + 5 y Y en 2 Y + 8.
r

32

---r

131 121 ..,, -r


-

aX+5,tY+3 -

lbl ldl

bX

b
b
b
b

es
es
es
es

mero OE LAS TRANSFORMACIONES OE X

Y Y SOBRE EL
VALOR OE r117 (CASOS ESPECIAUS OE LA EC. (7.14))

+a

positivo
negativo
positivo
negativo

dY

d
d
d
d

es
es
es
es

+e

positivo
positivo
negativo
negativo

\-l'IIIOS pueda resultar de utilidad para identificar relaciones causales cuando se


111l11nLa a otros enfoques metodolgicos, pero es una prueba peligrosa y poten' ulmcnte errnea, si se emplea como nica prueba de la existencia de causacin.
l II primer lugar, incluso suponiendo una relacin causal entre ambas variables
I"" relacionarse, eJ r,,., en s, no nos puede decir nada sobre si X causa Yo si Y causa
, Fn segundo lugar, con frecuencia, variables ajenas a las consideradas tambin
1111r1lcn influir sobre la asociacin observada. En tercer lugar, la relacin existente
,111,' variables en educacin y en ciencias sociales con gran frecuencia es dema111110 compleja para poder explicarla en trminos de una sola causa. Adems de
... , 11n concepto complejo en s, que no puede describirse adecuadamente por una
111111 medida, el rendimiento escolar es la resultante de numerosas influencias.
I xarninaremos algunos ejemplos que pueden surgir al tratar de determinar
trh11 iones causales mediante tcnicas de correlacin. Es muy probable que en los
1 ,1udos Unidos exista una correlacin positiva entre el salario promedio de los
r111h:,ores de escuelas secundarias y el porcentaje de los graduados de secundaria
11111 entran en la universidad. Pero, implica esto que un equipo bien pagado de
1't111l',ores determina graduados de colegio mejor entrenados para la universiY si aumentramos el salario de los profesores, aumentara por esto el por"11111jc de graduados de secundaria que ingresan en la universidad? Evidentemente,
11 u-lucin de asociacin no puede constituir en ningn caso la base para contesla umes afirmativas a estas preguntas. La relacin entre los dos factores no es
11111111, pero existe una variable de mucha importancia a la cual no hemos aludido
l111luvl11 y que es la condicin financiera y econmica de la comunidad, que, en
parte, va a determinar su capacidad de pagar tanto los salarios de los profe...,,., rumo las matriculas de las universidades. Adems, la situacin econmica y
l1111~1cra de la comunidad depende en parte del poder intelectual de sus ciudada"'" lo cuaJ constituye otra variable que contribuye tanto a que se puedan pagar
1111111 los profesores, como a que los jvenes tengan mayores facilidades de acceso

.a.,l'l

Esta transformacin no tiene efecto entre la correlacin entre X y Y, puesto


que, de hecho, la relacin bd a
de la Ec. (7.14) no puede ser sino + 1 o -1.
As, pues, ninguna transformacin lineal puede cambiar el tamao de la corre/acin entre X y Y, aunque s puede cambiar el signo de la correlacin. Si b o d son
negativos, la correlacin entre bX +ay dY + e ser igual a -r,,1 En la Tabla 7.6
e resumen tales resultados.

TABLA 7.1

Causacin y correlacin

X.Xl - Y.)

n -

n-1

INTERPRETACION
DE LOS
COEFICIENTES
DE CORRELACION

1 ,1 correlacin entre dos variables no necesariamente implica una relacin causal


1111,c ellas. Es posible, sin embargo, que la concomitancia (correlacin) entre

bd .2 (X, -

bX)(dY, - d Y.)

121

+ e)]

Esta expresin se reduce a

.2 (bX, -

~11 111 UAS 1)1' COlt lt l'tAC"ION

Valor de ru

,.,

-rq

_,Ji,

,,,,

.4Y+c

11
1

111 universidad.

1101 otro lado, se ha encontrado que el porcentaje de desertores en toda eswrlu secundaria correlaciona negativamente con el nmero de libros por alumno
111 111~ bibliotecas de dichas escuelas. Sin embargo, el sentido comn nos indica
111w umontonar libros en la biblioteca no tendr ms influencia sobre el porcenlllJr111 deserciones que, digamos, el emplear un astuto bibliotecario para que aumenllh 1111\1,t,cnmente las pertenencias de la biblioteca escolar. Es una lstima que el
111,111 comn no siempre nos sea tan til.
S bren una sola conclusin falaz no arredra a algunos investigadores, muchos
,.11,11111c11 con sus razonamientos falaces, como, por ejemplo, cuando piensan que
.. 11111cl11c1n
es una evidencia de causacin prima facie y, adems, que la relacin

122

METOOOS 1:STAl)IS1 ICOS APLICADOS A I A'l { 11 N( IAS S() IALl:S

toma una direccin determinada. Esto no es de extraar en mentes que ya estn


predispuestas a priori. y sin haber recogido ni procesado datos, para llegar a una
conclusin que les convena desde UD principio. Investiguemos con ms detalle
un ejemplo plausible. Supongamos que en un grupo numeroso de alumnos, el coeficiente de correlacin entre la ansiedad mostrada ante una prueba de inteligencia
(X) y la ejecucin en dicha prueba (Y) sea de -0,60. Pode~os concluir que un
grado alto de ansiedad determina UD mal rendimiento en la prueba y que los alumnos no ansiosos, al no sentirse amenazados por el miedo, pudieron rendir en la
medida de sus capacidades? Muchos investigadores se han dejado tentar por esta
posibilidad. Pero, no sera igualmente plausible que la prueba de inteligencia
sea el factor que desencadena la ansiedad? No podra darse asimismo que los
alumnos mediocres se angustien ante una prueba de inteligencia, mientras que
los brillantes encuentran agradable la experiencia? Lo que se desea plantear aqu
es el problema de si se puede afirmar que X causa Y o si Y causa X. El simple coeficiente de correlacin entre X y Y no puede suministrar evidencia alguna al respecto. Baste por el momento decir que estudios de asociacin aislada, sin ninguna
base experimental, con frecuencia resultan muy difciles de interpretar de modo
convincente. Para tratar el mismo problema con un enfoque experimental se necesitara escoger un grupo de alumnos angustiados y comparar las puntuaciones
de las pruebas de inteligencia con las del grupo control.
El no reconocer que la correlacin no indica causacin es un error lgico muy
comn. Generalmente se cree que, bajo muchos aspectos, la asistencia a la iglesia
en domingo es muy valiosa, pero si se observa una relacin positiva entre el grado
de asistencia a la iglesia en domingo y la honestidad, esto no implica necesariamente
que los nios son honestos porque van a misa en domingo. Las causas subyacentes.
tanto para la frecuencia de asistencia como para el grado de honestidad, pueden
encontrarse ms bien en el entrenamiento temprano en el bogar. Para probar la
hiptesis de que los nios son ms honestos si van a misa en domingo se tendra
que efectuar una prueba. ticamente repugnante por cierto, que implicara prohibirl a un grupo de nios ir a misa el domingo para ver si hay un aumento en su
deshonestidad.
Si bien la correlacin no establece directamente una relacin causal, si puede
suministrar algunas indicaciones al respecto. Eventualmente, estas indicaciones
pueden formularse como hiptesis por comprobarse en experimentos en los cuales
se van a controlar influencias ajenas a las implicadas en las interrelaciones en estudio. Existen tambin procedimientos elaborados, especialmente en sociologa,
para impedir la causacin a partir de datos de asociacin.
Eventualmente, la ausencia de correlacin puede tener un impacto ms profundo sobre nuestras hiptesis acerca de relaciones causales que la presencia de
una correlacin alta. Una correlacin de cero entre dos variables puede indicar
ausencia de interrelacin, suponiendo que las medidas fueron adecuadas y que el
producto-momento de Pearson r -que solamente mide determinadas relaciones
es el apropiado para medir aquel tipo general de relaciones llamado causal.
Pero todo esto no nos ayuda mucho en nuestro problema; lo que necesitamos
son tcnicas que descubran las relaciones causales, y no tcnicas que demuestren
relaciones no causales. Existen solamente algunas pocas tcnicas para probar lo
primero y son de mucho valor. pero las que prueban relaciones no causales son

Mt l)ll)AS IJP. CORIO:LACION

123

uperabundantes y el descubrimiento de una nueva no causa ningn impacto.


Pnw una explicacin ms detallada, vase Blalock (1964), Campbell y Stanley (1963).

U.

Presencia de grupos identificables


con medias diferentes

l II correlacin sustancial entre dos variables es UD hecho que puede explicarse


1k diversas formas segn la situacin. Algunas correlaciones resultan de medir
1111:1 causa y su efecto, por ejemplo, cuando X representa el consumo de comida
.-11 un mes y Y, la ganancia de peso en el mismo perodo. Si se miden dos variables
Ion una causa o influencia comn, como, por ejemplo, cuando X representa el
111ntlimjento en ingls y Y en estudios sociales, pueden resultar otras correlacio111,. as como cuando se agrupan dos conjuntos de personas diferentes en los cuales
1111 hay relacin entre X y Y.
Supongamos que las nias muestran mayor ansiedad que los nios en un in\ r 11tu rio como el de la Escala de Ansiedad Manifiesta de Taylor; se sabe, adems,
1111c las nias tienden a obtener mejores puntuaciones que los nios en pruebas
111 rendimiento en ingls, especialmente en clases intermedias. En la Fig, 7.3 se
11111cs1ra el posible diagrama de dispersin para las puntuaciones de ansiedad y
1h1 ingls de 15 nios y de 15 nias.
uando se agrupan las puntuaciones de muchachos y muchachas, este diagra'"" muestra una relacin moderadamente positiva entre el rendimiento en ingls
\ 111 ansiedad. Significa esto que la ansiedad (tensin) hace que el estudiante trahltic ms y, por tanto, rinda ms? En ningn caso. Si as fuera, por qu no podran
uhtcncrse relaciones entre ambas variables para muchachos y muchachas tomaaparte?
La Fig. 7.3 muestra cmo pueden obtenerse correlaciones diferentes de cero
"IA' upando conjuntos diferentes, por ejemplo, muchachos y muchachas, con pro-

,j'

o,
.!:

..
e

se
e

..

'o
e

G
G
G G
BG /G G
B
B G G
BGG
B BBa B G G

Be

B B B

a:

Ansiedad

FIO. 7.3 Diagruma de dispersin entre lu


unsiednd y lu, pumunclones en una pruebn
ele rcndlmlento en i11glts de IS muchacho
(IJ) y 1, 1.1hlc11\ ((l),

124

Ml,lOIJOS t,SIAl)llll

l('OS i\1'1.1( Al)O\ /1 1 /1"1 f II N( IAS SOCIAi 11~

medios desiguales en ambas variables. De tal agrupamiento pueden resultar relaciones positivas o negativas. Seria conveniente dibujar el diagrama de dispersin
de dos conjuntos en los cuales X y Y no correlacionen y en los cuales el grupo A
tuviera un promedio alto en X y bajo en Y, y el grupo B, un promedio bajo en X y
alto en Y. Podra saberse si este diagrama corresponde a una correlacin entre
X y Y positiva, negativa o nula?
X y Y pueden correlacionarse, aun si existen subgrupos con medias diferentes.
Sin embargo, podemos encontrar en este hecho una explicacin plausible de la
diferencia sustancial observada entre
y cero.

'x,

C.
Curvilinearidad y formas
de distribuciones marginales

r"' mide solamente uno de los posibles tipos de mediciones que pueden relacionar
dos variables entre si. El valor de '"' es una medida del grado de relacin lineal
entre X y Y. Si X y Y se relacionan linealmente de forma perfecta, los puntos del
diagrama de dispersin caern todos sobre una recta, tal como se ilustra en la
Tabla 7.3. Pueden obtenerse tambin diversos grados de relaciones lineales entre
X y Y, dispersando los puntos al azar, por encima y por debajo de la recta de regresin, aproximadamente a la misma distancia en cada direccin. Si los puntos
de un diagrama de dispersin se distribuyen al azar en torno de una curva, la relacin entre X y Y puede ser bsicamente curvilinea. Si no se hace referencia al
diagrama de dispersin, puede pensarse que '"' no mide sino relaciones lineales
entre X y Y y, en este caso, si se encuentran valores de rx, prximos a cero, puede
pasarse por alto el hecho de que la relacin entre las dos variables sea curvilnea,

125

lll I Hl>AS 1)11 ('0RRl!I./ICION

nlta que sta sea, pueden encontrarse valores de '"' muy prximos de cero.
Fig. 7.4 muestra dos diagramas de dispersin diferentes, ambos con coeficientes
111 rorrclacin
muy bajos.
Sin embargo, a pesar de que los diagramas de dispersin A y B de la Fig. 7.4
lh11cn coeficientes de correlacin de cero, existe una relacin considerable en el
II mientras que en A no hay relacin sistemtica entre X y Y. La sola ilustracin
1li la Fig, 7.4 debera ser una advertencia ms que suficiente para no concluir nunca
ljlll' dos variables no se relacionan solamente por el hecho de que '"Y sea ce~o.
C 1111 alguna frecuencia se encuentran diversas medidas de relacin curvilnea entre
\111 rubes. Las puntuaciones de pruebas psicolgicas y educacionales en grupos
1tlp1cos, a menudo muestran efectos de techo o piso, como, por ejemplo,
, 1h111do se administran pruebas demasiado fciles o demasiado dificiles, con el
11 eultado de que muchas personas obtienen la puntuacin ms alta o la ms baja.
11 diagrama de dispersin de las puntuaciones de la prueba A, que muestra un
11kcto de techo y el de la prueba B, que muestra un efecto de piso, podra ser
11111ilur al de la Fig. 7.5.
11111

,1

Prueba B

FIG. 7.5 Diagrama de dispersin de las


puntuaciones en la prueba A (demasiado
fcil para este grupo) y de la prueba B
(demasiado diflcil para este grupo).

o
o

111 valor de r AB de los datos de la Fig. 7.5 no es alto, probablemente no mayor

tki 0..30. Sin embargo, dentro del limite de dificultad establecido para cada prueba

o o

'1 =O
X
Relacin al azar

FIG.

7.4

X
Alta relacin curvlllnea

Dos ejemplos de correlacin producto-momento

prximos a cero.

El significado de r no deja lugar a dudas, cuando se sabe que X y Y se relacionan


linealmente, pero, caso de que ambas variables tengan una relacin curvilnea,

f'tlC<.'C existir una relacin ms fuerte. Se podra sospechar que al aumentar la


dlf1ultad de la prueba A y disminuir la de B, sin afectar radicalmente el contenido
t~ ninguna de ellas, aumentara el valor de r AB para esta poblacin. El diagrama
d, uispersin de las puntuaciones de las pruebas asf alteradas, probablemente
n11,111rarla una menor curvilinearidad de que se observa actualmente. (Este ejemplo
1111 110 otro aspecto importante: el grado de relacin obtenido entre dos variables
111mlc~quicra -independientemente de cmo se exprese tal relacin- depende de
11 unturaleza de la medida de las variables. Por ejemplo, generalmente pensamos
11m las caractersticas de peso y altura se relacionan estrechamente en los
1d11llos humanos; pero no es dificil conseguir mtodos para que la medicin de
lI variable resulte completamente inadecuada -por ejemplo, la medida basada
,11 l'I juicio sobrio y subjetivo de nios de cuatro aos-, segn la cual las punta, 1t111c, de peso y altura mostrarlan una correlacin prcticamente nula.)

IZI
7.8

MI IOl>U\ 1

OTRAS ANOTACIONES
INTERPRETACION
DE

1'11<

IAl>l\11(0\

SOBRE

<\IIU\

1 \

1 11 r.l l \\ \O( 1 \I IS

LA

rs,

Carro U (1961) present un informe muy claro acerca de cmo la interpretacin


de r XT depende de las formas de las distribuciones de X y de Y. as como de su distribucin conjunta. El articulo de Carroll constituye una excelente explicacin
de muchos de los puntos que se mencionan tangencialmente en muchas partes
de este libro y puede resultar muy explicativo para el estudiante que no tiene
conocimiento de la correlacin que el expuesto en ste y en los prximos captulos.
CarroU hizo las siguientes observaciones tanto sobre el problema de la interpretacin del rXF como sobre el entrenamiento estadstico de los estudiantes:

mu

Los estudiantes no estn lo suficientemente informados de que estos limites [ -1


a + I] y significados [altamente relacionados, moderadamente relacionados, no
relacionados], no se refieren sino a determinados modelos estadsticos. La superficie
normal bivariada [ vase Sec. 6.6] y el modelo de regresin lineal [ vase Cap. 8] no son
sino dos de los modelos ms frecuentemente empleados ... Para computar un coeficiente
de Pearson no es necesario hacer ninguna suposicin, pero la interpretacin de su significado evidentemente depende del grado en el cual los datos se adecan a un modelo
estadstico apropiado para tal interpretacin. Si los datos reales se apartan de un ajuste
perfecto de tal modelo, (por ejemplo. superficie normal bivariada ]. los lmites del coeficiente de correlacin pueden comprimirse y entonces, las interpretaciones adjetiva.la
son menos significativas.

x,

Un ejemplo de cmo un valor mximo para r puede apartarse de + l cuando


la distribucin de frecuencias de X y Y es asimtrica, se ilustra mediante las 99
puntuaciones en X y Y con la siguiente distribucin de frecuencias:
Puntuaciones en X:
Frecuencia:
Puntuaciones en Y:
Frecuencia:

21

O 1

O O

l
12

14

14

4
13

5 6 7 8 9
10 7 4 2

10
1

2 3 4 5 6 7 8 9 10
1 1 2 2 4 5 6 7 71

11 IIIIM\

127

1)1 {'()RRI I i\( ION

,1,, 11 esto? ,Puede tratarse de una relacin moderada entre dos variables cuya
,11 tubucin de frecuencias conjunta toma la forma de una superficie normal bi, ,11 u1da o podr tratarse acaso de una mxima relacin posible entre un X des, 1.1110 po itivamcnte y un Y desviado negativamente? Anteriormente vimos cmo
11111tlcn surgir dudas similares respecto de un valor cero para r:r,. Entonces, es
11111 \ y Y realmente no se relacionan, o es que su relacin no es lineal? Estas dudas
1uwtlcn resolverse muy satisfactoriamente estudiando el diagrama de dispersin
,lt 111, puntuaciones X y Y, donde puede verse inmediatamente si X y Y tienen una
1du1:1n pronunciada curvilnea o si la relacin es muy baja. Desgraciadamente,
1,111 demasiada frecuencia los investigadores se muestran reacios a construir dia11,111111c; de dispersin. Podra pensarse que una de las mayores ventajas del pro" unucnto electrnico de datos se traducira en un aumento de los diagramas
,lt 111\pcrsin para problemas de correlacin, pero esto no ha sucedido. La opinin
de 1 uutor es que vale la pena el pequeo esfuerzo de construir e inspeccionar dia11,1mn, de dispersin para poder interpretar ms inteligentemente el ':rr

VARIANZA DE LAS SUMAS Y


DIFERENCIAS DE VARIABLES

C "" frecuencia, en educacin y psicologa, se desea hallar la varianza de un grupo


1lt puntuacin X y Y sumados. Adems, por simple inspeccin de la frmula que

, 1,,~ ionaba

~ + ,, o sea la varianza de la suma de las puntuaciones X y Y con

,11, lth de conjunto. En la historia de la teora de pruebas mentales, la expresin


,-,111 al para la varianza de una suma de variables ha desempeado un papel muy
ltuportante (la puntuacin total de una prueba es la suma de las puntuaciones de
h ltcms individuales de dicha prueba).
1.1 varianza de X + Y, donde cada una de las n sumas es X1 + Y,. se define de
,,iuienle manera:
n

X est altamente desviado en sentido positivo y Y en sentido negativo. El m


ximo valor posible para r:r1 es aproximadamente 0,60; en otras palabras, incluso
en el caso de que exista una relacin lineal mxima entre X y Y,
solamente al
canzar un valor aproximado de 0,60. Esto no indica debilidad alguna por parte
de rXF en tanto que medida descriptiva; no se le puede culpar de no hacer aquello
para lo cual no ha sido diseado. De hecho, en realidad debera ser reconfortante
el que en el caso anterior r:r, no sea superior a 0,60. Cuando X toma tantos valores
por debajo de su media y Y tantos por encima de ella, es imposible que todas las
desviaciones positivas de Y1 respecto de Y se asocien con desviaciones positivas
de X1 respecto de X. De hecho,
no puede tomar los valores extremos de + 1 o
-1, a menos que las distribuciones de ambas variables sean idnticas.
El hecho de que el valor mximo de rx, dependa de las distribuciones de X y Y
ofrece algunas dificultades. Supongamos que se obtiene un
de 0,60. Qu quiere

s!+11

= ""'1

[X,+ Y, - (.f.+

'x,

':r,

,:r,

s!,

t~ y , ~, puede verse claramente cmo las influencias se combinan para producir

" -

Y.)]'
_

(7.15)

I o, trminos entre corchetes de la Ec. (7.15) pueden ordenarse de modo que


1N111lu1can

..

s! .. " = I

_1

[(X, -

X.) -f (Y, -

Y.))1
_

(7.16)

" - J
\1 -.e de arrolla la expresin entre corchetes del numerador de la Ec. (7 .16)

121

MI IC)l)()', 1\1;\l)ll,ll(O~Al'II(

\1111\

\ l,\'I

y se di tribuye el signo sumatorial en los trminos postcnercs


obtiene

"

s!+w -

(X; - X.)2

n-1

2 I (X, - X_XY, - Y)
n

n-1

"

(IINIIA<;

SO(t/\1111

al

(Y - V.)2

""'1

,o llll>A<;

l>H CORRELACION

129

~. X y Y no correlacionan, tampoco lo harn X y - Y, puesto que - Y no es


,11111 una tran formacin lineaJ de Y (vase Sec. 7.6). Si remplazamos - Y por Y*,
..,hemos entonces que s;+,. = s; + s';., porque X y Y* no correlacionan. Si mulllpl11;11mos Y por - 1 para obtener Y*, Y* tendr entonces una media de - Y, pero
111111 varianza sj, As, pues., tenemos que s;+, =
+ pero, desde luego, X+ Y*
1111 e, sino X - Y. AsL pues,
= s; +
No solamente los resultados anteriores pueden ser de provecho en estadstica
111, ~ avanzada, sino que, en este caso, pueden resultar muy esclarecedores. Por
1 mplo, sabemos que

s~-,.

n-1

El estudiante reconocer inmediatamente que los trminos primero y ltimo


del lado derecho de la Ec. (7 .17) son, respectivamente,
y
El trmino de la
mitad es simplemente dos veces la covarianza de X y Y, s,..,. AsL pues,

s; s;.

s; s;;

s;.

t
s:io+,
- s"'t - s,1 = s,.'+ s,,'+2 r'"s"'s" - s"'2 - s.ll = 2r....,s,.s .

s! = s! + s; + 2s.,.w.
-e- ,

r,.., con el trmino s,..,f(s,.s.,). Evidentemente, tenemos entonces que s,.., = r"'s,.s,. As, pues, si se remplaza s,.., por la expresin equSe puede tambin denotar

1,I, pues, si dividimos la ecuacin anterior por 2s,.s,, encontramos que

valente, tenemos,
2

sx+,

= s; + s, +
2

s!+, - s! - s! = r .. ,.
2s,.sw

2 r~x5w

Las Ecs. (7.18) y (7.19) relacionan la varianza de la suma de dos series de puntuaciones con la varianza de cada serie y con su covarianza.
Un caso especial de la Ec. (7.19) que ofrece gran inters es aquel en el cuaJ X y
Y no se correlacionan, por ejemplo, cuando r,.1 = O. Si esto es cierto, entonces

s!.+, = s!

+ s;.

Supongamos que tenemos tres variables X, Y y Z. Cul sera la varianza de


1 sumas de las puntuaciones de una persona en estas tres variables, de modo

,,m se obtenga

la suma de X1

s!+..+

""1

[(X, +

Y1

n- 1

11 trmino entre corchetes de la Ec.

Yf-

21" ex - xJcr, I

Y.>

t
Sio+i,-ta

I"
....,,1

[(X, -

- 2S;n,

= Sirt+ s;2 -

+ (Z, -

2.))_1

n- 1

(7.23)

fl numerador de la Ec. (7.23) es un trimonio cuadrado. Por lgebra de bachi+ b + c)2 = a2 + b2 + c2 + 2ab + 2ac + 2bc. As, pues,

2 rz.,S11:S,.

llr11110 se sabe que (a

Este es un desarrollo muy interesante. La varianza de las diferencias entre I


puntuaciones de un grupo de personas X y Y es igual a la varianza de X ms
varianza de Y menos dos veces la couarianza de X y Y (o dos veces el producto
r,.., por sx y s.,). De nuevo, si X y Y no correlacionan, tenemos que

s!_, = s! + s;.
No sera sorprendente que se encontraran dificultades

(7.22)

(7.22) puede reordenarse, dando

..f.)+ (Y, - Y.)

n- 1

= s;t + s,!

21?

Y, + Z1) - (..f. + Y. + 2.))2

Cul sera la expresin equivalente a J;-,?

"
rcx,
- xf + I" cr, -

s!+..+ = I

(X, -

n-1

+I

..f)' + I

para reconciliar 111

n-1

Y.)'

(Z, - 2.)1 + 2 I (X, -

n-1

Ecs. (7.20) y (7.21 ). El siguiente argumento puede ayudar a su comprensin:

(Y, -

..f.Xl' -

Y.>

n-1

+ 2 I ex, - 2.xz, - 2.) + 2 I


n-1

O - Y.xz, - 2.) .
n-1

130

MI l()l)OS I Sl/\l)l~IIC'O'>

1'111 Al>tt\

1 \'i e II N('IM, 'l()Ui\111

Todos lo trminos a la derecha del signo de igualdad en la ecuacin


varianzas o covarianzas. La expresin puede reducirse entonces a

s!+~+ = s!

anterior son

+ s! + ~= + 2s:n + 2s.,, + 2svu

,o

11111

y por ende. la correlacin entre las dos variables enunciadas a continuacin ser
fl0'1tiva o negativa:
11111w1,

11

Los problemas de varianza de sumas y diferencias entre variables son muy


importantes en estadstica intermedia y avanzada. Para trabajar en teora de pruebas mentales, anlisis factorial y muchas otras reas que se saleo del mbito dt
la estadstica, es absolutamente indispensable dominar con profundidad estOI
conceptos. Antes de pasar a otras secciones, el estudiante hara bien en revisar
concienzudamente el material presentado en sta. Si se necesita alguna explicacin
adicional al respecto, Edwards (1964, pgs. 15-23) es de gran utilidad.

7.10

131

Inclrcnr, si. en la poblacin de todas las escuelas primarias de los Estados Unidos, la cova-

11

que es lo mismo que,

1' l>I COIUU I.AC'ION

\',

estatura en pulgadas;

Y. peso en libras,

X. edad en meses entre los 6 y los 16 aos; Y, tiempo en segundos para correr 50 yardas.

X. rendimiento en lectura en notas de clase; Y, rendimiento en aritmtica en notas de


clase.
X, CI de los estudiantes; Y, puntuaciones de ciudadana de los estudiantes segn
una escala construida por el profesor.
X. rendimiento en aritmtica en notas de clase; Y, nmero de dias de ausencia del
colegio durante el ao.

s" = 5 y sy = 4. Cules el mayor valor que puede


[Sugerencia: '"' no puede ser mayor que + 1; 'x, = s.,,,/(s_.s,).]

l'uia un conjunto determinado de datos.

lc111mr

s., /

l II correlacin
111c111c X con

entre X y Y es de 0,60; la de X y Z es de -0,80. Se relaciona ms estrechaY que con Z?

In 120 escuelas secundarias de una regin, un investigador mostr una correlacin de


0,52 entre el salario promedio de los profesores y la proporcin de estudiantes Y que se
1111rnn de la escuela antes del grado. Concluy que si los salarios de los profesores se aumen11111, se reducira la tasa de desercin. Comentar esta conclusin.

MATERIAL ADICIONAL SOBRE


CORRELACION

Hallar el valor del coeficiente de correlacin r para los siguientes datos:

Este captulo no contiene un tratamiento global de la correlacin. El Cap. 8 tra


tar del problema de la estimacin de mnimos cuadrados, tema ntimamen
relacionado con el de la correlacin {vase Sec. 8.4). En el Cap. 9 se presentan 1
coeficientes de correlacin para relacionar puntuaciones nominales y ordinales,
En ningn momento se pretende que estos tres captulos cubran el tema de la m
dicin de relaciones. Aquellos aspectos del tema que se han mencionado tangen
cialmente en este libro pueden cubrirse adecuadamente consultando Ezekiel
Fox {1963), DuBois {1957) y Kruskal {1958).

Persona
1
2
3
4

5
6
7
8

PROBLEMAS Y EJERCICIOS
l.

Comprobar que la correlacin entre X y Y es igual a


(Sugerencia: comenzar con la ecuacin r""
tuacin

+ 1 cuando :" =

z,h/(11

z,.

10
11
12
13
14
15

- 1 ). Como se supone que la pu

zen X es idntica a la puntuacin : en Y. sustituir:" por z, para hallar'",- Pro

entonces que

" z;/(n -

1) = -i l. Vase Prob. 8, Cap. 5.

2.

Prez calcul la covarianza de la estatura en pulgadas X y la de la velocidad de carrera


segundos Y. En una muestra de 50 estudiantes, observ un valor de 27,60. Rodrfg
calcul la covarianza de la altura en pies, X (5!', Sr,', etc.) y la de la velocidad de carre
a partir de los mismos datos de Prez. Rodrguez obtuvo un valor de 2,30. Con sus res
vas medidas cul de los dos. Prez o Rodrguez obtendrn una mayor correlacin ent
X y Y?

100

28
25
19
24
23
21
27

90
126
112
80
115
105
J 10

99
97
87
76
100
80

120

25
26
25
23
18

29
20
18

Dibujar el diagrama de dispersin de dichos datos.


Cuso de no ser cero Ju relacin entre X y Y es predominantemente curvilinea o lineal?

<'11h:11Jur el r para los duros del grupo a y b a continuacin. ,Por qu difieren en magnitud
In~ coeficientes de correlacin?

lJZ

O~ /\1'1 li

MI IOI)():, 1.!ll/\1)11111<

lm\ A I A\ 1 11 Ne 1/\\ S<X IAI I

/1

IQ
a. Nmero de la
persono Prueba A Prueba B
1
2
3
4

80
105
121
93
99
107
119
103
102
115
87
96

5
6
7
8
9
10

11
12

9.

IO.

b. Nmero de lo
persona

83
101
117
100
96
112
123
99
110
110
81
98

1111111m 11l11

C:11 rocobula-

1
2
3
4

rlo genorat
96
111
89
107
102
115
98
83
104
100
117
94

5
6
7
8
9
10
11
12

aritmttro
104
121
84
91
114
96
109
94
116
86
101
99

PREDICCION Y
ESTIMACION

Se sabe que las mujeres tienden a obtener puntuaciones muy superiores a las de los homb
en el Minnesotta Teacher Attitude Inventory. Un investigador correlacion las pu
tuaciones en el MTAI obtenidos por un grupo de 100 profesores expertos, con el nme
de alumnos suspendidos por ellos durante un ao. Obtuvo un r de -0,39. Concluy q
los profesores tienden a suspender a los estudiantes porque carecen de actitudes de a
racin hacia sus alumnos. Comente los mtodos de este investigador asi como sus co
clusiones.

I..

t-1

(X, - .f,)(Y, -

.
= I

f> = I"

[X,(Y, -

t-1

X,(Y, -

t-1

f) -

X,(Y, -

"

Y.) - X. I (Y, - f) = I X,(Y, - f) ,-1

PRELIMINARES

f)]
.f,(O).

1-1

Dicho en palabras, la suma de los productos cruzados entre X y Y cuando ambos se


en puntuaciones de tles11iaci11. es igual a la suma de los productos cruzados de X, que
se da en puntuaciones de desviacin, y la de Y que as se da en puntuaciones de desviacia
Esto parece paradjico o es qu se ha cometido algn error en la prueba?
IJ.

Ra:011ami1111,,

Es verdad que

I"

X1(Y1

1-1

Sugerencia: demustrese que

..

P) = I Y,(X, - X)?
,-1

I"

1-1

[X,( Y, -

f> -

Y1(X, - .f.)] ... O.

"' unas pocas nociones de geometra analtica, pueden ilustrarse de modo ca111111 los conceptos y procedimientos implcitos en las formas ms sencillas de
ltn:in estadstica. A continuacin se expondr en detalle la idea del sistema
Inucnsional de coordenadas as como la de la ecuacin de una recta.
l II In Fig. 8.1 se ilustra un sistema de coordenadas canesianas", Los ejes de
111 ~ xtcma -las rectas perpendiculares X y Y- dividen el plano en cuatro cua(la superficie plana, bidimensional con longitud y anchura, pero sin pro111lidnd ). Son los cuadrantes 1, 11, m y IV.
1 ,1c sistema garantiza la posibilidad de demarcar el plano en forma tal que,
uuuc un par de nmeros ordenados (X, Y), pueda identificarse cualquier punto
t1ur I pertenezca. El punto (O, O) se denomina origen del sistema y se encuentra
l,1 interseccin de X y Y. El primer nmero de cualquier par representa la dis11111 u1 que debe seguirse en sentido horizontal, desde el origen (distancia X) hasta
ll 9,111110, y el segundo nmero, la distancia del origen a la cual se halla dicho punto
lh """' ido vertical. El punto A de la Fig. 8.1 corresponde al par (2, 2) en el cual
II I" uncr nmero se conoce como coordenada X y el segundo como coordenada Y.
111mto B corresponde al par ( - 2, l) y se halla a dos unidades hacia la izquierda
., origen, en direccin del eje de las X, y a una unidad sobre el origen, en direccin
.. , l'IC de las Y. Los puntos del cuadrante I corresponden a pares de nmeros en

111c,

~gn el nombre del fllsoro y matemtico

francs Rcn Descartes.


133

You might also like