You are on page 1of 10

UNIVERSIDAD MAYOR DE SAN ANDRES

FACULTAD DE INGENIERIA
CARRERA DE INGENIERIA INDUSTRIAL

GRUPO 18
AGUILAR SANCHEZ JESS
REYNALDO
MAMANI PACO MILTON
PAXI TOLA ROBERTO

COEFICIENTE DE
CORRELACIN
INTRODUCCIN
Antes de introducirnos en el modelo de regresin lineal, que hace referencia a la
naturaleza de la relacin entre distintas variables, pasaremos a exponer el
estadstico utilizado para medir la magnitud de la relacin (supuestamente lineal)
entre dichas variables. Tiene sentido darle un tratamiento aparte por su
importancia y las continuas referencias que ofreceremos a lo largo de este texto.
Comenzaremos su desarrollo, por razones de simplicidad, para el caso particular
de dos variables.
En estadstica, el coeficiente de correlacin de Pearson es una medida de la
relacin lineal entre dos variables aleatorias cuantitativas. A diferencia de la
covarianza, la correlacin de Pearson es independiente de la escala de medida de
las variables.

De manera menos formal, podemos definir el coeficiente de correlacin de


Pearson como un ndice que puede utilizarse para medir el grado de relacin de
dos variables siempre y cuando ambas sean cuantitativas.

El coeficiente de correlacin lineal es el cociente entre la covarianza y el


producto de las desviaciones tpicas de ambas variables.

El coeficiente de correlacin lineal se expresa mediante la letra r.

CONCEPTO
El coeficiente de correlacin de Pearson, pensado para variables cuantitativas
(escala mnima de intervalo), es un ndice que mide el grado de covariacin entre
distintas variables relacionadas linealmente. Advirtase que decimos "variables
relacionadas linealmente". Esto significa que puede haber variables fuertemente
relacionadas, pero no de forma lineal, en cuyo caso no proceder a aplicarse la
correlacin de Pearson. Por ejemplo, la relacin entre la ansiedad y el rendimiento
tiene forma de U invertida; igualmente, si relacionamos poblacin y tiempo la
relacin ser de forma exponencial.
En estos casos (y en otros muchos) no es conveniente utilizar la correlacin de
Pearson.
Insistimos en este punto, que parece olvidarse con cierta frecuencia.
El coeficiente de correlacin de Pearson es un ndice de fcil ejecucin e,
igualmente, de fcil interpretacin. Digamos, en primera instancia, que sus valores
absolutos oscilan entre 0 y 1. Esto es, si tenemos dos variables X e Y, y definimos
el coeficiente de correlacin de Pearson entre estas dos variables como xy r
entonces:
INTERPRETACIN
Varios grupos de puntos (x, y), con el coeficiente de correlacin para cada grupo.
Ntese que la correlacin refleja la no linealidad y la direccin de la relacin lineal.
En la figura del centro, la varianza de y es nula, por lo que la correlacin es
indeterminada.

El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una


dependencia total entre las dos variables denominada relacin directa:
cuando una de ellas aumenta, la otra tambin lo hace en proporcin
constante.

Si 0 < r < 1, existe una correlacin positiva.

Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que


las variables son independientes: pueden existir todava relaciones no
lineales entre las dos variables.

Si -1 < r < 0, existe una correlacin negativa.

Si r = -1, existe una correlacin negativa perfecta. El ndice indica una


dependencia total entre las dos variables llamada relacin inversa: cuando
una de ellas aumenta, la otra disminuye en proporcin constante.

Como se ha indicado el coeficiente de correlacin de Pearson es un ndice cuyos


valores absolutos oscilan entre 0 y 1. Cuanto ms cerca de 1 mayor ser la
correlacin, y menor cuanto ms cerca de cero. Pero como interpretar un
coeficiente determinado? Qu significa un coeficiente de 0.6?. Es alto o bajo?.
No puede darse una respuesta precisa.
Depende en gran parte de la naturaleza de la investigacin. Por ejemplo, una
correlacin de 0.6 sera baja si se trata de la fiabilidad de un cierto test, pero sin
embargo, sera alta si estamos hablando de su validez.

No obstante, intentaremos abordar el tema desde dos perspectivas distintas. Por


un lado, ya ha sido tratado desde la perspectiva de la significacin estadstica
mencionada en el apartado anterior.

Desde este enfoque una correlacin es efectiva si puede afirmarse que es distinta
de cero. Pero ha de decirse que una correlacin significativa no necesariamente
ha de ser una correlacin fuerte; simplemente es una correlacin diferente de
cero. O en otros trminos, es una correlacin que es poco probable que proceda
de una poblacin cuya correlacin es cero. Tan solo se est diciendo que se ha
obtenido "algo" y que ese "algo" es (probablemente) ms que "nada".

La significacin de rxy depende en gran medida del tamao de la muestra, tal


como puede observarse en (1.12); una correlacin de 0.01 puede ser significativa
en una muestra suficientemente grande y otra de 0.9 no serlo en una muestra
pequea. Aqu se cumple la ley de los grandes nmeros; tendencias dbiles son
muy improbables, desde la Hiptesis nula, en grandes masas de datos, mientras
que tendencias fuertes pueden ser relativamente probables en un tamao
pequeo de muestra.
Ms inters tiene la interpretacin del coeficiente de correlacin en trminos de
proporcin de variabilidad compartida o explicada, donde se ofrece una idea ms
cabal de la magnitud de la relacin. Nos referimos al coeficiente de determinacin.

Dicho coeficiente se define como el cuadrado del coeficiente de correlacin; esto


es, dada dos variable X e Y, hace referencia a 2 xy r , y se entiende como una
proporcin de variabilidades (lo demostraremos ms adelante).

Por ejemplo, si la correlacin entre inteligencia y rendimiento acadmico es de 0.8,


significa que 0.82 = 0.64 es la proporcin de varianza compartida entre ambas
variables. Puede interpretarse como que un 64% del rendimiento acadmico es
debido a la inteligencia -variabilidad explicada-, o bien, y esto es ms exacto si
hemos de ser estrictos, que inteligencia y rendimiento acadmico comparten un
64% de elementos, o lo que es lo mismo, tanto la inteligencia como el rendimiento
ponen en juego un 64% de habilidades comunes.

En estas circunstancias, si tomamos como variable dependiente o a explicar el


rendimiento acadmico y elegimos la inteligencia como variable predictora o
explicativa, tendremos que tal variable da cuenta de un 64% de la variabilidad en
rendimiento. Queda, por ello, 1-0.64=0.36, un 36% del rendimiento que queda sin
explicar. A este valor (0.36) se le denomina coeficiente de no determinacin o
coeficiente de alienacin, y se define como 1 rx2y. Un trmino ms adecuado y
que proporciona mayor compresin es el de proporcin de variabilidad no
explicada. Si incrementsemos el nmero variables explicativas con otras
variables como la motivacin o la personalidad probablemente logremos aumentar
la proporcin de variabilidad explicada en rendimiento, obteniendo, si es eso lo
que nos interesa, un
15 mayor control en la variable a predecir.
De esto nos ocuparemos cuando tratemos la correlacin mltiple.

El planteamiento de la correlacin en trminos de proporcin variabilidad es, en


nuestra opinin, la forma ms comprensiva de afrontar la correlacin lineal. Si
acordamos que la variable dependiente Y corresponde a un cierto aspecto de la
conducta que deseamos conocer, y definimos su variabilidad total, se trata de
encontrar un conjunto de variables X1 , X2 , ... Xk que absorban de Y un gran
porcentaje de su variabilidad.

De esta forma, interviniendo sobre el conjunto de variables independientes


podremos dar cuenta de lo que sucede en Y, y modificarlo, si fuera el caso.
PROPIEDADES
1. El coeficiente de correlacin no vara al hacerlo la escala de medicin.

Es decir, si expresamos la altura en metros o en centmetros el coeficiente de


correlacin no vara.

2. El signo del coeficiente de correlacin es el mismo que el de la covarianza.

Si la covarianza es positiva, la correlacin es directa.

Si la covarianza es negativa, la correlacin es inversa.

Si la covarianza es nula, no existe correlacin.

3. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y


1.

1 r 1

4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la


correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r
a 1.

5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin


es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.

6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la


correlacin es dbil.

7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente.


Entre ambas variables hay dependencia funcional.

Ejemplos

Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:

Matemticas Fsica
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10

Hallar el coeficiente de correlacin de la distribucin e interpretarlo.

xi yi xi yi xi 2 yi2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380

1 Hallamos las medias aritmticas.

2 Calculamos la covarianza.

3 Calculamos las desviaciones tpicas.

4 Aplicamos la frmula del coeficiente de correlacin lineal.

Al ser el coeficiente de correlacin positivo, la correlacin es directa.


Como coeficiente de correlacin est muy prximo a 1 la correlacin es muy
fuerte.

Los valores de dos variables X e Y se distribuyen segn la tabla siguiente:

Y/X 0 2 4
1 2 1 3
2 1 4 2
3 2 5 0

Determinar el coeficiente de correlacin.

Convertimos la tabla de doble entrada en tabla simple.

xi yi fi x i fi x i 2 fi y i fi y i 2 fi x i y i fi
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
20 40 120 41 97 76

Al ser el coeficiente de correlacin negativo, la correlacin es inversa.

Como coeficiente de correlacin est muy prximo a 0 la correlacin es muy


dbil.

EJEMPLO

Demostrar la funcin que mejor se ajuste a los valores experimentales


considerar Y=F(x)
N NX XY Y X*=lo Y*=In
Y*=lo XY*
X*Y* 22 2 2
gx y gy
X X Y Y
1 1 3.5 3.5
14 140.54 2.64
1.15 9.24
0.62 12.25
0.29 6.96
2.14
2 2 5.5 5.5
22.2 22.2
0.74 3.1
1.35 17.05
0.996 30.25
0.55 9.61
1.82
3 3 7.5 7.5
37.4 37.4
0.88 3.62
1.57 27.16
1.384 56.25
0.77 13.12
2.47
4 4 9.5 9.5
65.1 65.1
0.98 4.18
1.81 39.67
1.78 90.25
0.96 17.43
3.29
5 5 11.5 11.5
95.3 95.3
1.06 4.56
1.98 52.4
2.09 123.25
1.12 20.77
3.92
6 6 13.5 13.5
160.3 160.3
1.13 5.077
2.205 68.54
2.3165 182.25
1.28 25.78
4.86
7 7 15 15235.1 235.1
1.176 5.46
2.37 81.9
2.788 225
1.38 29.814
5.62
SUMA SUMA
66 66 6.504 28.631
12.434 295.97
12.15 728.5
6.36 123.48
23.29
S S 4

PARA ESTOS VALORES USAREMOS LA FUNCION POTENCIAL

Y=aXb
Log Y=log a+blog x
n xiy i x i y i
r=
(n x ( x ) )( n y ( y ) )
2
i i
2 2
i i
2

76.366.504 2(723.2912.434 2)

r=


( 712.5 )(6.50412.434)

r=0.97

FUNCION EXPONENCIAL
n xiy i x i y i
r=
(n x ( x ) )( n y ( y ) )
2
i i
2 2
i i
2

7728.566 2(7123.48428.6312)

r=


( 7295.97 )(6628.63)

r=0.998

El mejor ajuste se hace con la funcin exponencial


BIBLIOGRAFA
Alvarez-Huayta: Teoria de errores. Coeficiente de correlacin

Eduardo Moya: Estadstica inferencial y descriptiva: Regresin Lineal

Willy Ordoez Oporto: Estadstica descriptiva, inferencial y muestreo. Regresin Lineal

Correlacin en Wikipedia (espaol): http://es.wikipedia.org/wiki/Correlaci


%C3%B3n

Relacin entre variables cuantitativas:


http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas2.pdf

Correlation en Wikipedia (ingls): http://en.wikipedia.org/wiki/Correlation

Electronic Statistics Textbook: http://www.statsoft.com/textbook/stathome.html

Stat notes: An Online Textbook, by G. David Garson of North Carolina State


University:
http://www2.chass.ncsu.edu/garson/pa765/statnote.htm

Pgina de Karl Wnsch sobre correlacin:

http://core.ecu.edu/psyc/wuenschk/docs30/corr6430.doc

You might also like