You are on page 1of 25

Correlación

Víctor Moreno
2002
Esquema
• Relación entre variables cuantitativas
– Correlación
• Métodos no paramétricos
– Coeficiente de Spearman
– Comparación de grupos
Regresión
• Análisis de la relación entre variables
cuantitativas
• Se pretende estudiar en qué medida una de
las variables puede ser explicada por otra
• Cómo cambia una variable cuando otra
cambia
• Se plantea un modelo estadístico:
Y = f(X,θ) + e
Correlación
• Sólo evalúa si existe relación (lineal) entre
dos variables cuantitativas
• No supone dirección en la relación (las dos
variables son aleatorias)

• Se cuantifica mediante un coeficiente (r),


pero no hay parámetros pues no existe un
modelo
Covarianza

cov(x , y ) =
∑ (x − x )(y − y )
n −1

• Compensa los valores en cuadrantes


positivos con los valores en cuadrantes
negativos. Vale 0 si no hay asociación.
• Toma valores entre {- ∞ y +∞}
• Es sensible a la escala de cada variable
1.0
(−) (x − x )
(+)

0.8
0.6 (y − y )
y

0.4

(y − y )
0.2

(+) (x − x )
(−)
0.0

0.0 0.2 0.4 0.6 0.8 1.0

x
Coeficiente de correlación
de Pearson
• Covarianza estandarizada:

r =
Cov (x , y )
=
∑ (x − x )(y − y )
sx s y ∑ (x − x ) ∑ ( y − y )
2 2

• No tiene dimensión ni se modifica por la


escala de las variables
• Toma valores entre -1 y 1
Interpretación
• 0 : no asociación (se compensan los valores
en los 4 cuadrantes)
• 1 : asociación lineal positiva (los puntos
están en una línea recta que pasa por los
cuadrantes (+)
• -1: asociación lineal negativa (los puntos
están en una línea recta que pasa por los
cuadrantes (-)
Ejercicio
• Con los datos del estudio riscar, calcular el
coeficiente de correlación entre las
siguientes variables:

peso, talla, TA sistólica y TA disatólica

• Dibujar las gráficas de dispersión y valorar


los coeficientes
Relación con la regresión
• A pesar de que la correlación no supone un
modelo, existen relaciones con las
cantidades de interés vistas en regresión
• σ
r = x
β
σy
SSY − SSE
r =
2

SSY
Medida de la fuerza de la
relación lineal
• El coeficiente r es máximo cuando los
puntos están perfectamente alineados
• La relación con el coeficiente de
determinación del modelo lineal muestra
que r es máximo cuando SSE = 0 (no hay
error)
SSY − SSE
r =
2

SSY
SSE = ∑ (y − y )
l 2
Lo que r no mide
• r no mide la pendiente de la línea recta de
un modelo lineal (excepto en el caso r=0)

• r no mide si el modelo lineal es adecuado


1.0
r2=1; β= −0.4

0.8
0.6
y

0.4

r2=1; β= +0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

x
1.0

10
9
0.8

8
0.6
y

7
0.4

6
0.2

5
0.0

4
0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8

x x

14
25

12
20

10
y

y
15

8
6
10

0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 1.0

x x
Test de hipótesis sobre r
• H0 : ρ = 0
• H1 : ρ ≠ 0 r n −2
t =
1−r 2

• t sigue una t-Student con (n-2) g.l.


• Matemáticamente es equivalente al test de
H0 : β = 0
• No sirve para H0: ρ = ρ0 con ρ0 ≠ 0
Intervalo de confianza para r
• La distribución de r es muy asimétrica
cuando ρ ≠ 0.
• No se puede emplear directamente la
distribución normal
• Hay que transformar r para acercarse a la
normalidad. Transformación Z de Fisher:
1 1+r 1
z = log var(z ) =
n −3
para n > 30
2 1−r
• El intervalo de confianza se construye
sobre z:
1 1+r z1−α 2 
 log ± 
2 1−r n −3

• Posteriormente se aplica la transformación


inversa, para lo que se necesitan unas
tablas o una calculadora que proporcione la
tangente hiperbólica.
Cuando los datos no siguen la
distribución normal
• El coeficiente de correlación de Pearson se
afecta por valores extremos, asimetría u
otras desviaciones de la distribución
normal
• Posibilidades:
– Eliminar valores extremos
– Transformar los datos
– Métodos no paramétricos
Coeficiente de correlación
de Spearman
• Se sustituyen los valores de X e Y por sus
rangos: orden que ocupan en la muestra
• Los rangos no se afectan por valores
extremos. Corrigen la asimetría de la
distribución, si existe.
• Puede emplearse con variables ordinales

• Los test de hipótesis son idénticos


Coeficiente tau de Kendall
• Es un coeficiente de correlación no
paramétrico que se calcula a partir de los
desórdenes entre los rangos.

• Desordenes observados / esperados


Ejercicio
• Comparar los coeficientes de correlación
de Pearson, Spearman y tau de Kendall para
una serie de variables con distinta
distribución
Comparación de medias por
métodos no paramétricos
• El análisis de la varianza supone
– Distribución normal de la variable
– Homogeneidad de varianzas

• El incumplimiento de estas premisas puede


dar lugar a test de hipótesis inválidos
• Los tests no paramétricos (basados en
rangos) son robustos a estos problemas
• Los métodos no paramétricos para
comparar medias sólo permiten realizar
tests de hipótesis. La estimación de
efectos puede realizarse comparando
medianas de grupos.

• Hay métodos no paramétricos para


regresión, pero son muy sofisticados
(lowess)
Pruebas no paramétricas
• 2 muestras independientes
Test U-Mann-Whitney
• 2 muestras dependientes
Test de Wilcoxon
• k muestras independientes
Test de Kruskal-Wallis
• k muestras dependientes
Tets de Friedman
Ejercicio
• Emplear pruebas paramétricas y no
paramétricas para evaluar la relación entre
los niveles de arsénico en uñas y las
variables
– sexo
– edad (en 3 categorías)
– bebe agua de pozo
– cocina con agua de pozo
– arsénico en el agua

You might also like