Correlacion

Correlación
Víctor Moreno
2002
Esquema
• Relación entre variables cuantitativas
– Correlación
• Métodos no paramétricos
– Coeficiente de Spearman
– Comparación de grupos
Regresión
• Análisis de la relación entre variables
cuantitativas
• Se pretende estudiar en qué medida una de
las variables puede ser explicada por otra
• Cómo cambia una variable cuando otra
cambia
• Se plantea un modelo estadístico:
Y = f(X,θ) + e
Correlación
• Sólo evalúa si existe relación (lineal) entre
dos variables cuantitativas
• No supone dirección en la relación (las dos
variables son aleatorias)
• Se cuantifica mediante un coeficiente (r),

pero no hay parámetros pues no existe un
modelo
Covarianza
cov(x , y ) =
∑ (x − x )(y − y )
n −1
• Compensa los valores en cuadrantes

positivos con los valores en cuadrantes
negativos. Vale 0 si no hay asociación.
• Toma valores entre {- ∞ y +∞}
• Es sensible a la escala de cada variable
1.0
(−) (x − x )
(+)
0.8
0.6 (y − y )
y
0.4
(y − y )
0.2
(+) (x − x )
(−)
0.0
0.0 0.2 0.4 0.6 0.8 1.0
x
Coeficiente de correlación
de Pearson
• Covarianza estandarizada:
r =
Cov (x , y )
=
∑ (x − x )(y − y )
sx s y ∑ (x − x ) ∑ ( y − y )
2 2
• No tiene dimensión ni se modifica por la

escala de las variables
• Toma valores entre -1 y 1
Interpretación
• 0 : no asociación (se compensan los valores
en los 4 cuadrantes)
• 1 : asociación lineal positiva (los puntos
están en una línea recta que pasa por los
cuadrantes (+)
• -1: asociación lineal negativa (los puntos
están en una línea recta que pasa por los
cuadrantes (-)
Ejercicio
• Con los datos del estudio riscar, calcular el
coeficiente de correlación entre las
siguientes variables:
peso, talla, TA sistólica y TA disatólica
• Dibujar las gráficas de dispersión y valorar

los coeficientes
Relación con la regresión
• A pesar de que la correlación no supone un
modelo, existen relaciones con las
cantidades de interés vistas en regresión
• σ
r = x
β
σy
SSY − SSE
r =
2
SSY
Medida de la fuerza de la
relación lineal
• El coeficiente r es máximo cuando los
puntos están perfectamente alineados
• La relación con el coeficiente de
determinación del modelo lineal muestra
que r es máximo cuando SSE = 0 (no hay
error)
SSY − SSE
r =
2
SSY
SSE = ∑ (y − y )
l 2
Lo que r no mide
• r no mide la pendiente de la línea recta de
un modelo lineal (excepto en el caso r=0)
• r no mide si el modelo lineal es adecuado

1.0
r2=1; β= −0.4
0.8
0.6
y
0.4
r2=1; β= +0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
x
1.0
10
9
0.8
8
0.6
y
7
0.4
6
0.2
5
0.0
4
0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8
x x
14
25
12
20
10
y
y
15
8
6
10
0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 1.0
x x
Test de hipótesis sobre r
• H0 : ρ = 0
• H1 : ρ ≠ 0 r n −2
t =
1−r 2
• t sigue una t-Student con (n-2) g.l.

• Matemáticamente es equivalente al test de
H0 : β = 0
• No sirve para H0: ρ = ρ0 con ρ0 ≠ 0
Intervalo de confianza para r
• La distribución de r es muy asimétrica
cuando ρ ≠ 0.
• No se puede emplear directamente la
distribución normal
• Hay que transformar r para acercarse a la
normalidad. Transformación Z de Fisher:
1 1+r 1
z = log var(z ) =
n −3
para n > 30
2 1−r
• El intervalo de confianza se construye
sobre z:
1 1+r z1−α 2 
 log ± 
2 1−r n −3
• Posteriormente se aplica la transformación

inversa, para lo que se necesitan unas
tablas o una calculadora que proporcione la
tangente hiperbólica.
Cuando los datos no siguen la
distribución normal
• El coeficiente de correlación de Pearson se
afecta por valores extremos, asimetría u
otras desviaciones de la distribución
normal
• Posibilidades:
– Eliminar valores extremos
– Transformar los datos
– Métodos no paramétricos
Coeficiente de correlación
de Spearman
• Se sustituyen los valores de X e Y por sus
rangos: orden que ocupan en la muestra
• Los rangos no se afectan por valores
extremos. Corrigen la asimetría de la
distribución, si existe.
• Puede emplearse con variables ordinales
• Los test de hipótesis son idénticos

Coeficiente tau de Kendall
• Es un coeficiente de correlación no
paramétrico que se calcula a partir de los
desórdenes entre los rangos.
• Desordenes observados / esperados

Ejercicio
• Comparar los coeficientes de correlación
de Pearson, Spearman y tau de Kendall para
una serie de variables con distinta
distribución
Comparación de medias por
métodos no paramétricos
• El análisis de la varianza supone
– Distribución normal de la variable
– Homogeneidad de varianzas
• El incumplimiento de estas premisas puede

dar lugar a test de hipótesis inválidos
• Los tests no paramétricos (basados en
rangos) son robustos a estos problemas
• Los métodos no paramétricos para
comparar medias sólo permiten realizar
tests de hipótesis. La estimación de
efectos puede realizarse comparando
medianas de grupos.
• Hay métodos no paramétricos para

regresión, pero son muy sofisticados
(lowess)
Pruebas no paramétricas
• 2 muestras independientes
Test U-Mann-Whitney
• 2 muestras dependientes
Test de Wilcoxon
• k muestras independientes
Test de Kruskal-Wallis
• k muestras dependientes
Tets de Friedman
Ejercicio
• Emplear pruebas paramétricas y no
paramétricas para evaluar la relación entre
los niveles de arsénico en uñas y las
variables
– sexo
– edad (en 3 categorías)
– bebe agua de pozo
– cocina con agua de pozo
– arsénico en el agua

Correlacion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Correlacion

Uploaded by

Copyright:

Available Formats

Correlación

• Se cuantifica mediante un coeficiente (r),

• Compensa los valores en cuadrantes

0.0 0.2 0.4 0.6 0.8 1.0

• No tiene dimensión ni se modifica por la

peso, talla, TA sistólica y TA disatólica

• Dibujar las gráficas de dispersión y valorar

• r no mide si el modelo lineal es adecuado

0.0 0.2 0.4 0.6 0.8 1.0

• t sigue una t-Student con (n-2) g.l.

• Posteriormente se aplica la transformación

• Los test de hipótesis son idénticos

• Desordenes observados / esperados

• El incumplimiento de estas premisas puede

• Hay métodos no paramétricos para

You might also like