Módulo III - Estadística Aplicada

MÓDULO III:
MEDIDAS DE ASOCIACIÓN
ENTRE VARIABLES
ÍNDICE
MÓDULO III: MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES Pág.
I. ANÁLISIS DE CORRELACIÓN………….……………………… 3
II. ANÁLISIS DE REGRESIÓN SIMPLE……………………………. 5
III. APLICACIONES DE CHI CUADRADO…………………………... 10
IV. ODDS RATIO Y RIESGO RELATIVO……………………………. 13

MÓDULO III
MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES
Para determinar la asociación entre variables depende del tipo de variable, es decir:
 VARIABLES CUANTITATIVAS
 Análisis de Correlación Lineal Simple
 Análisis de Regresión Lineal Simple
 VARIABLES CUALITATIVAS
 Uso del Chi2: Pruebas de Independencia y Homogeneidad
 Evaluación de factores de riesgo en estudio comparativo de:
o cohorte (prospectivo)
o caso-control (retrospectivo)
I. ANÁLISIS DE CORRELACIÓN
Es un procedimiento que permite medir la asociación o relación lineal que puede existir entre
dos variables aleatorias cuantitativas y determina su grado de relación y sentido. El
coeficiente de correlación poblacional se obtiene:
Y su valor oscila entre: -1 ≤ ρ ≤1, para su interpretación:
3
Para tener una idea cuando dos variables cuantitativas están correlacionadas se recurre al
DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS, que consiste en graficar los puntos
en un plano cartesiano. A continuación presentamos gráficamente cuando dos variables
cuantitativas están correlacionadas:
1.1. Estimación del coeficiente de correlación (muestra)
Para estimar el parámetro , se recurre a una muestra aleatoria de n unidades . De

cada una de ellas, se determinan los valores: (x1, y1), (x2, y2),..., (xn, yn).
El estimador del parámetro , es el coeficiente de correlación muestral r, definido como:
1.2. Evaluación de la significancia del coeficiente de correlación muestral

Paso 1.- Planteamiento de hipótesis.
H0 :   0
H : 0
1
Paso 2.- Niveles de significación. (teórico) ””
Paso 3.- Estadístico de prueba.
tcalc. = r* n–2 P – VALOR

1–r2 (tabla )
GRADOS DE LIBERTAD = n - 2
Paso 4.- Formular la regla de decisión

Si el p-valor <  Se rechaza H0
Si el p-valor ≥  No se rechaza H0
Paso 5.- Conclusión:
En este caso se especifica la hipótesis estadística que no ha sido rechazada
indicando el nivel de significancia teórico considerado (α)
II. ANÁLISIS DE REGRESIÓN SIMPLE
4
Es la relación funcional entre dos variables uno conocida como variable dependiente “Y” y
la otra como independiente “X”
2.1. El Modelo de Regresión Lineal Simple
Está dado por: y=  + ß*x + e
Donde:
Y es la variable dependiente
X es la variable independiente.
ß es el coeficiente de regresión
 es el intercepto
e es una variable aleatoria con media 0 y varianza ²y/x.
2.1.1. Objetivos
 Establecer una relación cuantitativa entre dos variables relacionadas.
 PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el
valor de la otra variable relacionada (v. Independiente).
2.1.2. Supuestos
 Normalidad
 Homogeneidad
 Independencia
 Linealidad
2.1.3. Modelo Estimado
2.1.4. Interpretación del coeficiente de regresión “b”
5
Si b>0; indica que por cada unidad que se incremente en X, Y aumenta en
promedio en b unidades.
Si b<0; indica que por cada unidad que se incremente en X, Y disminuye en

promedio en b unidades.
Para obtener los coeficientes “a” y “b” del modelo de regresión estimado, se
aplica el método de mínimos cuadrado obteniendo los valores:
Conociendo b es posible hallar el valor de a con la ecuación:
Sin embargo, aún con la ecuación, como todos los puntos no están exactamente
sobre una línea recta, se cometen errores en el ajuste.
2.2. Coeficiente de determinación
Para medir la bondad de ajuste de los puntos a la recta utilizamos el coeficiente de

determinación: R2 = r²*100 nos indica que porcentaje de la variabilidad de los valores
de Y es explicada por la regresión. 0≤ R2 ≤ 100%
Ejemplo:
Interés: Determinar la correlación entre el número de hijos en la familia y el coeficiente

de inteligencia promedio de los hijos. Mediante un estudio transversal se obtuvo los
siguientes resultados:
6
NUMERO DE COEFICIENTE DE
HIJOS EN INTELIGENCIA
LA FAMILIA PROMEDIO DE LOS HIJOS
1 110
2 105
3 100
4 101
5 98
6 97
7 86
8 84
9 70
10 60
Comentario: Del cuadro se aprecia que hay una correlación inversa de las variables
en estudio.
Graficando mediante el diagrama de dispersión:
FAMILIAS SEGUN NUMERO DE HIJOS Y COEFICIENTE

120
DE INTELIGENCIA PROMEDIO
110
1; 110
Coeficiente de inteligencia
2; 105
3; 100 4; 101
100
5; 98
6; 97
90
7; 86
8; 84
80
70 9; 70
10; 60
60
0 1 2 3 4 5 6 7 8 9 10 11
Numero de hijos en la familia
Comentario: Del gráfico se aprecia que hay una correlación inversa de las variables en
estudio con tendencia lineal.
Para obtener el coeficiente de correlación estimado, primero se realiza los siguientes

cálculos preliminares:
7
COEFICIENTE DE
NUMERO DE
INTELIGENCIA
HIJOS EN
PROMEDIO DE LOS
LA FAMILIA
HIJOS X² Y² X*Y
X Y
1 110 1 12100 110
2 105 4 11025 210
3 100 9 10000 300
4 101 16 10201 404
5 98 25 9604 490
6 97 36 9409 582
7 86 49 7396 602
8 84 64 7056 672
9 70 81 4900 630
10 69 100 4761 690
55 920 385 86452 4690
ΣX ΣY ΣX² ΣY² ΣX*Y
Luego remplazamos los valores en la fórmula:
10*4690-55*920
r = ---------------------------------------------
√(10 ∗ 385 − (55)²) ∗ (10 ∗ 86452 − (920)²)
r = - 0.957
Interpretación: Existe una correlación lineal inversa intensa entre el número de hijos
en la familia y el coeficiente de inteligencia promedio de los hijos; es decir; a medida
que aumenta el número de hijos entonces el coeficiente de inteligencia promedio
disminuye.
Para evaluar si el coeficiente de correlación es o no significativo, aplicamos la prueba

estadística t- de student siguiendo los pasos:
8
Paso 1.- Planteamiento de hipótesis.
H0 :   0
H1 :   0
Paso 2.- Niveles de significación. (teórico) ”= 0.05”
Paso 3.- Estadístico de prueba.
Tcalc.= (- 0.957) 10 – 2 = - 9.3

1 – (- 0.957) 2 P=0.00001
GRADOS DE LIBERTAD = 10 – 2= 8
Paso 4.- Formular la regla de decisión

Como p-valor < 0.05 Se rechaza H0
Paso 5.- Conclusión:
Se concluye que hay evidencia suficiente para indicar que el coeficiente de correlación es
significativo, es decir: que el numero de hijos en la familia y el coeficiente de inteligencia
promedio de los hijos están intensamente correlacionados negativamente, para un nivel
de significación del 5%.
TAREA:
a) Estime la ecuación de regresión lineal simple: Y = a + b*X
b) Interprete el coeficiente de regresión “b” = …………..

c) Estime el coeficiente de inteligencia para una familia de 11 hijos.
d) ¿Cuánto vale “Y” para X=11?
e) Determina la bondad de ajuste del modelo. R2 =……….
9
III. APLICACIONES DE CHI CUADRADO
Se utiliza para variables cualitativas con escala de medición nominal. Fórmula de trabajo:
Ei= (Total de fila)(Total columna)

Gran total
Mide el grado de concordancia entre los pares de frecuencias observadas y esperadas de

las celdas, dado que la Ho sea verdadera.
Aplicaciones mas usuales

de chi cuadrado
PRUEBA DE INDEPENDENCIA PRUEBA DE HOMOGENEIDAD
.- Una muestra .- Mas de una muestra

.- Dos variables cualitativas .- Una variable cualitativas
.- Ho : Independencia .- Ho : Homogeneidad
H1 : No independencia H1 : No homogeneidad
.- Se rechaza la hipótesis nula si P-valor < α
Ejemplo: Para estudiar la dependencia entre la práctica de algún deporte y la hipertensión,

se seleccionó una muestra aleatoria simple de 100 personas, con los siguientes resultados:
Hipertensión Arterial Total

Si No
No 38 9 47
Deportista
Deportista 31 22 53
Total 69 31 100
10
Solución:
1. Verificar que sean variables cualitativas
2. Planteamiento de hipótesis
H0: La Hipertensión Arterial es independiente de la práctica de algún deporte
H1: La Hipertensión Arterial está asociada a la práctica de algún deporte
3. Determinación del nivel de significación α = 0.05
4. Cálculo de frecuencias esperadas y 2:
47 x 69
E11   32.43
100
47 x31
E12   14.57
100
53 x 69
E21   36.57
100
53 x31
E22   16.43
100
 38  32.43  31  36.57   9  14.57   22  16.43
2 2 2 2
 c2    
32.43 36.57 14.57 16.43
 2
c  5,8227
Valor de p: Consultando la tabla de 2 con g.l.=1 se observa: 0.01<p<0.02

5. Decisión y conclusión: Decisión: Siendo p < 0.05, se rechaza Ho.
Conclusión: La Hipertensión Arterial está asociada con la práctica
Deportiva.
Ejemplo:
Evaluar la presencia de hipertensión arterial en pacientes provenientes de tres distritos de
la ciudad de Talara (Diciembre del 2006).
Hipertensión Distrito Total

Pariñas El Alto La Brea
Si 75 25 70 170
No 15 45 10 70
Total 90 70 80 240
¿Los 3 distritos son homogéneos respecto a la HTA?
11
1. Planteamiento de la hipótesis
Ho: Las muestras provienen de poblaciones homogéneas según la
presencia de hipertensión arterial.
H1: Las muestras no provienen de poblaciones homogéneas según la
presencia de hipertensión arterial.
2. Nivel de significación: α = 0.05
3. Frecuencias esperadas y cálculo de 2 :
170 x90 170 x 70

E11   63.75 E12   49.58
240 240
170 x80 70 x90
E13   56.67 E21   26.25
240 240
70 x 70 70 x80
E22   20.42 E23   23.34
240 240
 75  63.75   25  49.58  10  23.34 

2 2 2
 c2    ... 
63.75 49.58 23.34
 c2  59.34
Valor de p. Consultando la tabla de 2 = 59.34; con g.l.= 2 ; se observa p

< 0.005
4. Decisión y conclusión:
Decisión: Siendo p  0.05 se rechaza la hipótesis nula.
Conclusión: las muestras no provienen de poblaciones homogéneas. Es decir, la
presencia de hipertensión arterial es distinta en los tres distritos de la ciudad.
12
IV. ODDS RATIO Y RIESGO RELATIVO
Las medidas de frecuencia relativa solamente expresan el riesgo absoluto de enfermar. se

tienen dos tipos básicos de indicadores para medir la fuerza de asociación:
 riesgo relativo
 odds ratio
LA FORMA DE OBTENER ESTOS

VALORES DE RIESGO DEPENDE
DEL TIPO DE ESTUDIO
COHORTE CASO – CONTROL

(prospectivo) (retrospectivo)
(a / a+b) Odds ratio (OR) = a·d / b·c

Riesgo relativo (RR) = Ie+ / Ie- =
(c / c+d) Casos Controles
Exposición Sí a b
No c d
NOTA: Si : RR o OR < 1 : FACTOR PROTECTOR
RR o OR = 1 : SIN EFECTO
RR o OR > 1 : FACTOR DE RIESGO
Ejemplo:
Se tiene interés en evaluar si el uso de anticonceptivos orales es un factor de riesgo del
infarto miocárdico en mujeres casadas menores de 45 años de edad. Para tal efecto se
realiza un estudio comparativo tipo caso control y se obtienen los siguientes resultados:
Uso de anticonceptivos Pacientes con infarto Sin infarto

orales Miocárdico (Casos) Miocárdico (Controles)
___________________________________E_____________________E´_____
Si (F) 23 34
Nunca (F´) 35 132
_________________________________________________________________
Total 58 166
13
Se pide calcular e interpretar el odds ratio (OR):
P (F/E) 23/58
ODDS1 = ---------- = -----------
P (F’/E) 35/58
P (F/E’) 34/166
ODDS2 = ---------- = -----------
P (F’/E’) 132/166
Dividir los dos ODDS para calcular OR:
ODDS1 23*132
OR = ----------- = -------------------- = 2.55
ODDS2 34*35
Ejemplo
Evaluar si niveles altos de colesterol sérico (>250) se considera factor de riesgo de un infarto
del miocardio. Por consiguiente se realiza un estudio comparativo de cohortes y se obtiene
los siguientes resultados:
Niveles de colesterol Desarrolla IM No desarrolló IM Total

Sérico (mg%) E E´
_________________________________________________________
>250 F 10 125 135
250 F´ 21 449 470
_________________________________________________________
Se pide calcular e interpretar el riesgo relativo
P (E/F) 10/135
RR = --------- = ------------ = 1,66
P (E/F’) 21/470
14
15
16

Módulo III - Estadística Aplicada

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Módulo III - Estadística Aplicada

Uploaded by

Copyright:

Available Formats

MÓDULO III:

MÓDULO III: MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES Pág.

II. ANÁLISIS DE REGRESIÓN SIMPLE……………………………. 5

III. APLICACIONES DE CHI CUADRADO…………………………... 10

IV. ODDS RATIO Y RIESGO RELATIVO……………………………. 13

MEDIDAS DE ASOCIACIÓN ENTRE VARIABLES

Y su valor oscila entre: -1 ≤ ρ ≤1, para su interpretación:

1.1. Estimación del coeficiente de correlación (muestra)

Para estimar el parámetro , se recurre a una muestra aleatoria de n unidades . De

1.2. Evaluación de la significancia del coeficiente de correlación muestral

Paso 3.- Estadístico de prueba.

tcalc. = r* n–2 P – VALOR

Paso 4.- Formular la regla de decisión

II. ANÁLISIS DE REGRESIÓN SIMPLE

2.1. El Modelo de Regresión Lineal Simple

Está dado por: y=  + ß*x + e

2.1.3. Modelo Estimado

2.1.4. Interpretación del coeficiente de regresión “b”

Si b<0; indica que por cada unidad que se incremente en X, Y disminuye en

Conociendo b es posible hallar el valor de a con la ecuación:

2.2. Coeficiente de determinación

Para medir la bondad de ajuste de los puntos a la recta utilizamos el coeficiente de

Interés: Determinar la correlación entre el número de hijos en la familia y el coeficiente

Graficando mediante el diagrama de dispersión:

FAMILIAS SEGUN NUMERO DE HIJOS Y COEFICIENTE

Para obtener el coeficiente de correlación estimado, primero se realiza los siguientes

Luego remplazamos los valores en la fórmula:

Para evaluar si el coeficiente de correlación es o no significativo, aplicamos la prueba

Tcalc.= (- 0.957) 10 – 2 = - 9.3

Paso 4.- Formular la regla de decisión

a) Estime la ecuación de regresión lineal simple: Y = a + b*X

b) Interprete el coeficiente de regresión “b” = …………..

Ei= (Total de fila)(Total columna)

Mide el grado de concordancia entre los pares de frecuencias observadas y esperadas de

Aplicaciones mas usuales

PRUEBA DE INDEPENDENCIA PRUEBA DE HOMOGENEIDAD

.- Una muestra .- Mas de una muestra

.- Se rechaza la hipótesis nula si P-valor < α

Ejemplo: Para estudiar la dependencia entre la práctica de algún deporte y la hipertensión,

Hipertensión Arterial Total

Valor de p: Consultando la tabla de 2 con g.l.=1 se observa: 0.01<p<0.02

Hipertensión Distrito Total

¿Los 3 distritos son homogéneos respecto a la HTA?

170 x90 170 x 70

 75  63.75   25  49.58  10  23.34 

Valor de p. Consultando la tabla de 2 = 59.34; con g.l.= 2 ; se observa p

Las medidas de frecuencia relativa solamente expresan el riesgo absoluto de enfermar. se

LA FORMA DE OBTENER ESTOS

COHORTE CASO – CONTROL

(a / a+b) Odds ratio (OR) = a·d / b·c

Uso de anticonceptivos Pacientes con infarto Sin infarto

Dividir los dos ODDS para calcular OR:

Niveles de colesterol Desarrolla IM No desarrolló IM Total

Se pide calcular e interpretar el riesgo relativo

You might also like