You are on page 1of 19

Asignatura: Matemáticas

Curso: 1º Medicina
Tema: Análisis Descriptivo Bivariante (Ejercicios)

PROBLEMA 2.1.- Se ha medido a un grupo de 15 pacientes el nivel de carboxihemoglobina en


sangre antes y después de respirar un ambiente cargado de humo, obteniendo los siguientes
resultados:

(a) Construir el diagrama de dispersión y


calcular el coeficiente de correlación de
Pearson.
(b) Obtener la recta de regresión.

a.- El diagrama de dispersión es:

Para calcular el coeficiente de correlación de Pearson tenemos que calcular previamente los
valores de las medias marginales y las desviaciones marginales, así como de la covarianza.
Estos cálculos se recogen en las columnas anexas al gráfico. Para empezar, dado que las
frecuencias absolutas son siempre la unidad, las medias marginales se calculan como:

n n

∑ xi
45,6 ∑ yi
61,1
xm = i= 1
= = 3,04 ym = i= 1
= = 4,07
n 15 n 15
Para calcular las varianzas y las desviaciones aplicamos las fórmulas:

1
n

∑ xi2
194,88 sx = sx2 = 3,7504 = 1,9366
− ( 3,04 ) = 3,7504
2
s =
2
x
i= 1
− x = 2
m
n 15
n

∑ yi2
278,41 sy = s 2y = 1,9958 = 1,4127
− ( 4,07 ) = 1,9958
2
s 2y = i= 1
− ym2 =
n 15
Por último debemos calcular la covarianza:
n

∑ xi yi
223,51
sxy = i= 1
− xm ⋅ ym = − ( 3,04 ⋅ 4,07 ) = 2,5279
n 15
El coeficiente de correlación de Pearson se calcula como:

sxy 2,5279
r= = = 0,9240
sx ⋅ s y 1,9366 ⋅ 1,4127

b.- Para calcular la recta de regresión usamos las fórmulas:

sxy sxy
y− y = ⋅ ( x − x) x− x = ⋅ ( y − y)
sx2 s 2y
2,5279 2,5279
y − 4,07 = ⋅ ( x − 3,04 ) x − 3,04 = ⋅ ( y − 4,07 )
3,7504 1,9958
y = 0,674 x + 2,021 x = 1,267 y − 2,115

PROBLEMA 2. 2 Se ha medido el peso y la talla a un grupo de individuos obteniendo la


siguiente clasificación:

Peso/Talla [1,50 – 1,55) [1,55 – 1,60) [1,60 – 1,65) [1,65 – 1,70) [1,70 – 1,75) [1,75 – 1,80)
[50 – 55) 6 7 4 1 0 0 18
[55 – 60) 2 7 6 3 0 0 18
[60 – 65) 1 3 9 12 5 0 30
[65 – 70) 0 0 2 8 10 4 24
[70 – 75) 0 0 1 3 15 10 29
[75 – 80) 0 0 1 5 9 16 31
9 17 23 32 39 30

2
(a) Obtener las distribuciones marginales del peso y la talla.
(b) Obtener la distribución del peso de los individuos que miden entre 1,75 y 1,80 m.
(c) Estudiar la independencia de las variables.

a.- Para obtener las distribuciones marginales debemos asociar a cada intervalo la suma de los
elementos que contiene, sin tener en cuenta la otra variable. Estos valores se recogen en la 1º-
8º columna para la X y la 1º-8º fila para la Y.

Para que queden claras, las distribuciones marginales son:

Peso ni- fi- Talla n-j f-j


[50 – 55) 18 18/150 [1,50 – 1,55) 9 9/150
[55 – 60) 18 18/150 [1,55 – 1,60) 17 17/150
[60 – 65) 30 30/150 [1,60 – 1,65) 23 23/150
[65 – 70) 24 24/150 [1,65 – 1,70) 32 32/150
[70 – 75) 29 29/150 [1,70 – 1,75) 39 39/150
[75 – 80) 31 31/150 [1,75 – 1,80) 30 30/150

b.- Para obtener la distribución de los individuos que miden entre [1,75-1,80) tenemos que
calcular la distribución condicionada. Basta con fijarnos en la columna correspondiente:

c.- Para analizar la independencia de las variables


podemos recurrir al criterio de independencia, que nos
dice que dos variables son independientes si se cumple
que:
fij = fi − ⋅ f − j
En la siguiente tabla incluimos los valores de frecuencia
relativa para cada entrada, además de las marginales, y
el producto de las marginales, que pondremos en rojo.

Peso/Talla [1,50 – 1,55) [1,55 – 1,60) [1,60 – 1,65) [1,65 – 1,70) [1,70 – 1,75) [1,75 – 1,80)
6/150 7/150 4/150 1/150 0 0
[50 – 55)
1,08/150 2,04/150 2,76/150 3,84/150 4,68/150 3,6/150 18/150
2/150 7/150 6/150 3/150 0 0
[55 – 60)
1,08/150 2,04/150 2,76/150 3,84/150 4,68/150 3,6/150 18/150
1/150 3/150 9/150 12/150 5/150 0
[60 – 65)
1,8/150 3,4/150 4,6/150 6,4/150 7,8/150 6/150 30/150
0 0 2/150 8/150 10/150 4/150
[65 – 70)
1,44/150 2,72/150 3,68/150 5,12/150 6,24/150 4,8/150 24/150
0 0 1/150 3/150 15/150 10/150
[70 – 75)
1,74/150 3,29/150 4,45/150 6,19/150 7,54/150 5,8/150 29/150
0 0 1/150 5/150 9/150 16/150
[75 – 80)
1,86/150 3,51/150 4,75/150 6,61/150 8,06/150 6,2/150 31/150
9/150 17/150 23/150 32/150 39/150 30/150

Por lo tanto, como no coinciden no son independientes. Para estimar el grado de dependencia
entre las variables tendremos que calcular el coeficiente r de Pearson. Para ello hemos de
empezar por tabular los datos en columnas, además aprovecharemos para eliminar los valores
que tienen frecuencia nula, y para incluir como referencia las marcas de las clases:

n n n n n
X Y nij ∑i= 1
xi ⋅ ni ∑i= 1
yi ⋅ ni ∑
i= 1
xi2 ⋅ ni ∑
i= 1
yi2 ⋅ ni ∑i= 1
xi yi ni
52,5 1,525 6 315 9,15 16537,50 13,95 480,38
57,5 1,525 2 115 3,05 6612,50 4,65 175,38
62,5 1,525 1 62,5 1,525 3906,25 2,33 95,31
52,5 1,575 7 367,5 11,025 19293,75 17,36 578,81
57,5 1,575 7 402,5 11,025 23143,75 17,36 633,94
62,5 1,575 3 187,5 4,725 11718,75 7,44 295,31
52,5 1,625 4 210 6,5 11025,00 10,56 341,25
57,5 1,625 6 345 9,75 19837,50 15,84 560,63
62,5 1,625 9 562,5 14,625 35156,25 23,77 914,06
67,5 1,625 2 135 3,25 9112,50 5,28 219,38
72,5 1,625 1 72,5 1,625 5256,25 2,64 117,81

3
77,5 1,625 1 77,5 1,625 6006,25 2,64 125,94
52,5 1,675 1 52,5 1,675 2756,25 2,81 87,94
57,5 1,675 3 172,5 5,025 9918,75 8,42 288,94
62,5 1,675 12 750 20,1 46875,00 33,67 1256,25
67,5 1,675 8 540 13,4 36450,00 22,45 904,50
72,5 1,675 3 217,5 5,025 15768,75 8,42 364,31
77,5 1,675 5 387,5 8,375 30031,25 14,03 649,06
62,5 1,725 5 312,5 8,625 19531,25 14,88 539,06
67,5 1,725 10 675 17,25 45562,50 29,76 1164,38
72,5 1,725 15 1087,5 25,875 78843,75 44,63 1875,94
77,5 1,725 9 697,5 15,525 54056,25 26,78 1203,19
67,5 1,775 4 270 7,1 18225,00 12,60 479,25
72,5 1,775 10 725 17,75 52562,50 31,51 1286,88
77,5 1,775 16 1240 28,4 96100,00 50,41 2201,00
150 9980 252 674287,50 424,18 16838,88

Empecemos calculando las medias marginales:

n n

∑ xi ⋅ ni
9980 ∑ yi ⋅ ni
252
xm = i= 1
= = 66,53 ym = i= 1
= = 1,68
n 150 n 150
A continuación calculamos las varianzas y desviaciones marginales:

∑ xi2 ⋅ ni
674287,50
− ( 66,53) = 69,0091
2
sx2 = i= 1
− xm2 =
n 150
sx = sx2 = 69,0091 = 8,3072
n

∑ yi2 ⋅ ni
424,18
− ( 1,68 ) = 5,467 ⋅ 10− 3
2
s 2y = i= 1
− ym2 =
n 150
sy = s 2y = 5,467 ⋅ 10− 3 = 0,0739

Y por último la covarianza:

∑ xi yi ni
16838,88
sxy = i= 1
− xm ⋅ ym = − ( 66,53 ⋅ 1,68 ) = 0,4888
n 150
El coeficiente r de Pearson nos queda como:

sxy 0,4888
r= = = 0,7962
sx ⋅ s y 8,3072 ⋅ 0,0739

Lo que indica un buen grado de correlación lineal entre ambas variables.

4
PROBLEMA 2.3.- Consideremos la variable aleatoria bidimensional dada por la tabla siguiente:

(a) Determinar las distribuciones marginales de X e Y.


(b) Calcular las medias y varianzas marginales.
(c) Obtener el valor de la covarianza entre X e Y. ¿Son
independientes?.

a.- Para obtener las distribuciones marginales debemos hacer las sumas de cada categoría de
cada una de las variables. La tabla completa con las frecuencias marginales nos quedaría:

Y→
0 1 2
X↓
-1 10/100 5/100 15/100 30/100
0 20/100 2/100 8/100 30/100
0,5 10/100 5/100 2/100 17/100
1 8/100 10/100 5/100 23/100
48/100 22/100 30/100 1

Las distribuciones marginales son:

X fi- Y f-j
-1 30/100 0 48/100
0 30/100 1 22/100
0,5 17/100 2 30/100
1 23/100

b.- Para calcular las medias y varianzas marginales, vamos a describir la tabla de contingencia
en forma de columnas, como en los casos anteriores:

n n n n n
X Y nij ∑
i= 1
xi ⋅ ni ∑
i= 1
yi ⋅ ni ∑
i= 1
xi2 ⋅ ni ∑i= 1
yi2 ⋅ ni ∑
i= 1
xi yi ni
-1 0 10 -10 0 10 0 0
0 0 20 0 0 0 0 0
0,5 0 10 5 0 2,5 0 0
1 0 8 8 0 8 0 0
-1 1 5 -5 5 5 5 -5
0 1 2 0 2 0 2 0
0,5 1 5 2,5 5 1,25 5 2,5
1 1 10 10 10 10 10 10
-1 2 15 -15 30 15 60 -30
0 2 8 0 16 0 32 0
0,5 2 2 1 4 0,5 8 2
1 2 5 5 10 5 20 10
100 1,5 82 57,25 142 -10,5

1,5 82
x= = 0,015 y = = 0,82
100 100
57,25
sx2 = − (0,015) 2 = 0,5723
100 sx = sx2 = 0,5723 = 0,7565
142
s 2y = − (0,82)2 = 0,7476 sy = s 2y = 0,7476 = 0,8646
100

5
C.- Covarianza y si son independientes:

− 10,5
sx , y = − ( 0,015 ⋅ 0,82 ) = − 0,1173
100
Para comprobar la independencia debemos recurrir al criterio de independencia, que nos dice
que dos variables son independientes si se cumple que:
fij = fi − ⋅ f − j

Y→
0 1 2
X↓
10/100 5/100 15/100
-1 30/100
14,4/100 6,6/100 9/100
0 20/100 2/100 8/100 30/100
0,5 10/100 5/100 2/100 17/100
1 8/100 10/100 5/100 23/100
48/100 22/100 30/100 1

Con sólo comprobar la primera fila vemos que no son independientes.

PROBLEMA 2.4.- Los siguientes datos representan lecturas de la presión sistólica, en mm.Hg.,
de 12 mujeres, en las edades que se indican:

EDAD 22 27 29 32 35 40 48 50 51 57 67 71
PRESIÓN 131 106 123 122 121 147 115 163 138 141 176 172

Calcular el coeficiente de correlación lineal y la recta de regresión mínimo cuadrática de la


presión sobre la edad. ¿Qué porcentaje de variabilidad es explicada por el modelo?.

Para resolver este problema actuaríamos como en los ejemplos anteriores, con la salvedad de
que ahora las frecuencias absolutas asociadas a cada una de las entradas es la unidad. De
este modo tenemos:

n n n
Edad Presión ∑
i= 1
2
x
i ∑
i= 1
y2
i ∑i= 1
xy
i i

22 131 484 17161 2882


27 106 729 11236 2862
29 123 841 15129 3567
32 122 1024 14884 3904
35 121 1225 14641 4235
40 147 1600 21609 5880
48 115 2304 13225 5520
50 163 2500 26569 8150
51 138 2601 19044 7038
57 141 3249 19881 8037
67 176 4489 30976 11792
71 172 5041 29584 12212
529 1655 26087 233939 76079

Empezamos calculando los estadísticos marginales y la covarianza:

529 1655
x= = 44,083 y= = 137,92
12 12

6
26087 233939
sx2 = − (44,083)2 = 230,57 s 2y = − (137,917)2 = 473,909
12 12
sx = sx2 = 15,1847 sy = s 2y = 21,7695
76079
sxy = − ( 44,083 ⋅ 137,92 ) = 260,09
12
Calculemos el valor de r:

sxy 260,09
r= = = 0,7868
sx ⋅ s y ( 15,1847 ⋅ 21,7695)
La recta de regresión de mínimos cuadrados de Y (presión) sobre X (edad):

s 
y − y =  xy2  ⋅ ( x − x )
 sx 
 260,09 
y − 137,92 =   ⋅ ( x − 44,083)
 230,58 
y − 137,92 = 1,128 ⋅ ( x − 44,083)
y = 1,128 x + 88,194

El % de variabilidad de Y explicada por el modelo es:

r 2 = 0,6190 → 61,9%
PROBLEMA 2.5.- Los siguientes datos representan las calificaciones de 10 alumnos elegidos al
azar en las asignaturas de Matemáticas y Física:

MAT 5 8 7 3 4 4 9 8 2 7
FIS 6 8 6 5 5 4 9 6 5 6

(a) Dibujar un diagrama de dispersión.


(b) Hallar el coeficiente de correlación.
(c) Obtener las rectas de regresión mínimo cuadráticas de la calificación en Matemáticas sobre
la calificación en Física, y recíprocamente.
(d) Predecir la nota en Física de un alumno que haya obtenido una calificación de 6 en
Matemáticas.

a.- Empezamos dibujando un diagrama de dispersión de los datos:

7
b.- Para buscar el coeficiente de correlación vamos a obterner los valores de los estadísticos
marginales, pero para ello tenemos que disponer de la tabla completa:

n n n
Mat Fis ∑i= 1
xi2 ∑i= 1
yi2 ∑
i= 1
xi yi
5 6 25 36 30
8 8 64 64 64
7 6 49 36 42
3 5 9 25 15
4 5 16 25 20
4 4 16 16 16
9 9 81 81 81
8 6 64 36 48
2 5 4 25 10
7 6 49 36 42
57 60 377 380 368

57 60
x= = 5,7 y= = 6
10 10
377 380
sx2 = − (5,7) 2 = 5,21 s 2y = − (6)2 = 2
10 10
sx = sx2 = 2,2825 sy = s 2y = 1,4142
368
sxy = − ( 5,7 ⋅ 6 ) = 2,6
10
De donde podemos calcular el coeficiente de correlación como:

sxy 2,6
r= = = 0,8054
sx ⋅ s y ( 2,2825 ⋅ 1,4142 )
c.- Obtengamos ahora las rectas de regresión:

8
s  s 
y − y =  xy2  ⋅ ( x − x ) x − x =  xy2  ⋅ ( y − y )
 sx   sy 
 
 2,6   2,6 
y− 6=   ⋅ ( x − 5,7 ) x − 5,7 =   ⋅ ( y − 6)
 5,21   2 
y − 6 = 0,4990 ⋅ ( x − 5,7 ) x − 5,7 = 1,3 ⋅ ( y − 6 )
yFIS = 0,4990 xMAT + 3,1557 xMAT = 1,3 yFIS − 2,1
d.- Por último, vamos a predecir, usando la recta de regresión, la nota de física de un alumno
que ha sacado un 6 en matemáticas:

yFIS = 0,4990 ⋅ 6 + 3,1557 = 6,15

PROBLEMA 2.6.- Los siguientes datos representan la edad y concentración de colesterol en


suero sanguíneo en 15 mujeres:

EDAD 46 52 38 65 54 33 49 76 71 41 57 18 44 33 78
COLEST 181 228 182 249 259 201 121 339 225 110 188 137 170 173 243

a.- Obtener el coeficiente de correlación lineal y la recta de regresión mínimos cuadrados de Y


sobre X. ¿Qué porcentaje de variabilidad queda explicada por el modelo?.
b.- A la vista del estudio anterior, ¿cuál debe ser la concentración de colesterol en suero
sanguíneo en una mujer de 50 años?.

a.- Vamos a empezar por tabular los datos en columnas y obtener los estadísticos marginales,
además de la covarianza. Esto nos llevará al valor de r:

n n n
Edad Colest ∑i= 1
x2
i ∑
i= 1
2
y
i ∑
i= 1
xyi i

46 181 2116 32761 8326


52 228 2704 51984 11856
38 182 1444 33124 6916
65 249 4225 62001 16185
54 259 2916 67081 13986
33 201 1089 40401 6633
49 121 2401 14641 5929
76 339 5776 114921 25764
71 225 5041 50625 15975
41 110 1681 12100 4510
57 188 3249 35344 10716
18 137 324 18769 2466
44 170 1936 28900 7480
33 173 1089 29929 5709
78 243 6084 59049 18954
755 3006 42075 651630 161405

755 3006
x= = 50,33 y= = 200,4
15 15
42075 651630
sx2 = − (50,33)2 = 271,55 s 2y = − (200,4) 2 = 3281,84
15 15
sx = sx2 = 16,479 sy = s 2y = 57,287
9
161405
sxy = − ( 50,33 ⋅ 200,4 ) = 673,533
15
De donde:

sxy 673,533
r= = = 0,7135
sx ⋅ s y ( 16,479 ⋅ 57,287 )
La recta de regresión tiene la forma:

s 
y − y =  xy2  ⋅ ( x − x )
 sx 
 673,533 
y − 200,4 =   ⋅ ( x − 50,33)
 271,555 
y − 200,4 = 2,4803 ⋅ ( x − 50,33)
yCOLEST = 2,4803xEDAD + 75,567

El % de variabilidad explicado por el modelo es:

r 2 = 0,5090 → 50,9%

b.- Una mujer de 50 años debería tener en el


suero en torno a:

yCOLEST = 2,4803 ⋅ 50 + 75,567 = 199,58

PROBLEMA 2.7.- Los siguientes datos representan las puntuaciones en un test de capacidad
memorística y un test de inteligencia obtenida por 10 individuos estudiados:

Memoria 17 23 25 36 38 40 42 46 55 62
Inteligencia 37 58 14 43 27 60 25 33 19 49

a) Representar el diagrama de dispersión correspondiente. A la vista de éste, ¿puede sacarse


alguna conclusión?.
b) Obtener el coeficiente de correlación lineal.

a.- Empecemos por representar en un diagrama de dispersión los puntos de la muestra:

10
Mirando el diagrama de dispersión vemos que la nube de puntos está muy dispersa, y no sigue
una distribución reconocible.

b.- Esta claro que los puntos no siguen una distribución lineal, pero una manera de demostrarlo
es calcular el coeficiente de regresión, r, el cual se parecerá a 0.

Para no extender este capítulo con operaciones ya conocidas, ponemos los valores calculados
de los estadísticos marginales y de la r:

media x 38,4
media y 36,5
varianza x 178,64
desv x 13,3656276
varianza y 226,05
desv y 15,0349593
covar -7,8
r -0,0388153
r2 0,00150663

PROBLEMA 2.8.- Los datos siguientes son las medidas de las concentraciones de Calcio, en
mg/100 ml., y de la hormona paratiroides en plasma de 12 individuos sanos, medida esta última
en mμg/ml.

Ca 11 11 10,6 10,5 10,6 10,4 10,2 9,5 8,2 7,5 6 5


PTH 0,3 0,5 1,12 1,23 1,24 1,31 1,33 2,10 2,15 2,43 3,7 4,27

a) ¿Existe relación lineal entre ambas variables?


b) Calcular el nivel de PTH que le correspondería a un nivel de 10 mg/100 ml. de Ca.
c) Calcular el nivel de Ca que correspondería a una PTH de 1,5 mμg/ml.

a.- Para calcular la posible relación entre dos variables cuantitativas continuas (como las del
supuesto) debemos calcular el coeficiente de correlación de Pearson. Para ello, como ya
hemos visto en ocasiones anteriores, es preciso calcular los estadísticos marginales y la
covarianza. Empecemos por tabular los datos en columnas:

n n n
Ca PTH ∑
i= 1
xi2 ∑
i= 1
yi2 ∑
i= 1
xi yi
11 0,3 121 0,09 3,3
11 0,5 121 0,25 5,5
10,6 1,12 112,36 1,2544 11,872
10,5 1,23 110,25 1,5129 12,915
10,6 1,24 112,36 1,5376 13,144
10,4 1,31 108,16 1,7161 13,624
11
10,2 1,33 104,04 1,7689 13,566
9,5 2,10 90,25 4,41 19,95
8,2 2,15 67,24 4,6225 17,63
7,5 2,43 56,25 5,9049 18,225
6 3,7 36 13,69 22,2
5 4,27 25 18,2329 21,35
110,5 21,68 1063,91 54,9902 173,276

Ahora calculamos los estadísticos marginales:

110,5 21,68
x= = 9,2083 y = = 1,8067
12 12
1063,91 54,99
sx2 = − (9,2083) 2 = 3,8657 s 2y = − (1,8067) 2 = 1,3185
12 12
sx = sx2 = 1,9662 sy = s 2y = 1,1482
173,276
sxy = − ( 9,2083 ⋅ 1,8067 ) = − 2,1967
12
De donde:

sxy − 2,1967
r= = = -0,9730
sx ⋅ s y ( 1,9662 ⋅ 1,1482 )
Vemos que existe una fuerte correlación entre las variables. Que sea negativo indica que
cuando una de las variables crece la otra decrece (relación inversa).

b y c.- Para responder a estas dos cuestiones hemos de calcular las rectas de regresión de Y
sobre X y de X sobre Y.

s  s 
y − y =  xy2  ⋅ ( x − x ) x − x =  xy2  ⋅ ( y − y )
 sx   s 
 y 
 − 2,1967 
y − 1,8067 =   ⋅ ( x − 9,2083) x − 9,2083 =  − 2,1967  ⋅ ( y − 1,8066 )
 3,8658   1,3185 
 
y − 1,8067 = − 0,5682 ⋅ ( x − 9,2083) x − 9,2083 = − 1,666 ⋅ ( y − 1,8066 )
yPTH = − 0,5682 xCa + 7,0389 xCa = − 1,666 yPTH + 12,2180
yPTH = − 0,5682 ⋅ 10 + 7,0389 = 1,357 xCa = − 1,666 ⋅ 1,5 + 12,2180 = 9,719

PROBLEMA 2.9.- Queremos estudiar la relación entre los niveles de hematocrito de recién
nacidos de madres diabéticas y su peso obteniendo los siguientes resultados:

% hematocrito 63 60 58 61 65 60 57 58 55 56
Peso (Kg) 3,2 3,1 2,8 2,9 3,2 2,8 2,7 2,9 2,6 2,5

¿Qué nivel de hematocrito podemos esperar para un recién nacido de madre diabética con un
peso de 3 kg?.

Vamos a tabular los datos en columnas:

12
n n n
%
Hematocrito
Peso
(Kg) ∑
i= 1
x2
i ∑
i= 1
y 2
i ∑
i= 1
xyi i

63 3,2 3969 10,24 201,6


60 3,1 3600 9,61 186
58 2,8 3364 7,84 162,4
61 2,9 3721 8,41 176,9
65 3,2 4225 10,24 208
60 2,8 3600 7,84 168
57 2,7 3249 7,29 153,9
58 2,9 3364 8,41 168,2
55 2,6 3025 6,76 143
56 2,5 3136 6,25 140
593 28,7 35253 82,89 1708

Los estadísticos son:

media x 59,3
media y 2,87
varianza x 8,81
desv x 2,96816442
varianza y 0,0521
desv y 0,22825424
covar 0,609
r 0,89889813
r2 0,80801785

Vamos a calcular ahora la recta de regresión de X (hematocrito) sobre Y (peso), y nos queda:

s 
x − x =  xy2  ⋅ ( y − y )
 s 
 y 
 0,609 
x − 59,3 =   ⋅ ( y − 2,87 )
 0,0521 
x − 59,3 = 11,6891 ⋅ ( y − 2,87 )
xHem = 11,6891yPeso + 25,7523

Para un peso de 3Kg el % de hematocrito esperado es:

xHem = 11,6891 ⋅ 3 + 25,7523 = 60,82

13
PROBLEMA 2.10.- Se ha medido el aclaramiento renal de creatinina en pacientes tratados con
Captopril tras la suspensión del tratamiento con diálisis, resultando la siguiente tabla:

Días tras diálisis 1 5 10 15 20 25 30 35 40


Creatinina mg/dl 5,7 5,2 4,8 4,5 4,2 4 3,8 3,7 3,5

Si un individuo presenta 4'1 mg/dl de creatinina, ¿cuánto tiempo es de esperar que haya
transcurrido desde la suspensión de la diálisis?.

Vamos a tabular los datos por columnas:

n n n
Días Creatinina ∑
i= 1
xi2 ∑
i= 1
yi2 ∑i= 1
xi yi
1 5,7 1 32,49 5,7
5 5,2 25 27,04 26
10 4,8 100 23,04 48
15 4,5 225 20,25 67,5
20 4,2 400 17,64 84
25 4 625 16 100
30 3,8 900 14,44 114
35 3,7 1225 13,69 129,5
40 3,5 1600 12,25 140
181 39,4 5101 176,84 714,7

Ahora vamos a calcular los estadísticos marginales y la covarianza, además de r y r2.

media x 20,111
media y 4,3778
varianza x 162,321
desv x 12,741
varianza y 0,484
desv y 0,696
covar -8,631
r -0,974
r2 0,948

En cuanto a la recta de regresión de tiempo vs creatinina es:

14
s 
x − x =  xy2  ⋅ ( y − y )
 s 
 y 
 − 8,6309 
x − 20,111 = 
0,4840  ⋅ ( y − 4,378 )
 
x − 20,111 = − 17,8324 ⋅ ( y − 4,378)
xDias = − 17,8324 yCrea + 98,1812

Y para un nivel de creatinina de 4,1 mg/dl el número de días esperados es:

xDias = − 17,8324 ⋅ 4,1 + 98,1812 = 25,07

PROBLEMA 2.11.- Se lleva a cabo un estudio, por medio de detectores radioactivos, de la


capacidad corporal para absorber hierro. Participan en el estudio 10 sujetos. A cada uno se le
da una dosis oral idéntica de hierro. Transcurridos 6 y 12 días se mide la cantidad de hierro
retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el
cuerpo. Se obtuvieron los siguientes datos:

% Fe 6 días 8 17 18 25 58 59 41 30 43 58
% Fe 12 días 17 22 35 43 80 85 91 92 96 100
Obtener el coeficiente de correlación lineal. ¿Qué % de hierro se estima que absorbe un
individuo a los 12 días si la absorción a los 6 días fue del 50 %?.

Empecemos por tabular los datos en columnas:

n n n
Fe 6
días
Fe 12
días ∑i= 1
xi2 ∑ i= 1
yi2 ∑
i= 1
xyi i

8 17 64 289 136
17 22 289 484 374
18 35 324 1225 630
25 43 625 1849 1075
58 80 3364 6400 4640
59 85 3481 7225 5015
41 91 1681 8281 3731
30 92 900 8464 2760
43 96 1849 9216 4128
58 100 3364 10000 5800
357 661 15941 53433 28289

Los estadísticos marginales asociados, y el valor del coeficiente de correlación de Pearson son:

15
Ahora buscamos la recta de regresión de Y(12 días) sobre X(6 días):

s 
y − y =  xy2  ⋅ ( x − x )
 sx 
 469,13 
y − 66,1 = 
319,61  ⋅ ( x − 35,7 )
 
y − 66,1 = 1,4678 ⋅ ( x − 35,7 )
y12 = 1,4678 x6 + 13,6995 y12 = 1,4678 ⋅ 50 + 13,6995 = 87,08

PROBLEMA 2.12.- Se está investigando la relación entre la hipertensión intraocular y el sexo


de los individuos. Entre los hombres sometidos al estudio encontramos 35 normales, 34
sospechosos y 32 con hipertensión intraocular. Entre las mujeres se encontraron 60 normales,
16 sospechosas y 27 con hipertensión intraocular. Calcular el coeficiente de contingencia
asociado.

En este caso se trata de dos variables cualitativas (atributos) y debemos tabularlas como una
tabla de contingencia.

Hipertensión
X ,Y Normales Sospechosos
intraocular
TOTAL
35 34 32
Hombre (47,03) (24,75) (29,21)
101
60 16 27
Mujer (47,97) (25,25) (29,79)
103

TOTAL 95 50 59 204

Las hipótesis a contrastar son:

• H0: Independencia. La hipertensión intraocular no depende del sexo del indivíduo.


• H1: Dependencia. Hay diferencias apreciables en la prevalencia de la hipertensión
intraocular en hombres y mujeres.

Debemos empezar calculando el valor del parámetro χ2, para lo cual debemos calcular las
frecuencias esperadas en cada caso. Estas frecuencias las vamos a marcar entre paréntesis
en cada uno de los casilleros. Con estos valores podemos calcular el valor de χ2 como:

( 35 −
47,03) ( 34 − 24,75) + ( 32 − 29,21) +
2 2 2

χ =
2
+
47,03 24,75 29,21
( 60 − 47,97 ) ( 16 − 25,25) + ( 27 − 29,79 ) = 13,4643
2 2 2

+
47,97 25,25 29,79
El valor teórico esperado para una significación de p=0,05, y 2 grados de libertad, es de 5,99.
Como el valor calculado es mayor hemos de rechazar la hipótesis nula y admitir la hipótesis
alternativa. Por lo tanto, admitimos que hay asociación entre el sexo del sujeto y la tendencia a
tener hipertensión intraocular.

Pero, ¿cuál es la asociación?. Para ver la asociación vamos a plantear la tabla de frecuencias
relativas:

16
Hipertensión
X ,Y Normales Sospechosos
intraocular
TOTAL
Hombre 0,17 0,17 0,16 0,50
Mujer 0,29 0,08 0,13 0,50
TOTAL 0,47 0,25 0,29 1,00

Vemos que son las mujeres las que presentan más probabilidad de padecer este problema.
Pero, ¿es mucho mayor que en el caso de los hombres esta probabilidad?. Para ello vamos a
calcular el coeficiente de contingencia:

χ 2
13,4643
C= = = 0,2488
χ2+ n 13,4643 + 204

Esto nos indica que existe una predominancia significativa, aunque no muy elevada de las
mujeres. (recordemos que C varía entre 0 y un valor máximo cercano a la unidad).

PROBLEMA 2.13.- Se está investigando la relación que hay entre dos escalas para medir la
presencia de Burnout (Síndrome de estar quemado en español). Para ello, a 10 individuos se
les pasan ambos test obteniendo los siguientes resultados:

Test 1 154 170 165 160 163 159 168 167 162 158
Test 2 67 80 73 70 78 71 82 74 77 68

Estudiar dicha relación con el coeficiente de correlación por rangos de Spearman.

Test 1 Orden Test 1 Test 2 Orden Test 2 d d2


154 1 67 1 0 0
170 10 80 9 1 1
165 7 73 5 2 4
160 4 70 3 1 1
163 6 78 8 -2 4
159 3 71 4 -1 1
168 9 82 10 -1 1
167 8 74 6 2 4
162 5 77 7 -2 4
158 2 68 2 0 0
20

n
6⋅ ∑ d2
6 ⋅ 20
rs = 1 − i= 1
= 1− = 0,8788
n ⋅ (n − 1)
2
10 ⋅ (100 − 1)

Sabemos que el coeficiente oscila entre -1 y 1, vemos que el grado de asociación es alto. Si
planteamos el ejercicio como un contraste de hipótesis tendríamos que:

H0 = Las dos variables no están asociadas a un nivel de significación del 0,05


H1 = Las dos variables están asociadas a un nivel de significación del 0,05.

Si buscamos el valor de la rs para 9 grados de libertada (nº parejas -1) llegamos a: 0,700. El
dato que hemos obtenido experimentalmente es mayor, luego rechazamos la H0 y aceptamos
la hipótesis de la asociación entre las variables.

PROBLEMA 2.14.- Se desea saber el grado de asociación entre el valor del test de apgar
realizado a los recién nacidos al minuto de vida y la utilización de anestesia epidural. Para ello
se recogieron los siguientes datos (ver tabla):

Estudiar dicha asociación a través del coeficiente de contingencia.

17
El test de Apgar es un examen clínico de neonatología que tiene por objeto determinar la
situación del recién nacido inmediatamente después de parto. El recién nacido es evaluado de
acuerdo a cinco parámetros fisioanatómicos simples, que son: color de la piel, frecuencia
cardiaca, reflejos, tono muscular y respiración. A cada parámetro se le asigna una puntuación
entre 0 y 2, sumando las cinco puntuaciones se obtiene el resultado del test.

La palabra APGAR puede usarse como acrónimo o regla mnemotécnica recordando los
criterios evaluados: Apariencia, Pulso, Gesticulación, Actividad y Respiración.

La valoración de apgar debe medirse al minuto y a los 5 minutos para que se considere una
valoración efectiva siendo el resultado normal esperado entre 8 y 9.

En este caso se trata de dos variables cualitativas (atributos), aunque el test de apgar tiene
valores numéricos, y debemos tabularlas como una tabla de contingencia.

X ,Y 7 8 9 TOTAL
5 374 275
Con Epidural (5,37 (373,08 (275,56 654
) ) )
1
43 33
Sin Epidural (0,63 77
(43,92) (32,44)
)
TOTAL 6 417 308 731

Las hipótesis a contrastar son:

• H0: Independencia. El resultado del test no se influye por la intervención con anestesia
epidural.
• H1: Dependencia. Hay diferencias apreciables en los resultados del test de apgar con y
sin anestesia epidural.

Debemos empezar calculando el valor del parámetro χ2, para lo cual debemos calcular las
frecuencias esperadas en cada caso. Estas frecuencias las vamos a marcar entre paréntesis
en cada uno de los casilleros. El valor de χ2 es:

χ 2 = 0,2719
El valor teórico esperado para una significación de p=0,05, y 2 grados de libertad, es de 5,99.
Como el valor calculado es menor hemos de aceptar la hipótesis nula y admitir que no existen
diferencias apreciables entre usar la epidural o no respecto a los valores obtenidos en el test de
apgar.

Para comprobar esta baja asociación vamos a calcular el coeficiente de contingencia:

χ 2
0,2719
C= = = 0,0193
χ + n
2
0,2719 + 731

Un valor tan cercano a 0 indica una escasísima asociación, en nuestro caso ni siquiera
significativa.

18
PROBLEMA 2.15.- Se desea saber la relación que hay entre la nota de selectividad y el
número de asignaturas aprobadas el primer año de carrera. Para ello, se seleccionan 10
individuos aleatoriamente obteniendo los siguientes resultados:

Test 1 9 10,5 11,2 12,4 13,1 10,7 12,2 11,5 12 10,6


Test 2 6 8 7 7 7 7 8 9 7 6

Estudiar dicha relación con el coeficiente de correlación por rangos de Spearman.

Test 1 Orden Test 1 Test 2 Orden Test 2 d d2


9 1 6 1,5 -0,5 0,25
10,5 2 8 8,5 -6,5 42,25
11,2 5 7 5 0 0
12,4 9 7 5 4 16
13,1 10 7 5 5 25
10,7 4 7 5 -1 1
12,2 8 8 8,5 -0,5 0,25
11,5 6 9 10 -4 16
12 7 7 5 2 4
10,6 3 6 1,5 1,5 2,25
107
n
6⋅ ∑ d2
6 ⋅ 107
rs = 1 − i= 1
= 1− = 0,3515
n ⋅ (n − 1)
2
10 ⋅ (100 − 1)

Sabemos que el coeficiente oscila entre -1 y 1, vemos que el grado de asociación no es muy
alto. Si planteamos el ejercicio como un contraste de hipótesis tendríamos que:

H0 = Las dos variables no están asociadas a un nivel de significación del 0,05


H1 = Las dos variables están asociadas a un nivel de significación del 0,05.

Si buscamos el valor de la rs para 9 grados de libertada (nº parejas -1) llegamos a: 0,700. El
dato que hemos obtenido experimentalmente es menor, luego aceptamos la H0, no hay
asociación significativa entre las variables.

19

You might also like