You are on page 1of 27

Bioestadística Prof. Silvia Carhuayo L.

UNIDAD DE APRENDIZAJE II

MEDIDAS DESCRIPTIVAS

1. DEFINICIÓN
Las medidas descriptivas son valores numéricos calculados a partir de los datos de la
población o muestra y que resumen la información contenida en ella como son los valores
alrededor de los cuales se agrupa la población o muestra, la mayor o menor fluctuación
alrededor de esos valores, valores que marcan posiciones características de una distribución
de frecuencias así como la forma de la distribución.

2. TIPOS

Medidas
descriptivas

Medidas de
centralización o Medidas de Medidas de
dispersión forma
posición

Media
Mediana Absolutas Relativas Asimetría Apuntamiento
Moda
Cuantiles, etc.

3. MEDIDAS DE CENTRALIZACIÓN
Son valores que permiten resumir un conjunto de datos, equivalen a un centro de gravedad
que adopta un valor representativo para todo un conjunto de datos predeterminados,
indicando los valores con respecto a los que los datos parecen agruparse.
Ejemplo: Media aritmética, mediana y moda.

Moda=13
Cuartil 1
Mediana=13 Cuartil 3 Q3=16
Q1=10
Media=13

30
Bioestadística Prof. Silvia Carhuayo L.

MEDIA ARITMÉTICA

1. DEFINICIÓN
Recibe el nombre de media o promedio.
Es la medida estadística descriptiva, obtenida al dividir la suma de todos los valores de la
variable entre el número total de observaciones, definida por la siguiente expresión:

Suma de los valores de X i


Media aritmética 
Número total de observaciones

El promedio representa muy bien el 'centro' de la distribución de los datos cuando se trata
de casos 'normales', entendido como aquellos conjuntos de datos que no contienen valores
muy extremos (valores muy alejados de los demás).

2. NOTACIÓN
 : media poblaciona l
x : media muestral

3. CÁLCULO
3.1. Media poblacional:
N

X i
 i 1

3.2. Media muestral

3.2.1. Datos sueltos (no presentados en tablas de frecuencia)


Se utiliza cuando el tamaño de muestra es muy pequeño de manera que no precisa
presentar los datos en una tabla de frecuencias.

x i
x i 1

Ejemplo1
La glucosa basal de un grupo de diabéticos atendidos en la Clínica “El
Nazareno” fueron: 116, 125, 132, 110, 132, 110. Hallar e interpretar la media
aritmética:

Solución:
Xi: valores de glucosa
116  125  132  110  132  110
x  120.83 mg/dl
6
Interpretación: La glucosa promedio en seis pacientes diabéticos es de 120.83
mg/dl.

30
Bioestadística Prof. Silvia Carhuayo L.

3.2.2. Datos presentados en tablas de frecuencia

x n i i m
x  i 1
x   xi hi
n i 1

Procedimiento:

(1) La característica en estudio debe ser una variable cuantitativa.


Xi: representa a los valores diferentes de la variable.

Nota: Si los datos están agrupados en intervalos, obtenga primero el punto medio
o marca de clase de cada intervalo, de la manera siguiente:

Límite inf .  Límite sup .


Marca de clase 
2

(2) La media aritmética se calcula con las frecuencias simples (absolutas,


relativas o porcentuales)
(3) Multiplique cada valor de la variable (xi) por su frecuencia simple
correspondiente.
5
(4) Sume estos productos x n
i
i i

(5) Divida la suma obtenida en el paso (4) entre el total de datos (n)
(6) Interprete el resultado obtenido.

Ejemplo 2

A. Datos originales
En un hospital el número de pacientes con dolor abdominal atendidos durante 46 días
se presenta en la tabla. Determine el valor de la media aritmética e interprete.
(1) (2) (3)
Número de pacientes Número de xi * ni
xi días
ni
8 6 8(6) =48
10 8 10(8)=80
13 15 13(15)=195
16 10 16(10)=160
18 5 18(5)=90
20 2 20(2)=40
Total n=46 6
613= 
xi ni (4)
i 1

613
x  13.3  13 pacientes / día (5)
46

(6) Interpretación: El número promedio de pacientes con dolor abdominal


atendidos en el hospital es de 13 pacientes por día.

30
Bioestadística Prof. Silvia Carhuayo L.

Ejemplo 3

B. Datos modificados:

Calcular e interpretar la media aritmética con los datos correspondientes la tensión


arterial sistólica (milímetros de Hg.) de pacientes internados en el Hospital.
(2) (1) (3)
Tensión arterial Marca de clase
Nº de
sistólica (TAS)
x i' xi' ni
pacientes
mm Hg
118 - 124 4 121 121(4)
124 - 130 7 127 127(7)
130 – 136 9 133 133(9)
136 – 142 12 139 139(12)
142 – 148 15 145 145(15)
148 – 154 8 151 151(8)
154 – 160 3 157 157(3)

Suma=8092
58
Total (4)

m 7

x n x n i i i i
8092
x i 1
 i 1
  139.5mmHg (5)
n 58 58

(6) Interpretación: La tensión arterial sistólica promedio de 58 pacientes es de 139.5


mm Hg.

4. PROPIEDADES:
(1) Si para cada unidad de análisis el valor de la variable es la misma (constante), entonces
la media aritmética de la variable es la misma constante. M[k] = k

Ejemplo:
Los valores de colesterol de cinco pacientes son: 155, 155, 155, 155, 155. Hallar e
interpretar la media aritmética.
Solución:

Xi: valor de colesterol (mg/dl)


Como cada uno de los cinco pacientes k= 155mg/dl, entonces:
x  k  155
El valor promedio de colesterol de los cinco pacientes es de 155 mg/dl.

(2) Si a cada valor de la variable (dato estadístico) se le suma o resta una misma cantidad
(constante) la media aritmética resultante es igual a la media aritmética de la variable
original sumada o restada el valor de la constante.

Y= X ± k Y X K

30
Bioestadística Prof. Silvia Carhuayo L.

Ejemplo:
La remuneración en el mes de abril de un grupo de trabajadores administrativos de
la Dirección Regional de Salud- Ayacucho fue: 1650, 1890, 1687, 2000, 1980,
1985, 1975 y 2000
a. Hallar e interpretar la media aritmética.
b. Si el gobierno central decide hacer un incremento a sus remuneraciones a partir
del mes de octubre de S/120.00, ¿cuál será su nueva remuneración promedio?
Solución:

a. Xi: remuneración (S/.) en el mes de abril

1650  1890  1687  2000  1980  1985  1975  2000 15167


x   S / .1895.875
8 8
La remuneración promedio en el mes de abril fue de S/1895.875

b. Cada trabajador recibirá un incremento de S/120.00, k=120


Y: remuneración a partir del mes de octubre
Y= X+k
y  x  k = 1895.875 + 120.00 = 2015.875
La remuneración promedio a partir de octubre será S/ 2015.875

(3) Si multiplicamos todos los valores de la variable por un mismo número (K), la media
aritmética queda multiplicada por dicho número.
Yi  k * Xi
y  k*x

Ejemplo:

Si el sindicato de trabajadores no está de acuerdo con el incremento de S/120 sino


que propone duplicar sus haberes, ¿cuál debería ser la nueva remuneración
promedio?
Solución:

y  kx  2(1895.875)  S / .3791.75

(4) La suma de las desviaciones se los valores o datos de una variable X respecto a su
media aritmética es cero.
n

 (x
i 1
i  x)  0

Ejemplo:

Xi: descuentos (S/.) por inasistencia al centro laboral


Xi: 60 40 55 68 90 55 100 110
x  72.25
9

 (x
i 1
i  x )  (98  72.25)  (150  72.25)  ....  (160  72.25)

0

30
Bioestadística Prof. Silvia Carhuayo L.

5. VENTAJAS
(1) En su cálculo intervienen todos los valores de la distribución.
(2) Debido a que en muchas situaciones experimentales, el comportamiento de los datos es
relativamente 'normal', el promedio es muy usado, convirtiéndose en la primera
estadística calculada para representar el 'centro' de la población en estudio.
(3) El promedio permite por su intermedio comparar un conjunto de datos con otro.

6. DESVENTAJA:
(1) Esta afectada por los valores extremadamente grandes o pequeños de la distribución.
(2) No es posible calcular la media aritmética cuando no se conoce el límite inferior del
primer intervalo o el límite superior del último intervalo o ambos.

MEDIANA

1. DEFNICIÓN
Dada una distribución de frecuencias con los valores ordenados de menor a mayor,
llamados mediana y la representamos por Me, al valor de la variable que deja a su izquierda
el mismo número de frecuencias que a su derecha.

Xmín Mediana Xmáx

2. NOTACIÓN: Me

3. CÁLCULO

3.1. DATOS CUANTITATIVOS


3.1.1. Datos no presentados en tablas de frecuencias (datos sueltos)

3.1.1.1. Si n es impar: hay un término central

Me  X n1
2

3.1.1.2. Si n es par: hay dos términos centrales x n , x n 1 , la mediana estará


2 2
dada por la media de esos dos valores.

xn  xn
1
Me  2 2
2

30
Bioestadística Prof. Silvia Carhuayo L.

3.1.2. Datos presentados en tablas de frecuencia

3.1.2.1. Datos originales:

A. Si n/2 está entre dos frecuencias acumuladas

Procedimiento:
(1) Calcular n/2
(2) Buscar entre que valores acumulados se encuentra n/2

N j 1  n / 2  N j
donde:
Nj-1: es la frecuencia absoluta acumulada menor a n/2
Nj: es la frecuencia absoluta acumulada mayor a n/2

(3) La mediana es el valor de la variable que ocupa la posición “j”, es


decir Me  x j

Ejemplo 4
Calcular e interpretar la mediana con los datos de la siguiente tabla:

Número de Número de Ni
pacientes días
xi ni
8 6 6
10 8 14
13 15 29
16 10 39
18 5 44
20 2 46
Total n=46

Solución
(1) n=46
n 46
(2)   23
2 2
(2) 14 <23<29
(3) Me= 13
Interpretación: En los 23 días con menor número de pacientes se
atendió de 8 a 13 pacientes, en tanto que en los 23 días con mayor
número de pacientes se atendió de 13 a 20 pacientes.

B. Si n/2 coincide con alguna frecuencia acumulada


Procedimiento:
n
(1) Calcular
2
(2) Buscar entre que valores acumulados se encuentra n/2
n
N j 1   Nj
2

Nj-1: es la frecuencia absoluta acumulada igual a n/2

30
Bioestadística Prof. Silvia Carhuayo L.

Nj: es la frecuencia absoluta acumulada mayor a n/2

(3) La mediana es:


x j 1  x j
Me 
2

Ejemplo5
Calcular e interpretar el valor de la mediana

Número de Número de Ni
pacientes días
xi ni
8 6 6
10 7 13
13 10 23= Nj-1
16 12 35= Nj
18 7 42
20 4 46
Total n=46

Solución

(1) n=46 n/2= 23


(2) 23=23<35
13  16
(3) Me   14.5
2
(4) Interpretación: En el 50% de los días se atendieron de 8 a 14
pacientes diariamente, en cambio en el 50% de días con mayor
atención, se atendió de 15 a 20 pacientes.

3.1.2.2. Datos modificados

Procedimiento:
(1) Calcular n/2
(2) Buscar entre que valores acumulados se encuentra n/2

n
N j 1   Nj
2

(3) Ubicar el intervalo que contiene la mediana (IMe), es aquel que


ocupa la posición “j”,[Lim. Inf - Lím.sup>
(4) Obtener el Límite inferior del IMe
(5) Obtener la amplitud del IMe
(6) Reemplazar los valores en la siguiente expresión:

 n 
  N j 1 
Me  Li  c j  2 
 N j  N j 1 
 
 

Ejemplo 6

30
Bioestadística Prof. Silvia Carhuayo L.

Determine e interprete la mediana con la información contenida en la tabla


siguiente:
Tensión arterial Nº de pacientes Ni
sistólica (TAS) mm ni
Hg
118 – 124 4 4
124 - 130 7 11
130 – 136 9 20
136 – 142 12 32
142 – 148 15 47
148 – 154 8 55
154 – 160 3 58
n= 58
Total

Solución:
(1) n  58  29
2 2
(2) 20<29<32
(3) IMe = [ 136 - 142]
(4) Li = 136
Cj= 6

(5)Remplazar los datos en la fórmula:


 n 
  N j 1 
Me  Li  c j  2   136  6 29  20  140.5
 j
N  N j 1   32  20 
 
 

Interpretación: El 50% de los pacientes con menor presión arterial sistólica


presenta de 118 a 140.5 mm Hg, mientras que el 50% de los pacientes con mayor
presión arterial sistólica tiene de 140.6 a menos de 160 mm Hg.

3.2. DATOS CUALITATIVOS


Se puede calcular la mediana con datos cualitativos ordinales no así con datos
cualitativos nominales.
Procedimiento:
(1) Calcular n/2
(2) Ubicar n/2 entre que frecuencias acumuladas se encuentra
N j 1  n / 2  N j
(3) La mediana es el valor de la variable que ocupa la posición “j”, es decir Me  x j

Ejemplo 6
Determine e interprete la mediana con los datos de la siguiente tabla:

Nivel de instrucción Número de Nro. Acumulado


trabajadores de trabajadores
Primaria 6 6
Secundaria 22 28 = Nj-1
Superior incompleta =Xj 34 62 = Nj
Superior completa 18 80
Total 80

30
Bioestadística Prof. Silvia Carhuayo L.

Solución:

n 80
(1)   40
2 2
(2) 28 < 40 < 62
Nj-1 Nj
(3) Me = Superior incompleta

Interpretación: El 50% de los trabajadores con menor nivel de instrucción tienen de


primaria a superior incompleta, mientras que el 50% de trabajadores con mayor nivel
posee grado de instrucción superior incompleta a superior completa.

3.3. VENTAJAS
(1) Es la medida más representativa en el caso de variables que sólo admitan la escala
ordinal.
(2) Es fácil de calcular.
(3) En el cálculo de la mediana solo influyen los valores centrales y es insensible a los
valores extremos u outliers, es decir no intervienen todos los valores de la variable.

3.4. DESVENTAJAS
(1) En su determinación no intervienen todos los datos.
(2) No es posible calcular la mediana cuando la variable es cualitativa nominal.

MODA

1. DEFINICIÓN
La moda es el valor, clase o categoría de la variable que ocurre con mayor frecuencia, es
decir que más veces se repite.

2. NOTACIÓN
Mo, Md

3. CÁLCULO
3.1. DATOS CUALITATIVOS
Es la categoría o atributo de la variable que tiene mayor frecuencia simple
Procedimiento
(1) Ubicar la mayor frecuencia simple (nj)
(2) Ubicar la categoría de la variable con esta frecuencia, luego
Md  X j

30
Bioestadística Prof. Silvia Carhuayo L.

Ejemplo7
Se entrevistaron a un grupo de gestantes para conocer su nivel de satisfacción con la
atención recibida por parte del personal de salud del HRA, los resultados se presentan a
continuación:
Satisfacción Número de gestantes
Muy satisfecho 12
Satisfecho = Xj 25 = nj
Poco satisfecho 10
Insatisfecho 5
Total 52
Calcular e interpretar el valor de la moda.
Procedimiento
(1) Ubicar la mayor frecuencia simple nj = n2 =25
(2) Ubicar la categoría de la variable con esta frecuencia, luego
Md  X j  X 2  satisfecho

Interpretación: La mayoría de las gestantes se encuentra satisfechos la atención


brindada por el personal de salud del HRA.

3.2. DATOS CUANTITATIVOS


3.2.1. DATOS ORIGINALES
Es el valor de la variable que tiene mayor frecuencia simple
Procedimiento
(1) Ubicar la mayor frecuencia simple (nj)
(2) Ubicar la categoría de la variable con esta frecuencia, luego
Md  X j

Ejemplo 8
Calcular e interpretar el valor de la moda con los siguientes datos:

Número de Número de
pacientes días
xi ni
8 6
10 7
13 10
16 12=nj
18 7
20 4
Total n=46
Procedimiento
(1) La mayor frecuencia simple es 12 = n4 = nj
(2) El valor de la variable a la cual le corresponde esta frecuencia es X4=16,

30
Bioestadística Prof. Silvia Carhuayo L.

luego :
Md  X j  X 4  16

Interpretación: En la mayoría de los días se atendieron 16 pacientes con dolor


abdominal.

3.2.2. DATOS MODIFICADOS

 1 
Md Li  c j  

 1   2 

Donde:
1  n j  n j 1
 2  n j  n j 1
nj : es la mayor frecuencia absoluta simple.
nj-1 : es la frecuencia absoluta simple inmediata anterior a nj
nj+1 : es la frecuencia absoluta simple inmediata posterior a nj
IMd : es el intervalo modal, el intervalo que contiene a la moda.
Li : es el limite inferior del intervalo modal.
cj : el la amplitud del intervalo modal

Ejemplo 9
Determine e interprete la moda con la información contenida en la tabla siguiente

Tensión arterial Nº de pacientes


sistólica (TAS) mm diabéticos
Hg ni

118 – 124 4
124 - 130 7
130 – 136 9
136 – 142 12=nj-1
142 – 148 15=nj
148 – 154 8=nj+1
154 – 160 3
Total n= 58

Procedimiento

(1) La mayor frecuencia simple es nj= n5 = 15


(2) La frecuencia absoluta simple anterior a nj es nj-1= n4=12
(3) La frecuencia absoluta simple posterior a nj es nj+1= n6=8
(4) 1 =15-12=3  2 =15-8=7
(5) IMd= <142 – 148]
(3) Li = 142, cj = 148
(4) Remplazar los datos en la fórmula:

30
Bioestadística Prof. Silvia Carhuayo L.

 1   3 
Md Li  c j   148  142  6  143.8
 1   2   3 7 

Interpretación:
La mayoría de los pacientes diabéticos tienen 143.8 mm Hg. de tensión arterial.

4. PROPIEDADES

(1) En una distribución de frecuencias es posible no encontrar o encontrar una o más


modas.
- Si existe una moda la distribución recibe el nombre de Distribución unimodal
- Si existe dos modas, la distribución es bimodal.
- Si existe 3 modas, la distribución se llama distribución trimodal
- Si se observa 4 o más modas, la distribución recibe el nombre de plurimodal o
multimodal.
- Si no existe modas , la distribución recibe el nombre de a-modal
(2) Se puede calcular con cualquier tipo de frecuencias simples (absolutas, relativas o
porcentuales)

5. VENTAJAS
(1) Es la única medida de centralización que tiene sentido estudiar en una variable
cualitativa nominal u ordinal, debido a que no precisa la realización de ningún
cálculo.
(2) Su cálculo es sencillo.
(3) Es de fácil interpretación.
(4) En su determinación no intervienen todos los valores de la distribución.

30
Bioestadística Prof. Silvia Carhuayo L.

MEDIDAS DE POSICIÓN

1. DEFINICIÓN

Son aquellas medidas que nos ayudan a saber dónde están los datos. Dividen un conjunto de
datos en grupos con la misma cantidad de individuos. Las medidas de posición permiten
conocer otros puntos característicos de la distribución, entre estas medidas tenemos a los
cuantiles.

2. CUANTILES

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen
a la distribución en partes, de tal manera que cada una de ellas contienen el mismo número
de frecuencias.
Entre los principales cuantiles tenemos: los cuartiles, deciles y percentiles.

3. CUARTILES:
Son valores de la variable que dividen a la distribución en 4 partes, cada una de las
cuales engloba el 25% de las mismas.
Los principales son:

3.1. Cuartil inferior: o primer cuartil.

Se denota por Q1, es el primer cuartil que deja a su izquierda el 25% de los datos y a
su derecha el 75%

Xmín Q1 Xmáx

1 3
n  25%  0.25 n  75%  0.75
4 4

3.2. Cuartil medio o segundo cuartil


Se denota por Q2, es el segundo cuartil que deja a su izquierda y derecha el 50% de los
datos, es equivalente a la mediana.

Xmín Q2 Xmáx

2 2
n  50%  0.50 n  50%  0.50
4 4

3.3. Cuartil superior o tercer cuartil


Se denota por Q3, deja a su izquierda el 75% de los datos y a su derecha el 25% de
los datos.

Xmín Q3 Xmáx

3 1
n  75%  0.75 n  25%  0.25
4 4

3.4. DECILES:

30
Bioestadística Prof. Silvia Carhuayo L.

Son los valores de la variable que dividen a la serie de datos ordenada en forma
creciente o decreciente en 10 partes iguales, en los que cada uno de ellos concentra el
10% de los resultados. Entonces existe nueve deciles.
Primer decil: D1, divide a los datos en dos partes, de tal manera que a la izquierda de
este valor se encuentra no más del 10% de los datos y a la derecha el 90%.

Xmín D1 Xmáx

1 9
n  10%  0.10 n  90%  0.90
10 10

D7: divide a los datos en dos partes, de tal manera que a la izquierda de este valor se
encuentra no más del 70% de los datos y a la derecha el 30%.

Xmín D7 Xmáx

7 3
n  70%  0.70 n  70%  0.70
10 10

3.5. CENTILES O PERCENTILES

Son los valores que dividen a la distribución en 100 partes iguales, cada una de las
cuales engloba el 1% de las observaciones. En total habrá 99 percentiles.

P90 : nonagésimo percentil, divide a los datos en dos partes, a su izquierda se


encuentra el 90% de los datos y a su derecha el 10%. Es equivalente al D9

Xmín P90 Xmáx

90
n  90%  0.90 10
n  10%  0.10
100 100

Podemos ver que cada cuartil y decil tiene su equivalente en un percentil

30
Bioestadística Prof. Silvia Carhuayo L.

D1  P10
D2  P20
D3  P30
D4  P40
.D5  P50  Q2  Me
.
.
D9  P90
P25  Q1
P75  Q3

3.6. CÁLCULO

3.6.1. DATOS CUALITATIVOS


Ejemplo 10.
La información corresponde al nivel de satisfacción de gestantes atendidas en el
Hospital Regional de Salud. Calcular e interpretar el D4, Q3 , P90 y D5

Nivel de Número de Ni 100Hi


satisfacción gestantes
Muy satisfecho 12 12 23
Satisfecho 25 37 71
Poco satisfecho 10 47 90
Insatisfeccho 5 52 100
Total 52

Solución:
D4 =P40
rn 40(52)
  20.8
100 100
12  20.8  37
D4  P40  satisfecho

Q3=P75
rn 75(52)
  39
100 100
37  39  47
Q3  P75  Poco satisfecho

30
Bioestadística Prof. Silvia Carhuayo L.

P90
r=90%
P90= Poco satisfecho

3.6.2. DATOS ORIGINALES:


Se procede igual que en el caso de la mediana.
Ejemplo 11
Calcule e interprete el D1, Q3, P90

Embarazadas según número de partos anteriores al embarazo actual.


Sala de partos. Hospital Loayza. Lima 2010.

N° de partos Número de Ni
anteriores embarazadas
xi ni
0 2013 2013
1 1055 3068
2 983 4051
4 875 4926
5ó6 250 5176
Total 5176

Solución:
Primer Decil D1:
D1=P10
rn 10(5176)
(1) Calcular   517.6
100 100
(2) 0<517.6<2013
(3) D1 = 0
Interpretación: El 10% de las embarazadas no tuvieron partos anteriores a
su presente embarazo, mientras que el 90% restante no presentaron partos
anteriores o tuvieron de 1 a 6 partos.

Cuartil superior:
Q 3:
Q3 = P75
rn 75(5176)
(1) Calcular   3882
100 100
(2) 3068<3882<4051
(3) Q3 = 2 partos
Interpretación: El 75% de las embarazadas hasta dos partos anteriores,
mientras que el 25% restante tuvieron de 2 a 6 partos previos a su embarazo
actual.

30
Bioestadística Prof. Silvia Carhuayo L.

Nonagésimo percentil:
P90
rn 90(5176)
(1) Calcular   4658.4
100 100
(2) 4051<4658.4<4926
(3) P90 = 4 partos
Interpretación: El 90% de las embarazadas con menos número de partos
tuvieron hasta 4 partos anteriores a su embarazo actual, en tanto que el 10%
de embarazadas con más partos presentaron de 4 a 6 partos antes de su
embarazo actual.

3.6.3. DATOS MODIFICADOS


Procedimiento:
rn
(1) Calcular
100
r: es el número del percentil
rn
(2) Ubicar entre que valores se encuentra
100
rn
N j 1   Nj
100

 rn 
  N j 1 
(3) Pr  Li  c j  100 
 N j  N j 1 
 
 

Ejemplo 12:

Ejemplo 12:

Determinar el primer cuartil, tercer cuartil, séptimo decil, noveno decil, vigésimo
quinto percentil con los datos de la tabla siguiente.

Tensión arterial Nº de pacientes Ni


sistólica (TAS) mm ni
Hg
118 – 124 4 4
124 - 130 7 11
130 – 136 9 20
136 – 142 12 32
142 – 148 15 47
148 – 154 8 55
154 – 160 3 58
Total n= 58

30
Bioestadística Prof. Silvia Carhuayo L.

Solución

Segundo decil:D2

D2 = P20

(1) r = 20
rn 20(58)
Calcular   11.6
100 100
(2) 11  11.6  20
(3) [130 – 136>
(4) Li = 130 , cj=6

 11.6  11 
(5) P20  130  6  130.4
 20  11 

Interpretación: El 20% inferior de los pacientes con menor tensión arterial tienen de
118 mm Hg a 130,4, mientras que el 80% de los pacientes con mayor tensión arterial
muestran de 130,5 a menos de 160 mm Hg.

30
Bioestadística Prof. Silvia Carhuayo L.

MEDIDAS DE DISPERSIÓN

1. DEFINICIÓN
Se ha estudiado los valores centrales de la distribución, pero también es importante conocer
si los valores en general están cerca o alejados de estos valores centrales, es por ello que
surge la necesidad de estudiar medidas de dispersión. Por lo tanto, es de limitado valor sólo
el conocimiento de una medida de tendencia central, ya que ella no da ninguna información
sobre cómo las observaciones están dispersas alrededor de la misma.

Las medidas de dispersión tratan de medir el grado de dispersión o variabilidad de los datos
en torno a una medida de posición o tendencia central, indicándonos lo representativa que es
la medida de posición. A mayor dispersión menor representatividad de la medida de
posición y viceversa.

2. TIPOS DE MEDIDAS DE DISPERSIÓN:

3. MEDIDAS DE DISPERSIÓN ABSOLUTA

3.1. Recorrido ó Rango: Se define como la diferencia entre el valor mínimo y máximo de
la variable.

Rango  Valor máximo dela var iable  Valor mínimo dela var iable

3.2. Varianza
3.2.1. Definición:

Mide la distancia existente entre los valores de la variable y la media. Se calcula


como sumatoria de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio
obtenido se divide por el tamaño de la muestra.

3.2.2. Notación:
- Varianza poblacional:  , V[X]
2

- Varianza muestral : ˆ , s2
2

3.2.3. Cálculo:

A. Varianza poblacional
N

 x   
2
i
2  i 1

N
B. Varianza muestral

B.1. Si el tamaño de muestra es grande: 𝑛 ≥ 30

 Datos no presentados en tablas de frecuencias

30
Bioestadística Prof. Silvia Carhuayo L.

  x  xˆ 
2
i
ˆ 2  i 1

 Datos presentados en tablas de frecuencias

m m

  xi  x  x n
2 2
ni i i
ˆ 2  i 1
 i 1
 x2
n n

Ejemplo 14

Determine e interprete el valor de la varianza con los datos de la tabla siguiente:

Tensión arterial Nº de pacientes Marca de clase


sistólica (TAS) mm ni
Hg
118 – 124 4 121
124 - 130 7 127
130 – 136 9 133
136 – 142 12 140
142 – 148 15 145
148 – 154 8 151
154 – 160 3 157
Total n= 58

n=58 >30
Promedio = 139.7241379
Varianza= 90,92390012
El promedio de la variación al cuadrado de la tensión arterial de cada paciente
respecto al promedio de tensión arterial es de 90,92390012

i. Si el tamaño de muestra es grande: n  30


- Datos no presentados en tablas de frecuencias
n

  x  xˆ 
2
i
ˆ 2  i 1

n 1

- Datos presentados en tablas de frecuencias

 x  x 
2
ni
i
1  m 2 
ˆ 
2 i 1

n 1
  
n  1  i 1
xi ni  nx 2 

30
Bioestadística Prof. Silvia Carhuayo L.

3.3. DESVIACIÓN ESTANDAR

3.3.1.Definición:
Es la raíz cuadrada positiva de la varianza
3.3.2. Notación:
 :desviación estándar poblacional
ˆ : desviación estándar muestral
3.3.3. Cálculo:

Desviaciónestándar   Varianza

Ejemplo 15

Con la información referente a la remuneración de los trabajadores, la desviación


estándar es:

ˆ =√90,92390012 = 9,535

El promedio de la variación de la tensión arterial de cada paciente respecto a la tensión


arterial promedio es de 9,535 mm Hg.

3.4. Propiedades de la varianza y desviación estándar:

a) La varianza siempre es mayor o igual que cero y menor que infinito.


b) Si a todos los valores de la variable se le suma o resta una misma cantidad, la varianza y
desviación estándar no cambia. V[x ±k] =V[x]
c) Si a todos los valores de la variable se multiplican por una misma cantidad (constante),
la varianza queda multiplicada por el cuadrado de la constante. V[kX]= k2V[x]
d) Mientras más se aproxima a cero, más concentrados están los valores de la variable
alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos
están.
e) El 68% del total de datos se encuentra entre x  ˆ , el 95% del total de datos se
encuentra entre x  2ˆ y el 99.7% del total de datos se encuentra entre x  3ˆ

f) La varianza presenta el inconveniente de ser poco significativo, pues se mide en el


cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La
varianza vendrá en cm2.

3.5. Desventaja:
Todas estas medidas de dispersión vienen influidas por la unidad en la que se mide la
variable, esto implica que si cambiamos de unidad de medida, los valores de estos
estadísticos se vean a su vez modificados.
No se pueden comparar grupos con diferentes unidades medidas.

4. MEDIDAS DE DISPERSIÓN RELATIVA

Se mide en la misma unidad que la variable por lo que se puede interpretar mejor.

COEFICIENTE DE VARIACIÓN:

30
Bioestadística Prof. Silvia Carhuayo L.

4.1. Definición:
Es una medida de variabilidad que compara la desviación estándar con respecto a la
media.
Se define como el cociente de la desviación estándar y el promedio.
4.2. Notación:
Lo denotaremos por C.V., se acostumbra presentarla en porcentaje.
4.3. Cálculo:

desviación estándar
CV %  *100
media aritmética

A mayor coeficiente de variación mayor dispersión, a menor coeficiente de variación


menor dispersión. A medida que el coeficiente se acerca a cero la media es considerada
como una medida representativa, en cambio al aproximarse a 100 existe mucha
variabilidad y la media no es una buena medida que describa a los datos.

Ejemplo: El coeficiente de variación para nuestro ejemplo será:


9,535
𝐶𝑉% = 𝑥100 = 6,824
139,5
La tensión arterial presenta un poco variación, por lo que la tensión arterial promedio
es una buena medida para describir la tensión arterial de los pacientes.

4.4. Ventaja:

Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna


unidad, por lo que nos permitirá decidir entre dos o más muestras, cual es la que
presenta mayor dispersión.

Las remuneraciones presentan una variación moderada, por lo que la remuneración


promedio es una buena medida descriptiva de las remuneraciones de los trabajadores.

4.5. Desventaja:
El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la
media aritmética, cuando ésta toma valores cercanos a cero, el coeficiente de variación
tenderá a infinito.

11. MEDIDAS DE FORMA

Además de identificar la ubicación y dispersión que tienen los datos, es importante


determinar su forma, como un complemento de su descripción.
Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de
datos de la muestra, es decir las deformaciones con respecto al eje horizontal o vertical.

11.1. MEDIDAS DE ASIMETRÍA:


Sirve para saber si los datos se distribuyen de forma simétrica con respecto a un valor
central, o si bien la gráfica que representa la distribución de frecuencias es de una forma
diferente del lado derecho que del lado izquierdo. Busca expresar la simetría (o falta de
ella) que manifiestan los datos.

La asimetría de una distribución se mide a través de los coeficientes de asimetría, entre


los principales tenemos:

30
Bioestadística Prof. Silvia Carhuayo L.

(Q3  Q2 )  (Q2  Q1 )
AS 
Q3  Q1

Si el valor de este coeficiente es mayor que cero entonces se dice que la distribución de
los datos se encuentra sesgada a la derecha, si es menor que cero entonces se dice que
está sesgada a la izquierda.

Curva Sesgada a la derecha Curva Sesgada a la izquierda Curva simétrica

Cuando la distribución de frecuencias es simétrica y unimodal, entonces la media, la mediana y


la moda coinciden.

Otras medidas de asimetría, como son:

 (x  x )
i 1
i
3

x  Md 3( x  Me) n
As  As  As 
s s s3

- Si As=0, la distribución es simétrica


- Si As> 0, la distribución es asimétrica positiva, es decir las frecuencias más altas se
encuentran en el lado izquierdo de la mediana, mientras que en el lado derecho hay
frecuencias más pequeñas (cola).
- Si As<0, la distribución es asimétrica negativa (la cola izquierda se alarga). La
frecuencia más alta se presenta en el lado derecho de la mediana, mientras que a la
izquierda hay frecuencias más pequeñas (cola).

30
Bioestadística Prof. Silvia Carhuayo L.

11.2. MEDIDAS DE APUNTAMIENTO


Llamadas también medidas de curtosis. Miden cuan puntiaguda es una distribución
respecto de un estándar. Este estándar es una forma acampanada denominada normal o
gaussiana.
El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores
alrededor de la zona central de la distribución.

Se definen 3 tipos de distribuciones según su grado de curtosis:

- Distribución mesocúrtica: presenta un grado de concentración medio alrededor de


los valores centrales de la variable (el mismo que presenta una distribución normal).
- Distribución leptocúrtica: presenta un elevado grado de concentración alrededor
de los valores centrales de la variable.
- Distribución platicúrtica: presenta un menor grado de elevación de la curva con
respecto a la curva normal, por lo tanto un menor grado de concentración alrededor
de los valores centrales de la variable.

A mayor elevamiento de la distribución de frecuencias significará mayor concentración


de los datos en torno al promedio, por tanto, una menor dispersión de los datos.

El apuntamiento de la distribución se mide a través de los coeficientes de apuntamiento,


entre los cuales tenemos:

- El coeficiente de apuntamiento de Fisher:

m4
k 3
4

donde m4 es el momento empírico de cuarto orden.

 (x  x )i
4

m4  i 1
luego :
n

4
∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥
𝑘= 𝑛
̂4
𝜎
−3

- Si la muestra esta presentada en una tabla de frecuencias:

30
Bioestadística Prof. Silvia Carhuayo L.

4
∑𝑚 ̅ ) 𝑛𝑖
𝑖=1(𝑥𝑖 −𝑥
𝑘= 𝑛
̂4
𝜎
−3

K es un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve


para medir si una distribución de frecuencias es muy apuntada o no. De acuerdo a su
valor, la distribución de frecuencias puede clasificarse en:

- Mesocúrtica, si K= 0, la distribución de frecuencias es tan apuntada como la normal.


- Leptocúrtica, si K>0, la distribución de frecuencias es más apuntada que la normal.
- Platicúrtica, si Si K<0, la distribución de frecuencias es menos apuntada que la normal.

En base a los percentiles, tenemos el siguiente coeficiente:

Q3  Q1
k
2( P90  P10 )

De acuerdo a su valor, la distribución de frecuencias puede clasificarse en:

- Mesocúrtica: si K= 0.263, la distribución de frecuencias es tan apuntada como la


normal.
- Leptocúrtica , si K>0.263, la distribución de frecuencias es más apuntada que la normal.
- Platicúrtica, si K<0.263, la distribución de frecuencias es menos apuntada que la
normal.

Actividad

Con la información contenida en cada una de las tablas, calcule e interprete las medidas
estadísticas descriptivas adecuadas.

Peso al nacer (g) Nro. de recién


nacidos
1000 – 1500 152
1500 – 2000 274
2000 – 2500 601
2500 – 3000 724
3000 – 3600 458

Egresos hospitalarios según diagnóstico

Diagnóstico N°
Complicaciones obstétricas 13565
Enfermedades digestivas 8745
Enfermedades respiratorias 6654
Traumatismos y envenenamientos 4302
Enfermedades infecciosas y parasitarias 3276
Afecciones perinatales 3452
Enfermedades del aparato circulatorio 2543
Enfermedades del Ap. Genitourinario 2987
Enfermedades endócrinas 2765
Tumores 2789
Otros diagnósticos 4398

30
Bioestadística Prof. Silvia Carhuayo L.

Peso al nacer Sexo


Masculino Femenino
Menos de 500 47 30
500 – 1000 48 45
1000- 1500 79 68
1500 – 2000 142 187
2000 – 2500 313 543
2500 – 3000 517 345
3000 – 3500 580 278
3500 a más 346 123

Las siguientes medidas descriptivas corresponden al peso inicial y final de 46 niños que
presentaron cuadros de deshidratación a los cuales se aplicaron suplemento de zinc.
a) Interprete las medidas descriptivas del peso inicial.
b) Compare y comente los resultados.

Peso Peso
Peso
inicial final
Media 10,3770 10,9283
Mediana 9,8000 10,6500
Moda 8,50 7,90a
Desv. típ. 2,71183 2,83068
Varianza 7,354 8,013
Asimetría 1,164 1,145
Curtosis 1,460 1,850
Mínimo 6,30 6,40
Máximo 19,30 20,50
25 8,5000 9,0750
50 9,8000 10,6500
60 10,4200 11,0000
Percentiles 70 11,0000 11,8700
75 11,7250 12,0500
80 12,5200 12,9200
90 14,7900 15,0000

30

You might also like