Professional Documents
Culture Documents
UNIDAD DE APRENDIZAJE II
MEDIDAS DESCRIPTIVAS
1. DEFINICIÓN
Las medidas descriptivas son valores numéricos calculados a partir de los datos de la
población o muestra y que resumen la información contenida en ella como son los valores
alrededor de los cuales se agrupa la población o muestra, la mayor o menor fluctuación
alrededor de esos valores, valores que marcan posiciones características de una distribución
de frecuencias así como la forma de la distribución.
2. TIPOS
Medidas
descriptivas
Medidas de
centralización o Medidas de Medidas de
dispersión forma
posición
Media
Mediana Absolutas Relativas Asimetría Apuntamiento
Moda
Cuantiles, etc.
3. MEDIDAS DE CENTRALIZACIÓN
Son valores que permiten resumir un conjunto de datos, equivalen a un centro de gravedad
que adopta un valor representativo para todo un conjunto de datos predeterminados,
indicando los valores con respecto a los que los datos parecen agruparse.
Ejemplo: Media aritmética, mediana y moda.
Moda=13
Cuartil 1
Mediana=13 Cuartil 3 Q3=16
Q1=10
Media=13
30
Bioestadística Prof. Silvia Carhuayo L.
MEDIA ARITMÉTICA
1. DEFINICIÓN
Recibe el nombre de media o promedio.
Es la medida estadística descriptiva, obtenida al dividir la suma de todos los valores de la
variable entre el número total de observaciones, definida por la siguiente expresión:
El promedio representa muy bien el 'centro' de la distribución de los datos cuando se trata
de casos 'normales', entendido como aquellos conjuntos de datos que no contienen valores
muy extremos (valores muy alejados de los demás).
2. NOTACIÓN
: media poblaciona l
x : media muestral
3. CÁLCULO
3.1. Media poblacional:
N
X i
i 1
x i
x i 1
Ejemplo1
La glucosa basal de un grupo de diabéticos atendidos en la Clínica “El
Nazareno” fueron: 116, 125, 132, 110, 132, 110. Hallar e interpretar la media
aritmética:
Solución:
Xi: valores de glucosa
116 125 132 110 132 110
x 120.83 mg/dl
6
Interpretación: La glucosa promedio en seis pacientes diabéticos es de 120.83
mg/dl.
30
Bioestadística Prof. Silvia Carhuayo L.
x n i i m
x i 1
x xi hi
n i 1
Procedimiento:
Nota: Si los datos están agrupados en intervalos, obtenga primero el punto medio
o marca de clase de cada intervalo, de la manera siguiente:
(5) Divida la suma obtenida en el paso (4) entre el total de datos (n)
(6) Interprete el resultado obtenido.
Ejemplo 2
A. Datos originales
En un hospital el número de pacientes con dolor abdominal atendidos durante 46 días
se presenta en la tabla. Determine el valor de la media aritmética e interprete.
(1) (2) (3)
Número de pacientes Número de xi * ni
xi días
ni
8 6 8(6) =48
10 8 10(8)=80
13 15 13(15)=195
16 10 16(10)=160
18 5 18(5)=90
20 2 20(2)=40
Total n=46 6
613=
xi ni (4)
i 1
613
x 13.3 13 pacientes / día (5)
46
30
Bioestadística Prof. Silvia Carhuayo L.
Ejemplo 3
B. Datos modificados:
Suma=8092
58
Total (4)
m 7
x n x n i i i i
8092
x i 1
i 1
139.5mmHg (5)
n 58 58
4. PROPIEDADES:
(1) Si para cada unidad de análisis el valor de la variable es la misma (constante), entonces
la media aritmética de la variable es la misma constante. M[k] = k
Ejemplo:
Los valores de colesterol de cinco pacientes son: 155, 155, 155, 155, 155. Hallar e
interpretar la media aritmética.
Solución:
(2) Si a cada valor de la variable (dato estadístico) se le suma o resta una misma cantidad
(constante) la media aritmética resultante es igual a la media aritmética de la variable
original sumada o restada el valor de la constante.
Y= X ± k Y X K
30
Bioestadística Prof. Silvia Carhuayo L.
Ejemplo:
La remuneración en el mes de abril de un grupo de trabajadores administrativos de
la Dirección Regional de Salud- Ayacucho fue: 1650, 1890, 1687, 2000, 1980,
1985, 1975 y 2000
a. Hallar e interpretar la media aritmética.
b. Si el gobierno central decide hacer un incremento a sus remuneraciones a partir
del mes de octubre de S/120.00, ¿cuál será su nueva remuneración promedio?
Solución:
(3) Si multiplicamos todos los valores de la variable por un mismo número (K), la media
aritmética queda multiplicada por dicho número.
Yi k * Xi
y k*x
Ejemplo:
y kx 2(1895.875) S / .3791.75
(4) La suma de las desviaciones se los valores o datos de una variable X respecto a su
media aritmética es cero.
n
(x
i 1
i x) 0
Ejemplo:
(x
i 1
i x ) (98 72.25) (150 72.25) .... (160 72.25)
0
30
Bioestadística Prof. Silvia Carhuayo L.
5. VENTAJAS
(1) En su cálculo intervienen todos los valores de la distribución.
(2) Debido a que en muchas situaciones experimentales, el comportamiento de los datos es
relativamente 'normal', el promedio es muy usado, convirtiéndose en la primera
estadística calculada para representar el 'centro' de la población en estudio.
(3) El promedio permite por su intermedio comparar un conjunto de datos con otro.
6. DESVENTAJA:
(1) Esta afectada por los valores extremadamente grandes o pequeños de la distribución.
(2) No es posible calcular la media aritmética cuando no se conoce el límite inferior del
primer intervalo o el límite superior del último intervalo o ambos.
MEDIANA
1. DEFNICIÓN
Dada una distribución de frecuencias con los valores ordenados de menor a mayor,
llamados mediana y la representamos por Me, al valor de la variable que deja a su izquierda
el mismo número de frecuencias que a su derecha.
2. NOTACIÓN: Me
3. CÁLCULO
Me X n1
2
xn xn
1
Me 2 2
2
30
Bioestadística Prof. Silvia Carhuayo L.
Procedimiento:
(1) Calcular n/2
(2) Buscar entre que valores acumulados se encuentra n/2
N j 1 n / 2 N j
donde:
Nj-1: es la frecuencia absoluta acumulada menor a n/2
Nj: es la frecuencia absoluta acumulada mayor a n/2
Ejemplo 4
Calcular e interpretar la mediana con los datos de la siguiente tabla:
Número de Número de Ni
pacientes días
xi ni
8 6 6
10 8 14
13 15 29
16 10 39
18 5 44
20 2 46
Total n=46
Solución
(1) n=46
n 46
(2) 23
2 2
(2) 14 <23<29
(3) Me= 13
Interpretación: En los 23 días con menor número de pacientes se
atendió de 8 a 13 pacientes, en tanto que en los 23 días con mayor
número de pacientes se atendió de 13 a 20 pacientes.
30
Bioestadística Prof. Silvia Carhuayo L.
Ejemplo5
Calcular e interpretar el valor de la mediana
Número de Número de Ni
pacientes días
xi ni
8 6 6
10 7 13
13 10 23= Nj-1
16 12 35= Nj
18 7 42
20 4 46
Total n=46
Solución
Procedimiento:
(1) Calcular n/2
(2) Buscar entre que valores acumulados se encuentra n/2
n
N j 1 Nj
2
n
N j 1
Me Li c j 2
N j N j 1
Ejemplo 6
30
Bioestadística Prof. Silvia Carhuayo L.
Solución:
(1) n 58 29
2 2
(2) 20<29<32
(3) IMe = [ 136 - 142]
(4) Li = 136
Cj= 6
Ejemplo 6
Determine e interprete la mediana con los datos de la siguiente tabla:
30
Bioestadística Prof. Silvia Carhuayo L.
Solución:
n 80
(1) 40
2 2
(2) 28 < 40 < 62
Nj-1 Nj
(3) Me = Superior incompleta
3.3. VENTAJAS
(1) Es la medida más representativa en el caso de variables que sólo admitan la escala
ordinal.
(2) Es fácil de calcular.
(3) En el cálculo de la mediana solo influyen los valores centrales y es insensible a los
valores extremos u outliers, es decir no intervienen todos los valores de la variable.
3.4. DESVENTAJAS
(1) En su determinación no intervienen todos los datos.
(2) No es posible calcular la mediana cuando la variable es cualitativa nominal.
MODA
1. DEFINICIÓN
La moda es el valor, clase o categoría de la variable que ocurre con mayor frecuencia, es
decir que más veces se repite.
2. NOTACIÓN
Mo, Md
3. CÁLCULO
3.1. DATOS CUALITATIVOS
Es la categoría o atributo de la variable que tiene mayor frecuencia simple
Procedimiento
(1) Ubicar la mayor frecuencia simple (nj)
(2) Ubicar la categoría de la variable con esta frecuencia, luego
Md X j
30
Bioestadística Prof. Silvia Carhuayo L.
Ejemplo7
Se entrevistaron a un grupo de gestantes para conocer su nivel de satisfacción con la
atención recibida por parte del personal de salud del HRA, los resultados se presentan a
continuación:
Satisfacción Número de gestantes
Muy satisfecho 12
Satisfecho = Xj 25 = nj
Poco satisfecho 10
Insatisfecho 5
Total 52
Calcular e interpretar el valor de la moda.
Procedimiento
(1) Ubicar la mayor frecuencia simple nj = n2 =25
(2) Ubicar la categoría de la variable con esta frecuencia, luego
Md X j X 2 satisfecho
Ejemplo 8
Calcular e interpretar el valor de la moda con los siguientes datos:
Número de Número de
pacientes días
xi ni
8 6
10 7
13 10
16 12=nj
18 7
20 4
Total n=46
Procedimiento
(1) La mayor frecuencia simple es 12 = n4 = nj
(2) El valor de la variable a la cual le corresponde esta frecuencia es X4=16,
30
Bioestadística Prof. Silvia Carhuayo L.
luego :
Md X j X 4 16
1
Md Li c j
1 2
Donde:
1 n j n j 1
2 n j n j 1
nj : es la mayor frecuencia absoluta simple.
nj-1 : es la frecuencia absoluta simple inmediata anterior a nj
nj+1 : es la frecuencia absoluta simple inmediata posterior a nj
IMd : es el intervalo modal, el intervalo que contiene a la moda.
Li : es el limite inferior del intervalo modal.
cj : el la amplitud del intervalo modal
Ejemplo 9
Determine e interprete la moda con la información contenida en la tabla siguiente
118 – 124 4
124 - 130 7
130 – 136 9
136 – 142 12=nj-1
142 – 148 15=nj
148 – 154 8=nj+1
154 – 160 3
Total n= 58
Procedimiento
30
Bioestadística Prof. Silvia Carhuayo L.
1 3
Md Li c j 148 142 6 143.8
1 2 3 7
Interpretación:
La mayoría de los pacientes diabéticos tienen 143.8 mm Hg. de tensión arterial.
4. PROPIEDADES
5. VENTAJAS
(1) Es la única medida de centralización que tiene sentido estudiar en una variable
cualitativa nominal u ordinal, debido a que no precisa la realización de ningún
cálculo.
(2) Su cálculo es sencillo.
(3) Es de fácil interpretación.
(4) En su determinación no intervienen todos los valores de la distribución.
30
Bioestadística Prof. Silvia Carhuayo L.
MEDIDAS DE POSICIÓN
1. DEFINICIÓN
Son aquellas medidas que nos ayudan a saber dónde están los datos. Dividen un conjunto de
datos en grupos con la misma cantidad de individuos. Las medidas de posición permiten
conocer otros puntos característicos de la distribución, entre estas medidas tenemos a los
cuantiles.
2. CUANTILES
Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen
a la distribución en partes, de tal manera que cada una de ellas contienen el mismo número
de frecuencias.
Entre los principales cuantiles tenemos: los cuartiles, deciles y percentiles.
3. CUARTILES:
Son valores de la variable que dividen a la distribución en 4 partes, cada una de las
cuales engloba el 25% de las mismas.
Los principales son:
Se denota por Q1, es el primer cuartil que deja a su izquierda el 25% de los datos y a
su derecha el 75%
Xmín Q1 Xmáx
1 3
n 25% 0.25 n 75% 0.75
4 4
Xmín Q2 Xmáx
2 2
n 50% 0.50 n 50% 0.50
4 4
Xmín Q3 Xmáx
3 1
n 75% 0.75 n 25% 0.25
4 4
3.4. DECILES:
30
Bioestadística Prof. Silvia Carhuayo L.
Son los valores de la variable que dividen a la serie de datos ordenada en forma
creciente o decreciente en 10 partes iguales, en los que cada uno de ellos concentra el
10% de los resultados. Entonces existe nueve deciles.
Primer decil: D1, divide a los datos en dos partes, de tal manera que a la izquierda de
este valor se encuentra no más del 10% de los datos y a la derecha el 90%.
Xmín D1 Xmáx
1 9
n 10% 0.10 n 90% 0.90
10 10
D7: divide a los datos en dos partes, de tal manera que a la izquierda de este valor se
encuentra no más del 70% de los datos y a la derecha el 30%.
Xmín D7 Xmáx
7 3
n 70% 0.70 n 70% 0.70
10 10
Son los valores que dividen a la distribución en 100 partes iguales, cada una de las
cuales engloba el 1% de las observaciones. En total habrá 99 percentiles.
90
n 90% 0.90 10
n 10% 0.10
100 100
30
Bioestadística Prof. Silvia Carhuayo L.
D1 P10
D2 P20
D3 P30
D4 P40
.D5 P50 Q2 Me
.
.
D9 P90
P25 Q1
P75 Q3
3.6. CÁLCULO
Solución:
D4 =P40
rn 40(52)
20.8
100 100
12 20.8 37
D4 P40 satisfecho
Q3=P75
rn 75(52)
39
100 100
37 39 47
Q3 P75 Poco satisfecho
30
Bioestadística Prof. Silvia Carhuayo L.
P90
r=90%
P90= Poco satisfecho
N° de partos Número de Ni
anteriores embarazadas
xi ni
0 2013 2013
1 1055 3068
2 983 4051
4 875 4926
5ó6 250 5176
Total 5176
Solución:
Primer Decil D1:
D1=P10
rn 10(5176)
(1) Calcular 517.6
100 100
(2) 0<517.6<2013
(3) D1 = 0
Interpretación: El 10% de las embarazadas no tuvieron partos anteriores a
su presente embarazo, mientras que el 90% restante no presentaron partos
anteriores o tuvieron de 1 a 6 partos.
Cuartil superior:
Q 3:
Q3 = P75
rn 75(5176)
(1) Calcular 3882
100 100
(2) 3068<3882<4051
(3) Q3 = 2 partos
Interpretación: El 75% de las embarazadas hasta dos partos anteriores,
mientras que el 25% restante tuvieron de 2 a 6 partos previos a su embarazo
actual.
30
Bioestadística Prof. Silvia Carhuayo L.
Nonagésimo percentil:
P90
rn 90(5176)
(1) Calcular 4658.4
100 100
(2) 4051<4658.4<4926
(3) P90 = 4 partos
Interpretación: El 90% de las embarazadas con menos número de partos
tuvieron hasta 4 partos anteriores a su embarazo actual, en tanto que el 10%
de embarazadas con más partos presentaron de 4 a 6 partos antes de su
embarazo actual.
rn
N j 1
(3) Pr Li c j 100
N j N j 1
Ejemplo 12:
Ejemplo 12:
Determinar el primer cuartil, tercer cuartil, séptimo decil, noveno decil, vigésimo
quinto percentil con los datos de la tabla siguiente.
30
Bioestadística Prof. Silvia Carhuayo L.
Solución
Segundo decil:D2
D2 = P20
(1) r = 20
rn 20(58)
Calcular 11.6
100 100
(2) 11 11.6 20
(3) [130 – 136>
(4) Li = 130 , cj=6
11.6 11
(5) P20 130 6 130.4
20 11
Interpretación: El 20% inferior de los pacientes con menor tensión arterial tienen de
118 mm Hg a 130,4, mientras que el 80% de los pacientes con mayor tensión arterial
muestran de 130,5 a menos de 160 mm Hg.
30
Bioestadística Prof. Silvia Carhuayo L.
MEDIDAS DE DISPERSIÓN
1. DEFINICIÓN
Se ha estudiado los valores centrales de la distribución, pero también es importante conocer
si los valores en general están cerca o alejados de estos valores centrales, es por ello que
surge la necesidad de estudiar medidas de dispersión. Por lo tanto, es de limitado valor sólo
el conocimiento de una medida de tendencia central, ya que ella no da ninguna información
sobre cómo las observaciones están dispersas alrededor de la misma.
Las medidas de dispersión tratan de medir el grado de dispersión o variabilidad de los datos
en torno a una medida de posición o tendencia central, indicándonos lo representativa que es
la medida de posición. A mayor dispersión menor representatividad de la medida de
posición y viceversa.
3.1. Recorrido ó Rango: Se define como la diferencia entre el valor mínimo y máximo de
la variable.
Rango Valor máximo dela var iable Valor mínimo dela var iable
3.2. Varianza
3.2.1. Definición:
3.2.2. Notación:
- Varianza poblacional: , V[X]
2
- Varianza muestral : ˆ , s2
2
3.2.3. Cálculo:
A. Varianza poblacional
N
x
2
i
2 i 1
N
B. Varianza muestral
30
Bioestadística Prof. Silvia Carhuayo L.
x xˆ
2
i
ˆ 2 i 1
m m
xi x x n
2 2
ni i i
ˆ 2 i 1
i 1
x2
n n
Ejemplo 14
n=58 >30
Promedio = 139.7241379
Varianza= 90,92390012
El promedio de la variación al cuadrado de la tensión arterial de cada paciente
respecto al promedio de tensión arterial es de 90,92390012
x xˆ
2
i
ˆ 2 i 1
n 1
x x
2
ni
i
1 m 2
ˆ
2 i 1
n 1
n 1 i 1
xi ni nx 2
30
Bioestadística Prof. Silvia Carhuayo L.
3.3.1.Definición:
Es la raíz cuadrada positiva de la varianza
3.3.2. Notación:
:desviación estándar poblacional
ˆ : desviación estándar muestral
3.3.3. Cálculo:
Desviaciónestándar Varianza
Ejemplo 15
ˆ =√90,92390012 = 9,535
3.5. Desventaja:
Todas estas medidas de dispersión vienen influidas por la unidad en la que se mide la
variable, esto implica que si cambiamos de unidad de medida, los valores de estos
estadísticos se vean a su vez modificados.
No se pueden comparar grupos con diferentes unidades medidas.
Se mide en la misma unidad que la variable por lo que se puede interpretar mejor.
COEFICIENTE DE VARIACIÓN:
30
Bioestadística Prof. Silvia Carhuayo L.
4.1. Definición:
Es una medida de variabilidad que compara la desviación estándar con respecto a la
media.
Se define como el cociente de la desviación estándar y el promedio.
4.2. Notación:
Lo denotaremos por C.V., se acostumbra presentarla en porcentaje.
4.3. Cálculo:
desviación estándar
CV % *100
media aritmética
4.4. Ventaja:
4.5. Desventaja:
El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la
media aritmética, cuando ésta toma valores cercanos a cero, el coeficiente de variación
tenderá a infinito.
30
Bioestadística Prof. Silvia Carhuayo L.
(Q3 Q2 ) (Q2 Q1 )
AS
Q3 Q1
Si el valor de este coeficiente es mayor que cero entonces se dice que la distribución de
los datos se encuentra sesgada a la derecha, si es menor que cero entonces se dice que
está sesgada a la izquierda.
(x x )
i 1
i
3
x Md 3( x Me) n
As As As
s s s3
30
Bioestadística Prof. Silvia Carhuayo L.
m4
k 3
4
(x x )i
4
m4 i 1
luego :
n
4
∑𝑛 ̅)
𝑖=1(𝑥𝑖 −𝑥
𝑘= 𝑛
̂4
𝜎
−3
30
Bioestadística Prof. Silvia Carhuayo L.
4
∑𝑚 ̅ ) 𝑛𝑖
𝑖=1(𝑥𝑖 −𝑥
𝑘= 𝑛
̂4
𝜎
−3
Q3 Q1
k
2( P90 P10 )
Actividad
Con la información contenida en cada una de las tablas, calcule e interprete las medidas
estadísticas descriptivas adecuadas.
Diagnóstico N°
Complicaciones obstétricas 13565
Enfermedades digestivas 8745
Enfermedades respiratorias 6654
Traumatismos y envenenamientos 4302
Enfermedades infecciosas y parasitarias 3276
Afecciones perinatales 3452
Enfermedades del aparato circulatorio 2543
Enfermedades del Ap. Genitourinario 2987
Enfermedades endócrinas 2765
Tumores 2789
Otros diagnósticos 4398
30
Bioestadística Prof. Silvia Carhuayo L.
Las siguientes medidas descriptivas corresponden al peso inicial y final de 46 niños que
presentaron cuadros de deshidratación a los cuales se aplicaron suplemento de zinc.
a) Interprete las medidas descriptivas del peso inicial.
b) Compare y comente los resultados.
Peso Peso
Peso
inicial final
Media 10,3770 10,9283
Mediana 9,8000 10,6500
Moda 8,50 7,90a
Desv. típ. 2,71183 2,83068
Varianza 7,354 8,013
Asimetría 1,164 1,145
Curtosis 1,460 1,850
Mínimo 6,30 6,40
Máximo 19,30 20,50
25 8,5000 9,0750
50 9,8000 10,6500
60 10,4200 11,0000
Percentiles 70 11,0000 11,8700
75 11,7250 12,0500
80 12,5200 12,9200
90 14,7900 15,0000
30