Professional Documents
Culture Documents
Variables Variables
cuantitativas cualitativas
Medidas de Medidas de
tendencia central dispersión
20 19 10 25 33
20 19 22 25 21
Media aritmética
• La media aritmética se calcula de la siguiente forma
n
x
x 1 x 2 ... x n i 1
i
X
n n
• Ventajas:
20 – 21.4 -1.4
19 – 21.4 -2.4
10 – 21.4 -11.4
25 – 21.4 3.6
33 – 21.4 11.6
Media aritmética
• Es el valor que se encuentra mas cerca (en termino de
la distancia cuadrática) a todos los datos.
21.4
Media aritmética:
Desventajas
• Es sensible a valores extremos. Es decir, valores
atípicamente muy grandes o pequeños, hacen que la
media se vea arrastrada hacia ellas.
20 19 10 25 33 21.4
100 39.4
20 19 22 25 21 21.4
Datos: x1 , x2 , x3 , , xn 2 , xn 1 , xn
x n 1 2 si n es impar
Me x
n 2 x ( n 2) 1
si n es par
2
10 19 20 25 33 20
20 19 22 25 21
19 20 21 22 25 21
Quien es mejor ?
La Mediana
• Es preferible usar mediana cuando se desea controlar
por el efecto de los valores extremos (muy grandes o
muy pequeños).
20 19 10 25 33 20
100 25
K% (100-K)%
pk
Percentiles
• Tenemos varios percentiles populares
• El p50 es la mediana
• Los llamados cuartiles: p25, p50 y p75
n n
( xi X ) i
2 2 2
x nX
S2 i 1
i 1
n 1 n 1
Varianza = 71.3
20 19 22 25 21 21.4
Varianza = 5.3
Quien es mejor ?
Varianza y desviación
estándar
• El problema con la varianza es que no esta definida en
las mismas unidades que los datos.
20 19 22 25 21 21.4
Quien es mejor ?
El rango intercuartil
• Es una medida de dispersión mas robusta que la
desviación estándar.
RI = P75 – P25
El rango intercuartil
20 19 10 25 33 20
RI = 19-25
20 19 22 25 21 21
RI = 20-22
Quien es mejor ?
Grafico de cajas
Presión sistólica Valores atípicos
superiores (más de 1.5
15.5 RI sobre P75)
Valores atípicos
11.5 inferiores (más de 1.5
RI bajo P25)
Grafico de cajas
• Hemos obtenido los puntos que Lebron a anotado en
los últimos 50 de la temporada pasada.
8 27 35 25 28 24 32 19
24 27 32 24 34 32 26 24
30 27 29 29 33 32 28 35
30 30 26 26 22 27 31 30
27 33 30 32 28 32 31 23
24 20 33 32 27 25 22 30
25 23
Grafico de cajas
• Para una interpretación de las cajas en dos o más
distribuciones uno debe ver primero la tendencia
que se refleja en la mediana.
• Finalmente la asimetría.
Coeficiente de variación
• Se define como el cociente entre la desviación
estándar y la media.
s
CV
X
20 19 22 25 21
K= 3 100(1-1/9)% = 88.9%
Media (M) 21
Desviación estándar (DE) 8
Coeficiente de Variación (CV) 0.38
✔
• Al menos 88.9% de los datos están en el intervalo
[21 -2x8 , 21+2x8] = [5-47]
Datos Agrupados
• Prueba de conocimientos en estadística (n=50).
Frecuencia Frecuencia
Intervalo
absoluta porcentual
Extremo Extremo
izquierdo derecho
3.53 5.42 4 7.69
5.42 7.31 9 17.31
7.31 9.2 15 28.85
9.2 11.09 16 30.77
11.09 12.98 3 5.77
12.98 14.87 4 7.69
14.87 16.76 1 1.92
Datos agrupados
• Que pasa si recibimos los datos agrupados y deseamos
saber algunas medidas descriptivas como media,
varianza, percentiles, etc ?
Datos agrupados
K K
x i xˆ i fi
X i 1 X i 1
n n
x
K
nX ˆi i
2 2
22
i x f nX
S2 i 1
S2 i 1
n 1 n 1
Datos agrupados
• Prueba de conocimientos en estadística (n=50)
Marcas de Frecuencia
Intervalo xi x fi
clase absoluta
Extremo Extremo
izquierdo derecho
3.53
5.42
5.42
7.31
4.48
6.37
4
9
17.92
57.33
X 9.38
7.31 9.2 8.26 15 123.90
9.2 11.09 10.15 16 162.4
11.09 12.98 12.04 3 36.12
12.98 14.87 13.93 4 55.72
14.87 16.76 15.82 1 15.82
Datos agrupados
• Recordemos…
Frecuencia Frecuencia
Frecuencia
Intervalo acumulada acumulada
absoluta
absoluta relativa
Extremo Extremo
izquierdo derecho
3.53 5.42 4 4 0.08
5.42 7.31 9 13 0.25
7.31 9.2 15 28 0.54
9.2 11.09 16 44 0.85
11.09 12.98 3 47 0.90
12.98 14.87 4 51 0.98
14.87 16.76 1 52 1.00
Datos Agrupados
• Si el percentil pk esta ubicado en el intervalo Ii,
entonces
0.01k n Fi 1
Pk li A
fi