Professional Documents
Culture Documents
ADMINISTRADORES
Tema 2: Medidas de resumen
La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros
(parmetros).
Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva
estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y
confiamos en que sean prximos. Ms adelante veremos como elegir muestras para que
el error sea confiablemente pequeo.
Un brevsimo resumen sobre estadsticos
Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana, moda, media geomtrica y armnica
Localizacin
Dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos.
Cuantiles o Fractiles: cuartiles, deciles, percentiles, ...
Dispersin
Indican la mayor o menor concentracin de los datos con respecto a las
medidas de centralizacin.
Rango, varianza desviacin tpica, coeficiente de variacin,
Forma
Asimetra
Apuntamiento o curtosis
MEDIDAS DE TENDENCIA CENTRAL
Son valores que intentan representar al conjunto de
datos y tienden a ubicarse hacia el centro de la
distribucin.
Frecuentemente se los llama PROMEDIOS.
Observacin: Las medidas de Tendencia Central son
X
tambin Medidas de Posicin.
1. Media Aritmtica
2. Mediana (Me)
3. Moda (Md)
4. Media Geomtrica (G)
5. Media Armnica (H)
Estadsticos de centralizacin
Media: Es la media aritmtica (promedio) de los valores de una variable.
Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
Mediana: Es un valor que divide a las observaciones en dos grupos con
el mismo nmero de individuos. Si el nmero de datos es par, se elige la
media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a
valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Moda: Es el/los valor/es donde la distribucin de frecuencia alcanza un
mximo.
Altura mediana
Algunas frmulas
Datos sin agrupar: x1, x2, ..., xn
Media
x
x i i
n
Datos organizados en tabla
si est en intervalos usar como xi las marcas de clase. Si no
ignorar la columna de intervalos.
Variable fi Fi
Media
x
x f i i i
n
L0 L 1 x1 f1 F1 Mediana
n 2 F j 1
Me L j 1 a j ( )
L1 L 2 x2 f2 F2 fj
... f j f j 1
moda Md L j 1 a j ( )
Lk-1 Lk xk fk Fk 2 f j f j 1 f j 1
n
Ejemploconvariableenintervalos
Peso M. fi Fi
Clase
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58
Peso M.
Clase
fi Fi
x
xf
i i i
45 * 5 55 *10 115 * 3
69,3
(Xi)
n 58
40 50 45 5 5
n F j 1
50 60 55 10 15 Me L j 1 a j ( 2 )
fj
60 70 65 21 36 58 15
Me 60 10( 2 ) 66,6
70 - 80 75 11 47 21
80 - 90 85 5 52 f j f j 1
Md L j 1 a j ( )
90 - 100 95 3 55
2 f j f j 1 f j 1
21 10
100 130 115 3 58 60 (70 60) 65,23
2(21) 10 11
58
Medidas de Tendencia Central
Variable Numrica
Posiciones Relativas
Si la distribucin es simtrica y unimodal, las tres medidas ocuparn la abscisa
correspondiente al mximo central:
Mo Me x
Medidas de Tendencia Central
Variable Numrica
Posiciones Relativas
Mo Me x
Medidas de Tendencia Central
Variable Numrica
MEDIA GEOMETRICA
G n x1 x2 ... xn
- Razones,
Series Logartmicas o Variaciones Porcentuales: la MEDIA
GEOMETRICA
- Componentes con distinto peso: la MEDIA PONDERADA
15
10
5
0
1 2 3 4 5
Peso de arroz(Kg)
Ejemplos
Qu peso es superado slo por el 25% de los deportistas?
Percentil 75 o tercer cuartil
15
10
5
0
50 55 60 65 70 75 80 85
Percentiles 5 y 95
20
15
frecuencia
10
5
0
10
5
0
0.08
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo.
0.06
Suelen dar una buena idea de
densidad
0.04
la distribucin.
Mn. P25 P50 P75 Mx.
0.02
La zona central, caja, contiene
al 50% central de las
0.00
observaciones. 40 45 50 55 60 65
intercuartlico (R.I.)
Diagrama de cajas de Tukey: Resumen en 5 nmeros
no ms de 1,5 R.I.
0.02
consideran anmalas, y as se
marcan.
0.00
Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. Las notas seran las mismas en todos? Seguramente No.
Conjunto 2: 10 60 110
Conjunto 2: 10 60 110
0.05
Mn. P25 P50 P75 Mx.
de su causa.
0.04
0.03
Amplitud o Rango (range): 25% 25% 25% 25%
0.02
Diferencia entre observacines extremas. Rango intercuartlico
0.01
Rango
0.00
150 160 170 180 190
n i
32 16 18 27 10 25 19 49 28
V X
1
91
32 24,88 2 ... 28 24,88 2 128,6
V X
1
9
32 24,88 2 ... 28 24,88 2 114,32
MEDIDAS DE DISPERSIN
ms de la ms de la mitad. 0 N = 407,00
S 128,6 11,3
Si se trata de una Poblacin:
S 114,3 10,7
Dispersin en distribuciones normales
0.05
0.04
0.05
0.03
0.04
0.02
0.03
0.01
x 2s
95 %
0.00
0.02
xs
68.5 %
0.00
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente
Por ejemplo 0C 0F
Coeficiente de variacin (CV)
Ejemplo: Un inversor debe decidirse por la Accin A o por la B de
dos compaas de electrnica. Cul debe elegir si desea optar
por la que tiene comportamiento ms homogneo?
300
CVB 100 6,0 %
5.000
0.20
0.5
0.20
0.4
0.15
0.15
0.3
0.10
0.10
0.2
0.05
0.05
0.1
xs xs
xs
66 % 78 %
78 %
0.00
0.00
0.0
8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
x x x
MEDIDAS DE FORMA
SESGO: Medida en que se aparta la Distribucin de datos de la
forma simtrica de la Distribucin Normal
Coeficiente de Sesgo de Pearson:
As1
x Md
S
As 2
3 x Me
S
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin
con respecto a la distribucin normal o gaussiana. Es adimensional.
0.8
Aplanada Apuntada como la normal
2.0
0.6
0.3
1.5
0.4
0.2
1.0
0.2
x s
0.1
82 %
0.5
0.0
x s
xs
68 %
57 % -2 -1 0 1 2
0.0
0.0
k
n f i xi x
4
K i 1
2
3
k
f i xi x
2
i 1
MEDIDAS DE FORMA
Curtosis:
n=419
25%
Intervalo de Lmite
1,81 17%
confianza para la inferior
20%
media al 95% Lmite n=255 14%
superior 1,99 n=215
15%
Media recortada al 5% 8%
1,75 10%
n=127
4%
Mediana 2,00 n=54 2% 2% 1%
5%
Varianza 3,114 n=24 n=23 n=17
Desv. tp. 1,765
Mnimo 0
0 1 2 3 4 5 6 7 Ocho o ms
Mximo 8
Nmero de hijos
Rango 8
Amplitud intercuartil
3,00 Est sombreado lo que sabemos interpretar hasta ahora.
Verifica que comprendes todo. Qu unidades tiene cada
estadstico? Variabilidad relativa?
Asimetra 1,034 ,063
Curtosis 1,060 ,126 Calcula los estadsticos que puedas basndote slo en el
grfico de barras.
TIPIFICACION DE DATOS
El puntaje Z :
X X
Z
S
Ejemplo:
En el conjunto: 4 ; 2 ; 4 ; 4 ; 3 ; 4 ; 10 ; 2 ; 3 ; 3
10 - 3,9
x 3,9 S 2,16 Z 2,82
2,16
Por lo tanto 10 es un valor alejado
Qu hemos visto?
Parmetros
Estadsticos y estimadores
Clasificacin
Posicin (cuantiles, percentiles,...)
Diagramas de cajas
Medidas de centralizacin: Media, mediana y moda
Diferenciar sus propiedades.
Medidas de dispersin
con unidades: rango, rango intercuartlico, varianza, desv. tpica
sin unidades: coeficiente de variacin
Qu usamos para comparar dispersin de dos poblaciones?
Asimetra
positiva
Negativa
Medidas de apuntamiento (curtosis)
Tipificacin de datos