Professional Documents
Culture Documents
variable
7
Gnero Frec. 6
5
Hombre 4
4
3
2
Mujer 6
1
0
Hombre Mujer
Muestra:
MHHMMHMMMH
equivale a
HHHH MMMMMM
Grficos para v. cualitativas
3000 3000
2501 2501
2500 2500
Frecuencia
1500 1500
Fem enino
1954
35%
Masculino
3691
65%
Grficos para variables numricas
8.00
7.00
Mximos, mnimos y cierre del peso
6.00
colombiano con respecto al dlar
5.00
4.00 Peso Co / Dolar
3.00
2.00 1,960.00
1.00
1,940.00
0.00
Noviembre
Diciembre
Enero
Marzo
Mayo
Julio
Enero
Marzo
Mayo
Julio
Junio
Junio
Febrero
Octubre
Febrero
Septiembre
Abril
Abril
Agosto
1,920.00
1,900.00
Ao - Mes
1,860.00
26/08/2008
27/08/2008
28/08/2008
29/08/2008
anterior.
200
300
255
Recu ento
Recu ento
215 150
200
100
127
100
54 50
24 23 17
0 1 2 3 4 5 6 7 Ocho o ms
20 40 60 80
Nmero de hijos
Edad del encuestado
Tablas de frecuencia
Exponen la informacin recogida en la muestra, de forma que no se pierda nada de
informacin (o poca).
Cuntos individuos tienen
menos de 2 hijos? Nmero de hijos
15
10
5
0
1 2 3 4 5
Percentiles 5 y 95
20
15
frecuencia
10
5
0
Porcentaje Estadsticos
Frecuencia Porcentaje acumulado
Nmero de aos de es colarizacin
3 5 ,3 ,3
N Vlidos 1508
4 5 ,3 ,7
Perdidos 0
5 6 ,4 1,1
Media 12,90
6 12 ,8 1,9
7 Mediana 12,00
25 1,7 3,5
8 68 4,5 8,0 Moda 12
9 56 3,7 11,7 Percentiles 10 9,00
10 73 4,8 16,6 20 11,00
11 85 5,6 22,2 20%? 25 12,00
12 461 30,6 52,8 30 12,00
13 130 8,6 61,4 40 12,00
14 175 11,6 73,0 50 12,00
15 73 4,8 77,9 60 13,00
16 194 12,9 90,7 90%? 70 14,00
17 43 2,9 93,6 75 15,00
18 45 3,0 96,6 80 16,00
19 22 1,5 98,0 90 16,00
20 30 2,0 100,0
Total 1508 100,0
Estadsticos de centralizacin
Medidas que buscan valores con respecto a los cuales los datos muestran
tendencia a agruparse.
Moda Es el/los valor/es ms frecuente (donde la distribucin de
frecuencia alcanza un mximo).
Moda de 1,2,4,5,6,6,8 es 6
Media aritmtica o promedio aritmtico Es
el valor alrededor del cual se concentran la
mayora de los datos. Se calcula como la
suma de los datos observados dividido entre
el tamao del grupo (muestra o poblacin).
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se
distribuyen simtricamente con
respecto a ese valor. Muy sensible a
valores extremos.
Mediana Es un valor que divide a las
observaciones en dos grupos con el mismo
nmero de individuos (percentil 50). Si el
nmero de datos es par, se elige la media
de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es
(5+6)/2=5,5 Altura mediana
Es conveniente cuando los datos son
asimtricos. No es sensible a valores
extremos.
Media: 7
Media: 10
Medidas descriptivas para
dispersin
Situacin 1
Para otorgar una mencin de honor, usted debe
seleccionar un estudiante entre tres que han aprobado
su materia.
Los candidatos y sus notas son:
Pepe 2,9 3,1 3,0
Pacho 1,5 3,0 4,5
Pipe 4,0 3,0 2,0
0.05
Mn. P25 P50 P75 Mx.
2,1,4,3,8,4. El rango es 8-1=7
0.04
Es muy sensible a los valores extremos.
0.03
Rango intercuartlico: 25% 25% 25% 25%
0.02
Es la distancia entre primer y tercer Rango intercuartlico
cuartil.
0.01
Rango
Rango intercuartlico = P75 - P25
0.00
Parecida al rango, pero eliminando las 150 160 170 180 190
observaciones ms extremas inferiores y
superiores.
No es tan sensible a valores extremos.
Diagrama de Tukey
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo.
Suelen dar una buena idea de la distribucin.
La zona central, caja, contiene al 50% central de las observaciones.
Su tamao es el rango intercuartlico (R.I.)
Los bigotes pueden llegar hasta los valores extremos o hasta 1,5 R.I. de
cada borde de la caja.
Ms all de esa distancia se consideran anmalas, y as se marcan.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
0.08
0.06
densidad
0.04
0.02
40 45 50 55 60 65
0.02
Mn. Mx.
0.00
5 67
0
NOTA
-1
N = 21 20 21 20
P1 P2 P3 P4
PARCIAL
Varianza: Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.
1
( xi x ) 2
2
Sn
n i
S
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de CV
qu tamao tiene con respecto a la media x
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad
de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores muy cercanos a cero
No es conveniente cuando los datos son proporciones.
Grfico situacin 3
9
8
7
6
5
4
3
2
1
0
1,4 1,47 1,49 1,5 1,51 1,57 1,58 1,71 1,8
Medidas situacin 3
Grupo A Grupo B
Varianza 0,0099 0,0011
Media 1,688 1,512
CV 0,0767 0,0269
Max 1,8 1,58
Min 1,4 1,47
Rango 0,4 0,11
Q1 1,71 1,5
Q3 1,71 1,5075
Rango Interq. 0 0,0075
Asimetra o Sesgo
La media tiende a desplazarse hacia las valores extremos (colas).
8
10
12
x
14
16
x s
78 %
18
20
0.0 0.1 0.2 0.3 0.4 0.5
-2
-1
0
x s
66 %
x
1
2
3
4
6
x
8
10
12
14
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribucin con respecto a la distribucin normal o gaussiana.
Es adimensional.
b2>3
ix x 4
n
n xi x
i 1 4
b2=3 b2 n i 1
2 2
n
n
2
xi x xi x
2
b2<3 i 1 i 1
n
Como la normal
0.3
0.2
0.1
x? s
68 %
0.0
-3 -2 -1 0 1 2 3
Aplanada Apuntada
2.0
0.8
1.5
0.6
1.0
0.4
0.5
0.2
x s x s
57 % 82 %
0.0
0.0