You are on page 1of 38

Estadstica descriptiva para una

variable

1. Representacin grfica y tabular para una variable


2. Medidas de centro, localizacin, dispersin, forma
3. Datos atpicos
4. Tasas, ndices, razones y proporciones
Presentacin ordenada de datos

7
Gnero Frec. 6

5
Hombre 4
4
3
2
Mujer 6
1
0
Hombre Mujer

Las tablas de frecuencias y las representaciones grficas


son dos maneras equivalentes de presentar la informacin.
Las dos exponen ordenadamente la informacin recogida
en una muestra.
Tabla de frecuencias para variables cualitativas

Gnero Frecuencia Frec. relativa


Variable: Gnero absoluta (Porcentaje)

Modalidades: Hombre 4 4/10=0,4=40%


H = Hombre
Mujer 6 6/10=0,6=60%
M = Mujer
10=tamao
muestral (n)

Muestra:

MHHMMHMMMH

equivale a
HHHH MMMMMM
Grficos para v. cualitativas

Diagramas de barras / Pareto

Diagramas de sectores (tartas, polares)

Estrato Admitidos UNAL (2007 - I)

3000 3000
2501 2501
2500 2500

2000 1730 2000 1730


Frecuencia

Frecuencia
1500 1500

1000 686 1000 686


384 384
500 200 500 200
31 67 67 31
0 0
E0 E1 E2 E3 E4 E5 E6 E3 E2 E4 E1 E5 E6 E0
Genero Admitidos (2007-I)
Genero Frecuencia Porcentaje Porcentaje Valido
Femenino 1954 34.61% 34.61%
Masculino 3691 65.39% 65.39%
Total 5645 100.00% 100.00%

Fem enino
1954
35%
Masculino
3691
65%
Grficos para variables numricas

8.00
7.00
Mximos, mnimos y cierre del peso
6.00
colombiano con respecto al dlar
5.00
4.00 Peso Co / Dolar
3.00
2.00 1,960.00
1.00
1,940.00
0.00
Noviembre
Diciembre
Enero

Marzo

Mayo

Julio

Enero

Marzo

Mayo

Julio
Junio

Junio
Febrero

Octubre

Febrero
Septiembre
Abril

Abril
Agosto

1,920.00

1,900.00

2007 2008 1,880.00

Ao - Mes
1,860.00

Variacin Anual: Cambio porcentual del ndice 1,840.00


de Precios al Consumidor (IPC) del mes de
1,820.00
referencia con respecto al mismo mes del ao
25/08/2008

26/08/2008

27/08/2008

28/08/2008

29/08/2008
anterior.

FUENTE: Banco de la Repblica


419
400 250
375

200
300

255

Recu ento
Recu ento

215 150

200

100
127

100

54 50
24 23 17

0 1 2 3 4 5 6 7 Ocho o ms
20 40 60 80
Nmero de hijos
Edad del encuestado
Tablas de frecuencia
Exponen la informacin recogida en la muestra, de forma que no se pierda nada de
informacin (o poca).
Cuntos individuos tienen
menos de 2 hijos? Nmero de hijos

frec. indiv. sin hijos Porcent. Porcent.


+ Frec. (vlido) acum.
frec. indiv. con 1 hijo 0 419 27,8 27,8
= 419 + 255
= 674 individuos 1 255 16,9 44,7
2 375 24,9 69,5 50%

Qu porcentaje de individuos 3 215 14,2 83,8


tiene 6 hijos o menos? 4 127 8,4 92,2
5 54 3,6 95,8
6 24 1,6 97,3
Qu cantidad de hijos es tal que 7 23 1,5 98,9
al menos el 50% de la poblacin
tiene una cantidad inferior o Ocho+ 17 1,1 100,0
igual? Total 1509 100,0
Tablas de frecuencia :
Datos agrupados
Medidas descriptivas para una
variable cuantitativa
Posicin
Dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...
Centralizacin
Indican valores con respecto a los que los datos
parecen agruparse.
Media, mediana y moda
Dispersin
Indican la concentracin de los datos con
respecto a las medidas de centralizacin.
Varianza, desviacin tpica, coeficiente de variacin,
rango, rango intercuartlico
Forma
Asimetra
Apuntamiento o curtosis
Estadsticos de posicin
Se define el cuantil de orden a como un valor de la variable por debajo del
cual se encuentra una frecuencia acumulada a.

Casos particulares : percentiles, cuartiles, deciles, quintiles,...


Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu
peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05

Percentil 5 del peso


25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso al nacer (Kg) de 100 nios


El colesterol se distribuye simtricamente en la poblacin. Supongamos que
se consideran patolgicos los valores extremos. El 90% de los individuos son
normales Entre qu valores se encuentran los individuos normales?

Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


Nmero de aos de escolarizacin

Porcentaje Estadsticos
Frecuencia Porcentaje acumulado
Nmero de aos de es colarizacin
3 5 ,3 ,3
N Vlidos 1508
4 5 ,3 ,7
Perdidos 0
5 6 ,4 1,1
Media 12,90
6 12 ,8 1,9
7 Mediana 12,00
25 1,7 3,5
8 68 4,5 8,0 Moda 12
9 56 3,7 11,7 Percentiles 10 9,00
10 73 4,8 16,6 20 11,00
11 85 5,6 22,2 20%? 25 12,00
12 461 30,6 52,8 30 12,00
13 130 8,6 61,4 40 12,00
14 175 11,6 73,0 50 12,00
15 73 4,8 77,9 60 13,00
16 194 12,9 90,7 90%? 70 14,00
17 43 2,9 93,6 75 15,00
18 45 3,0 96,6 80 16,00
19 22 1,5 98,0 90 16,00
20 30 2,0 100,0
Total 1508 100,0
Estadsticos de centralizacin
Medidas que buscan valores con respecto a los cuales los datos muestran
tendencia a agruparse.
Moda Es el/los valor/es ms frecuente (donde la distribucin de
frecuencia alcanza un mximo).
Moda de 1,2,4,5,6,6,8 es 6
Media aritmtica o promedio aritmtico Es
el valor alrededor del cual se concentran la
mayora de los datos. Se calcula como la
suma de los datos observados dividido entre
el tamao del grupo (muestra o poblacin).
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se
distribuyen simtricamente con
respecto a ese valor. Muy sensible a
valores extremos.
Mediana Es un valor que divide a las
observaciones en dos grupos con el mismo
nmero de individuos (percentil 50). Si el
nmero de datos es par, se elige la media
de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es
(5+6)/2=5,5 Altura mediana
Es conveniente cuando los datos son
asimtricos. No es sensible a valores
extremos.

Media: 7

Media: 10
Medidas descriptivas para
dispersin
Situacin 1
Para otorgar una mencin de honor, usted debe
seleccionar un estudiante entre tres que han aprobado
su materia.
Los candidatos y sus notas son:
Pepe 2,9 3,1 3,0
Pacho 1,5 3,0 4,5
Pipe 4,0 3,0 2,0

Indique por cul estudiante votara y explique su


eleccin.
Situacin 2

Usted debe preparar un manjar muy delicado


y tiene dos opciones:
a. Utilizar el horno micro-ondas que
proporciona una temperatura entre 298 y
300 grados cuando marca 300.
b. Utilizar el horno a gas que proporciona
una temperatura entre 290 y 315 grados
cuando marca 300.
Que horno seleccionara usted y porqu.
Situacin 3
Las estaturas en cm de muestras de alumnos de dos
grupos A y B en un mismo colegio son:

Grupo A 1,71 1,71 1,71 1,71 1,71


1,4 1,71 1,71 1,71 1,8
Grupo B 1,5 1,57 1,58 1,5 1,49
1,5 1,47 1,5 1,51 1,5

Qu grupo contiene mayor variabilidad?


Variabilidad o dispersin
Los estudiantes de Estadstica reciben diferentes calificaciones en la
asignatura (variabilidad). A qu puede deberse?
Diferencias individuales en el conocimiento de la materia.
Podra haber otras razones (fuentes de variabilidad)?

Supongamos que todos los alumnos poseen el mismo nivel de


conocimiento. Las notas seran las mismas? Seguramente No.
Dormir poco el da del examen, el croissant estaba
envenenado...
Diferencias individuales en la habilidad para hacer un
examen.
El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
En alguna pregunta difcil, se duda entre varias opciones y al
azar se elige una
Variabilidad por azar, aleatoriedad.
Medidas de dispersin
Amplitud o Rango:
Diferencia entre observacines extremas.

0.05
Mn. P25 P50 P75 Mx.
2,1,4,3,8,4. El rango es 8-1=7

0.04
Es muy sensible a los valores extremos.

0.03
Rango intercuartlico: 25% 25% 25% 25%

0.02
Es la distancia entre primer y tercer Rango intercuartlico
cuartil.

0.01
Rango
Rango intercuartlico = P75 - P25

0.00
Parecida al rango, pero eliminando las 150 160 170 180 190
observaciones ms extremas inferiores y
superiores.
No es tan sensible a valores extremos.
Diagrama de Tukey
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo.
Suelen dar una buena idea de la distribucin.
La zona central, caja, contiene al 50% central de las observaciones.
Su tamao es el rango intercuartlico (R.I.)
Los bigotes pueden llegar hasta los valores extremos o hasta 1,5 R.I. de
cada borde de la caja.
Ms all de esa distancia se consideran anmalas, y as se marcan.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
0.08
0.06
densidad

0.04
0.02

Mn. P25 P50 P75 Mx.


0.00

40 45 50 55 60 65

Velocidad (Km/h) de 200 vehculos en ciudad


Box plot
Diagrama de cajas de Tukey: Resumen en 5 nmeros
0.04
0.03
densidad

0.02

P25 P50 P75


0.01

Mn. Mx.
0.00

80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehculos en autova


Situacin 4
6

5 67

0
NOTA

-1
N = 21 20 21 20

P1 P2 P3 P4

PARCIAL
Varianza: Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.

1
( xi x ) 2
2
Sn
n i

Es sensible a valores extremos (alejados de la media).


Sus unidades son el cuadrado de las de la variable. De interpretacin
difcil para un principiante.

Desviacin tpica Es la raz cuadrada de la varianza


Tiene las misma dimensionalidad (unidades) que la variable.
Versin esttica de la varianza.
Cuasivarianza o varianza muestral
1
( xi x )
2 2
S n 1
n 1 i
Coeficiente de variacin

S
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de CV
qu tamao tiene con respecto a la media x
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad
de diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores muy cercanos a cero
No es conveniente cuando los datos son proporciones.
Grfico situacin 3

9
8
7
6
5
4
3
2
1
0
1,4 1,47 1,49 1,5 1,51 1,57 1,58 1,71 1,8
Medidas situacin 3

Grupo A Grupo B
Varianza 0,0099 0,0011
Media 1,688 1,512
CV 0,0767 0,0269
Max 1,8 1,58
Min 1,4 1,47
Rango 0,4 0,11
Q1 1,71 1,5
Q3 1,71 1,5075
Rango Interq. 0 0,0075
Asimetra o Sesgo
La media tiende a desplazarse hacia las valores extremos (colas).

Las discrepancias entre las medidas de centralizacin son


indicacin de asimetra.
0.00 0.05 0.10 0.15 0.20

8
10
12

x
14
16
x s
78 %

18
20
0.0 0.1 0.2 0.3 0.4 0.5

-2
-1
0
x s
66 %

x
1
2
3

0.00 0.05 0.10 0.15 0.20


0
2
x s
78 %

4
6

x
8
10
12
14
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribucin con respecto a la distribucin normal o gaussiana.
Es adimensional.

Platicrtica (ms aplanada que la normal)


Mesocrtica (como la normal)
Leptocrtica (ms apuntada que la normal)
n

b2>3
ix x 4
n
n xi x
i 1 4

b2=3 b2 n i 1
2 2
n
n
2
xi x xi x
2

b2<3 i 1 i 1
n


Como la normal

0.3
0.2
0.1
x? s
68 %

0.0
-3 -2 -1 0 1 2 3
Aplanada Apuntada
2.0

0.8
1.5

0.6
1.0

0.4
0.5

0.2

x s x s
57 % 82 %
0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0 -2 -1 0 1 2

You might also like