You are on page 1of 34

TEMA 2: DESCRIPCIN

FRECUENCIAS Y

DE

VARIABLES CUANTITATIVAS: DISTRIBUCIN

DE

REPRESENTACIN GRFICA

La naturaleza numrica de las variables cuantitativas permite un tratamiento


estadstico ms elaborado que con las variables cualitativas.

Con las variables cuantitativas pueden realizarse operaciones matemticas, lo


que permite una descripcin ms precisa y completa.

En este tema estudiaremos la distribucin de frecuencias y su representacin


grfica (como hemos hecho para las variables cualitativas en el Tema 1) y en
los siguientes temas veremos otras formas de describir una variable
cuantitativa.

A) Variables Discretas

La distribucin de frecuencias para las variables discretas es semejante a lo que


hemos visto para el caso de las variables cualitativas, ya que las categoras en
que se agrupan los datos vienen dadas de forma natural por los valores que
toma la variable.

Ejemplo 1:
Cien familias se han clasificado segn el nmero de hijos, resultando los
siguientes datos:

N de Hijos
N de familias

0
11

1
13

2
20

3
25

4
14

5
10

6
4

7
2

N=100; k=9

Frecuencias absolutas:
n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1

Frecuencias relativas:

f1

11
0 ,1 1 ;
100

f2

13
0 ,1 3 ;
100

f3

20
0 ,2
100

8
1

f4

25
0 ,2 5 ;
100

f5

14
0 ,1 4 ;
100

f6

10
0 ,1
100

f7

4
0 ,0 4 ;
100

f8

2
0 ,0 2 ;
100

f9

1
0 ,0 1
100

Distribucin de frecuencias:

Categoras
0
1
2
3
4
5
6
7
8

ni
11
13
20
25
14
10
4
2
1
N=100

La categora ms numerosa es la de familias con 3 hijos y la


menos frecuente es la de familias con 8 hijos

fi
0,11
0,13
0,2
0,25
0,14
0,1
0,04
0,02
0,01
1

Diagrama de barras
Frecuencias relativas fi
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0

Frecuencias absolutas ni

30
25
20
15
10
5
0
0

En general, las clases vienen ordenadas de forma natural de menor a


mayor por lo que tiene sentido definir la distribucin de frecuencias
acumulada.

Para construir la distribucin de frecuencias acumulada hay que sumar a


la frecuencia de cada clase (absoluta o relativa) la de las clases
anteriores.

Los valores de la distribucin de frecuencias acumulada no decrecen.

La informacin sobre los datos que proporcionan la distribucin de


frecuencias y la distribucin de frecuencias acumulada es equivalente.
Cada una puede obtenerse a partir de la otra.

Ejemplo: N de hijos
Frecuencias
Frecuencias

Frecuencias
Frecuencias

absolutas
Categoras

absolutas

relativas
relativas

acumuladas

acumuladas

ni
0
1
2
3
4
5
6
7
8

11
13
20
25
14
10
4
2
1
N=100

fi
Ni
11
24
44
69
83
93
97
99
100

0,11
0,13
0,2
0,25
0,14
0,1
0,04
0,02
0,01
1

Fi
0,11
0,24
0,44
0,69
0,83
0,93
0,97
0,99
1

El ltimo valor de la distribucin de frecuencias absolutas acumuladas


coincide con N.

El ltimo valor de la distribucin de frecuencias relativas acumuladas es 1


(salvo error de redondeo).

La distribucin de frecuencias acumulada nos permite conocer la


proporcin (o el nmero) de observaciones por debajo de cierto valor,
entre dos valores o por encima de una cantidad.

Ejemplo: N de hijos

Qu proporcin de familias tiene menos de 2 hijos? 0,24

Cuntas familias tienen menos de 4 hijos? 69


7

Qu proporcin de familias tiene ms de 6 hijos?


0,03=1-0,97=0,01+0,02

Qu proporcin de familias tiene ms de 3 hijos pero menos de 7?


0,28=0,14+0,1+0,04=0,97-0,69

Representacin grfica de la distribucin de frecuencias acumulada

Frecuencias relativas Fi

1.0
0.8
0.6
0.4
0.2
0.0
0

Ejercicio 3.2 de Pea y Romo


Los siguientes datos corresponden al nmero de bibliotecarios en las
bibliotecas pblicas de las diferentes provincias espaolas:

4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6
6 1 3 15 16 6 7 12

(a)

Hallar la distribucin de frecuencias relativas y representarla


mediante un diagrama de barras

(b)

Obtener y representar la distribucin de frecuencias relativas


acumuladas

(c)

Qu proporcin de provincias tiene ms de 7 bibliotecarios?

Frecuencias
Frecuencias

Frecuencias
Frecuencia

absolutas
Bibliotecarios

absolutas

relativas
s relativas

acumuladas
ni
1
2
3
4
5
6
7
8
10
12
15
16

3
7
9
10
6
4
4
2
1
2
1
1

acumuladas
fi

Ni
3
10
19
29
35
39
43
45
46
48
49
50

10

0,06
0,14
0,18
0,2
0,12
0,08
0,08
0,04
0,02
0,04
0,02
0,02

Fi
0,06
0,2
0,38
0,58
0,7
0,78
0,86
0,9
0,92
0,96
0,98
1

Frecuencias relativas: fi
0.25
0.20
0.15
0.10
0.05
0.00
1

10 12 15 16

Frecuencias relativas acumuladas: Fi


1.0
0.8
0.6
0.4
0.2
0.0
1

10 12 15 16

La proporcin de provincias con ms de 7 bibliotecarios es de 0,14


0,14=1-0,86=0,04+0,02+0,04+0,02+0,02

11

La mayora de las provincias

(62%) tiene 4 bibliotecarios o ms:

0,62=1-0,38=
=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02

4 es la clase ms frecuente con una frecuencia relativa de 0,2

Ms de la mitad de las provincias espaolas (F4=0,58) tiene menos de 5


bibliotecarios

La proporcin de provincias espaolas que tienen entre 5 y 7


bibliotecarios es de 0,28
0,28=0,12+0,08+0,08=0,86-0,58

12

B) Variables Continuas

El anlisis de la distribucin de frecuencias de las variables cuantitativas


continuas es ms complejo que el de las variables cualitativas o discretas.

Las categoras o clases no vienen dadas de forma natural sino que deben
elegirse.

Tendremos que dividir el recorrido (o conjunto de posibles valores de la


variable) en intervalos que no se solapen.

El punto central de cada intervalo se llama marca de clase (ci).

El resto de los elementos y conceptos de la distribucin de frecuencias de una


variable continua es equivalente a lo visto en las cualitativas y discretas.

13

Ejemplo:
La variable GTINE representa el gasto total. Los datos correspondientes a 75
hogares son:

81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431


276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829
278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465
321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425
427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772
531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595
228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920
255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705
455.125 122.696 479.791

Tomando intervalos o clases iguales y de tamao 100.000 pesetas, vamos


a calcular la distribucin de frecuencias.

Por ejemplo, el primer intervalo ser: 0<GTINE100.000 y la marca de


clase c1=50.000.

El nmero de intervalos o clases ser k=9.

14

Gasto Total (GTINE G)

Frecuencias
Gasto

Frecuencias

(en miles de

absolutas

ptas.)

ni

0<G100
100<G200
200<G300
300<G400
400<G500
500<G600
600<G700
700<G800
800<G900

10
22
17
8
10
3
2
2
1
N=75

Frecuencias
Frecuencia

absolutas

relativas
s relativas

acumuladas

acumuladas
fi

Ni
10
32
49
57
67
70
72
74
75

15

0,13
0,29
0,23
0,11
0,13
0,04
0,03
0,03
0,01
1

Fi
0,13
0,42
0,65
0,76
0,89
0,93
0,96
0,99
1

La proporcin de familias que gasta 200.000 pesetas o menos es de 0,42.

La proporcin de familias que gasta ms de 600.000 pesetas es 0,07=10,93=0,03+0,03+0,01.

La proporcin de familias que gasta ms de 100.000 pero no ms de


300.000 es 0,52=0,29+0,23=0,65-0,13

16

Representacin grfica de la distribucin de frecuencias

1) El Histograma
El histograma es un grfico que representa las frecuencias mediante
reas. Sobre cada clase (o rango de valores) se dibuja un rectngulo
cuyo rea representa la frecuencia (absoluta o relativa) de esa clase.

Cuando las clases (o intervalos) en que dividimos los datos son de


distinta longitud el eje vertical no tiene sentido. Como la frecuencia es el
rea de cada rectngulo, si dibujamos rectngulos con distinta base su
mayor o menor altura no nos da informacin.

(Ver Ejemplo de GTINE en Figura 3.4 de Pea y Romo)

Cuando las clases (o intervalos) son de la misma longitud, las frecuencias


son proporcionales a las alturas de los rectngulos. La altura nos
informa sobre la densidad o concentracin de datos en ese intervalo:

donde los rectngulos son ms altos hay ms datos de la variable

donde los rectngulos son ms bajos los datos de la variable son ms


escasos
Ejemplo: GTINE (distribucin frecuencias pag.16)

17

Frecuencias relativas (%)

Histograma de GTINE
30
25
20
15
10
5
0
0

0,2

0,4

0,6

GTINE

18

0,8

1
(X 1,E6)

Los rectngulos se dibujan contiguos (a diferencia del diagrama de


barras o de Pareto) para transmitir la idea de variable continua.

La forma del histograma es la misma si representamos frecuencias


absolutas o relativas, slo cambia la escala del eje vertical.
Ejemplo: GTINE

Frecuencias absolutas

Histograma de GTINE
24
20
16
12
8
4
0
0

0,2

0,4

0,6

GTINE

0,8

1
(X 1,E6)

Comparar con el histograma de frecuencias relativas de la pgina


anterior.

La forma del histograma s que depende de:

19

anchura de las clases o tamao de los intervalos

eleccin del punto donde empieza la primera clase


Ejemplo: GTINE

Frecuencias relativas (%)

Histograma de GTINE
18
15
12
9
6
3
0
0

0,2

0,4

0,6

0,8

GTINE

1
(X 1,E6)

Cmo elegimos los intervalos (o el nmero de clases)?

Empezar con pocas clases y ver (en el histograma) si con ms clases


tenemos ms informacin (ver Figura 3.6 de Pea y Romo de la variable
NOTAS)

Si tenemos N observaciones elegir el nmero de clases igual al entero


ms prximo a

(En el ejemplo de GTINE como N=75 entonces

7 5 8 ,6 9

Por qu nos preocupa tanto la forma del histograma? Porque la forma


del histograma refleja propiedades importantes de la variable.

20

El histograma (al igual que el diagrama de barras) nos muestran


caractersticas de una variable que pueden apreciarse visualmente:

Se puede ver si la distribucin es simtrica alrededor de un eje central o


si es asimtrica
Ejemplo:
GTINE es asimtrica a la derecha (ver pag. 19)
NOTAS es simtrica alrededor del 5 (ver Figura 3.6 de Pea y Romo)

Se puede ver si presenta un solo mximo o pico o moda y es, por tanto,
unimodal o si presenta varias modas

Algunas de las formas ms frecuentes de histogramas son (ver Figura


3.8 de Pea y Romo):
o Unimodal simtrico: se suele dar en variables en las que hay una
gran cantidad de observaciones con valores intermedios y
algunos valores en ambos extremos (notas, peso, altura)
o Unimodal asimtrico a la derecha: se da en variables que tienen
una gran cantidad de observaciones pequeas o intermedias y
algunos datos grandes (gasto, ingreso)
o Unimodal asimtrico a la izquierda: variables con muchas
observaciones de valor alto o intermedio (esperanza de vida en
los distintos pases)
o Bimodal simtrico: suele aparecer cuando los datos son de 2
grupos heterogneos y conviene estudiarlos por separado (un

21

objeto que se hiciera en dos tamaos distintos en cantidades


iguales)

El histograma se puede emplear tambin para representar frecuencias


acumuladas (absolutas o relativas)

Ejemplo: GTINE

Histograma de GTINE
100

F (%)

80
60
40
20
0
0

0,2

0,4

0,6

GTINE

22

0,8

1
(X 1,E6)

2) El polgono de frecuencias

El polgono de frecuencias es una representacin grfica de las


frecuencias equivalente al histograma.

Se obtiene a partir del histograma uniendo los centros de la base


superior de sus rectngulos.

Ejemplo: GTINE

Frecuencias relativas (%)

Histograma de GTINE
30
25
20
15
10
5
0
0

0,2

0,4

0,6

0,8

GTINE

1
(X 1,E6)

Frecuencias relativas (%)

Polgono de frecuencias de GTINE


30
25
20
15
10
5
0
0

0,2

0,4

0,6

GTINE

23

0,8

1
(X 1,E6)

Se puede obtener para frecuencias acumuladas a partir del histograma


de frecuencias acumuladas.

La diferencia fundamental entre el histograma y el polgono es que ste


proporciona una representacin ms suavizada de la distribucin de
frecuencias.

3) El diagrama de tallos y hojas

Nos permite obtener simultneamente la distribucin de frecuencias de


la variable y su representacin grfica.

Para construirlo hay que separar en cada dato el ltimo dgito de la


derecha (la hoja) del resto de las cifras (el tallo).

Los tallos aparecen a la izquierda de una lnea vertical y a la derecha de


cada uno anotamos las cifras finales (hojas) de todos los datos de cada
clase.

24

Ejemplo:
Se tienen datos del rendimiento anual (en %) de unas
acciones a lo largo de 30 aos:
-3

17

-13

-10

20

15

-2

41

21

-22

21

53

10

15

-14

-35

25

31

-1

10

-1

28

17

26

-13

-3
-2
-1
-0
0
1
2
3
4
5

5
2
4
3
3
0
0
1
1
3

11

3
2
4
0
1

18

3
1
6
1
1

0
1
5

5
5

7
8

Al igual que el histograma o el polgono, el diagrama nos proporciona una


impresin visual del nmero de observaciones de cada clase.

Tiene la ventaja de que al darnos un mayor detalle nos permite recuperar


los datos, lo que no puede hacerse con el histograma o el polgono.

Con conjuntos de datos muy grandes puede no resultar informativo porque


las clases tengan demasiados datos, aunque siempre se pueden subdividir

25

En el ejemplo en lugar de poner los valores de 10 en 10, podemos cogerlos


de 5 en 5, es decir, cada lnea podemos dividirla en 2 (en vez de 10 a 19,
hacer de 10 a 14 y de 15 a 19).

26

Ejemplo: GTINE
Stem-and-Leaf Display for GTINE: unit = 10000,0
represents 120000,0

10
32
(17)
26
18
8
5
3
1

1|2

0|4566788899
1|0011123445556667777799
2|22224455555577778
3|00000125
4|1234556779
5|113
6|36
7|05
8|7

La columna situada a la izquierda nos da las frecuencias absolutas


acumuladas de arriba hacia abajo y de abajo hacia arriba hasta llegar
al valor entre parntesis que es frecuencia de la clase que contiene el
dato central.

27

Ejercicio 3.6 (Pea y Romo)


Los datos de la variable G4 (Tabla 2.1) miden el gasto en menaje de 75 hogares:
a,b) Construir la distribucin de frecuencias y representarla con un histograma.
Frequency Tabulation for G4
-------------------------------------------------------Lower
Upper
Class Limit
Limit
ci
ni
fi
Ni
Fi
-------------------------------------------------------at or below
0
6
0,0800
6
0,0800
1
0
14000
7000 40
0,5333
46
0,6133
2
14000
28000
21000
9
0,1200
55
0,7333
3
28000
42000
35000
8
0,1067
63
0,8400
4
42000
56000
49000
6
0,0800
69
0,9200
5
56000
70000
63000
2
0,0267
71
0,9467
6
70000
84000
77000
1
0,0133
72
0,9600
7
84000
98000
91000
1
0,0133
73
0,9733
8
98000 112000 105000
1
0,0133
74
0,9867
9 112000 126000 119000
1
0,0133
75
1,0000

Histogram for G4

percentage

80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(X 10000)

G4

28

Histogram for G4

percentage

100
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)

G4

c) Marque en el histograma la proporcin de valores de G4 menores que 40.000


pesetas Qu porcentaje de las observaciones suponen esos datos?
Algo ms del 80% (el 84%)
---------------------------------------------------Lower
Upper
Class Limit
Limit
ci
ni
fi
Ni
Fi
---------------------------------------------------at or below
0
6
0,0800
6 0,0800
1
0
10000
5000 32
0,4267 38 0,5067
2
10000
20000
15000 13
0,1733 51 0,6800
3
20000
30000
25000 7
0,0933 58 0,7733
4
30000
40000
35000 5
0,0667 63 0,8400
5
40000
50000
45000 2
0,0267 65 0,8667
6
50000
60000
55000 5
0,0667 70 0,9333
7
60000
70000
65000 1
0,0133 71 0,9467
8
70000
80000
75000 1
0,0133 72 0,9600
9
80000
90000
85000 0
0,0000 72 0,9600
10
90000 100000
95000 1
0,0133 73 0,9733
11 100000 110000 105000 1
0,0133 74 0,9867
12 110000 120000 115000 0
0,0000 74 0,9867
13 120000 130000 125000 1
0,0133 75 1,0000

29

frecuencias relativas (%)

Histograma de G4
60
50
40
30
20
10
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)

G4

Histograma de G4
100

F (%)

80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)

G4

30

e) Marcar en el histograma el rea correspondiente a las observaciones entre


50.000 y 70.000 pesetas. Qu proporcin representan? Cmo obtendra a partir
de las frecuencias acumuladas esa proporcin?

Son el 8% (0,08=0,0667+0,0133=0,9467-0,8667)

f) Qu porcentaje de hogares tiene un gasto en menaje superior a 80.000 pesetas?

El 4% (0,04=1-0,96=0,0133x3)

g) Cmo es la distribucin de G4?

Es asimtrica a la derecha

h) Dibuje el diagrama de tallos y hojas

31

Stem-and-Leaf Display for G4: unit = 1000,0 1|2 = 12000,0


(38)
37
24
17
12
10
5

0|00000000000011122222333344456667888889
1|0001233356689
2|0444889
3|33355
4|69
5|02249
6|7
HI|79828,0 91068,0 104452,0 120444,0

Datos de G4:
780 4296 3044 52016 13128 2392 8536 35800 4000 0 28432 16856 50800
6188 8544 24441 33012 28999 16440 360 2268 0 10764 0 0 1960 91068
24000 35136 46000 2144 3524 104452 2480 1528 19516 0 0 18191 3172
13936 8300 8660 4524 6256 10346 11820 20468 33496 192 9000 29856 24685
3848 54228 120444 67379 10048 288 216 8099 7620 5428 15360 2028 33220
12212 52768 49896 6752 840 79828 59280 1692 13782

32

Ejercicio 3.14 (Pea y Romo)

La variable TMUN (Tabla 2.1) expresa el tamao del municipio: 1 menos de 2000
habitantes, 2 entre 2000 y 10000, 3 entre 10000 y 50000 y 4 capitales de provincia o
con ms de 50000.

a, b) Obtener la distribucin de frecuencias absolutas, relativas y acumuladas.

TMUN
1
2
3
4

ni
4
9
14
48
4

i1

Ni
4
13
27
75

fi
0,0533
0,12
0,1867
0,64
4

ni N 75

i1

33

fi 1

Fi
0,0533
0,1733
0,36
1

c) Dibujar el histograma de la distribucin

frecuencias relativas (%)

Histograma de TMUN
80
60
40
20
0
0

TMUN

d) Qu tipo de simetra o asimetra presenta?


Asimetra a la izquierda
Datos de TMUN:
4 4 4 4 4 4 2 4 4 4 4 3 3 4 1 4 4 3 4 2 3 4 3 4 3 4 2 4 4 1 2 3 4 2 4
4 2 4 4 4 4 4 2 4 4 3 4 4 4 3 4 3 4 4 3 4 4 4 2 1 4 3 1 3 4 4 2 4 3 4
4 4 4 4 4

34

You might also like