You are on page 1of 13

NOTAS DE ESTADSTICA

Cuadernillo II

Organizacin de los datos


Grficos

Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

ORGANIZACIN DE LOS DATOS GRFICOS


Este cuadernillo estar dedicado a ver varias formas de organizar los datos y preparar material
de base para que desde el cuadernillo III en adelante podamos elaborar medidas estadsticas
tambin denominadas indicadores estadsticos.
Cada forma de organizacin, implica la caracterizacin de distintos espacios abstractos donde
a posteriori se disearan las distintas medidas estadsticas.
Tambin sobre esos espacios, en este cuadernillo, haremos distintos grficos estadsticos.
El procesamiento de los datos para la obtencin de informacin til sobre las caractersticas del
grupo relevado (la muestra de viviendas del barrio, por ejemplo), requiere de una organizacin de
ellos antes de su ptima explotacin. Organizacin que en realidad ya se inici con la matriz de
datos, donde las preguntas contenidas en la encuesta son reducidas a lo que llamamos atributos y
donde cada uno de estos ocupan una columna de la matriz.
Del atributo elegido se desprende la variable estadstica, que puede ser una reduccin de l o
coincidir totalmente. Por ejemplo, si las unidades observadas fueran personas, no viviendas, el
atributo fecha de nacimiento puede devenir en la variable edad.
Vamos a preparar el material de base para que en lo sucesivo podamos efectuar mediciones sobre el
grupo de datos. Esta preparacin tiene elementos en comn para todas las variables y algunos
aspectos diferenciados, segn de que variable se trate.

VARIABLES CUANTITATIVAS
Los valores que toma la variable CANTIDAD DE AMBIENTES POR VIVIENDA son por naturaleza
nmeros enteros (Z) y por ello se la califica como cuantitativa discreta, como a cualquier otra que
tratemos y que se exprese mediante nmeros enteros.
1) Ordenando los datos en sentido creciente, tendremos las 32 viviendas encuestadas ordenadas de
segn la cantidad de ambientes (de menor a mayor) que tienen:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6
Esta disposicin matriz fila de los datos se llama: arreglo de datos ordenados.
2) Agrupando los datos por valores que se repiten y anotando la frecuencia con que lo hacen,
obtendremos una forma de organizacin que llamamos tabla de frecuencias:
Cantidad de
ambientes por
vivienda

1 amb.
2 amb.
3 amb.
4 amb.
5 amb.
6 amb.

frecuencia
3
5
8
11
4
1
n = 32 viv.

Y a partir de ella, confeccionamos una tabla completa de frecuencias o distribucin de frecuencias:


____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

Cantidad de
ambientes por
vivienda

f%

1 amb.
2 amb.
3 amb.
4 amb.
5 amb.
6 amb.
totales

3
5
8
11
4
1
n = 32

9,38
15,62
25,00
34,38
12,50
3,12
100

fr
0,0938
0,1562
0,2500
0,3438
0,1250
0,0312
1

F%

3
8
16
27
31
32

9,38
25,00
50,00
84,38
96,88
100

Fr
0,0938
0,2500
0,5000
0,8438
0,9688
1

donde f es la frecuencia absoluta resultante de nuestro conteo anterior y f% y fr la frecuencias


porcentual y relativa respectivamente. Estas dos ltimas expresan bsicamente lo mismo, pero una
en forma de porcentaje y la otra en forma de coeficiente. Adems se incluyen las correspondientes
frecuencias. acumulada absoluta F, acumulada porcentual F% y acumulada relativa Fr.
A partir de tal distribucin, podemos leer, por ejemplo: que el 25% de las viviendas encuestadas
tienen 3 ambientes o que el 50% de ellas tienen hasta 3 ambientes. Tambin, que el 15,62% de las
viviendas relevadas tienen 2 ambientes o que el 25% de ellas tienen hasta 2 ambientes.
La distribucin de frecuencias ltima se construy mediante los siguientes clculos:
Cant. de
amb.por
vivienda

f%

1 amb. 3
2 amb. 5
3 amb. 8
4 amb. 11
5 amb. 4
6 amb. 1

fr

F%

3/32x100 3/32
3
5/32x100 5/32
3+5
8/32x100 8/32
3+5+8
11/32x100 11/32 3+5+8+11
4/32x100 4/32 3+5+8+11+4
1/32x100 1/32 3+5+8+11+4+1

Fr

3/32x100
(3+5)/32x100
(3+5+8)/32x100
(3+5+8+11)/32x100
(3+5+8+11+4)/32x100
100

3/32
(3+5)/32
(3+5+8)/32
(3+5+8+11)/32
(3+5+8+11+4)/32
1

Para mejorar la nocin de conjunto del grupo de datos y tener un visin general de l, es
conveniente expresar la distribucin de frecuencias en forma grfica. Con cualquiera de las
frecuencias simples f, f% o fr podemos hacer un grfico de bastones:
f

11 --10 --9 --8 --7 --6 --5 --4 --3 --2 --1 --1

cant. de ambientes
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

Usando f% o fr, los rasgos de la distribucin mostrados por el grfico resultan iguales:
f%

35 ---

25 ---

15 ---

5 __
1

cant. de ambientes

Lo nico que cambia es la escala vertical de las frecuencias.


Con cualquiera de las frecuencias acumuladas F, F% o Fr podemos hacer un grfico de escalones:

F%

100-90--80--70--60--50--40--30--20--10--|

cant. de ambientes

Las construcciones que acabamos de realizar distribucin de frecuencias, arreglo de


datos ordenados y grficos sobre el eje numrico involucran cuatro espacios abstractos
bien diferenciados: el espacio de los valores (primer columna de la tabla de frecuencias),
el espacio de las frecuencias (las columnas de frecuencias de la distribucin), el espacio
de los datos ordenados (el arreglo) y el espacio de los nmeros reales (el eje horizontal
de los grficos hechos). Ellos son los espacios de definicin de las medidas estadsticas,
tambin denominadas indicadores estadsticos, y a las cuales nos dedicaremos a partir del
prximo cuadernillo.
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

VARIABLES CUALITATIVAS
De la matriz de datos elaborada para 32 viviendas, tomaremos el atributo ESTADO DE
MANTENIMIENTO, y sin retocarlo, lo trataremos como una variable cualitativa ordenable.
La distribucin de frecuencias es:
Estado de
Mantenimiento
M.
R.
B
E.

f%

fr

F%

5
11
13
3
n=32viv.

15,62
34,38
40,62
9,38
100

0,1562
0,3438
0,4062
0,0938
1

5
16
29
32

15,62
50,00
90,62
100

Fr
0,1562
0,5000
0,9062
1

Si ordenamos los datos de menor a mayor a la variable es ordenable tendremos lo que ya


habamos llamado arreglo de los datos ordenados:
M M M M M R R R R R R R R R R R B B B B B B B B B B B B B E E E

___________________________________________
Para una variable CUALITATIVA NO ORDENABLE (por ejemplo Tipo de posesin) no tiene
sentido armar las Frecuencias acumuladas ni el arreglo de datos ordenados, precisamente porque
las categoras de los datos no son ordenables.
___________________________________________________
Los grficos aplicables a las variables cualitativas (cualquiera de ellas), son:
Grfico de barras separadas:
La separacin entre las barras es aproximadamente la
mitad de la base de cada una de ellas. Debajo de cada
barra se coloca la categora correspondiente y el eje
vertical se destina a las frecuencias f (como en este
caso), f% o fr.

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

Estado de mant.
M

Al igual que el grfico de bastones hecho anteriormente


para una variable cuantitativa discreta, el de barras
separadas es un grfico lineal.

Grfico de torta o circular:


E

16%

9%

41%

34%

Para contruir el grfico de torta, debe calcularse el ngulo


correspondiente a cada porcin: = fr x 360
En cada porcin se escribe la categora de la variable y su
correspondiente f %. Esto ltimo se debe, comparando con
cualquier grfico lineal, a que el poder separador del ojo
humano es ms eficiente para reconocer pequeas
diferencias lineales que diferencias angulares o diferencias
de reas.
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

Son tres los espacios involucrados en el tratamiento de una variable cualitativa ordenable, a saber:

Espacio de los valores: es la primer columna de la distribucin de frecuencias, es el eje sobre el


cual se dibujaron las barras y es la torta misma.
Espacio de las frecuencias: comprende tanto las columnas de las frecuencias simples como las
columnas de las frecuencias acumuladas.
Espacio de los datos ordenados: es el arreglo de datos ordenados.

Son dos los espacios involucrados en el tratamiento de una variable cualitativa no ordenable: el de
los valores y el de las frecuencias simples
________________________________________________

VARIABLES CUANTITATIVAS - AGRUPAMIENTO EN INTERVALOS


Consideremos los coeficientes de inteligencia de 60 estudiantes tomados al azar entre todos los que
asisten a una institucin educativa:
120 101 118 116 108 96 110 102 115 103 91 88 107 94 104 97 95 101 103 105
100 94 120 90 106 107 106 98 96 100 87 112 95 106 103 89 119 96 90 104
105 128 110 98 102 108 98 131 85 104 93 93 94 87 97 100 92 89 100 96
Empecemos, confeccionando el arreglo de datos ordenados:
85 87 87 88 89 89 90 90 91 92 93 93 94 94 94 95 95 96 96 96 96 97 97
98 98 98 100 100 100 100 101 101 102 102 103 103 103 104 104 104 105
105 106 106 106 107 107 108 108 110 110 112 115 116 118 119 120 120 128
131
___________________________________________________________
Actividad 1: hacer la distribucin de frecuencias y luego construir el grfico de bastones para la
variable CI de los 60 estudiantes de la muestra. Tomar como gua lo hecho anteriormente para la
variable cantidad de habitaciones de la muestra de 32 viviendas del barrio.
___________________________________________________________
Observando la distribucin de frecuencias y el grfico de bastones de la actividad 1, se aprecia que
hay una gran diversidad de valores (33 valores) para los 60 datos. Bajo esta circunstancia podra
convenir, adems de hacer el tratamiento anterior, agrupar los datos en intervalos de clase:
C.I.

f%

fr

F%

Fr

[84.9 - 91.5)

15,00

0,1500

15,00

0,15

[91.5 - 98.1)

17

28,34

0,2834

26

43,34

0,4334

[98.1 - 104.7)

14

23,33

0,2333

40

66,67

0,6667

[104.7 - 111.3)

11

18,33

0,1833

51

85,00

0,8500

[111.3 - 117.9)

5,00

0,0500

54

90,00

0,9000

[117.9 - 124.5)

6,67

0,0667

58

96,67

0,9667

[124.5 - 131.1)

2
n=60

3,33
100

0,0333
1

60

100

____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

Se agruparon los coeficientes de inteligencia en siete intervalos de clase, con una amplitud de 6,6
cada uno de ellos. Para el conteo de la frecuencia, los intervalos se hicieron cerrados[ a izquierda y
abiertos) a derecha (tambin se podra hacerlos abiertos( a izquierda y cerrados] a derecha).
El grfico resultante para cualquiera de las frecuencias simples (f, f% o fr) es un grfico de barras
adyacentes llamado histograma y se debe al bimetra ingls Karl Pearson1. Para f, por ejemplo, es:

17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
|

75

80

85

90

95 100 105 110 115 120 125 130 135 140

|
C.I.

Si se lo hace con cualquiera de las otras dos frecuencias simples (f% o fr) los rasgos del histograma
sern los mismos y la nica diferencia ser la escala porcentual o relativa del eje de frecuencias.

Con cualquiera de las frecuencias acumuladas, puede hacerse la ojiva2:

Desde la Biometra las contribuciones de Karl Pearson a la teora estadstica son importantes y numerosas. Adems
fue cofundador en 1901 de la revista Biometrika que se convirti en el receptculo de todos los aportes a la estadstica
provenientes de distintas ciencias y que se sigue publicando hasta hoy.
2
Se debe a Francis Galton, tambin bimetra y maestro de K.Pearson; cofundador con l de Biometrika.
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

F%
100

90

80

70

60

50

40

30

20

10

|
75

|
80

|
85

|
90

|
95

|
100

|
105

|
|
110 115

|
120

|
125

|
|
|
130 135 C.I.

__________________________________________________________

La variable que acabamos de tratar puede considerarse como discreta. Veamos ahora la variable
continua GASTO MEDIO MENSUAL de la matriz de 32 viviendas:
Arreglo de datos ordenados:
750 760 770 778 781,8 789,5 790 820 880 890 895 900 920 950 986 986,5 1100 1150
1155 1200 1280 1298 1312,8 1452 1500 1501,5 1510,6 1810 2005 2113 2500 3449

Distribucin de frecuencias. La gran variedad de valores en relacin con la cantidad de datos


(caracterstica de las continuas), hace que convenga agrupar en intervalos:
Gasto medio
mensual del
grupo

[750 1050)
[1050 1350)
[1350 1650)
[1650 1950)
[1950 2250)
[2250 2550)
[2550 2850)
[2850 3150)
[3150 3450)

f%

fr

F%

16
7
4
1
2
1
0
0
1

50
21,88
12,50
3,12
6,25
3,12
0
0
3,12

0,50
0,2188
0,1250
0,0312
0,0625
0,0312
0
0
0,0312

16
23
27
28
30
31
31
31
32

50
71,88
84,38
87,50
93,75
96,88
96,88
96,88
100

Fr

0,50
0,7188
0,8438
0,8750
0,9375
0,9688
0,9688
0,9688
1

Actividad 2:
realizar un
histograma.
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

DISTRIBUCIONES BIVARIADAS
En este enfoque intervienen dos variables a la vez, conjuntamente, simultneamente.
Problema: Por decreto del 20 de Octubre de 1992 se disolvi la Junta Nacional de Granos y a partir de all son los grupos transnacionales como Cargill, Dreyfus, etc. los que regulan ese tramo del
mercado nacional 3. La siguiente tabla consigna una muestra de 40 tipos distintos de aceites comestibles, segn el aumento de sus precios y segn si estn regulados o no por las transnacionales.
modo de regulacin
aument
mucho
poco

Regulado por las


transnacionales
27
3

Escapa a la regulacin
de las transnacionales
2
8

Esta es una tabla de frecuencias conjuntas. Operativamente el conteo de las frecuencias debe ser
conjunto: por ejemplo, se contaron 27 tipos de aceite que estaban regulados por las multinacionales
y aumentaron mucho su precio.
Por el momento, lo nico que haremos a partir de ella es un grfico que contenga conjuntamente a
las dos variables, y se lo llama grfico de barras combinadas:

30
20

mucho
poco

10
0
regulado

no regulado

La funcin del grfico es mostrar en un solo plano ambas variables y las frecuencias de sus valores.
Si no hay un criterio mejor, primero se organiza el eje de las variables segn las causas (regulacin)
y luego segn los efectos (aumento).
No siempre hay un orden de causalidad entre dos variables cualesquiera que se observen
conjuntamente, as que en tal caso la eleccin de cul es primera y cul segunda, ser arbitraria.

Y no slo el mercado de granos. Con la falacia de la desregulacin lo que se hizo en realidad fue entregar la
regulacin del mercado interno a las compaas transnacionales.
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

PIRMIDES DE POBLACIN
Este grfico tambin corresponde a distribuciones bivariadas donde las variables son: sexo y edad.
Esta ltima organizada, generalmente, en intervalos.
Sea la siguiente distribucin de frecuencias conjuntas de un grupo de 1000 personas:
Sexo
F

120
100
90
80
70
50
40
20
20
10

90
90
70
50
30
30
20
10
7
3

Edades
[ 0 10)
[10 20)
[20 30)
[30 40)
[40 50)
[50 60)
[60 70)
[70 80)
[80 90)
[90 100)

La correspondiente pirmide de poblacin es:

EDAD
_100
_
_ 90
_
_80
_
_70
_
_60
_
_50
_
_40
_
_30
_
_20
_
_10
_
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
120
0
10
20
30
40
50
60
70
| | 110
| 100 90 80 70 60 50 40 30 20 10
f
mujeres
hombres
f

80

90

En este grupo hay predominio de poblacin joven, y eso queda reflejado en la pirmide.
En las poblaciones donde predominan las edades mayores la pirmide queda invertida.
____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

10

_________________________________________________________________________

De nuestra matriz de 32 viviendas, seleccionamos dos variables: Tipo de posesin y Estado de


mantenimiento. La tabla de frecuencias conjuntas es:
Tipo de
posesin
Mantenimiento
M
R
B
E

3
4
5
0

1
0
0
0

0
0
3
0

2
2
1
0

0
1
7
3

Actividad 3: construir el grfico de barras combinadas para las variables Tipo de Posesin y
Mantenimiento de la matriz de 32 viviendas. Aqu conviene organizar primero por Tipo de posesin
(5 categoras) y luego dentro de cada categora organizar segn Mantenimiento. En los casos que la
frecuencia sea cero, igual se le debe reservar el espacio.
__________________________________
Estadstica y sociedad.
La primera fase de la implantacin por la fuerza de las polticas neoliberales en Latinoamrica, y no
slo en ella, consisti en una escalada de dictadura militares que mediante el terrorismo de estado y
el genocidio de la oposicin poltica (figuras afianzadas jurdicamente y que ya son parte de la
verdad histrica) allanaron el camino a la implantacin del modelo neoliberal. El artculo Las
cifras del terror tomado de la revista universitaria El Tnel y adjunto a este cuadernillo, presenta
las tablas de frecuencias de las variables Edad y Profesin/Ocupacin del universo o poblacin de
las 30.000 personas detenidas/desaparecidas en Argentina por la ltima dictadura militar.
Actividad 4: realizar un histograma para graficar la distribucin de las edades de los 30.000
detenidos/desaparecidos por la ltima dictadura militar y un grfico de barras separadas y otro de
torta para la variable profesin/ocupacin.
La segunda fase estuvo a cargo de gobiernos constitucionales con altsima corrupcin en los tres
poderes del estado el ejemplo ms paradigmtico es el perodo denominado menemato y en ella
se consolid crudamente el modelo neoliberal en casi todos los rdenes de nuestra sociedad. En la
pgina 8 de este cuadernillo se recre un problema en base a un hecho real como lo fue la
disolucin de las juntas nacionales de granos y carnes durante el menemato, con consecuencias que
llegan hasta nuestros das.

____________________
Mario Enrique Borgna

NOTAS DE ESTADSTICA

II - ORGANIZACIN DE LOS DATOS Y GRFICOS

11

Comentarios:
La cantidad de informacin que pueda extraerse de una variable, tiene relacin directa con la
cantidad de espacios abstractos que ella permita. Comparativamente, las variables cuantitativas
pueden dar mayor cantidad de informacin que las cualitativas ordenables y stas ms que las no
ordenables. Las cuantitativas disponen de cuatro espacios para disear indicadores, las
cualitativas ordenables de tres espacios y las no ordenables de slo dos.
Los grficos elaborados permiten una idea de conjunto y apoyan la lectura de la informacin que
se extraer del grupo de datos relevados. Su objetivo principal es maximizar la extraccin de la
informacin contenida en los datos empricos.
El agrupamiento de los datos en forma de intervalos de clase, y consecuentemente el histograma,
permite tener una nocin de conjunto del grupo de datos cuando las formas ms directas no
consiguen hacerlo (vbgr. el grfico de bastones). Pero virtualmente los datos se matan al
ubicarlos en los intervalos y eso en estadstica es deteriorar la informacin, as que debe
usrselos slo en los casos necesarios.

Glosario:
Datos crudos: datos colectados en un relevamiento y no organizados de forma alguna.
Arreglo de datos ordenados: son los datos colectados ordenados en forma ascendente o
descendente segn sus valores numricos o tambin segn sus categoras ordenables.
Frecuencia simple: cantidad o porcentaje de veces que un valor aparece.
Frecuencia acumulada: cantidad o porcentaje de datos que se acumulan hasta un cierto valor de
la variable.
Distribucin de frecuencias: tabla donde se listan todos los valores de la variable junto con sus
correspondiente frecuencias simples y acumuladas.

____________________
Mario Enrique Borgna

You might also like