You are on page 1of 28

Diego Alejandro Castro Llanos

Facultad de Ciencias Bsicas


Asignatura: Probabilidad y Estadstica
Universidad Autnoma de Occidente
Clase 3
DISTRIBUCIN DE FRECUENCIAS

Est formada por los valores que toma la variable que se estudia acompaados
de sus respectivas frecuencias de ocurrencia.

Se organiza el conjunto de datos que se obtuvo a partir de una muestra en tabla


de frecuencias.

1. Datos no agrupados
2. Datos agrupados por intervalos de clase

Ejemplo 1 (Datos no agrupados): Se consider una muestra aleatoria de 20


estudiantes de cuarto semestre de la Facultad de Ingeniera de la Universidad. A
cada uno de ellos se les pregunto el nmero de crditos que matriculo en el
semestre, con el propsito de estimar el promedio y determinar estadsticamente
si el promedio de crditos matriculados es menor a 18 crditos.
DISTRIBUCIN DE FRECUENCIAS
Muestra: 15, 16, 19, 18, 16, 17, 15, 18, 18, 17, 20, 16,
17, 18, 17, 19, 20, 21, 16, 17

i Xi (Nmero de Conteo Frecuencia absoluta


crditos matriculados) (ni)
1 15 // 2
2 16 //// 4
3 17 ///// 5
4 18 //// 4
5 19 // 2
6 20 // 2
7 21 / 1
Total 20
DISTRIBUCIN DE FRECUENCIAS

Se denotar a:

ni Frecuencia Absoluta
hi Frecuencia Relativa

La frecuencia absoluta tambin puede presentarse como una fraccin o


porcentaje, surgiendo lo que se denomina Frecuencia Relativa.
Matemticamente se expresa como:

ni
hi
n
DISTRIBUCIN DE FRECUENCIAS
n3 5
En el ejemplo: h3 0, 25
n 20

i Nmero de crditos Frecuencia Frecuencia


matriculados absoluta (ni) Relativa (hi)
1 15 2 0,10
2 16 4 0,20
3 17 5 0,25
4 18 4 0,20
5 19 2 0,10
6 20 2 0,10
7 21 1 0,05
Total 20 1,0
DISTRIBUCIN DE FRECUENCIAS

Otras frecuencias importantes:

N i n1 n2 ... ni Frecuencia Absoluta Acumulada

Ni
Hi h1 h2 ... hi Frecuencia Relativa Acumulada
n

En el ejemplo:

N 3 2 4 5 11
N 3 11
H3 0,55
n 20
DISTRIBUCIN DE FRECUENCIAS

Tabla. Distribucin de frecuencias para la muestra de estudiantes de cuarto semestre


i Xi (Nmero Frecuencia Frecuencia Acumulada Acumulada
de crditos absoluta Relativa (hi) Absoluta (Ni) Relativa (Hi)
matriculados) (ni)
1 15 2 0,10 2 0,10
2 16 4 0,20 6 0,30
3 17 5 0,25 11 0,55
4 18 4 0,20 15 0,75
5 19 2 0,10 17 0,85
6 20 2 0,10 19 0,95
7 21 1 0,05 20 1,0
Total 20 1,0
DISTRIBUCIN DE FRECUENCIAS

Si se toma una muestra aleatoria de n datos, de los cuales


hay m distintos que ordenamos en forma creciente (X1, X2,
X3, Xm), entonces:

1. 0 ni n
m
2. n
i 1
i n

3. 0 hi 1
m

4. h 1
i 1
i
DISTRIBUCIN DE FRECUENCIAS

j
5. N j ni
i 1

6. N m n

7. n1 N1 N 2 N 3 ... N m n
j

8. H j hi
i 1

9. h1 H1 H 2 H 3 ... H m 1
DISTRIBUCIN DE FRECUENCIAS

Supngase que el instrumento de medicin usado para medir el dimetro de los


tornillos que se producen en una fabrica tiene una precisin hasta las
centsimas de milmetro, as pues un valor podra ser 1,74325 milimetros.

Si se pretendiera aplicar el procedimiento que se uso anteriormente para


resumir la informacin (tabla de frecuencia) habra varios problemas uno de
ellos es que seguramente, todos los datos son distintos, lo que generara una
tabla de frecuencias absolutas con el mismo nivel de informacin que la
muestra bruta.

No es de inters conocer con ese nivel detalle la informacin, por ejemplo, no


es de inters conocer cuantos tornillos presentan un dimetro de 3,02
milmetros. En estos casos es ms fcil agrupar la informacin en los llamados
intervalos de clase.
DISTRIBUCIN DE FRECUENCIAS

Cuando nos encontramos con una distribucin con un gran nmero de datos,
se suelen agrupar en intervalos para facilitar la comprensin de los datos.
Esta prctica tiene en cambio un inconveniente, debido a que se pierde
informacin sobre la propia distribucin.

El intervalo viene dado de la forma: ( Li 1 Li ] . Se indica por Li 1 al extremo


inferior del intervalo y por Li al extremo superior.

Por ejemplo, el intervalo (2 3,1] se lee como los valores mayores que 2,
pero menores o iguales a 3,1. Supongamos que en este intervalo se
encuentren 25 observaciones. En una tabla de frecuencias no es posible
determinar que valores son iguales a 2,1 o 2,5.
DISTRIBUCIN DE FRECUENCIAS

Para operar se utilizar la marca de clase, que resulta ser el punto medio del
intervalo de clase, es decir:
Li 1 Li
Xi
2

Para el ejemplo se tiene:

2 3,1
Xi 2,55
2
En las marcas de clase no se recomienda aproximar los decimas al entero ms
cercano.
DISTRIBUCIN DE FRECUENCIAS
La pregunta que surge es: Cmo obtener a partir de un conjunto de datos, una
tabla de frecuencias?

Para resolver esta pregunta, se puede considerar la Regla de Sturgles:

Paso 1: Nmero de clases

m 1 3,3* log (n)


Paso 2: Se calcula el rango

r X max X min
Paso 3: Se obtiene la amplitud del intervalo

rango
Ci
m
DISTRIBUCIN DE FRECUENCIAS

Paso 4: Definir los lmites de cada intervalo (punto de arranque):

m * Ci rango
L0 X Min
2

Los dems intervalos vienen dados por:

L1 L0 C1
L2 L1 C2
L3 L2 C3

Lm Lm1 Cm
DISTRIBUCIN DE FRECUENCIAS

Paso 5: Calcular las marcas de clase

Li 1 Li
Xi
2
Si los intervalos no son de la misma amplitud hay que calcular la funcin
emprica de densidad del intervalo i-esimo, como el cociente entre la
frecuencia relativa de un intervalo y la amplitud del mismo:

hi
h
*
i
Ci
DISTRIBUCIN DE FRECUENCIAS

Ejemplo 2 (Datos agrupados por intervalos): Los costos semanales de


mantenimiento (millones de pesos) para una fbrica, registrados durante las
ltimas 40 semanas vienen dados por:

3,9 3,7 4,3 5,0 5,1


5,3 4,3 6,0 5,1 4,4
3,3 4,1 4,4 6,1 5,3
4,0 3,9 3,3 4,7 4,5
4,7 5,6 4,9 6,1 4,5
3,9 5,0 4,7 4,2 5,8
4,3 5,8 4,8 4,3 4,5
5,4 4,7 4,5 4,2 4,8
DISTRIBUCIN DE FRECUENCIAS

1. Cul es la poblacin objeto de estudio?

2. Qu variable se esta analizando?

3. Qu tipo de variable es y cual es la escala de medicin

4. Que problema plantea la construccin de la tabla de frecuencias?

5. Construya la tabla de frecuencias

6. Cuntos semanas en la fabrica tienen un costo de mantenimiento entre


3,2 y 3,7 millones?

7. Determine el porcentaje de semanas en la fabrica que tienen un costo de


mantenimiento superior a 4,7 millones?

8. Qu porcentaje de semanas presentan un costo de mantenimiento en la


fabrica de a lo sumo 4,2 millones?
DISTRIBUCIN DE FRECUENCIAS

1. La poblacin objeto de estudio es la fabrica.

2. La variable que se esta analizando es el costo de mantenimiento por


semana (millones de pesos).

3. El tipo de variable es cuantitativa-continua y la escala de medicin es de


razn.

4. El problema que plantea es que existen muchos valores diferentes, por lo


tanto es bueno agrupar el conjunto de datos en intervalos de clase.

Si no se agruparan se tendra para cada valor una sola frecuencia absoluta.


DISTRIBUCIN DE FRECUENCIAS

Construccin de la Tabla de Frecuencias

Paso 1: Se obtiene el numero de clases

m 1 3,3* log ( 40) 6,2867 6

Paso 2: Se calcula el rango de la variable

r X max X min 6,1 3,3 2,8

La mxima discrepancia entre el costo de mantenimiento de una semana en


relacin a otra es de 2,8 millones de pesos.

Paso 3: Se calcula la amplitud de los intervalos:

rango 2,8
Ci 0,46 0,5
m 6
DISTRIBUCIN DE FRECUENCIAS

Paso 4: Definir los limites de cada intervalo

m * Ci rango 6 * 0,50 2,8


L0 X Min 3,3 3,3 0,1 3,2
2 2

L1 3,2 0,5 3,7


L2 3,7 0,5 4,2
L3 4,2 0,5 4,7
L4 4,7 0,5 5,2

L5 5,2 0,5 5,7


L6 5,7 0,5 6,2
DISTRIBUCIN DE FRECUENCIAS
Tabla. Distribucin de frecuencias para el costo de mantenimiento
( Li 1 Li ] Xi ni hi Ni Hi
(3,2 - 3,7] 3,45 3 0,075 3 0,075
(3,7 - 4,2] 3,95 7 0,175 10 0,25
(4,2 - 4,7] 4,45 15 0,375 25 0,625
(4,7 - 5,2] 4,95 6 0,15 31 0,775
(5,2 - 5,7] 5,45 4 0,10 35 0,875
(5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0
6. Cuntos semanas tienen un costo de mantenimiento entre 3,2 y 3,7 millones?
R // 3 semanas
7. Determine el porcentaje de semanas en la fabrica que tienen un costo de
mantenimiento superior a 4,7 millones?
R // P(X 4,7) (6 4 5)/40 15/40 0,375
8. Qu porcentaje de semanas presentan un costo de mantenimiento en la fabrica de a
lo sumo 4,2 millones? R // P(X 4,2) (7 3)/40 10/40 0,25
HERRAMIENTAS GRFICAS

Para apreciar la magnitud o posicin de las variables, se suele efectuar una


representacin grfica. Las herramientas grficas ms usuales son:

Diagrama de Pastel o Torta

Diagrama de Barras

Histograma

Ojiva

Diagrama de Cajas y Alambres

Diagrama de dispersin
HERRAMIENTAS GRFICAS

Diagrama de Pastel: Consiste en un circulo en el que se representan sectores


o porciones con reas proporcionales a las frecuencias de cada una de las
clases. Son muy tiles en la representacin de variables cualitativas.

Ejemplo 3: A finales del ao 2011 e inicios del ao 2012 se realiz la


encuesta de calidad de vida en la ciudad de Santiago de Cali. Algunos de los
aspectos que consideraron es el nivel de educacin de los hogares
colombianos, vivienda, medio de transporte, salud, mercado laboral, cuidado
de los nios menores de 5 aos, uso de las tecnologas de informacin, entre
otros.

En cuanto a la movilidad de los estudiantes desde su residencia hasta la


institucin educativa, se preguntaba Cul es el principal medio de transporte
que utiliza?
HERRAMIENTAS GRFICAS
La mayora de los estudiantes
considerados en la investigacin
emplean como medio de
transporte el ecolgico.

De cada 100 estudiantes, 38 de


ellos emplean el medio de
transporte pblico para llegar a la
institucin educativa.
Ecolgico = Bicicleta o a pe
Pblico = Mo, bus, buseta, colectivo, taxi, piratas, ruta escolar o bus intermunicipal
Particular = Motocicleta o el automvil de uso particular

En que estrato socioeconmico reside el estudiante?

Tan solo el 12% de los


estudiantes residen en un estrato
socioeconmico alto. De cada 2
estudiantes que se seleccionen de
manera aleatoria, ser de un
estrato bajo.
HERRAMIENTAS GRFICAS

Diagrama de Barras: En el eje horizontal se representan los valores que asume


la variable y en el eje vertical su frecuencia absoluta o relativa. Se utiliza
cuando la variable analizada es cuantitativa discreta.

La mayor frecuencia de
crditos matriculados que
tienen los estudiantes
seleccionados es 17.

La mxima discrepancia de
crditos matriculados de un
estudiante en relacin a otro
es de 6 crditos.
HERRAMIENTAS GRFICAS
Histograma: Se considera cuando la variable analizada es cuantitativa-continua y esta
agrupada por intervalos de clase o rangos. Las clases se indican en el eje horizontal y sus
frecuencias relativas o absolutas en el eje vertical.

Ejemplo 4: Una fbrica que produce tornillos de acero, desea analizar la variabilidad de
los tornillos con una especificacin de 3 milmetros (mm). Para ello, se consider una
muestra aleatoria de 100 tornillos producidos por una de las maquinas en un da. Los
Histogram of rnorm(100, 3, 0.01)
resultados son:
30

La gran mayora de los tornillos


seleccionados presentan un dimetro entre
25

2.99 mm y 3.01 mm, por lo que podemos


decir que la maquina se encuentra bien.
Frecuencia absoluta

20
15

Es muy poco probable que un tornillo


10

tenga un dimetro mayor a 3.02 mm. La


mayor frecuencia de los dimetros de los
5

tornillos se encuentra entre 3.0 y 3.05 mm


0

2.97 2.98 2.99 3.00 3.01 3.02 3.03

Diametro de los tornillos (mm)


HERRAMIENTAS GRFICAS
Ojiva: Los intervalos de clase o valores que asume la variable se representan en el eje
horizontal y sobre el eje vertical se consideran sus frecuencias acumuladas (relativas o
absolutas). Es til para el porcentaje de valores que se encuentran por debajo de un valor
en particular.

Retomando el Ejemplo 1, la distribucin de frecuencias acumuladas viene dada por:

La mayora de los estudiantes


seleccionados matricularon
mximo 17 crditos.

El 30% de los estudiantes


seleccionados matricularon a lo
sumo 16 crditos en el cuarto
semestre.

El 92% de los estudiantes


considerados en la muestra
matricularon 19 o menos crditos
en el cuarto semestre.
HERRAMIENTAS GRFICAS
Diagrama de Cajas y Alambres: Este diagrama constituye una sntesis muy
buena de la distribucin de frecuencias y su sencillez la hace ms til, sobre todo
en aquellas situaciones donde se hace necesario comparar dos o mas
distribuciones o poblaciones.

1. Da una idea de la dispersin del conjunto de datos.

2. Da una idea sobre el grado de asimetra (sesgo) de la distribucin de los datos.

3. Identifica posibles puntos atpicos (observaciones que son numricamente


distintas al resto del conjunto de datos).

4. Comparacin de varias poblaciones, a travs de sus distribuciones

Cuando se desea comparar varias distribuciones simultneamente, es una


herramientas insuperable, tal como se aprecia en los ejemplos aplicados que se
desarrollaran ms adelante.

You might also like