You are on page 1of 17

UNIDAD II

Estadística Descriptiva
Objetivos

Qué deberían saber al terminar esta SEGUNDA PARTE:

Qué queremos significar por distribución de frecuencias

Cómo construimos una tabla de frecuencias.

Cómo se organizan los datos agrupados o no agrupados.

Qué son los métodos gráficos

Distinguir cuándo se utilizan los diferentes tipos de gráficos

2.1. Presentaciones en tablas:

Las tablas son arreglos de doble entrada donde con base en los datos
capturados de acuerdo a las categorías o dimensiones de nuestra o
nuestras variables de análisis presentamos de una manera conjunta,
ordenada y totalizada las sumas o frecuencias totales del fenómeno de
interés, de una manera más práctica, las tablas permiten al analista (o
investigador) tener sintéticamente una visión cuantitativa y general del
fenómeno observado.

2.1.1. Tabla de entrada de datos

En este tipo de arreglo tabular solo aparecen los datos del diseño
experimental o del fenómeno que se esta observando con un interés
investigativo. Es la tabla más elemental y la utilizamos cuando no es
menester una información muy exhaustiva de los datos

Con los datos de esta tabla pueden hacerse diversas representaciones


gráficas y calcularse determinadas características numéricas como la
media, la mediana, la moda, la varianza, la desviación estándar. (Estas
características se discutirán con más detalle en la tercera parte del
presente modulo)

Ejemplo : Agrupar en una tabla de datos


10, 1, 6, 9, 2, 5, 7, 4, 3, 8

X 1 2 3 4 5 6 7 8 9 10
2.1.2. Tablas de frecuencias (distribución de frecuencias)

Las tablas de frecuencias informan al analista estadístico los valores de


la variable (si es una investigación, la categoría de análisis) y sus
respectivas frecuencias.
La distribución de frecuencias permite presentar los valores de una
variable o varias variables de una forma sistemática y ordenada.

La distribución de frecuencias de una variable viene definida por los


valores de la variable (Xi) y el número de veces que se repite cada valor
(ni).

2.2. Distribución de frecuencias para datos no agrupados

En es5te caso, la variable, de naturaleza discreta o continua, toma


valores concretos: X1, X2,……….Xi

Ordenando los valores de la variable de menor a mayor, la distribución


de frecuencias puede representarse mediante una tabla de frecuencias o
tabla estadística.
Frecuencias absolutas
Xi ni Ni
X1 n1 N1
X2 n2 N2

Xi ni Ni

XI nI NI

Frecuencias relativas
Xi fi Fi
X1 f1 F1
X2 n2 F2

Xi fi Fi

Donde: XI fI FI
ni = frecuencia absoluta: es el número de veces que se repite cada
valor de la variable

Ni = frecuencia absoluta acumulada: es el número de veces que se


repite un valor inferior o igual a Xi es decir que
Ni = n1 + n2 +…………+ ni

fi = frecuencia relativa: es la proporción de veces que se repite cada


valor de la variable. Lo podemos ver como el cociente entre cada una de
las frecuencias absolutas y el número total de observaciones, es decir,

ni
fi 
N

Fi = frecuencia relativa acumulada: es la proporción de veces que se


repite un valor inferior o igual a Xi, es decir,

Fi = F1 + F2 +……..+ Fi
Ejemplo1: Agrupar en una tabla: 4, 5, 6, 5, 6, 4, 7, 8, 9, 9

Xi ni Ni
4 2 2
5 2 4
6 2 6
7 1 7
8 1 8
9 2 10
N = 10

Xi ni Fi
4 0.2 0.2
5 0.2 0.4
6 0.2 0.6
7 0.1 0.7
8 0.1 0.8
2 0.2 1
Σ = 1.0

Ejercicios

2.3. Distribución de frecuencias para datos agrupados

Este tipo de análisis se usa generalmente debido al elevado número de


valores distintos que toma la variable. En esta situación los valores se
agrupan en intervalos.

Supóngase que los valores de la variable han sido agrupados en I


intervalos. La distribución de frecuencias puede representarse como
sigue:
Intervalos ni Ni fi Fi
L i-1, Li
[ Lo, L1[ n1 N1 f1 F1
[ L1, L2[ n2 N2 f2 F2

[ Li-1, Li[ ni Ni fi Fi

[ LI– 1, LI] nI NI fI FI
Σ=N Σ=1

Los extremos del i-ésimo intervalo se denotan por Li-1, Li, donde Li-1 es
su extremo inferior y Li es su extremo superior. Obsérvese que el
extremo superior de un intervalo coincide con el inferior del intervalo
siguiente.

El problema al construir la tabla de frecuencias surge cuando existen


valores de la variable que coinciden con el límite superior de un intervalo
y el inferior del siguiente. En este caso ¿a que intervalo hay que asignar
la unidad observada?

Para resolver el conflicto se seguirá el criterio de considerar que el


intervalo es cerrado por su extremo inferior y abierto por el superior, a
excepción del último intervalo que será cerrado por ambos extremos.

Cuando se trabaja con una distribución de frecuencias de valores


agrupados es importante determinar:

1 La amplitud del intervalo que se denota por ci y es la diferencia


entre el extremo superior e inferior del intervalo.

ci  Li 1  Li

2 La marca de clase, que se denota por xi, es el valor medio del i-


ésimo intervalo y representa a los valores de la variable
contenidos en el.

Li 1  Li
xi 
2

Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar


los datos en clases y a partir de estas determinar las características de
la muestra y por consiguiente las de la población de donde fue tomada.

2.4. ¿Cómo se agrupan los datos?

Procedimiento para agrupar los datos

a. Determinar el rango o recorrido de la variable.

Rango = Xmax – Xmin

b. Establecer el número de clases (k) en que se van a agrupar los datos


tomando como base para esto la siguiente tabla.

Tamaño de muestra o No. De datos Número de clases


Menos de 50 5a7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 10 a 20

El uso de esta tabla es uno de los criterios que se puede tomar en cuenta
para establecer el número de clases en las que se van a agrupar los datos,
existen otros para hacerlo:
K  N

Fórmula de Sturges
log N
K  1, cuando N es muy grande
log 2

c. Determinar la amplitud de clase para agrupar (C).

Rango
C
k

d. Formar clases y agrupar datos.


Para formar la primera clase, se fija el límite inferior de la primera clase.
Puede tomarse como límite inferior del primer intervalo o primera clase el
mínimo valor de la variable. Fijado este y sumando la amplitud, se obtiene el
resto de intervalos

Ejemplo:
Los siguientes datos se refieren al diámetro en pulgadas de un lote de
piezas para una máquina.

6.75 7.00 7.00 6.75 6.50 6.50 7.15 7.00


6.50 6.50 6.50 6.25 6.25 6.50 6.65 7.00
7.25 6.70 5.97 6.75 6.00 6.75 6.75 7.10
7.00 6.70 6.50 6.75 6.25 6.65 6.75 7.10
7.25 6.75 6.25 6.25 7.00 6.75 7.00 7.15

a) Agrupe datos, considere k=6. (Con base en la tabla)


b) Obtenga: Histograma, polígono de frecuencias, ojiva (mirar métodos
gráficos)

Solución:

a) Agrupando datos;

1. R = XM - Xm = 7.25 – 6.00 = 1.25

2. k=6

R 1.25
C   0.2083  0.21
3. k 6

4. Formando clases.

Para formar la primera clase se toma la observación de menor valor (5.97)


que constituirá el límite inferior del primer intervalo (cerrado en ese extremo)
y se le suma el valor de la amplitud (0.21) para obtener el límite superior de
ese intervalo o clase. De este modo la primera clase serña `[5.97 – 6.18[
La segunda clase tendra comó límite inferior el valor del límite superior de
la clase anterior para nuestro caso 6.18 y el límite superior se obtiene
sumándole el valor de la amplitud al límite inferior (6.18 + 0.21

Li-1, Li Frecuencia Marca de Frecuencia Frecuencia


(ni) clase (xi) relativa (fi) Relativa
acumulada (Fi)
[5.97 – 6.18[ 2 6.075 2/40 = 0.05 0.05
[6.18 – 6.39[ 5 6.285 5/40=0.125 0.175
[6.39 – 6.60[ 7 6.495 0.175 0.350
[6.60 – 6.81[ 13 6.705 0.325 0.675
[6.81 – 7.02[ 7 6.915 0.175 0.850
[7.02 – 7.23 ] 6 7.125 0.15 1.000
Total 40 1.000

Observe con detalle cuando los intervalos son semiabiertos o cerrados.

Ejercicio
Ahora intente con la siguiente situación:
Una empresa de comercio electrónico ha recogido datos sobre el tiempo
(digamos en minutos) que un día cualquiera, los usuarios que acceden a su
web permanecen conectados y los ha registrado en la siguiente tabla:

13 54 24 27 39 19 32 35 25 40
5 42 22 28 38 17 30 34 23 38
8 45 23 29 39 18 31 33 24 40
16 55 20 28 38 21 34 37 27 44
12 48 20 29 36 17 34 33 27 43
10 45 22 25 36 18 30 34 28 43
12 48 24 28 38 18 33 31 26 44
14 50 23 26 38 15 31 32 29 42
10 44 24 25 35 19 32 32 25 40
15 55 22 27 35 20 33 36 26 40

Construya la tabla de frecuencias siguiendo los pasos del ejercicio anterior.

2.5. Tablas de contingencia o de doble entrada

son aquellas tablas de datos referentes a dos variables, formada, en las


cabeceras de las filas, por las categorías o valores de una variable y en
las de las columnas por los de la otra, y en las casillas de la tabla, por
las frecuencias o número de elementos que reúnen a la vez las dos
categorías o valores de las dos variables que se cruzan en cada casilla.

Este tipo de tablas brindan información estadística de dos eventos


relacionados entre sí, es útil en casos en los cuales los experimentos
son dependientes de otro experimento, mas adelante aparecen mas
aplicaciones del análisis estadístico bivariable.

Ejemplo:

Género Tipo de empleado


planta Temporal
Hombres 122 215
Mujeres 105 127
Total 227 342

Ejercicio

En una escala de 1 a 4, siendo 4 el mejor, un grupo de consumidores


clasifica la “conciencia social” de 50 organizaciones clasificadas como
públicas (indicadas como 1 en los siguientes datos) privadas ( indicadas con
un 2), o controladas por el gobierno (indicadas con un 3)
Tipo Clasificación Tipo Clasificación
1 1 2 2
2 2 3 3
2 3 1 1
3 2 2 4
1 4 3 4
2 2 1 2
3 3 2 3
2 2 3 2
1 1 1 1
2 2 3 4
3 3 2 2
1 4 1 3
1 2 3 1
2 3 2 4
3 1 3 2
3 2 1 1
2 3 2 3
1 2 3 2
2 1 1 1
3 4 2 4
2 4 1 1
3 1 2 2
1 2 3 3
3 4 1 2
2 1 2 1

Prepare una tabla de contingencia con sus respectivos totales en filas y


columnas.
Que porcentaje de las organizaciones públicas recibieron una calificación de
“4”
De las que recibieron una clasificación de “1” que porcentaje eran públicas
Proponga conclusiones significativas de la información resumida en su tabla
de contingencia

2.6. Gráficos para la información estadística

Al momento de representar los datos “capturados” de un fenómeno de


interés para efectuar nuestro análisis estadístico hacemos uso de un
diagrama o gráfico que nos permita análizar rapidamente la información
estadística.

Algunos de las representaciones gráficas de uso frecuente son el


diagrama en árbol, diagrama de áreas o superficies, diagrama de
bandas, diagrama de barras, diagrama de bloques, diagrama circular (o
tortas), diagrama de puntos, diagrama de tallo y hoja, histogramas y
gráficos de caja y bigote o boxplots.
2.6.1. Gráficos de puntos (líneas)

Sencillamente la información (los datos u observaciones) se consignan


en un diagrama (plano) cartesiano ubicando en el eje x los valores
correspondientes a la variable de análisis y en el eje de las ordenadas
(eje y) el valor correspondiente a la frecuencia para este valor.

La información que ofrece el gráfico se centra esencialmente en la


frecuencia. Si la información (muestra) se agrupa por intervalos se
trabaja con la marca de clase del intervalo de clase, la marca de clase
es el punto medio del intervalo

Ejercicio
Los datos (valores) de duración de una resistencia en un dispositivo
electromecánico esta resumida en la siguiente tabla

Xi(horas) Xmedio ni
300-400 350 2
400-500 450 6
500-600 550 10
600-700 650 8
700-800 750 4
30
Construya la representación gráfica (diagrama de puntos (líneas)

Ejercicio

Represente ahora el grafico de puntos (líneas) con la siguiente información:

Las importaciones anuales de un grupo selecto de proveedores de dispositivos


electrónicos se muestran en la siguiente distribución de frecuencias

Importaciones Numero de
millones de dólares proveedores
2 hasta 5 6
5 hasta 8 13
8 hasta 11 20
11 hasta 14 10
14 hasta 17 1

2.6.2. Gráficos de tallo y hoja

Es una forma rápida de obtener una representación visual ilustrativa del


conjunto de datos, para construir un diagrama de tallo y hoja primero se
debe seleccionar uno ó más dígitos iniciales para los valores de tallo, el
dígito o dígitos finales se convierten en hojas, luego se hace una lista de
valores de tallo en una columna vertical. Prosiguiendo a registrar la hoja
por cada observación junto al valor correspondiente de tallo, finalmente
se indica las unidades de tallos y hojas en algún lugar del diagrama, este
se usa para listas grandes y es un método resumido de mostrar los
datos, posee la desventaja que no proporciona sino los datos, y no
aparece por ningún lado información sobre frecuencias y demás datos
importantes.

Para los siguientes datos: 34.5,34.6,45.7,45.8 y 56.2

El diagrama de tallo y hojas luce así:

Tallo Hoja
____________
34 5,6
35 7,8
46 2

Ejercicio

Las razones precio – ganancia de 21 acciones en la categoría de


comercio mediante mercado virtual son:

8.3, 9.6, 9.5, 9.1, 8.8, 11.2, 7.7, 10.1, 9.9, 10.8, 10.2, 8. 8.4. 8.1, 11.6,
9.6, 8.8, 8.0, 10.4, 9.8, 9.2

Organice esta información en una representación de tallo y hoja.

2.6.3. Diagramas de barras

Esta representación se ocupa de valores de naturaleza discreta


(enteros). Recuerde de nuestra primera parte el concepto de variable
aleatoria discreta).
Este diagrama se utiliza cuando los valores de la variable no se
encuentran agrupados en intervalos.

Se sitúan en el eje de las abcisas (eje x) los valores de la variable y en el


eje de las ordenadas (eje y) las frecuencias (pueden ser las absolutas o
las relativas). A continuación se asocia una barra a cada valor de la
variable (Xi) cuya altura será proporcional a la frecuencia que
corresponda.

Ejercicio: Se han reportado las temperaturas de las ciudades con


aeropuertos que tienen mayor actividad:

CIUDAD TEMPERATURA
A 12
B 18
C 24

Elabore un diagrama de barras

Obsérvese que la variable es de carácter cualitativo (ciudad)

Ejercicio: El Departamento comercial de una empresa de suministros de


productos de seguridad industrial, con el objetivo de realizar un control
sobre el grado de cumplimiento de logros, ha preguntado a ,los 10
vendedores que integran la plantilla por el número de nuevos clientes
captados en el último mes:

4, 5,5,7,5,8,5,7,6,7

¿Cuál sería su variable aleatoria?


Construya la tabla de frecuencias (incluya los valores de las frecuencias
absolutas y las relativas
Presente un diagrama de barras.

Barras múltiples: es muy recomendable para comprar una serie


estadística con otra, para ello emplea barras simples se distinto color o
tramado en un mismo plano cartesiano, una al lado de la otra

Ejercicio

TIENDA Enero Febrero Marzo abril mayo Junio


A 800 600 700 900 1100 1000
B 700 500 600 1000 900 1200

Barras compuestas: en este método de graficación las barras de la


segunda serie se colocan encima de las barras de la primera serie en
forma respectiva.
El diagrama de barras proporciona información comparativa
principalmente y este es su uso principal, este diagrama también
muestra la información referente a las frecuencias

2.6.4. Histograma de frecuencias

Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado


por rectángulos unidos a otros, cuyos vértices de la base coinciden con
los limites de los intervalos y el centro de cada intervalo es la marca de
clase, que representamos en el eje de las abscisas. La altura de cada
rectángulo es proporcional a la frecuencia del intervalo respectivo. Esta
proporcionalidad se aplica por medio de la siguiente formula

Altura del rectángulo = frecuencia relativa/longitud de base

El histograma se usa para representar variables cuantitativas continuas


que han sido agrupadas en intervalos de clase, la desventaja que
presenta que no funciona para variables discretas.

Ejemplo

HISTOGRAMA

16
NC

13
EC
UE
FR

IA

5.965 - 6.185
11
7 7 6 6.185 - 6.405
5
6 6.405 - 6.625
2
6.625 - 6.845
1
6.845 - 7.065
-4 7.065 - 7.285
LIMITES
F R E C U E N C IA POLIGONO DE FRECUENCIA

16
14
12
10
8
6
4
2
0
5.635 5.855 6.075 6.295 6.515 6.735 6.955 7.175 7.395 7.615

MARCA DE CLASE

OJIVA "MENOR QUE" O CRECIENTE


F R E C U E N C IA R E L AT IVA

1 1

0.85
ACUMULADA

0.8
0.675

0.6

0.4
0.35

0.2 0.175

0.05
0 0
5.965 6.185 6.405 6.625 6.845 7.065 7.285

LIM ITES REALES

Ejercicio

Una empresa de comercio electrónico ha recogido datos sobre el tiempo


(digamos en minutos) que un día cualquiera, los usuarios que acceden a su
web permanecen conectados y los ha registrado en la siguiente tabla:
13 54 24 27 39 19 32 35 25 40
5 42 22 28 38 17 30 34 23 38
8 45 23 29 39 18 31 33 24 40
16 55 20 28 38 21 34 37 27 44
12 48 20 29 36 17 34 33 27 43
10 45 22 25 36 18 30 34 28 43
12 48 24 28 38 18 33 31 26 44
14 50 23 26 38 15 31 32 29 42
10 44 24 25 35 19 32 32 25 40
15 55 22 27 35 20 33 36 26 40

Como ya construyo la tabla de frecuencias ( distribución de frecuencias) ahora


construya el histograma.

Observaciones

 Sitúe en el eje de las abcisas los distintos intervalos correspondientes a


los tiempos de conexión
 Sobre cada intervalo dibuje un rectángulo
 En el eje de las y se ubican las frecuencias (Número de usuarios =
frecuencia absoluta)
 Para obrtener el polígpono de frecuencias simplemente trace una línea
que una las marcas de clase de los diferentes intervalos.
 La ojiva se obtiene situando en el eje x los intervalos y en el eje y las
frecuencias absolutas acumuladas.

Tortas o gráficos por sectores

Es un gráfico que se basa en una proporcionalidad entre la frecuencia y el


ángulo central de una circunferencia, de tal manera que a la frecuencia total le
corresponde el ángulo central de 360°. Para construir se aplica la siguiente
formula:

X = frecuencia relativa * 360°/ frecuencia relativa

Este se usa cuando se trabaja con datos que tienen grandes


frecuencias, y los valores de la variable son pocos, la ventaja que tiene
este diagrama es que es fácil de hacer y es entendible fácilmente, la
desventaja que posee es que cuando los valores de la variable son
muchos es casi imposible o mejor dicho no informa mucho este
diagrama y no es productivo, proporciona principalmente información
acerca de las frecuencias de los datos de una manera entendible y
sencilla.
EJ: Representar mediante un gráfico de sectores la frecuencia con que
aparece cada una de las cinco vocales en el presente párrafo:

Vocal a e i o u
Frecuencia 13 20 4 6 3  46

Ejercicio Una Pymes que comercializa cinco productos (A, B, C, D, E)


presenta unos ingresos totales por ventas que asciende a un millón de
dólares.
Por producto, las ventas se han distribuido de la siguiente forma

Producto Ventas
(millones de dólares)
A 150
B 320
C 170
D 80
E 280

Construya el grafico por sectores (torta)

2.6.5. Gráficos bivariados


Para trabajar los diagramas de dispersión, primero debemos saber qué
es el análisis estadístico bivariable y las ventajas que este tiene. El
análisis estadístico bivariable es aquel análisis que opera con datos
referentes a dos variables y pretende descubrir y estudiar sus
propiedades estadísticas. El análisis estadístico bivariable se orienta
fundamentalmente a la normalización de los valores o frecuencias ce los
datos brutos, determina la existencia, dirección y grado de la variación
conjunta entre las dos variables, lo que se realiza mediante él calculo de
los coeficientes de correlación pertinentes, calcula la covarianza o
producto de las desviaciones de las dos variables en relación a sus
medias respectivas y por ultimo establece la naturaleza y forma de la
asociación entre las dos variables en el caso de las variables de
intervalo.

2.6.6. Gráficas de dispersión de datos

Es un diagrama que representa gráficamente, en un espacio de


ordenadas, los puntos de dicho espacio que corresponden a los valores
correlativos de una distribución bivariante conjunta, estos diagramas
deben usarse cuando tenemos un análisis estadístico bivariable, ósea
una tabla de datos de doble entrada, la ventaja que tienen es que se
puede graficar de una forma sencilla una distribución bivariante conjunta
y la desventaja principal es que no funciona si sucede que una dupla se
repita
Ejercicio

X Y
A 2 3
B 4 1
C 5 4
D 3 6
E 2 8

You might also like