You are on page 1of 58

ELEMENTOS DE ESTADÍSTICA DESCRIPTIVA

José David Morán Mendoza


Tratamiento de Datos

1. Conceptos introductorios

Toda persona, tanto en su campo laboral como en su vida diaria recibe información a través
de los distintos medios de comunicación. De acuerdo al interés de la persona, aquella
información que le es importante la procesa y el producto de la operación es utilizado para
tomar decisiones razonables o para la comprensión del fenómeno bajo estudio. Actualmente,
la finalidad de la estadística, no es solo de ayuda para comprender un fenómeno; es
principalmente el uso (análisis) de la información para tomar decisiones y resolver cuestiones de
la vida y del entorno. De lo anterior, se deduce que el origen de la Estadística se encuentra en
el origen de las necesidades humanas, en cuanto al conocimiento y transformación de su
realidad.

Algunos pasajes bíblicos y papiros Egipcios dan testimonio de los primeros pasos de la ciencia
conocida actualmente como Estadística: actividades realizadas por el estado para obtener
información sobre nacimientos, defunciones, bodas, etc. Estos datos eran de mucha utilidad
para estimar su fuerza de trabajo, capacidad combativa, recaudación de impuestos y otros
aspectos de interés social, económico y político.

En la actualidad, la Estadística es aplicada en diferentes ámbitos de nuestra realidad: economía,


psicología, educación, negocios, medicina, opinión pública, ciencias políticas, agricultura,
sociología y otros. La Estadística es de mucha importancia dado que es una herramienta auxiliar
en la toma de decisiones.
¿Quiénes toman decisiones? ¿A quiénes les interesa conocer el método estadístico?

John Grant (1620-1674), un vendedor inglés, es considerado como uno de los precursores de
la Estadística. Grant, estudiando datos demográficos sobre nacimientos y defunciones
registrados en las parroquias londinenses, estimó la población de Londres.

La persona que introdujo el vocablo estadística y dio su significado por vez primera, se dice
que fue Achenwall, un profesor alemán, enunciando el siguiente significado: "Ciencia de las
cosas que pertenecen al Estado... La política enseña cómo deben ser los Estados y la
Estadística, como son realmente”

1
1.1. División de la estadística
El nacimiento de la Estadística se vincula con la necesidad de los gobiernos de poseer
información numérica respecto a sus recursos y sus ciudadanos. Este interés, impulsó la creación
de técnicas para la recopilación y organización de información. Actualmente la Estadística es
más que eso.

Estadística Descriptiva

La Estadística Descriptiva comprende la recopilación, organización, presentación y


caracterización de un conjunto de datos; es decir, resume y describe al conjunto de datos sin
ningún intento de realizar suposiciones ni generalizaciones.

Estadística Inferencial

La Estadística Inferencial es una técnica que permite efectuar generalizaciones o tomar


decisiones en base a información obtenida por medio de la estadística descriptiva.

De estas dos ramas de la Estadística, la segunda se vuelve cada vez más importante. ¿Por
qué?
La estadística inferencial incluye la estimación, el contraste de hipótesis, las proyecciones, y
otros temas.

Así, entonces,

Estadística, es la ciencia que se encarga de la recopilación, organización, presentación,


análisis e interpretación de la información, como base para conocer la realidad y tomar
decisiones.

1.2. Población y muestra

Población, es la totalidad de elementos o cosas bajo consideración en un estudio.

Si el tamaño de la población es relativamente grande o es infinito, resulta poco práctico o


imposible analizar todos los sujetos de estudio, recurriendo al estudio de una parte de los
elementos.

Muestra, es una parte de la totalidad de sujetos de estudio.

¿Qué tan importante es el muestreo?

2
Lo importante de la muestra es que a partir del análisis de una parte representativa de la
población se infieren las características de la población total. Como decía mi madre: "no es
necesario comerse toda la quesadilla para saber si está deliciosa"

Las razones para utilizar el muestreo son varias. ¿Cuáles crees que son las más importantes?
El costo es una de las principales razones. Cuantos más datos se reúnan mayor es el
costo y más recursos a emplear. El muestreo reduce el número de datos a utilizar y por
ende disminuye los gastos. Otra razón es que la información rápidamente pierde su valor,
entonces hay que obtenerla y aprovecharla en poco tiempo. En algunos casos el muestreo
es el medio único para obtener información, dado que el examen de los elementos causa
su destrucción. Por ejemplo, para determinar el peso máximo que resiste un tipo de bolsa
plástica, no se probarán todas las bolsas producidas, basta con seleccionar una muestra y
estimar la resistencia de las bolsas.

La estadística inferencial proporciona métodos para estimar las características de un grupo


(población) basándose en los datos de un conjunto pequeño (muestra) (fig. 1).

1.3. Parámetro y Estadístico

Parámetro, medida obtenida del análisis de datos de la población o que se refiere a la


población.

Ejemplo 1. La edad media de los/as estudiantes de toda la clase es un parámetro

Cuando resulta complicado obtener el verdadero valor de un parámetro, se vuelve necesario


efectuar inferencias acerca de los parámetros en base al análisis que se obtiene de datos
muestrales.

Estadístico, medida que se obtiene de datos muestrales.

3
Ejemplo 2. En una encuesta de opinión pública, la proporción o porcentaje de personas
adultas que consideran que su situación económica es mejor que la del año pasado, es
un ejemplo de estadístico.

Los estadísticos son empleados para realizar inferencias acerca de los parámetros. Por
tanto, se requiere que la muestra sea representativa de la población.

¿Cómo lograr una muestra representativa?

1.4. Variables

Al estudiar un acontecimiento o fenómeno, interesa observar alguna característica,


registrándose (para esa característica) lo observado (dato estadístico). Por ejemplo, una
característica de interés es el gasto semanal en telefonía móvil de los estudiantes. Otro
ejemplo es la situación económica actual en comparación a la del año pasado de las amas
de casa.

En ambos ejemplos, la característica puede tomar distinto valor de un individuo a otro y por
esta razón se le llama variable.

Variable, característica de los elementos de la población o de la muestra que puede tomar


diferentes valores.

Existen básicamente dos tipos de variables que producen dos tipos de datos: cualitativos
(o atributos) y cuantitativos.

Las variables cualitativas requieren respuestas categóricas, en tanto que las variables
cuantitativas implican respuestas numéricas.

La respuesta a la pregunta "¿cómo es su situación económica actual, Comparada con la


del año pasado? es categórica. Las alternativas pueden ser: mejor, igual, peor, etc.

Mientras que las respuestas a preguntas como "¿cuántos hermanos/as tienes?" o "¿cuál
es tu estatura?" son numéricas. En el primer caso la variable cuantitativa es discreta y en
el segundo es continua.

Variable cuantitativa discreta, es la que puede tomar sólo ciertos valores (generalmente
enteros).

4
Variable cuantitativa continua, cuando la respuesta puede tomar cualquier valor dentro
de un intervalo.

Ejemplo. El número de hermanos/as es un ejemplo de variable discreta, puesto que la


respuesta ha de tomar sólo un número finito de valores. El/la estudiante puede tener 0, 1,
2, 3, 4, etc. hermanos/as.

Ejemplo. La estatura de una persona es variable continua, dado que la respuesta puede
tomar cualquier valor dentro de un intervalo, dependiendo de la precisión del instrumento
de medición. Así, si se contara con un instrumento de medición más preciso, la estatura
de una persona que resulta ser de 1.70 metros, se podría expresar como 1 metro, 70
centímetros, 3 milímetros, etc. Es claro que la estatura es un fenómeno continuo.

Los datos discretos son resultado de contar (por esto generalmente toma sólo valores
enteros), y los continuos surgen de un proceso de medición .

2. Presentación de la información.
En los últimos años, gracias a los avances de las telecomunicaciones e informática, la
disponibilidad de información se ha facilitado grandemente. Es sencillo y rápido disponer de
gran cantidad de datos sobre cualquier fenómeno de interés; sin embargo, solamente se
utiliza una pequeña parte de toda esa información.

Dado que se tienen límites -como humanos- para procesar o retener datos, la información
se difunde de forma condensada. La tarea de capturar, organizar y procesar grandes
cantidades de datos se simplifica cada vez más con el uso de software, permitiendo mayor
agilidad para analizar la información y para tomar decisiones oportunas.

Los datos pueden obtenerse a partir de fuentes de información ya existentes o pueden


obtenerse mediante encuestas o estudios experimentales diseñados para propósitos
específicos.

Las fuentes ya existentes de información o fuentes secundarias, son aquellas que poseen
datos necesarios para determinada investigación. Es posible obtener gran cantidad de datos
gracias a instituciones especializadas en reunirlos y actualizarlos. Entre las fuentes de
datos existentes en el país se tienen: Dirección General de Estadística y Censos, Banco
Central de Reserva, Registros Vitales de las Alcaldías, Fundación Salvadoreña para el
Desarrollo, entre otras. Internet se ha convertido en una fuente importante de datos.

5
A veces, la información que se requiere para realizar la investigación no se encuentra con
facilidad en fuentes disponibles o no existe, por lo que se necesita recurrir a herramientas
como los experimentos o las encuestas. En este caso se dice que la fuente es primaria,
porque es la propia persona o entidad quien obtiene la información de manera original.

En un estudio experimental, primero se identifican las variables de interés. Luego se


controlan o manipulan otras variables de interés para poder obtener información ante
diferentes estímulos o factores. Por ejemplo, un químico farmacéutico realiza un
experimento para determinar cómo una nueva medicina afecta a la presión sanguínea. Los
sujetos seleccionados para participar en el experimento se dividen en grupos. A cada grupo
de individuos se les da una dosis del nuevo fármaco Luego se toma la información sobre
la presión de la sangre de los sujetos de cada grupo. La información se analiza para
determinar cómo afecta el nuevo medicamento a la presión arterial. La presión sanguínea es
la variable de importancia. La dosis administrada del medicamento es una variable a
controlar puesto que afecta la presión sanguínea.

En los estudios estadísticos no experimentales no hay control sobre las variables de interés,
ni se influye sobre ellas. A este tipo de estudios corresponden las encuestas. En las
encuestas se aplica un cuestionario a una muestra de individuos y de esa manera se recopila
información sobre las variables que interesan.

Después que la información ha sido obtenida, ya sea por fuentes secundarias o por fuentes
primarias, es necesario organizaría de tal manera que facilite su análisis. Para compilar la
información se recurre comúnmente a su presentación por medio de tablas o de gráficas.

¿Por qué es importante la organización y presentación de datos?


La organización y presentación de los datos es importante debido a que la mayoría de
veces la información recopilada (datos en bruto) no refleja las principales características de
la muestra o población de donde fue extraída.

Por ejemplo, el gerente de una gasolinera obtendrá muy poca información sobre sus
ventas revisando simplemente las facturas diarias. En cuanto a la presentación, es mucho
más fácil propiciar una idea relacionada al conjunto de datos viendo una imagen clara que
leyendo un párrafo lleno de palabras y cifras. Como lo dice el refrán: "una imagen vale más
que mil palabras".

Sin embargo, hay que tener cuidado. Algunas ocasiones se presentan gráficos engañosos
que pretenden conducir a conclusiones forzadas respecto a la información que se presenta.

6
Pasos elementales para realizar una investigación:
1. Planeación. Se elige el problema, el equipo de trabajo y los sujetos a estudiar.
2. Objetivos. Se definen los objetivos que se persiguen con la investigación
3. Recopilación. Se recoge la información por medio de entrevistas
personales, encuestas u observaciones.
4. Organización. Se ordenan los datos en base a cierto criterio.
5. Presentación. Se ofrece la información resumida a través de tablas y gráficas.
6. Análisis e interpretación. Se identifican los principales hallazgos en la investigación
y se da una explicación lógica a esos resultados.
7. Conclusiones, se informa sobre los principales hallazgos de la investigación en base
a los objetivos propuestos.
8. Informe, Se elabora un informe escrito de la investigación y se presentan a otras
personas interesadas los resultados principales del estudio.

El sexo y la edad corresponden a los llamados datos de clasificación. Investiga cuáles son
las partes o componentes de una encuesta.

2.1. Organización y Presentación de datos


2.1.1. Datos Cualitativos y Cuantitativas Discretas
Para responder a las interrogantes que se plantean en una investigación, es necesario
organizar la información recopilada. Para condensar ésta información y darla a conocer
a terceros, se necesita del auxilio de tablas y gráficas. La herramienta informática es de
mucha utilidad. Se recomienda utilizar Excel u otro programa estadístico (SPSS, STATA, etc.)
para agilizar el proceso.
Los datos estadísticos pueden ser cualitativos o cuantitativos y estos se dividen en
discretos y continuos. A continuación se proporcionan algunas consideraciones para
presentar datos, teniendo en cuenta si son cualitativos o cuantitativos.

Organización de datos y presentación tabular.


Los atributos o clasificaciones establecidas se recomienda ordenarlas, ya sea por
orden alfabético, por el valor de la frecuencia, por orden jerárquico de las opciones u otro
criterio.
Ejemplo 1. Según importancia de las alternativas, para la pregunta relacionada a la forma
de tenencia de la vivienda que habita. La información puede presentarse en un cuadro así:

7
Cuadro 1. Condiciones de tenencia de la vivienda que habita.

Condición No. de familias Porcentaje de familias


De tenencia f fr%
Propia
Pagando a plazo
Alquilada
De un familiar
Otra
Total

Al elaborar una tabla no olvide:


1. Identificarla con su número y título respectivo.
2. Colocar los encabezados de cada columna y fila.
3. Escribir el total de la columna y de la fila (cuando sea necesario).
4. Las notas de pie de página o las fuentes se deben colocar debajo de la tabla.

Frecuencia (f), número de veces que aparece o se observa un dato.

Frecuencia relativa (fr), es la razón existente entre la frecuencia absoluta (f) y el total de
datos (N si es población o n para una muestra). Comúnmente se expresa en forma
porcentual.

f
fr %   100
n

Distribución de frecuencias, es una tabla resumen en la que se disponen los valores de


los datos individuales o divididos en grupos (denominados clases o categorías) y su
respectiva frecuencia de ocurrencia.

Presentación gráfica

Para el estudio de algún problema para el que se cuenta de información estadística, una
de las primeras tareas a realizar es la exploración y análisis de de los da tos mediante

8
gráficos. Los gráficos permiten descubrir, con una ojeada, patrones de comportamiento,
tendencias y otras características básicas como ubicación de menores y mayores
frecuencias.

Para expresar la información cualitativa o cuantitativa discreta de forma gráfica, se puede


utilizar el gráfico de barras (gráfico1), el gráfico circular (gráfico 2) o el pictograma entre
otras. Excel y Word son herramientas de mucha utilidad para presentar gráficamente
información estadística.

¿Cómo construir cada uno de estos gráficos? Sugerencias.

Gráfico de Barras
Ejemplo 2. A continuación se presentan las tasas netas de migración según lugar de
nacimiento, por departamento. El Salvador, censos 1971 y 1992. Construir un gráfico de barras
para representar la información anterior.
En la gráfica de barras se observa que solamente los departamentos de Sonsonate, La Libertad
y San Salvador tienen tasas netas positivas; es decir que a esos tres departamentos llegan
más personas de las que salen. Los otros 9 departamentos son expulsores de población.
Investiga las tasas netas de migración departamentales reportadas por el censo de 2007.
Grafica y compara la evolución de la migración interna salvadoreña.
Grafico 1. El Salvador. Tasas netas de migración departamentales,
según lugar de nacimiento.
Chalatenando

San Vicente

Usulutan

Cabañas

Cuscatlán

Morazán

La Paz
1992
1971
LA Unión

Ahuachapán Fuente: Censos de Poblacion 1971 y 1992

San Miguel

Santa Ana

Sonsonate

La Libertad

San Salvador

-40 -20 0 20 40 60 80

Tasa %

Fuente: Censos de Poblacion 1971 y 1992

Aspectos a considerar al elaborar un gráfico de barras


 A cada categoría le corresponde una barra. La longitud de la barra es proporcional
a la frecuencia de la clase que representa.
 Las barras pueden ser horizontales o verticales.
 Todas las barras deben tener el mismo ancho, para no confundir al lector. Sólo
las longitudes pueden ser diferentes.
 El espacio entre barra y barra, se aconseja que, debe ser igual o mayor que la

9
mitad y como máximo igual al ancho de las barras.
 Las escalas y los ejes de la gráfica deben identificarse claramente.
 Se debe incluir dentro del cuerpo de la gráfica, debajo o al lado derecho, todo tipo
de claves que ayuden a la lectura de la gráfica.
 No olvidar el número y título de la gráfica que la identifican.
 Las notas de pie de página o de fuentes, se deben colocar debajo de la gráfica.

Gráfico Circular

Es llamado también gráfica de sectores o gráfico de pastel.


 Se puede utilizar cuando el total de observaciones constituyen un todo. Si cada una
de las clasificaciones establecidas es una parte del todo, entonces la
suma de las frecuencias tiene un significado y es representado por el área del
círculo.
 A cada clasificación o categoría le corresponde un sector.
 Al interior de cada sector, es aconsejable escribir el porcentaje respectivo y no
la medida del ángulo.
 Se deben incluir dentro del cuerpo de la gráfica, debajo o al lado derecho, todo de
claves que ayuden a la lectura de la gráfica.
 Las notas de pie de página o de fuentes, se deben colocar debajo de la gráfica.

Ejemplo 3. Presente la distribución de la población de El Salvador, según sexo (censo de


Población 2007) utilizando un gráfico circular.
Graf 2. Distribución porcentual de la población salvadoreña,
según género. Censo 2007

Masculin Femenin
o o
47% 53%

10
Grafico Lineal
Es utilizado generalmente para presentar el comportamiento de una variable en un período de
tiempo (series de tiempo) u otra variable de interés. Por lo general, en el eje horizontal se
presentan los períodos de tiempo y en el vertical, los valores de la variable en estudio. Se
detallan en el plano los puntos pertenecientes a cada período de tiempo con el respectivo
valor de la variable, luego se unen por medio de segmentos de recta.

Ejemplo 4. Grafique, utilizando un gráfico lineal, la distribución anual de migrantes internos a


nivel de municipio, período 1978 – 1992, según área geográfica.

Se observa en el gráfico 3, que el comportamiento del flujo migratorio es similar para las dos
áreas geográficas. También, se visualiza que en los años de 1981, 1983 y 1986 se tienen
“picos” que se salen de la tendencia. Pregunta a tu profesor/a que sucesos ocurrieron en esos
tres años que pudieron provocar movimientos masivos de población en nuestro país.

Gráfico 3. Distribución del flujo de migrantes a nivel de municipio, para el período 1971 a 1992
(año que cambió de municipio residencia), según datos del censo de 1992.

18.0 % rural
16.0 % urbano

14.0
12.0
Porcentaje

10.0

8.0

6.0
4.0
2.0

0.0
76 78 80 82 84 86 88 90 92

AÑO

Fuente: Censo de Población de 1992

Pictograma.
La información es presentada pintorescamente para llamar la atención. Consiste en una
serie de dibujos o símbolos, que por su naturaleza o significado sugieren el contenido
de la información.
Cada símbolo equivale a un determinado número de observaciones.
En cada categoría o clasificación se utilizar el mismo símbolo, en cuanto a forma, tamaño,
etc. para no confundir al lector. Sin embargo, cualquier gráfico que utilice figuras o imágenes

11
puede considerarse un pictograma. Los medios de comunicación escritos y revistas, utilizan
con mucha regularidad este tipo de gráficos.

Ejemplo 5. En el siguiente gráfico (pictograma) se ilustran las principales corrientes migratorias


externas de la población salvadoreña, según datos del censo de población de 2007. El gráfico
se ha tomado de la publicación de resultados del Censo de 2007 de la Dirección General de
Estadística y Censos (DIGESTYC).

Gráfico 4. Destinos de la migración externa salvadoreña

Otro ejemplo se puede observar es el de la población mundial que se tenía hasta 1990,
según el siguiente esquema:

Cualquier gráfico tiene como propósito mostrar los datos en forma precisa y clara. La
selección de una gráfica depende de las preferencias estéticas del presentador.

12
Gráficos en Excel

Excel presenta un carrusel de gráficos listos para la entrada de datos. Sin


embargo, no caer en la tentación de seleccionar el gráfico así por así;
dependiendo del tipo de variable que se desea representar, así es el gráfico
a seleccionar. Además, no recargar los gráficos con tanto “cosmético”, en
dos dimensiones es lo aconsejable. La alternativa del carrusel “otros gráficos”
es preferible no utilizarla, igual que el gráfico de área, salvo que sepamos
su (correcta) aplicación.

Insertar/grafica/seleccionar grafica

Ventana para gráficos en Excel 2007

2.2. Variables Continuas, Organización y Presentación.

Distribución de frecuencias

Los datos en bruto recopilados, rara vez son de utilidad sino se organizan y/o tabulan. El
procedimiento más sencillo para manejar información no organizada es un arreglo
ascendente o descendente de los mismos.

En una distribución de datos agrupada, se tienen los siguientes elementos a identificar.

13
Límite de clase aparentes, se tienen límites aparentes cuando el limite interior se una
clase es diferente al límite superior de la clase anterior.

Límite de clase reales, los límites son reales si el límite inferior de una clase es igual al
límite superior de la clase anterior.

Ancho de clase (ic), es la diferencia entre el límite real superior y el límite real inferior de

una clase. ic  l rs  l ri

Punto medio (Pm), se le llama también marca de clase, es el valor representativo de


todos los valores de la clase. Se obtiene al dividir entre dos la suma de los límites de

li  ls
cada clase. Pm 
2

Algunas veces se presentan distribuciones de frecuencias acumuladas. Las frecuencias


acumuladas pueden ser de tipo “mayor o igual que” o del tipo “menor que”.

Frecuencias acumuladas del tipo “mayor o igual que”, es el número o porcentaje de


observaciones que son mayores o iguales que un valor de la variable (el límite inferior de
una clase en una distribución).

Frecuencias acumuladas del tipo “menor que”, es el número o porcentaje de observaciones


que son menores que un valor de la variable (el límite superior en la distribución).

Para analizar la información utilizando frecuencias, se recomienda recurrir a las frecuencias


relativas

Ejemplo 6. Se aplicó una prueba de inteligencia a una muestra de 80 estudiantes


universitarios, seleccionados al azar. Los resultados fueron los siguientes.

64 65 65 66 69 71 73 76 76 78
80 81 81 85 86 86 88 88 88 89

14
90 90 91 92 92 94 94 95 95 98
98 99 100 100 101 102 103 103 104 104
104 104 105 105 105 106 106 106 107 107
108 108 109 109 110 110 112 114 114 115
116 116 118 120 121 121 122 123 24 124
125 125 126 127 129 130 132 134 135 136

a) Construya una distribución de frecuencia relativa con límites de clases aparentes:


62 – 72, 73 - 83, 84 -94, etc.

b) Construya la distribución de frecuencias acumuladas con límites de clase reales

Pautas de Solución:

a) para construir la distribución de frecuencias solicitada,


i) Hay que determinar (contar) el número de datos que caen en cada clase. Este
valor es la frecuencia absoluta de la clase.
ii) Obtenida la frecuencia absoluta, determinar la frecuencia relativa porcentual.
Completar la distribución:
Tabla 3a. Puntos de calificación de una prueba de inteligencia aplicada a una muestra
80 estudiantes universitarios.

Puntaje No. de estudiantes f %


f
62 - 72 6 7.5
73 - 83 7 8.8
84 - 94
95 - 105
106 - 116
117 - 127
128 - 138
Total

b) La diferencia entre el límite inferior de una clase y el superior de la clase anterior es


1. Entonces, para tener límites reales, la diferencia se distribuye en partes iguales
entre estos límites. En consecuencia, se resta 0.5 a los límites inferiores y se suma
0.5 a los límites superiores.

15
Las frecuencias acumuladas de cada clase se obtienen al contestar las preguntas: ¿cuántas
observaciones toman valores iguales o superiores que el límite inferior? ¿Cuántos datos
son inferiores al valor del límite superior?

Completar la distribución:

Tabla 3b. Puntos de calificación de una prueba de inteligencia aplicada a una muestra 80
estudiantes universitarios. Distribución de frecuencias acumuladas.

Puntaje No. de Estudiantes Frecuencia Frecuencia


Universitarios Acumulada < Acumulada >
f
61.5 - 72.5 6 6 80
725 - 83.5 7 13 74
83.5 - 94.5
94.5 - 105.5
105.5 - 116.5
116.5 - 127.5
127.5 - 138.5
Total

¿Cuál es el ancho de clase?


¿Se obtienen diferentes puntos medios al trabajar con límites aparentes que con límites
reales?
¿Cuántos estudiantes obtuvieron un puntaje superior a los 105.5 puntos? Expresarlo,
también en porcentaje.
¿Cuántos tienen un puntaje por abajo de 94.5? Expresarlo en porcentaje
¿Es preferible analizar información utilizando las frecuencias absolutas o las
frecuencias relativas?
¿Qué ventajas y desventajas le atribuyes a una distribución de fre cuencias para datos
agrupados?

Las distribuciones de frecuencias presentan los datos en forma compacta, dan una imagen
general y la información que contienen puede ser utilizada para muchos propósitos Pero hay
aspectos que no pueden determinarse sin ir a los datos originales. Por ejemplo, a partir de
la tabla de los ingresos mensuales de las familias no podemos saber cuál es el menor
ingreso, tampoco cuántos grupos familiares tienen ingresos superiores a $529.0. En resumen,
al agrupar los datos se pierde información referida a las observaciones individuales.

16
Al construir la tabla de distribución de frecuencias se debe prestar atención especial en:
 Seleccionar el número adecuado de clases.
 Obtener un intervalo o ancho de clase apropiado para cada clase.
 Establecer los límites de cada clase evitando traslapes.

Presentación gráfica de variables continuas: Histograma, Polígono de Frecuencias y


Ojiva

Las distribuciones de frecuencia pueden presentarse gráficamente. Se acostumbra ubicar los


límites de clase y los puntos medios en el eje horizontal (x) y las frecuencias se representan
en el eje vertical (y). Para datos cuantitativos continuos se utilizan comúnmente tres tipos
de gráficas: histogramas, polígonos y ojivas. Otro gráfico que reclama atención especial es
el gráfico lineal.

Histograma

Es similar al gráfico de barras, con la diferencia de que las barras están unidas. Se construye
marcando los límites de clase a lo largo del eje x y luego se dibuja para cada clase un
rectángulo con altura igual o proporcional a la frecuencia de la clase que representa.
Puede hacerse a partir de las frecuencias absolutas o de las frecuencias relativas.

Ejemplo 7. Puntos de calificación de una prueba de inteligencia aplicada a una muestra


aleatoria de 80 estudiantes universitarios.

Puntaje Estudiantes fr%


f
61.5 - 72.5 6 7.50
725 - 83.5 7 8.75
83.5 - 94.5 14 17.50
94.5 - 105.5 18 22.50
105.5 - 116.5 17 21.25
116.5 - 127.5 12 15.00
127.5 - 138.5 6 7.50
Total 80

Construya el respectivo Histograma.

17
Solución:

Polígono de frecuencias

Es necesario crear dos nuevas clases, una al inicio y otra al final de la distribución, con
frecuencia igual a cero. En el plano se ubican los puntos que corresponden al punto medio
de cada clase con su frecuencia respectiva. Luego, los puntos correspondientes a clases
consecutivas se conectan por medio de segmentos de recta (ver gráfica 6).

Ejemplo 8. Construya el polígono de frecuencias relativas para la distribución de los puntos de


calificación de la prueba de inteligencia aplicada a los/as 80 estudiantes del ejemplo 5.

Solución
Graf 6. Puntos de calificación de una prueba de inteligencia aplicada a 80 estudiantes
universitarios

25
22.5
% estudiantes

21.25
20
17.5
15 15

10
8.75
7.5 7.5
5

0 0 0
56 67 56 89 100 111 122 133 144

Pm calificación

Nota. En teoría, el área del histograma y del polígono de frecuencias es igual al número
de observaciones que se presentan.

18
Ojivas

La gráfica de una distribución de frecuencias acumuladas se llama Ojiva. Se tienen dos tipos
de Ojivas, una para las frecuencias acumuladas del tipo "menor o igual que", y otra para las
del tipo "mayor que".

Ojiva del tipo "menor que".


Para su construcción, todos los límites son considerados superiores. Primero se coloca un
punto sobre la primera frontera de la clase más baja, indicando que ningún dato es inferior
a ese valor. Después, encima del límite siguiente se coloca un punto a la altura de la
frecuencia acumulada respectiva, y así sucesivamente. Los puntos consecutivos se unen por
medio de segmentos de recta.

Un auxilio para ubicar los puntos es preguntarnos, ¿cuántos datos son menores que ese
límite de clase?

Ojiva del tipo "mayor que".


Ahora todos los límites son considerados inferiores y la pregunta es: ¿cuántas observaciones
son mayores que ese límite? Se procede igual que la ojiva "menor que".

En la figura que está en la siguiente página se muestran ambas ojivas. Nótese que se
cortan a la altura de la mitad de las observaciones. Por qué?

Ejemplos de Ojivas son las curvas de talla, peso y edad que utilizan los pediatras.

19
Otros gráficos importantes
Otros tipos de gráfica de mucha utilidad para el análisis de datos son: el gráfico de tallos y
hojas, el gráfico de cajas o bigotes, el gráfico de Pareto. Serán abordados en laboratorio de
informática SPSS

* Tallos y Hojas, puede catalogarse como un seudo gráfico. Aplica para variables cuantitativas
y especialmente cuando se tiene un número reducido de datos. Requiere datos (valores)
constituidos por al menos dos dígitos.
El gráficos de tallos y hojas es de suma utilidad para el análisis exploratorio de datos por
cuanto: posibilita la visualización de los datos (valores), identifica el patrón de
comportamiento de la distribución (uniforme, simétrica, sesgada, etc.), muestra la existencia
o no existencia de valores extremos o atípicos.

Para su construcción o su lectura cada número se divide en dos partes: una llamada
tallo y otra denominada ramas u hojas.

Tallo Formado por uno o más dígitos principales (cifras más significativas), ubicados a la
izquierda del número.

Ramas u hojas Resto de los números (cifras secundarias) ubicadas a la derecha

Procedimiento:

1. Se define cómo se van a dividir los números entre tallos y ramas. Se decide qué
corresponderá a tallo y cuáles serán las ramas.
2. En una columna se listan los tallos en orden ascendente.
3. Se recorren los datos y se colocan, en la columna siguiente, las hojas de acuerdo
al tallo que tengan.

Recomendaciones:

 El número de tallos esté entre 3 y 15, según sea el número de datos y los
valores que toman.
 Anotar lo que representa el tallo y lo representan las hojas para comprensión
del gráfico.
 Algunos programas estadísticos, agregan una columna a la izquierda para
resaltar la frecuencia absoluta de cada rallo.

20
 A veces, de acuerdo con la información que se tenga, pueden resultar muy
pocos tallos, con lo cual las ramas quedan muy concentradas, y realmente no
se obtiene mucha información. En estos casos, puede ser conveniente partir
los tallos en dos: Un tallo inferior (que tenga, por ejemplo, las ramas menores
que 5), y un tallo superior (que tenga las ramas mayores o iguales a cinco).

Ejemplo 9. La siguiente lista de datos corresponde a la edad de un grupo de 20


personas que asisten a una clínica de rehabilitación alcohólica. Represente la información
mediante un diagrama de tallos y hojas.

36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 43 24 44 40

Primero se eligen los tallos, que para el caso son las decenas: 2, 3 y 4
Segundo, se cuentan y añaden las hojas a cada tallo. Así:

Tallos Hojas
2 5 4 0 4 9 3 4
3 6 7 9 6 1 1 9
4 5 1 0 3 4 0

Tercero, se ordenan las hojas para cada tallo.

Tallos Hojas
2 0 3 4 4 4 5 9
3 1 1 6 6 7 9 9
4 0 0 1 3 4 5

Tallo: decenas
Hoja: un elemento
Cada tallo define una clase, y se escribe una sola vez. El número de hojas representa
la frecuencia de dicha clase.

21
* Cajas y Bigotes, es un gráfico que resume la información a partir de 5 medidas
estadística: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo.
Consiste en un rectángulo dividido por un segmento de recta vertical que corresponde a la
ubicación de la mediana y los lados extremos al cuartil uno y al cuartil 3. Esto permite
mostrar la relación de la mediana con los otros cuartiles. Así los lados más largos del
rectángulo corresponden al recorrido intercuatilico. Este gráfico recibe el nombre de Gráfico
de Caja (boxplot). Se dice que fue publicado originalmente por John Tuckey en 1977.

Si al gráfico de cajas se le adicionan a escala dos segmentos de recta que tienen como
extremos los valores mínimo y máximo “admitidos” para la variable según los valores de
los cuartiles. A estos segmentos de recta se les llama bigotes.

El gráfico de caja y bigotes permite visualizar la simetría de la distribución y la dispersión


de los datos de una variable de escala. El gráfico identifica los cuartiles, valores atípicos y
valores extremos.

Con relación a la simetría o asimetría de la distribución se tiene que si la mediana está


en el centro de la caja o cenca de él hay evidencia de distribución simétrica; por otra parte
si la mediana está cercana al primer cuartel se tiene indicios de datos con asimetría positiva
y si la mediana está próxima al tercer cuartil, los datos presentan sesgo negativo. También,
la longitud de los segmentos que identifican a los bigotes puede interpretarse como indicador
de asimetría.

Los bigotes tienen un límite de prolongación. Más allá de estos límites caen los valores
atípicos y extremos. Se dice valores atípicos de la variable a aquellos datos que se alejan
del grueso principal de los datos y que se pueden atribuir a causas extrañas o a errores
de medición o de registro.

Tuckey sugiere el siguiente criterio para definir la prolongación de los bigotes (puntos
extremos de los bigotes) tomando como base el rango intercuartilar (RI= Q3 – Q1):
Bigote inferior: Q1 – 1.5RI
Bigote superior: Q3 + 1.5RI
Región exterior: Q1 – 3RI
Región Superior: Q3 + 3RI

Los valores (Q1 – 1.5RI) y (Q3 + 1.5RI) definen los extremos de los bigotes.

22
Si hay valores de la variable que caen en la zona definida por los extremos (Q1 – 3RI) y
(Q1 – 1.5 RI) o (Q3 + 1.5RI) y (Q3 + 3RI) se dice que son valores atípico. Se identifican
con un asterisco (*)
Aquellos datos que caen más allá de (Q3 + 3RI) o por debajo de (Q3 – 3RI) se denominan
valores extremos. Se identifican con un punto (.)

Ejemplo de Cajas y Bigotes se abordará en informática, luego de cubrir el tema de


medidas descriptivas univariadas.

Gráfico de Pareto, muy utilizado para priorizar problemas y las causas que los generan.
De gran aplicación para la mejora continua de la calidad.
El economista italiano Wilfredo Pareto (1848 – 1923) estudiando la distribución de la riqueza
encontró que la minoría de la población poseía la mayor parte de la riqueza. De acá nace
la “regla 80/20” y plantea que si se tiene un problema con varias causas, el 20% de las
causas resuelven el 80% del problema.

El Gráfico (Diagrama) de Pareto es una forma especial de gráfico de barras verticales que
separa los problemas muy importantes de los menos importantes, estableciendo un orden
de prioridades.

El Diagrama de Pareto en un gráfico de barras que se complementa con una ojiva creciente
y que representa en forma decreciente el grado de importancia que tienen los diferentes
factores que afectan a un proceso, experiencia o resultado.
La Gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar
visualmente en una sola revisión las minorías de características vitales a las que es
importante prestar atención y de esta manera utilizar todos los recursos necesarios para
llevar a cabo una acción de mejora sin malgastar esfuerzos ya que con el análisis
descartamos las mayorías triviales.
Algunos ejemplos de minorías vitales serían:
La minoría de procesos son la causa de la mayoría de desperdicios.
La minoría de la materia prima aporta la mayoría del costo de producción
Una minoría de clientes representan la mayoría de ventas
La minoría de productos representan la mayor parte de las utilidades, etc.

Ejemplo. En un taller se fabrican partes de maquinaria industrial a petición de los clientes.


Sin embargo, algunas piezas “terminadas” presentan fallas. La gerencia del taller está
interesada en analizar los defectos más frecuentes. Utilizar un Gráfico de Pareto para
presentar los siguientes datos recopilados.

23
Defecto Frecuencia Frecuencia Porcentaje
relativa % acumulado
%

Rayaduras externas 116 41.4 41.4

Rotura 98 35.0 76.4

Medida 20 7.1 83.6

Abolladura al instalarse 12 4.3 87.9

Mal color 10 3.6 91.4

Desbalanceada 8 2.9 94.3

Forma incorrecta 7 2.5 96.8

Sin terminar 6 2.1 98.9

Otras 3 1.1 100.0

Total 278 100

Solución,

Se ha creado en la tabla una columna para frecuencias relativas de los defectos y otra
para las frecuencias acumuladas. Se grafican las frecuencias relativas de los defectos por
medio de gráfico de barras y se agrega, la línea para las frecuencias acumuladas.

24
Medidas de Tendencia Central
Después de haber estudiado la recopilación, organización y presentación de la información, se
tratará el análisis descriptivo de datos utilizando medidas resumen de datos.

Se trata de resumir y describir datos mediante una o dos medidas numéricas (un estadístico o un
parámetro) seleccionados adecuadamente. El tipo de número seleccionado depende de la
característica particular del grupo de datos que se desea describir. Las características principales
son la tendencia y la dispersión.

Las medidas de tendencia son útiles cuando se desea determinar un valor que resuma o que
mejor represente al conjunto de datos.

Además de la tendencia central, hay otras medidas utilizadas para tipificar la posición de un dato
dentro de la serie; por ejemplo el valor de la variable que sólo un 30% de los datos lo excede
o el valor que excede el 25% inferior de los datos. Casos similares a los citados serán estudiados
en los percentiles.

También es importante evaluar la forma en que las observaciones están diseminadas o dispersas
respecto al centro del grupo de datos. Este papel lo cumplen las medidas de dispersión.

Medida de tendencia central, valor empleado para localizar el “centro” de un conjunto de


observaciones.

Importancia de las Medidas de Tendencia Central.


Los gráficos proporcionan una descripción visual global de los datos bajo análisis, y a través de
ellos se puede extraer información relevante de forma rápida sobre los patrones o tendencias de
los datos. Sin embargo, no permiten efectuar un análisis detallado; muchas veces se necesitan
medidas o valores que resuman un conjunto de datos. A partir de estos valores resumen o
promedios, se puede lograr una comprensión más precisa de la información con relación a lo que
se puede extraer de una tabla o de un gráfico.

Al prestar atención a las distribuciones de frecuencias o a los gráficos respectivos, se descubre


que, para la mayoría de casos, los datos muestran una tendencia a agruparse alrededor del
“centro” de la serie, y por ello al elegir algún valor promedio que describa a todo el grupo de
datos, éste valor cae cercano al centro de la distribución. Un valor destinado para tal fin es una
medida de tendencia central.

25
Las medidas de tendencia central más utilizadas son: la media aritmética, la mediana y la moda.
Otra medida de posición, no necesariamente central, usada frecuentemente es el percentil.

La Media Aritmética.
Conocida comúnmente como media. Cuando se obtiene a partir de datos muéstrales se
representa por medio de X (se lee "x barra") y por medio de µ(letra griega "mu" o “miu”)
cuando se obtiene de o se refiere a la población.

La media aritmética, se determina sumando los valores de todas las observaciones y dividiendo
entre el número de observaciones realizadas. Así, para una muestra de 'n' observaciones X1,
X2..., Xn, se tiene

x1  x2  ...  xn
x
n
Utilizando notación de sumatoria, se tiene:

x  xi
n

y para una población de tamaño N

x1  x2  ...  xn

N
Es decir:


xi
N
La media aritmética es un valor tal que, al utilizarlo en sustitución de los datos bajo
análisis, se obtiene la misma suma que producen los estos datos.

Ejemplo 1. Un empleado de la oficina de protección al consumidor, recopila información


sobre los precios de algunos productos de la canasta básica. Los precios dados, en 5
puestos de un mercado municipal, de cinco libras de azúcar son los siguientes: $(2.40, 2.30.
2.40, 2.30, 2.35). ¿Cuál es la media aritmética del precio de la libra de azúcar?

Solución.

26
Como son datos muéstrales, se utiliza X para denotar la media aritmética y n para simbolizar
el número de observaciones

x  xi
n

2.40  2.30  2.40  2.30  2.35


x
5

x  $2.35

Según los datos, se tiene frecuencia igual a 2 para $2.30 y para $2.40 y 1 para $2.35. Al
obtener la media, cada valor aparece como sumando tantas veces como sea su frecuencia:
2 veces $2.30, 2 ocasiones $2.40 y 1 vez $2.35. Entonces,

2(2.30)  (2.35)  2(2.40)


x
5
x  $2.35
En consecuencia y generalizando para cualquier distribución, se tiene que:

x
 xi o x
 fi xi para una muestra y
n n

 
xi fixi
o para una población
N N
Donde
xi es el i-ésimo valor de la variable X.
fi es la frecuencia del i- ésimo valor de la variable x
n es el tamaño de la muestra y
N es el tamaño de la población.

Ahora, recuerda cómo obtener la media para una distribución de datos agrupados. Dado
que se pierde la individualidad de los datos, se recurre al punto medio (Pm) como el valor
más representativo de las observaciones de la clase. En tal sentido:

x
 Pmf para datos muestrales y
n

27

Pmf
para datos poblacionales.
N

Es necesario que puedas utilizar tu calculadora o Excel para obtener medidas estadísticas.
Para utilizar la calculadora, tienes que leer el manual. Algunas generalidades a seguir son
las siguientes:

Primero, seleccionar modo estadístico SD o STAT


Segundo, borrar la memoria estadística SCl
Tercero, entrar datos (se digita cada dato y luego DT o DATA. Para clases y frecuencias, se
digita el dato o Pm, después la frecuencia respectiva y luego DT o DATA: Xi ; f DT)
Cuarto, se solicita la medida de interés (de no encontrarse visible el símbolo de la medida
solicitada, checar en SVAR)

Ejemplo 2. La tabla presenta el tiempo empleado en trasladarse de su casa a su lugar de


estudios, los/as 80 estudiantes de primer año de bachillerato del colegio AVICHE.

Tiempo No. estudiantes


(Minutos)
4.5 - 15.5 3
15.5 - 26.5 7
26.5 - 37.5 12
37.5 - 48.5 18
48.5 - 59.5 20
59.5 - 70.5 10
70.5 - 81.5 6
81.5 - 92.5 4
Total 80

Determine el tiempo medio que tardan los/as estudiantes en trasladarse de su casa al


colegio.

Solución.
Hay que obtener el punto medio de cada clase y luego multiplicar el punto medio por la
frecuencia respectiva. Esto se muestra en la siguiente tabla:

28
Tiempo No. estudiantes Pm Pm*f
(Minutos)
4.5 - 15.5 3 10 30
15.5 - 26.5 7 21 147
26.5 - 37.5 12 32 384
37.5 - 48.5 18 43 774
48.5 - 59.5 20 54 1080
59.5 - 70.5 10 65 650
70.5 - 81.5 6 76 456
81.5 - 92.5 4 87 348
Total 80 3869

Luego, se divide la suma de puntos medios por frecuencia por el total de datos; así, la
media aritmética del tiempo empleado por los estudiantes en ir de su casa al colegio es:

3,869
   48.36 minutos
80
Los datos que se presentan son poblacionales, por eso se emplea μ para
simbolizar la media aritmética.
La media aritmética actúa como punto de equilibrio: las observaciones de menor valor
equilibran las de mayor valor.
Para datos cuantitativos, la media aritmética es la más popular de las medidas de
tendencia central. Las razones son varias:
 La media siempre existe para cualquier conjunto de datos.
 La media es única.
 Permite el proceso matemático.
 Es confiable, dado que las medias de muchas muestras obtenidas a partir de la
misma población, generalmente no varían tanto como las otras medidas de tendencia
central.

29
Cálculo de la media aritmética en Excel

Insertar/función/estadísticas/ PROMEDIO
Si se encuentra el símbolo fx en la barra de herramientas
fx /estadísticas/ PROMEDIO

Propiedades de la Media Aritmética.

A continuación vamos a establecer una serie de propiedades que satisface la media


aritmética.
Ejemplo 3. Se pregunta la edad a 5 niñas que participan en un taller sobre motricidad fina.
Todas responden tener 5 años cumplidos. ¿Cuál es la edad media de ese grupo de niñas?
Solución
Al dividir la suma de las edades entre el número de datos, se obtiene 5. Por tanto, a edad
media de las niñas es 5.
Al generalizar la situación anterior, ¿cuál ha de ser la media aritmética si todas las
observaciones toman un mismo valor c?

30
Propiedad 1.
La media aritmética de una constante c, es la misma constante c.
Ejemplo 4. Para las propiedades 2 y 3, retomar los 5 datos recopilados por el empleado
de la oficina de protección al consumidor, referentes al precio (en dólares) de las cinco
libras de azúcar $ (2.40, 2.30. 2.40, 2.30, 2.35)

¿Qué valor se obtendría para la media, si en cada uno de los 5 puestos se aumenta en
20ctvs a las cinco libras de azúcar? ¿En cuánto se ha incrementado la media?
¿Cuál sería el valor de la media de las cinco libras de azúcar si su precio se incrementa
en un 10%? ¿Cuál sería e! porcentaje de incremento en el valor de la media?

Solución
Con el aumento de 20 centavos, los nuevos precios son: 2.60, 2.50, 2,60, 2.50 y 2.55. Al
obtener la media aritmética de los nuevos precios, se tiene que la media es de $2.55; es decir
aumentó 20 centavos con respecto a la media de los precios originales.

Si se aumenta en un 10% el precio, entonces lo nuevos precios serán: 2.64, 2.53, 2.64, 2.53,
2.585. La media aritmética de los precios será $2.585; es decir se incrementaría en un 10%

Propiedad 2.
Al generalizar lo obtenido en el ejemplo 4, se puede concluir que:
Si cada valor de la variable se incrementa (o disminuye) en un mismo valor, entonces
la media se incrementará (o disminuirá) en ese mismo valor.

La media de una variable más (o menos) una constante es igual a la media de la variable
más (o menos) el valor de la constante

Propiedad 3
Si cada uno de los valores de la variable se multiplica por un mismo valor, entonces la media
de este nuevo grupo de datos, también se incrementará en ese mismo factor.

La media de una variable por una constante es igual a la constante por la media de la
variable.

Propiedad 4
Utiliza los datos originales del ejemplo 4 y comprueba la siguiente propiedad:

31
Si se resta la media a cada uno de los valores observados, entonces la suma de estas
diferencias es igual a cero.
 ( Xi  X )  0
 di  0
Media aritmética ponderada.
Ejemplo 1. Un profesor informa a su clase que la nota del período se distribuirá de la
manera siguiente: dos exámenes cortos, cada uno de los cuales equivaldrá al 25% de su
nota, un examen al final del período que corresponderá al 35%, y su participación en clase
valdrá un 15%. Si un estudiante tiene las calificaciones respectivas siguientes: 7.0, 6.0, 7.0
y 8.0, ¿cuál es la media aritmética de la nota mensual?

Solución
La media de los 4 puntajes es (6 + 7 + 7 + 8) / 4 = 7. 0 ¡ERROR!!!

El cálculo anterior supone que cada observación es de igual importancia. En el caso que
nos ocupa, las evaluaciones tienen diferente importancia o peso; repercutiendo en el valor
de la media.

Solución correcta.
La nota mensual se obtiene multiplicando cada puntaje por su respectiva ponderación y
dividiendo entre la suma de las ponderaciones (100). Así:

6 x25  7 x25  7 x35  8 x15


 6.9
100

La nota mensual obtenida corresponde a la media ponderada de las evaluaciones parciales.

La media ponderada de un conjunto de números Xi con ponderaciones respectivas pi,


se obtiene:

Media ponderada:
 ( Xip ) i

p i
Una aplicación especial de la media ponderada, es la obtención de la media total o media
general de k muestras de datos, que tienen medias x1 , x 2 ,.... x k y consiste en
observaciones respectivamente. El resultado se obtiene por medio de la fórmula:

Media total:
(x n )
i i

n i

32
donde los pesos relativos son los tamaños de las muestras o grupos de datos.

Ejemplo 2. En una fábrica trabajan 80 hombres y 60 mujeres. El sueldo quincenal medio de


los hombres es de $200.00 y el de las mujeres es de $250.
a) ¿Cuál es el sueldo quincenal medio de la fuerza laboral (trabajadores y trabajadoras)
de esta fábrica?
b) ¿Cuál ha de ser la media total, si hay un incremento general del 15% a los sueldos?

Solución.
a) Sustituyendo X
1 = 200; 2 = 250, nt = 80, n2 = 60 en la fórmula de la media total,
X se
tiene

(200 x80)  (250 x60)


Sueldo medio general =  $221.429
80  60
b) Sea X el sueldo de un empleado. El sueldo se incrementa en un 15%, entonces el sueldo
de un trabajador será: X + 0.15 X. Esto es igual a 1.15X o sea que todos los sueldos (X)
se multiplican por 1.15. Por la tercera propiedad, si cada valor de la variable se multiplica
por una misma cantidad, entonces la media queda multiplicada por esa cantidad.

La nueva media del sueldo será 1.15(221.429) = $254.643

Mediana.
Ejemplo 1. El propietario de un taller comenta a un amigo que el sueldo promedio de los
5 empleados de su taller es de $422.00 mensuales. El amigo le felicita, pues considera
un salario aceptable. Al profundizar un poco más, se da cuenta que los empleados son: 4
operarios y el hijo de su amigo; con sueldos respectivos de $180.00, $190.00, $240.00,
$300.00 y $1,200.00.

¿Qué medida utiliza el propietario para describir sus salarios?


Es representativo este promedio de los sueldos de los empleados?
¿Por qué? Cuál es la razón?

Solución.

Será mucho más representativo $240.00 que $422.00?


El sueldo de $240.00 es el valor que corresponde a la medida de tendencia llamada
mediana.

33
La mediana, es el valor que se encuentra en el centro de una secuencia ordenada de
datos.

Una forma fácil de localizar la posición del elemento central para datos no agrupados, es
aplicar la expresión:
n 1
2
donde n es el número de elementos.

Número impar de elementos.

Ejemplo 2. Una muestra de los honorarios médicos cobrados en clínicas dentales del
municipio, dio las siguientes cantidades: $20.00, $15.00, $55.00, $16.00, $25.00. ¿Cuál es la
mediana?

Solución:
Ordenando los datos de mayor a menor ($) 55.00, 25.00, 20.00, 16.00, 15.00
Obteniendo la posición de la mediana para n = 5

5 1
3
2
La mediana corresponde al tercer dato, siendo este $20.00

Número par de elementos.

Ejemplo 3. Número de pacientes atendidos semanalmente por la Cruz Roja de la localidad,


durante 8 semanas consecutivas: 15, 10, 7, 6, 4, 8, 12, 16. Obtener la mediana.

Solución
Ordenando los datos en forma ascendente: 4, 6, 7, 8, 10, 12, 15, 16.
Determinando la posición de la mediana, para n = 8:
8 1
 4.5
2

Dado que la mediana es el 4.5-ésimo elemento del arreglo, se obtiene la media de los datos
4° y 5°. El cuarto es 8 y el quinto es 10. La media de ellos es 9. Por tanto, 9 es el valor
de la mediana del número de pacientes atendidos por la Cruz Roja.

34
Cálculo de la mediana a partir de datos agrupados.

Una vez que los datos originales se han organizado en una distribución de frecuencias,
parte de la información no es identificable. Como resultado, la mediana exacta se dificulta
obtenerla. Sin embargo podemos obtener una aproximación. A continuación se detalla el
proceso:

a) localizar la clase donde se encuentra la mediana.


b) interpolar dentro de la clase para obtener la mediana o utilizar la fórmula alterna.

Para interpolar, se supondrá que los elementos dentro de la clase mediana, se encuentran
uniformemente espaciados.
 n 1 
  faa 
Mediana  li   2 ic
 f 
 
 
Donde
Ii: límite real inferior de la clase mediana.
f : Frecuencia de la clase mediana.
faa: Frecuencia acumulada "menor que" anterior a la
clase mediana.
ic: ancho de la clase mediana.
n : número de datos.

Ejemplo 4. Obtener la mediana de la siguiente distribución, a) Interpolando,


b) Aplicando la fórmula.

Tabla 6. Rentas mensuales por alquiler, correspondientes a 100 viviendas seleccionadas al


azar de un sector residencial popular

Renta mensual Casas


$
399.5 – 704.5 5
704.5 – 1,009.5 20
1,009.5 – 1,314.5 40
1,314.5 – 1,619.5 25
1,619.5 – 1,924.5 10
Total 100

35
Solución.
a) Por interpolación

Localizando la clase que contiene a la mediana.


La posición del valor de la mediana es 100  1
 50.5
2
La clase que contiene al 50.5 valor, se localiza comparándolo con la frecuencia acumulada.
En la tabla se observa que hay 25 datos menores que ¢1,009.5 y 65 con renta abajo de
$1,314.5. Por tanto, la 55.5º renta se encuentra en la tercera clase: $1,009.9 - $1,314.5.
Interpolando dentro de la tercera clase
Se asume que las rentas mensuales de alquiler se distribuyen uniformemente dentro de la
clase. Existe una diferencia de 25.5 entre la 25a y la 55.5a casa y 40 observaciones dentro
de la clase mediana. O sea que la mediana está a 25.5/40 partes del ancho de clase
(305). De modo que los 25.5/40 de 305, o sea $194.44 se le suman al límite inferior. La
mediana resulta ser $1,009.5 + $194.44 = $1,203.94.

b) Aplicando la fórmula
Reconociendo a la tercera clase como la mediana, se tiene:
Ii =1,009.5
ic = 305
f =40
faa = 25
(n + 1)/2 = 50.5

 n 1 
  faa 
Sustituyendo en mediana Me = li   2 ic
 f 
 
 

= 1,009.5 +[(50.5 - 25) (305)] / 40


= $1,203.94

Respecto a la mediana, podemos decir lo siguiente:


 La mediana es única.
 La mediana no es afectada por los valores extremos.
 La mediana puede obtenerse para datos cuantitativos como para
cualitativos jerarquizados.

36
Si la media es mayor que la mediana, la distribución presenta asimetría
positiva o sesgo positivo. Si la media es menor que la mediana, entonces
se dice que la distribución tiene asimetría negativa o sesgo negativo.

Calculo de la mediana en Excel

Insertar/función/estadísticas/ MEDIANA

Si se encuentra el símbolo fx en la barra de herramientas:


fx /estadísticas/ MEDIANA

37
La Moda

Algunas veces prestamos mayor atención al tema económico, político, social, etc que está
de moda en los medios de comunicación o en la opinión pública; otras veces nos deleitamos
con la canción de moda.

¿Qué es lo que entendemos por moda?

Como medida de tendencia central, la moda tiene el mismo significado.

Moda, es el valor que más se repite dentro del conjunto de datos.

De las tres medidas de tendencia central, la moda es la más fácil de obtener. Basta
determinar el dato de mayor frecuencia. Sin embargo, un grupo de datos puede tener una
moda, varias modas o no tener moda.

La moda es de mayor utilidad para datos cualitativos que cuantitativos. Para datos
cuantitativos, se utiliza cuando se tenga uno o varios valores que tienen frecuencia mucho
mayor que las otras observaciones.

En una distribución de frecuencias la moda se obtiene de forma aproximada. Aunque existen


otros métodos, para obtenerla a partir de datos agrupados, el punto medio de la clase de
mayor frecuencia puede considerarse como la moda de esos datos. Por ejemplo, en el caso
de las rentas de alquiler de viviendas, la clase de mayor frecuencia es la tercera. La moda
podemos aceptarla como el punto medio de la clase: 1,009.5 -1,314.5 o sea $1,162.

Calculo de la moda en Excel

Insertar/función/estadísticas/ MODA
Si se encuentra el símbolo fx en la barra de herramientas:
fx /estadísticas/ MODA

38
Otras Medidas de Posición

Cuartiles.
Frecuentemente interesa encontrar la posición, no necesariamente central, que ocupa un
valor dentro de la distribución. Como por ejemplo en el alquiler de viviendas:

a) ¿qué porcentaje de casas están alquiladas por $1,009.5 o menos?


b) ¿qué porcentaje de casas tienen rentas de alquiler superior a $1,100.

Para responder el literal a) basta observar el número de datos que se acumulan (frecuencia
acumulada) hasta $1,009.5. Esto es 25 datos. Así, el 25% de las viviendas consideradas en
la muestra, se alquilan en $1,009.5 o menos. Mientras que para el literal b) no se obtiene
la respuesta simplemente con detenerse en la frecuencia acumulada, puesto que $1,100 no
es un límite de clase. Hay que recurrir a otro método. La interpolación en las ojivas es una
alternativa; otra opción es la obtención de las medidas estadísticas llamadas cuantiles o
fractiles.

39
Los cuantiles son medidas de posición que incluyen los cuartiles, los deciles y los percentiles
En estos últimos centraremos la atención dado que comprende a los otros dos.

Cuartiles, Deciles y Percentiles

Los cuartiles, denotados generalmente Q1 Q2 y Q3, son valores de la variable que dividen
a un conjunto de datos en cuatro partes iguales. El primer cuartil, Q 1 es el valor antes del
cual queda un 25% de los datos. El segundo cuartil, Q2, es idéntico a la mediana. El tercer
cuartil, Q3, es el valor que deja tras de sí tres cuartas partes de las observaciones.

Conociendo lo que son los cuartiles, se puede intuir el papel de los deciles (D) y los
percentiles (P).

Por ejemplo, el decil 4, (D4) es el mismo valor que el percentil 40, (P40). Ambos
corresponden al valor de la variable que supera al menos a un 40% de los datos. En general,
los percentiles engloban a los otros cuantiles.

Percentiles

El r-ésimo percentil es un valor de la variable tal que por lo menos un r por ciento de
los datos son menores o iguales que dicho valor y por lo menos (100 – r) por ciento de
las observaciones son mayores o iguales que este valor,

Cálculo del percentil r


Datos si agrupar
i. Ordenar los datos del menor al mayor valor
ii. Obtener el valor de la posición (i) del r-ésimo percentil de interés
nr
i
100
iii. a) Si i es entero, el r-ésimo percentil es la media de los valores de los
datos ubicados en la posición u y u+1
b) Si i no es entero, el entero próximo mayor que u indica la posición
del r-ésimo percentil

Ejemplo 1. A continuación se muestra el monto de la factura (en dólares) por combustible


en una muestra aleatoria de 15 automovilistas particulares que se sirvieron combustible,
entre las 9:00 AM y las 12:00 M, en una estación de servicio. Calcule e interprete el valor
del percentil 40

40
10.40 15.00 10.00 23. 22 20.00 16.85 30.00 35.00 28.25 6.54 5.00
18.00 10.00 20.00 15.00
a. Calcule el percentil 40
b. Calcule e interprete el valor del percentil 75
Solución
a. Percentil 40 ( P 40
)
i. Ordenar los datos de forma ascendente
5.00 10.00 10.0 10.40 15.00 15.00 16.54 16.85 18.00 20.00 20.00
23.22 28.25 30.00 35.00

ii. Obtener i
15 * 40
i
100
i6

iii. Obtener el percentil 40


Como u es entero, el percentil corresponde a la media de los valores ubicados en la
posición 6 (i) y posición 7 (i+1); es decir la media de 15 y 16.54. Así,

P 40
= $15.77

a. Percentil 75 ( P 75
)

i. Ordenar los datos de forma ascendente


5.00 10.00 10.0 10.40 15.00 15.00 16.54 16.85 18.00 20.00 20.00
23.22 28.25 30.00 35.00

ii. Obtener u
75 * 40
i
100

i  11.25

iii. Obtener el percentil 75


Como i no es entero, se toma como posición el entero próximo mayor: 12. El valor
que corresponde al percentil 75 es el ubicado en la posición 12.

41
P 75
= $23.22

Datos agrupados
La expresión para calcular un percentil cualquiera puede deducirse a partir de la fórmula
para obtener la mediana.

La variante se tendrá en la posición de la medida. Así, para el percentil 40, se dividirá el


total de datos más uno entre 100, puesto que son 100 divisiones las establecidas por los
percentiles. De estas 100 divisiones, nos interesa la posición número 40. Entonces la
posición del percentil 40 se obtendrá mediante la expresión [40 (n + 1)]/100. En general, para
un percentil r (Pr) cualquiera, su posición estará dada por

Posición (u) que ocupa el percentil r :


r (n  1)
u
100
De lo anterior:
 r (n  1) 
  faa 
Pr  li   100 ic
 f 
 
 

Percentil r, valor de la variable que supera (está por arriba) a un r % de las observaciones.

Ejemplo 2. Para las rentas de alquiler de viviendas. Por abajo de qué renta mensual
se encuentra el 30% de las viviendas alquiladas a más bajo precio.

Renta mensual Casas


$
399.5 – 704.5 5
704.5 – 1,009.5 20
1,009.5 – 1,314.5 40
1,314.5 – 1,619.5 25
1,619.5 – 1,924.5 10
Total 100

42
Solución.
El valor de la renta que supera a un 30% de los datos, es el percentil 30 (P30),

Determinando la posición del percentil 30:

30(100  1)
 30
100

El P30se encuentra en la tercera clase, puesto que el dato 30 cae en esta clase. De lo
cual:
li = 1,009.5
ic = 305
f = 40
faa = 25

sustituyendo en la fórmula para obtener P30.

30  25
P30  1,009.50  ( ) * 305  1,047.63
40

El 30% de los inquilinos muestreados pagan $1,047.63 o menos en concepto de alquiler


de la vivienda que habitan.

Ejemplo 3. ¿Qué porcentaje de casas tienen rentas de alquiler superior a $1,100?

Solución.
Se conoce el valor de la variable (Pr) y se desconoce el porcentaje de datos (r) por abajo
de este valor.

a) Identificando la clase donde se encuentra el valor de la variable.


Una renta de $1,100 se ubica en la tercera clase: 1,009.5 -1,314.5. Conociendo la clase,
se obtienen los elementos necesarios para la fórmula:

li = 1,009.5
ic = 305
f = 40
faa = 25
Pr=1,100

43
b) Sustituyendo en la fórmula para obtener P

  101  
r  100   25
 
1,100  1009.50    * 305
40

90.5 = (r-25) (7.625)


11.87 = r - 2 5
r = 36.87%

Aproximadamente, al menos un 37% alquila en $1,100 o menos. Por tanto un 63% de


las viviendas alquiladas, tienen una renta igual o más de $1,100 mensuales.

Calculo de Percentil en Excel

Insertar/función/estadísticas/ PERCENTIL
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/ PERCENTIL

44
La media Geométrica, es otra medida de tendencia central.
La media geométrica se utiliza en cuestiones de negocios para obtener las tasas de
cambio promedio o tasas de crecimiento medio. Si se tienen n valores positivos

x , x ,..., x
1 2 n
, la media geométrica es la raíz n-ésima del producto de los n valores.

La media geométrica se puede denotar por medio de X g o Mg, Así,


1
Mg = ( x x x ... x )
2 3 n
n
1

Como ejemplo se abordará el siguiente caso: “en una pequeña empresa las ventas
mensuales registradas en el último semestre del año anterior fueron (en dólares) 4,525;
4,035; 4,820; 3,800; 5,355; 7,870” Determinar la tasa de crecimiento medio de la
microempresa durante el semestre analizado.

Solución.
Primero hay que determinar la tasa de crecimiento de las ventas mes a mes, así:
4035
 0.8917
4525 es decir disminuyeron en un 10.83%. Como se desea un promedio de tasas
de crecimiento, se recomienda utilizar la media geométrica.

Mg  5 (0.8917)(1.1945)(0.7889)(1.4092)(1.4697)  1.1170
La tasa media de crecimiento de las ventas durante el segundo semestre del año anterior
fue de 11.7%.

Medidas de Variabilidad (Dispersión)


Para que comprendas la importancia de las medidas de dispersión en la caracterización
de un conjunto de datos, se te presenta el siguiente caso: "se presenta el puntaje dado a
la calidad de un producto, en una escala de 1 a 10 puntos, por una muestra de 10
consumidores seleccionados de dos nichos de mercado distintos.

Mercado A Mercado B
6 5
7 3
5 4
7 10
5 8

45
¿En cuál de los dos grupos se tiene un puntaje más homogéneo?

Al utilizar en el análisis la media aritmética, en ambos nichos se obtiene igual valor (6).
Resulta apresurado el concluir que ambos grupos tienen similar percepción de la calidad del
producto. Basta observar los datos al interior de cada grupo y se descubre que en la grupo
B los puntajes se alejan más de la media que los puntajes del grupo A. Por tanto, las
medidas de tendencia central no son suficientes para describir un grupo de datos. Se
necesita información respecto a la dispersión de esos datos.

Medida de dispersión, valor que mide la variación o diseminación de los datos.

Las medidas de dispersión más utilizadas son la desviación típica y la varianza. También
son medidas de dispersión: el rango, la desviación media y el coeficiente de variación.

A mayor valor de la medida, mayor dispersión de los datos.

El Rango
El recorrido, rango o amplitud es la más simple e inmediata medida de dispersión, depende
únicamente de dos valores, el mayor y el menor. Además no proporciona una medida de la
variación de las observaciones en relación al centro de la distribución.

El Rango, es la diferencia entre la observación de mayor valor y la de menor valor del


conjunto de datos.

Ejemplo 1. Obtenga el rango de las calificaciones en la muestra del mercado A y del mercado
B.

Mercado A Mercado B
6 5
7 3
5 4
7 10
5 8
Solución
Rango es la diferencia entre el mayor valor y el menor valor de la serie.
Para la sección A, el rango 2 (=7 - 5), mientras que en la B es 7 (=10 - 3).

46
Desviación Media
La variabilidad se estudia en términos de la desviación de cada valor (x) con respecto a
su media aritmética ( x ). En consecuencia, si las desviaciones son pequeñas los datos están
menos dispersos, que si las desviaciones son grandes.

Es de suponer que la media de las desviaciones (di), serviría para detallar la dispersión de
datos. Sin embargo, por propiedades de la media se sabe que su suma di es igual a cero.
Una solución es obtener la media del valor absoluto de las desviaciones. A la medida anterior
se la llama desviación media (DM)

Desviación Media, es la media del valor absoluto de las desviaciones de cada dato respecto
de la media.

Ejemplo 1.Obtener la desviación media por mercado, de los puntajes de la calidad del producto
asignada por los consumidores de cada mercado.

Mercado A Mercado B
6 5
7 3
5 4
7 10
5 8

Solución.
a) Desviación media de los puntajes de calificación de los 5 consumidores seleccionados del
mercado A.
i) Determinar la media. Media = 6.
ii)Obtener la desviación de cada dato respecto a la media.

Desviación Valor Absoluto


6 – 6 = 0 0
7 – 6 = 1 1
5 – 6 = -1 1
7 – 6 = 1 1
5 – 6 = -1 1

47
iii) Calcular la desviación media:

DM 
XX 4
; DM  ; DM  0.8
n 5

b) Desviación media de los puntajes dados por los consumidores del mercado B.

i) Determinar la media. Media = 6.

ii) Obtener el valor absoluto de la desviación de cada dato respecto a la media.

Desviación Valor Absoluto


(di)
5 – 6 = -1 1
10 – 6 = 4 4
4 – 6 = -2 2
3 – 6 = -3 3
8 – 6 = 2 2

iii) Calcular la desviación media.

DM 
 X  X ; DM  12 ; DM  2.4
n 5

Al comparar las desviaciones medias de ambas grupos, se tiene que es mayor para la del grupo
B. Por tanto, en la muestra del mercado B se tiene mayor dispersión de notas que en la
muestra del mercado A.

Varianza
Aunque, comprender la desviación media es relativamente sencillo, su uso no es frecuente ya
que otras medidas de dispersión presentan propiedades matemáticas interesantes. El defecto
mayor que se le atribuye es el de ignorar los signos de las desviaciones, lo cual hace que el
método no sea algebraico y dificulte el manejo matemático. Para superar este inconveniente se
trabaja con los cuadrados de las desviaciones y se obtiene la medida de dispersión llamada
Varianza

48
Varianza, es la media aritmética del cuadrado de las desviaciones de cada dato respecto
de la media

Cuando es poblacional se denota por medio de 2 y por s2 si es muestral

2 
 ( X  ) 2

s 2

 (X  X ) 2

n 1
Cando se tiene una serie de datos agrupados, recuerda que el punto medio es el valor que se
utiliza para representar a todos los valores de la clase, en este sentido, la varianza se obtiene

 2

 [ f ( Pm   ) ]2

s2 
 [ f ( Pm  X )2 ]
n 1

Ejemplo 1. Calcular la varianza de los puntajes muestrales del grupo de consumidores del mercado
B.
i) Obtener la media,
La media Aritmética es igual a 6
ii) Obtener las desviaciones y elevarlas al cuadrado.

Desviación Cuadrado de la
(di) desviación
5 – 6 = -1 1
10 – 6 = 4 16
4 – 6 = -2 4
3 – 6 = -3 9
8 – 6 = 2 4
iii) Calcular la varianza.
Sumar los cuadrados de las desviaciones y dividir entre n-1
s 2  34 / 4  8.5

49
Calculo de la Varianza en Excel

Varianza datos de una muestra


Insertar/función/estadísticas/ VAR
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/ VAR

Varianza poblacional
Insertar/función/estadísticas/ VARP
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/ VARP

La Desviación Típica
La varianza ha de expresarse en unidades cuadradas. Así, cuando los datos correspondan al
precio de un bien serán expresados en dólares, la varianza estará dada en dólares cuadrados
(?); cuando correspondan longitud la unidad de medida pueden ser metros y la varianza tendrá
a metros cuadrados como unidad. La varianza transforma las unidades originales al cuadrado.
¿Cómo superar la situación?
Correcto! Trabajando con la raíz cuadrada (positiva) de la varianza. A dicha medida se le llama
desviación típica o desviación estándar

Desviación Típica, es la raíz cuadrada de la varianza

La desviación típica se denota por medio de σ en el caso poblacional y por s en situación muestral.
Ejemplo 1. Obtener la desviación típica de las calificaciones muestrales del grupo de mercado B.
Solución.

50
Se conoce el valor de la varianza, entonces basta con extraerle raíz cuadrada.
En este caso, s  8.5  2.92
Ejemplo 2. Obtenga la desviación típica del tiempo empleado en realizar un proceso productivo
los 80 obreros de una manufactura.
Tiempo Nº obreros
4.5 - 15.5 3
15.5 - 26.5 7
26.5 - 37.5 12
37.5 - 48.5 18
48.5 - 59.5 20
59.5 - 70.5 10
70.5 - 81.5 6
81.5 - 92.5 4
Total 80
Solución
En la tabla siguiente se muestran las columnas agregadas para obtener la media y la
desviación típica para datos agrupados.
Tiempo Nº obreros Pm f Pm (Pm-μ)2 f(Pm- μ)2
4.5 - 15.5 3 10 30 1 ,471 .68 4,415.04
15.5 - 26.5 7 21 147 748.57 5,239.99
26.5 - 37.5 12 32 384 267.65 3,211.80
37.5 - 48.5 18 43 774 28.73 517.14
48.5 - 59.5 20 54 1080 31.81 636.20
59.5 - 70.5 10 65 650 276.89 2,768.90
70.5 - 81.5 6 76 456 763.97 4,583.82
81.5 - 92.5 4 87 348 1 ,493.05 5,972.20
Total 80 Pm 3,869 27,345.09

La media (μ) es igual a 48.3625 minutos

La desviación típica es la raíz cuadrada de la varianza, entonces

27,345.09
  18.5 minutos
80

Mucho trabajo! Utilice la calculadora o Excel.

51
Calculo de la Desviación Típica (o desviación estándar) en Excel

Desviación típica muestral


Insertar/función/estadísticas/ DESVEST
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/DESVEST

Desviación típica poblacional


Insertar/función/estadísticas/ DESVESTP
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/DESVESTP

Propiedades de la Desviación Típica

A su vez la desviación típica, también tiene una serie de propiedades que se deducen
fácilmente y que se derivan de las propiedades de la varianza (ya que la desviación típica
es la raíz cuadrada de la varianza):

Propiedad 1. La desviación típica es siempre un valor no negativo.


Propiedad 2. La desviación típica de una constante es cero
Propiedad 3. Si a todos los valores de la variable se le suma una misma constante la
desviación típica no varía.
Propiedad 4. Si a todos los valores de la variable se multiplican por una misma constante,
la desviación típica queda multiplicada por el valor absoluto de dicha constante.

Coeficiente de variabilidad.

52
¿Se puede comparar la variabilidad de dos o más conjuntos de datos expresados en diferentes
unidades de medición? Por ejemplo, tomando como referencia los empleados de una empresa, ¿qué
presenta mayor dispersión: los salarios mensuales o las edades de los empleados? ¿Son suficientes
las medidas de dispersión tratadas hasta el momento, para dar respuesta a la interrogante?

No se debe comparar la dispersión de dos distribuciones que tienen distintas unidades de


medición, utilizando la desviación típica u otra medida de las anteriores. Se necesita de una medida
de dispersión que no dependa de las unidades de medición.

Coeficiente de Variabilidad, es una medida de variación relativa que expresa la desviación típica
como un porcentaje del promedio utilizado

s
Coeficiente de variación CV  100
X

CV = 100

En general, el coeficiente de variación es utilizado para comparar la variabilidad de los datos


de dos o más distribuciones, expresadas o no en las mismas unidades. También, refleja la
representatividad de la media en el grupo de datos. Se considera, que la media es representativo
si el coeficiente es inferior o igual al 30%. A menor valor, mayor es la representatividad.

Ejemplo 1. Obtener el coeficiente de variación de las calificaciones de la sección B.

s
CV  100
X
2.92
= 100  48.7%
6

Ejemplo 2. Obtener el coeficiente de variación del tiempo empleado en realizar el proceso por
los obreros de la industria.

Solución.

CV= 100

18.48
= 100  38.2%
48.36
Resumiendo

53
La dispersión es importante porque proporciona información adicional que
permite juzgar la confiabilidad de la medida de tendencia central. Si los
datos se encuentran ampliamente dispersos, la posición central es menos
representativa de los datos.

Aplicaciones de medidas descriptivas de tendencia central y de dispersión.

Teorema de Tchebycheff

En cualquier distribución, la proporción mínimas de observaciones que caen dentro del


intervalo formado k desviaciones típica respecto a la media (𝑥̅ ± 𝑘𝑠) 𝑜 (𝜇 ± 𝑘𝜎) es dada
por:
1
1
k2

Donde k es cualquier número positivo mayor que 1. Este teorema es válido para cualquier
distribución de datos.

Regla empírica de la normal


Si una variable está distribuida normalmente o de forma aproximadamente normal
(distribución simétrica y su gráfica tiene forma de campana), entonces: a menos de una
desviación estándar de la media hay aproximadamente 68% de los datos; a menos de
dos desviaciones estándar de la media hay aproximadamente 95% de los datos; y a
menos de tres desviaciones estándar de la media hay aproximadamente 99.7% de los
datos.

54
TEMA ALTERNATIVO: Determinación del número de clases.
El número de clases (k) depende básicamente del número de datos. A mayor cantidad de
datos, mayor será el número de clases. Se recomienda que el número de clases no sea
inferior a 5 ni mayor que 15. ¿Por qué? No olvidar que el objetivo de condensar la
información en una distribución de frecuencias es facilitar su análisis.

Muchos estudiosos de la estadística, para determinar el número de clases utilizan la regla


empírica de Sturges: k  1  3.32 log(n)
donde 'k' es el número de clases y 'n' el número de observaciones.

Luego, se darán mayores detalles relacionados con su aplicación.

Intervalo o ancho de clase

Al elaborar la tabla se recomienda que todas tengan el mismo ancho y que sea un número
impar. Con esto se logra que los valores de los puntos medios se expres en con las
mismas divisiones que los valores de la variable. Para tener una idea del tamaño de
la clase (ic), se divide el rango de los datos entre el número de clases que se desean.

Rango
Ancho de clases (ic )  .
número de clases

valor mayor  valor menor


ic 
K
Rango, es la diferencia entre el mayor valor y el menor valor que toma la variable. Rango
= Xmayor – Xmenor

55
Límites de Clase.

En la construcción de la distribución de frecuencias se han de establecer límites claramente


definidos para cada una de las clases, de tal manera que cada dato esté comprendido en
una y solamente una de las clases definidas. Siempre que la variable sea continua lo
recomendable es elaborar la tabla con límites reales.

Ejemplo 3. Supóngase que se tiene un total de 150 observaciones. El mayor valor que toma
la variable es 61 y el menor 42 Determinar el número de clases apropiado, el ancho de
clase y cada una de las clases.
a. Número de clases
Aplicando la fórmula k = 1 + 3.32 log(n), para n = 150, se tiene:
k  1  3.32 log(150)
k  1  3.32 (2.176)
k  8.22
Se aconseja considerar 3 valores para k: el entero obtenido mediante la fórmula (8),
el entero anterior a este (7) y el posterior (9). Estos 3 valores se analizan en la
determinación del ancho de clases y se opta por el que implique ancho de clases
impar y un menor alejamiento del rango original.

b. Ancho de clases.
Una idea del valor del ancho de clases, la da el cociente: Rango/k. Veamos lo
que sucede para los tres posibles valores de k.

k7 k8 k9


ic  19 ic  19 ic  19
7 8 9
 2.71  2.37  2.11

El cociente obtenido lo aumentamos al entero próximo.

3 3 3

Como se observa, para los 3 valores de k, el ancho de clase es impar. Entonces se


decide a favor de aquel que nos dé menor alejamiento del rango (rango = ic x k).
Así; para k  7 ,3 x 7=21;
para k = 8, 3x8 = 24 y
para k = 9, 3 x 9 = 27.

56
Dado que el rango original es de 19, lo recomendado es k = 7 e ic = 3.

Ahora hay que determinar cada una de las 7 clases con ancho igual a 3, tratando
de ser lo más equitativo posible.

c. Determinación de las clases.


Al utilizar 7 clases con ancho de 3, excedemos en 2 (= 21-19) al verdadero rango.
Entonces, el exceso lo repartimos entre los 2 valores extremos, quedando una unidad
por abajo de 42 y otra unidad arriba de 61

41___42_______________________61___62

Por tanto, las 7 clases serían:

41 – 44, 44 - 47, 47 - 50, 50 - 53, 53 - 56, 56 - 59. 59 - 62.

Nótese, que los límites de clase son enteros, igual que los valores de la variable. Esto
puede ocasionar problemas al momento de ubicar aquellos valores de la variable que
son iguales a los límites de clase. Por ejemplo, ¿a cuál clase pertenece una observación
con valor igual a 47, a la segunda o a la tercera?

Para evitar la posible confusión, se recomienda presentar los valores límites de clase
con una división más de la que presenta la variable. Para el caso, como los valores
de la variable están dados en enteros, entonces, los límites de clase hay que darlos
con décimas.

Resultando las siguientes clases:


41.5 - 44.5, 44.5 - 47.5,..., 56.5 - 59.5, 59.5 - 62.5.

Ejemplo 4. Si el número de datos es de 40, el valor menor es 1.9 y el valor mayor es


3.0, obtener, a) el número de clases, b) el ancho de clases y c) cada una de las clases.

Solución:
a. El número de clases.
k  1  3.32 log(40)
k  6.3
Evaluamos para k = 5, 6 y 7.

57
(Si para ninguno de los 3 valores se tiene ancho de clases impar, entonces se
prueba para un cuarto y quinto valor, uno menor y otro mayor

b. El ancho de clases.
k5 k6 k7
1.1 1.1 1.1
ic  ic  ic 
5 6 7
 0.22  0.18  0.16

Dado que los valores de ic corresponden a 0 enteros, entonces los aumentamos hasta la
décima, convirtiéndose en 0.3, 0.2 y 0.2 respectivamente. Optamos por el valor impar, que
es 0.3.
(Cuando el ancho de clases sea inferior a 2, es posible aumentar a la décima y no al entero
más próximo.)

c. Determinación de las clases.

Sabemos que son 5 clases con ancho igual a 0.3. Al efectuar su producto se obtiene
1.5, siendo superior en 0.4 al rango original (1.5 - 1.1 = 0.4). Al repartir esta diferencia
entre los valores extremos se tiene: 0.4/2 = 0.2. Entonces, la primera clase sería 1.7 - 2.0,
pero resulta que los límites quedarían expresados hasta las décimas, igual que los valores
de la variable. Esto, se dijo, puede crear confusión al ubicar un valor igual a una de las
fronteras de clase; para evitarlo, hay que dejar los límites con una división más de las
presentadas por los valores de la variable. Obedeciendo la sugerencia, las clases vendrían
a ser:

1.75 - 2.05, 2.05 - 2.35, 2.35 - 2.65, 2.65 - 2.95, 2.95 - 3.25.

58

You might also like