Professional Documents
Culture Documents
1. Conceptos introductorios
Toda persona, tanto en su campo laboral como en su vida diaria recibe información a través
de los distintos medios de comunicación. De acuerdo al interés de la persona, aquella
información que le es importante la procesa y el producto de la operación es utilizado para
tomar decisiones razonables o para la comprensión del fenómeno bajo estudio. Actualmente,
la finalidad de la estadística, no es solo de ayuda para comprender un fenómeno; es
principalmente el uso (análisis) de la información para tomar decisiones y resolver cuestiones de
la vida y del entorno. De lo anterior, se deduce que el origen de la Estadística se encuentra en
el origen de las necesidades humanas, en cuanto al conocimiento y transformación de su
realidad.
Algunos pasajes bíblicos y papiros Egipcios dan testimonio de los primeros pasos de la ciencia
conocida actualmente como Estadística: actividades realizadas por el estado para obtener
información sobre nacimientos, defunciones, bodas, etc. Estos datos eran de mucha utilidad
para estimar su fuerza de trabajo, capacidad combativa, recaudación de impuestos y otros
aspectos de interés social, económico y político.
John Grant (1620-1674), un vendedor inglés, es considerado como uno de los precursores de
la Estadística. Grant, estudiando datos demográficos sobre nacimientos y defunciones
registrados en las parroquias londinenses, estimó la población de Londres.
La persona que introdujo el vocablo estadística y dio su significado por vez primera, se dice
que fue Achenwall, un profesor alemán, enunciando el siguiente significado: "Ciencia de las
cosas que pertenecen al Estado... La política enseña cómo deben ser los Estados y la
Estadística, como son realmente”
1
1.1. División de la estadística
El nacimiento de la Estadística se vincula con la necesidad de los gobiernos de poseer
información numérica respecto a sus recursos y sus ciudadanos. Este interés, impulsó la creación
de técnicas para la recopilación y organización de información. Actualmente la Estadística es
más que eso.
Estadística Descriptiva
Estadística Inferencial
De estas dos ramas de la Estadística, la segunda se vuelve cada vez más importante. ¿Por
qué?
La estadística inferencial incluye la estimación, el contraste de hipótesis, las proyecciones, y
otros temas.
Así, entonces,
2
Lo importante de la muestra es que a partir del análisis de una parte representativa de la
población se infieren las características de la población total. Como decía mi madre: "no es
necesario comerse toda la quesadilla para saber si está deliciosa"
Las razones para utilizar el muestreo son varias. ¿Cuáles crees que son las más importantes?
El costo es una de las principales razones. Cuantos más datos se reúnan mayor es el
costo y más recursos a emplear. El muestreo reduce el número de datos a utilizar y por
ende disminuye los gastos. Otra razón es que la información rápidamente pierde su valor,
entonces hay que obtenerla y aprovecharla en poco tiempo. En algunos casos el muestreo
es el medio único para obtener información, dado que el examen de los elementos causa
su destrucción. Por ejemplo, para determinar el peso máximo que resiste un tipo de bolsa
plástica, no se probarán todas las bolsas producidas, basta con seleccionar una muestra y
estimar la resistencia de las bolsas.
3
Ejemplo 2. En una encuesta de opinión pública, la proporción o porcentaje de personas
adultas que consideran que su situación económica es mejor que la del año pasado, es
un ejemplo de estadístico.
Los estadísticos son empleados para realizar inferencias acerca de los parámetros. Por
tanto, se requiere que la muestra sea representativa de la población.
1.4. Variables
En ambos ejemplos, la característica puede tomar distinto valor de un individuo a otro y por
esta razón se le llama variable.
Existen básicamente dos tipos de variables que producen dos tipos de datos: cualitativos
(o atributos) y cuantitativos.
Las variables cualitativas requieren respuestas categóricas, en tanto que las variables
cuantitativas implican respuestas numéricas.
Mientras que las respuestas a preguntas como "¿cuántos hermanos/as tienes?" o "¿cuál
es tu estatura?" son numéricas. En el primer caso la variable cuantitativa es discreta y en
el segundo es continua.
Variable cuantitativa discreta, es la que puede tomar sólo ciertos valores (generalmente
enteros).
4
Variable cuantitativa continua, cuando la respuesta puede tomar cualquier valor dentro
de un intervalo.
Ejemplo. La estatura de una persona es variable continua, dado que la respuesta puede
tomar cualquier valor dentro de un intervalo, dependiendo de la precisión del instrumento
de medición. Así, si se contara con un instrumento de medición más preciso, la estatura
de una persona que resulta ser de 1.70 metros, se podría expresar como 1 metro, 70
centímetros, 3 milímetros, etc. Es claro que la estatura es un fenómeno continuo.
Los datos discretos son resultado de contar (por esto generalmente toma sólo valores
enteros), y los continuos surgen de un proceso de medición .
2. Presentación de la información.
En los últimos años, gracias a los avances de las telecomunicaciones e informática, la
disponibilidad de información se ha facilitado grandemente. Es sencillo y rápido disponer de
gran cantidad de datos sobre cualquier fenómeno de interés; sin embargo, solamente se
utiliza una pequeña parte de toda esa información.
Dado que se tienen límites -como humanos- para procesar o retener datos, la información
se difunde de forma condensada. La tarea de capturar, organizar y procesar grandes
cantidades de datos se simplifica cada vez más con el uso de software, permitiendo mayor
agilidad para analizar la información y para tomar decisiones oportunas.
Las fuentes ya existentes de información o fuentes secundarias, son aquellas que poseen
datos necesarios para determinada investigación. Es posible obtener gran cantidad de datos
gracias a instituciones especializadas en reunirlos y actualizarlos. Entre las fuentes de
datos existentes en el país se tienen: Dirección General de Estadística y Censos, Banco
Central de Reserva, Registros Vitales de las Alcaldías, Fundación Salvadoreña para el
Desarrollo, entre otras. Internet se ha convertido en una fuente importante de datos.
5
A veces, la información que se requiere para realizar la investigación no se encuentra con
facilidad en fuentes disponibles o no existe, por lo que se necesita recurrir a herramientas
como los experimentos o las encuestas. En este caso se dice que la fuente es primaria,
porque es la propia persona o entidad quien obtiene la información de manera original.
En los estudios estadísticos no experimentales no hay control sobre las variables de interés,
ni se influye sobre ellas. A este tipo de estudios corresponden las encuestas. En las
encuestas se aplica un cuestionario a una muestra de individuos y de esa manera se recopila
información sobre las variables que interesan.
Después que la información ha sido obtenida, ya sea por fuentes secundarias o por fuentes
primarias, es necesario organizaría de tal manera que facilite su análisis. Para compilar la
información se recurre comúnmente a su presentación por medio de tablas o de gráficas.
Por ejemplo, el gerente de una gasolinera obtendrá muy poca información sobre sus
ventas revisando simplemente las facturas diarias. En cuanto a la presentación, es mucho
más fácil propiciar una idea relacionada al conjunto de datos viendo una imagen clara que
leyendo un párrafo lleno de palabras y cifras. Como lo dice el refrán: "una imagen vale más
que mil palabras".
Sin embargo, hay que tener cuidado. Algunas ocasiones se presentan gráficos engañosos
que pretenden conducir a conclusiones forzadas respecto a la información que se presenta.
6
Pasos elementales para realizar una investigación:
1. Planeación. Se elige el problema, el equipo de trabajo y los sujetos a estudiar.
2. Objetivos. Se definen los objetivos que se persiguen con la investigación
3. Recopilación. Se recoge la información por medio de entrevistas
personales, encuestas u observaciones.
4. Organización. Se ordenan los datos en base a cierto criterio.
5. Presentación. Se ofrece la información resumida a través de tablas y gráficas.
6. Análisis e interpretación. Se identifican los principales hallazgos en la investigación
y se da una explicación lógica a esos resultados.
7. Conclusiones, se informa sobre los principales hallazgos de la investigación en base
a los objetivos propuestos.
8. Informe, Se elabora un informe escrito de la investigación y se presentan a otras
personas interesadas los resultados principales del estudio.
El sexo y la edad corresponden a los llamados datos de clasificación. Investiga cuáles son
las partes o componentes de una encuesta.
7
Cuadro 1. Condiciones de tenencia de la vivienda que habita.
Frecuencia relativa (fr), es la razón existente entre la frecuencia absoluta (f) y el total de
datos (N si es población o n para una muestra). Comúnmente se expresa en forma
porcentual.
f
fr % 100
n
Presentación gráfica
Para el estudio de algún problema para el que se cuenta de información estadística, una
de las primeras tareas a realizar es la exploración y análisis de de los da tos mediante
8
gráficos. Los gráficos permiten descubrir, con una ojeada, patrones de comportamiento,
tendencias y otras características básicas como ubicación de menores y mayores
frecuencias.
Gráfico de Barras
Ejemplo 2. A continuación se presentan las tasas netas de migración según lugar de
nacimiento, por departamento. El Salvador, censos 1971 y 1992. Construir un gráfico de barras
para representar la información anterior.
En la gráfica de barras se observa que solamente los departamentos de Sonsonate, La Libertad
y San Salvador tienen tasas netas positivas; es decir que a esos tres departamentos llegan
más personas de las que salen. Los otros 9 departamentos son expulsores de población.
Investiga las tasas netas de migración departamentales reportadas por el censo de 2007.
Grafica y compara la evolución de la migración interna salvadoreña.
Grafico 1. El Salvador. Tasas netas de migración departamentales,
según lugar de nacimiento.
Chalatenando
San Vicente
Usulutan
Cabañas
Cuscatlán
Morazán
La Paz
1992
1971
LA Unión
San Miguel
Santa Ana
Sonsonate
La Libertad
San Salvador
-40 -20 0 20 40 60 80
Tasa %
9
mitad y como máximo igual al ancho de las barras.
Las escalas y los ejes de la gráfica deben identificarse claramente.
Se debe incluir dentro del cuerpo de la gráfica, debajo o al lado derecho, todo tipo
de claves que ayuden a la lectura de la gráfica.
No olvidar el número y título de la gráfica que la identifican.
Las notas de pie de página o de fuentes, se deben colocar debajo de la gráfica.
Gráfico Circular
Masculin Femenin
o o
47% 53%
10
Grafico Lineal
Es utilizado generalmente para presentar el comportamiento de una variable en un período de
tiempo (series de tiempo) u otra variable de interés. Por lo general, en el eje horizontal se
presentan los períodos de tiempo y en el vertical, los valores de la variable en estudio. Se
detallan en el plano los puntos pertenecientes a cada período de tiempo con el respectivo
valor de la variable, luego se unen por medio de segmentos de recta.
Se observa en el gráfico 3, que el comportamiento del flujo migratorio es similar para las dos
áreas geográficas. También, se visualiza que en los años de 1981, 1983 y 1986 se tienen
“picos” que se salen de la tendencia. Pregunta a tu profesor/a que sucesos ocurrieron en esos
tres años que pudieron provocar movimientos masivos de población en nuestro país.
Gráfico 3. Distribución del flujo de migrantes a nivel de municipio, para el período 1971 a 1992
(año que cambió de municipio residencia), según datos del censo de 1992.
18.0 % rural
16.0 % urbano
14.0
12.0
Porcentaje
10.0
8.0
6.0
4.0
2.0
0.0
76 78 80 82 84 86 88 90 92
AÑO
Pictograma.
La información es presentada pintorescamente para llamar la atención. Consiste en una
serie de dibujos o símbolos, que por su naturaleza o significado sugieren el contenido
de la información.
Cada símbolo equivale a un determinado número de observaciones.
En cada categoría o clasificación se utilizar el mismo símbolo, en cuanto a forma, tamaño,
etc. para no confundir al lector. Sin embargo, cualquier gráfico que utilice figuras o imágenes
11
puede considerarse un pictograma. Los medios de comunicación escritos y revistas, utilizan
con mucha regularidad este tipo de gráficos.
Otro ejemplo se puede observar es el de la población mundial que se tenía hasta 1990,
según el siguiente esquema:
Cualquier gráfico tiene como propósito mostrar los datos en forma precisa y clara. La
selección de una gráfica depende de las preferencias estéticas del presentador.
12
Gráficos en Excel
Insertar/grafica/seleccionar grafica
Distribución de frecuencias
Los datos en bruto recopilados, rara vez son de utilidad sino se organizan y/o tabulan. El
procedimiento más sencillo para manejar información no organizada es un arreglo
ascendente o descendente de los mismos.
13
Límite de clase aparentes, se tienen límites aparentes cuando el limite interior se una
clase es diferente al límite superior de la clase anterior.
Límite de clase reales, los límites son reales si el límite inferior de una clase es igual al
límite superior de la clase anterior.
Ancho de clase (ic), es la diferencia entre el límite real superior y el límite real inferior de
una clase. ic l rs l ri
li ls
cada clase. Pm
2
64 65 65 66 69 71 73 76 76 78
80 81 81 85 86 86 88 88 88 89
14
90 90 91 92 92 94 94 95 95 98
98 99 100 100 101 102 103 103 104 104
104 104 105 105 105 106 106 106 107 107
108 108 109 109 110 110 112 114 114 115
116 116 118 120 121 121 122 123 24 124
125 125 126 127 129 130 132 134 135 136
Pautas de Solución:
15
Las frecuencias acumuladas de cada clase se obtienen al contestar las preguntas: ¿cuántas
observaciones toman valores iguales o superiores que el límite inferior? ¿Cuántos datos
son inferiores al valor del límite superior?
Completar la distribución:
Tabla 3b. Puntos de calificación de una prueba de inteligencia aplicada a una muestra 80
estudiantes universitarios. Distribución de frecuencias acumuladas.
Las distribuciones de frecuencias presentan los datos en forma compacta, dan una imagen
general y la información que contienen puede ser utilizada para muchos propósitos Pero hay
aspectos que no pueden determinarse sin ir a los datos originales. Por ejemplo, a partir de
la tabla de los ingresos mensuales de las familias no podemos saber cuál es el menor
ingreso, tampoco cuántos grupos familiares tienen ingresos superiores a $529.0. En resumen,
al agrupar los datos se pierde información referida a las observaciones individuales.
16
Al construir la tabla de distribución de frecuencias se debe prestar atención especial en:
Seleccionar el número adecuado de clases.
Obtener un intervalo o ancho de clase apropiado para cada clase.
Establecer los límites de cada clase evitando traslapes.
Histograma
Es similar al gráfico de barras, con la diferencia de que las barras están unidas. Se construye
marcando los límites de clase a lo largo del eje x y luego se dibuja para cada clase un
rectángulo con altura igual o proporcional a la frecuencia de la clase que representa.
Puede hacerse a partir de las frecuencias absolutas o de las frecuencias relativas.
17
Solución:
Polígono de frecuencias
Es necesario crear dos nuevas clases, una al inicio y otra al final de la distribución, con
frecuencia igual a cero. En el plano se ubican los puntos que corresponden al punto medio
de cada clase con su frecuencia respectiva. Luego, los puntos correspondientes a clases
consecutivas se conectan por medio de segmentos de recta (ver gráfica 6).
Solución
Graf 6. Puntos de calificación de una prueba de inteligencia aplicada a 80 estudiantes
universitarios
25
22.5
% estudiantes
21.25
20
17.5
15 15
10
8.75
7.5 7.5
5
0 0 0
56 67 56 89 100 111 122 133 144
Pm calificación
Nota. En teoría, el área del histograma y del polígono de frecuencias es igual al número
de observaciones que se presentan.
18
Ojivas
La gráfica de una distribución de frecuencias acumuladas se llama Ojiva. Se tienen dos tipos
de Ojivas, una para las frecuencias acumuladas del tipo "menor o igual que", y otra para las
del tipo "mayor que".
Un auxilio para ubicar los puntos es preguntarnos, ¿cuántos datos son menores que ese
límite de clase?
En la figura que está en la siguiente página se muestran ambas ojivas. Nótese que se
cortan a la altura de la mitad de las observaciones. Por qué?
Ejemplos de Ojivas son las curvas de talla, peso y edad que utilizan los pediatras.
19
Otros gráficos importantes
Otros tipos de gráfica de mucha utilidad para el análisis de datos son: el gráfico de tallos y
hojas, el gráfico de cajas o bigotes, el gráfico de Pareto. Serán abordados en laboratorio de
informática SPSS
* Tallos y Hojas, puede catalogarse como un seudo gráfico. Aplica para variables cuantitativas
y especialmente cuando se tiene un número reducido de datos. Requiere datos (valores)
constituidos por al menos dos dígitos.
El gráficos de tallos y hojas es de suma utilidad para el análisis exploratorio de datos por
cuanto: posibilita la visualización de los datos (valores), identifica el patrón de
comportamiento de la distribución (uniforme, simétrica, sesgada, etc.), muestra la existencia
o no existencia de valores extremos o atípicos.
Para su construcción o su lectura cada número se divide en dos partes: una llamada
tallo y otra denominada ramas u hojas.
Tallo Formado por uno o más dígitos principales (cifras más significativas), ubicados a la
izquierda del número.
Procedimiento:
1. Se define cómo se van a dividir los números entre tallos y ramas. Se decide qué
corresponderá a tallo y cuáles serán las ramas.
2. En una columna se listan los tallos en orden ascendente.
3. Se recorren los datos y se colocan, en la columna siguiente, las hojas de acuerdo
al tallo que tengan.
Recomendaciones:
El número de tallos esté entre 3 y 15, según sea el número de datos y los
valores que toman.
Anotar lo que representa el tallo y lo representan las hojas para comprensión
del gráfico.
Algunos programas estadísticos, agregan una columna a la izquierda para
resaltar la frecuencia absoluta de cada rallo.
20
A veces, de acuerdo con la información que se tenga, pueden resultar muy
pocos tallos, con lo cual las ramas quedan muy concentradas, y realmente no
se obtiene mucha información. En estos casos, puede ser conveniente partir
los tallos en dos: Un tallo inferior (que tenga, por ejemplo, las ramas menores
que 5), y un tallo superior (que tenga las ramas mayores o iguales a cinco).
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 43 24 44 40
Primero se eligen los tallos, que para el caso son las decenas: 2, 3 y 4
Segundo, se cuentan y añaden las hojas a cada tallo. Así:
Tallos Hojas
2 5 4 0 4 9 3 4
3 6 7 9 6 1 1 9
4 5 1 0 3 4 0
Tallos Hojas
2 0 3 4 4 4 5 9
3 1 1 6 6 7 9 9
4 0 0 1 3 4 5
Tallo: decenas
Hoja: un elemento
Cada tallo define una clase, y se escribe una sola vez. El número de hojas representa
la frecuencia de dicha clase.
21
* Cajas y Bigotes, es un gráfico que resume la información a partir de 5 medidas
estadística: el valor mínimo, el primer cuartil, la mediana, el tercer cuartil y el valor máximo.
Consiste en un rectángulo dividido por un segmento de recta vertical que corresponde a la
ubicación de la mediana y los lados extremos al cuartil uno y al cuartil 3. Esto permite
mostrar la relación de la mediana con los otros cuartiles. Así los lados más largos del
rectángulo corresponden al recorrido intercuatilico. Este gráfico recibe el nombre de Gráfico
de Caja (boxplot). Se dice que fue publicado originalmente por John Tuckey en 1977.
Si al gráfico de cajas se le adicionan a escala dos segmentos de recta que tienen como
extremos los valores mínimo y máximo “admitidos” para la variable según los valores de
los cuartiles. A estos segmentos de recta se les llama bigotes.
Los bigotes tienen un límite de prolongación. Más allá de estos límites caen los valores
atípicos y extremos. Se dice valores atípicos de la variable a aquellos datos que se alejan
del grueso principal de los datos y que se pueden atribuir a causas extrañas o a errores
de medición o de registro.
Tuckey sugiere el siguiente criterio para definir la prolongación de los bigotes (puntos
extremos de los bigotes) tomando como base el rango intercuartilar (RI= Q3 – Q1):
Bigote inferior: Q1 – 1.5RI
Bigote superior: Q3 + 1.5RI
Región exterior: Q1 – 3RI
Región Superior: Q3 + 3RI
Los valores (Q1 – 1.5RI) y (Q3 + 1.5RI) definen los extremos de los bigotes.
22
Si hay valores de la variable que caen en la zona definida por los extremos (Q1 – 3RI) y
(Q1 – 1.5 RI) o (Q3 + 1.5RI) y (Q3 + 3RI) se dice que son valores atípico. Se identifican
con un asterisco (*)
Aquellos datos que caen más allá de (Q3 + 3RI) o por debajo de (Q3 – 3RI) se denominan
valores extremos. Se identifican con un punto (.)
Gráfico de Pareto, muy utilizado para priorizar problemas y las causas que los generan.
De gran aplicación para la mejora continua de la calidad.
El economista italiano Wilfredo Pareto (1848 – 1923) estudiando la distribución de la riqueza
encontró que la minoría de la población poseía la mayor parte de la riqueza. De acá nace
la “regla 80/20” y plantea que si se tiene un problema con varias causas, el 20% de las
causas resuelven el 80% del problema.
El Gráfico (Diagrama) de Pareto es una forma especial de gráfico de barras verticales que
separa los problemas muy importantes de los menos importantes, estableciendo un orden
de prioridades.
El Diagrama de Pareto en un gráfico de barras que se complementa con una ojiva creciente
y que representa en forma decreciente el grado de importancia que tienen los diferentes
factores que afectan a un proceso, experiencia o resultado.
La Gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar
visualmente en una sola revisión las minorías de características vitales a las que es
importante prestar atención y de esta manera utilizar todos los recursos necesarios para
llevar a cabo una acción de mejora sin malgastar esfuerzos ya que con el análisis
descartamos las mayorías triviales.
Algunos ejemplos de minorías vitales serían:
La minoría de procesos son la causa de la mayoría de desperdicios.
La minoría de la materia prima aporta la mayoría del costo de producción
Una minoría de clientes representan la mayoría de ventas
La minoría de productos representan la mayor parte de las utilidades, etc.
23
Defecto Frecuencia Frecuencia Porcentaje
relativa % acumulado
%
Solución,
Se ha creado en la tabla una columna para frecuencias relativas de los defectos y otra
para las frecuencias acumuladas. Se grafican las frecuencias relativas de los defectos por
medio de gráfico de barras y se agrega, la línea para las frecuencias acumuladas.
24
Medidas de Tendencia Central
Después de haber estudiado la recopilación, organización y presentación de la información, se
tratará el análisis descriptivo de datos utilizando medidas resumen de datos.
Se trata de resumir y describir datos mediante una o dos medidas numéricas (un estadístico o un
parámetro) seleccionados adecuadamente. El tipo de número seleccionado depende de la
característica particular del grupo de datos que se desea describir. Las características principales
son la tendencia y la dispersión.
Las medidas de tendencia son útiles cuando se desea determinar un valor que resuma o que
mejor represente al conjunto de datos.
Además de la tendencia central, hay otras medidas utilizadas para tipificar la posición de un dato
dentro de la serie; por ejemplo el valor de la variable que sólo un 30% de los datos lo excede
o el valor que excede el 25% inferior de los datos. Casos similares a los citados serán estudiados
en los percentiles.
También es importante evaluar la forma en que las observaciones están diseminadas o dispersas
respecto al centro del grupo de datos. Este papel lo cumplen las medidas de dispersión.
25
Las medidas de tendencia central más utilizadas son: la media aritmética, la mediana y la moda.
Otra medida de posición, no necesariamente central, usada frecuentemente es el percentil.
La Media Aritmética.
Conocida comúnmente como media. Cuando se obtiene a partir de datos muéstrales se
representa por medio de X (se lee "x barra") y por medio de µ(letra griega "mu" o “miu”)
cuando se obtiene de o se refiere a la población.
La media aritmética, se determina sumando los valores de todas las observaciones y dividiendo
entre el número de observaciones realizadas. Así, para una muestra de 'n' observaciones X1,
X2..., Xn, se tiene
x1 x2 ... xn
x
n
Utilizando notación de sumatoria, se tiene:
x xi
n
x1 x2 ... xn
N
Es decir:
xi
N
La media aritmética es un valor tal que, al utilizarlo en sustitución de los datos bajo
análisis, se obtiene la misma suma que producen los estos datos.
Solución.
26
Como son datos muéstrales, se utiliza X para denotar la media aritmética y n para simbolizar
el número de observaciones
x xi
n
x $2.35
Según los datos, se tiene frecuencia igual a 2 para $2.30 y para $2.40 y 1 para $2.35. Al
obtener la media, cada valor aparece como sumando tantas veces como sea su frecuencia:
2 veces $2.30, 2 ocasiones $2.40 y 1 vez $2.35. Entonces,
x
xi o x
fi xi para una muestra y
n n
xi fixi
o para una población
N N
Donde
xi es el i-ésimo valor de la variable X.
fi es la frecuencia del i- ésimo valor de la variable x
n es el tamaño de la muestra y
N es el tamaño de la población.
Ahora, recuerda cómo obtener la media para una distribución de datos agrupados. Dado
que se pierde la individualidad de los datos, se recurre al punto medio (Pm) como el valor
más representativo de las observaciones de la clase. En tal sentido:
x
Pmf para datos muestrales y
n
27
Pmf
para datos poblacionales.
N
Es necesario que puedas utilizar tu calculadora o Excel para obtener medidas estadísticas.
Para utilizar la calculadora, tienes que leer el manual. Algunas generalidades a seguir son
las siguientes:
Solución.
Hay que obtener el punto medio de cada clase y luego multiplicar el punto medio por la
frecuencia respectiva. Esto se muestra en la siguiente tabla:
28
Tiempo No. estudiantes Pm Pm*f
(Minutos)
4.5 - 15.5 3 10 30
15.5 - 26.5 7 21 147
26.5 - 37.5 12 32 384
37.5 - 48.5 18 43 774
48.5 - 59.5 20 54 1080
59.5 - 70.5 10 65 650
70.5 - 81.5 6 76 456
81.5 - 92.5 4 87 348
Total 80 3869
Luego, se divide la suma de puntos medios por frecuencia por el total de datos; así, la
media aritmética del tiempo empleado por los estudiantes en ir de su casa al colegio es:
3,869
48.36 minutos
80
Los datos que se presentan son poblacionales, por eso se emplea μ para
simbolizar la media aritmética.
La media aritmética actúa como punto de equilibrio: las observaciones de menor valor
equilibran las de mayor valor.
Para datos cuantitativos, la media aritmética es la más popular de las medidas de
tendencia central. Las razones son varias:
La media siempre existe para cualquier conjunto de datos.
La media es única.
Permite el proceso matemático.
Es confiable, dado que las medias de muchas muestras obtenidas a partir de la
misma población, generalmente no varían tanto como las otras medidas de tendencia
central.
29
Cálculo de la media aritmética en Excel
Insertar/función/estadísticas/ PROMEDIO
Si se encuentra el símbolo fx en la barra de herramientas
fx /estadísticas/ PROMEDIO
30
Propiedad 1.
La media aritmética de una constante c, es la misma constante c.
Ejemplo 4. Para las propiedades 2 y 3, retomar los 5 datos recopilados por el empleado
de la oficina de protección al consumidor, referentes al precio (en dólares) de las cinco
libras de azúcar $ (2.40, 2.30. 2.40, 2.30, 2.35)
¿Qué valor se obtendría para la media, si en cada uno de los 5 puestos se aumenta en
20ctvs a las cinco libras de azúcar? ¿En cuánto se ha incrementado la media?
¿Cuál sería el valor de la media de las cinco libras de azúcar si su precio se incrementa
en un 10%? ¿Cuál sería e! porcentaje de incremento en el valor de la media?
Solución
Con el aumento de 20 centavos, los nuevos precios son: 2.60, 2.50, 2,60, 2.50 y 2.55. Al
obtener la media aritmética de los nuevos precios, se tiene que la media es de $2.55; es decir
aumentó 20 centavos con respecto a la media de los precios originales.
Si se aumenta en un 10% el precio, entonces lo nuevos precios serán: 2.64, 2.53, 2.64, 2.53,
2.585. La media aritmética de los precios será $2.585; es decir se incrementaría en un 10%
Propiedad 2.
Al generalizar lo obtenido en el ejemplo 4, se puede concluir que:
Si cada valor de la variable se incrementa (o disminuye) en un mismo valor, entonces
la media se incrementará (o disminuirá) en ese mismo valor.
La media de una variable más (o menos) una constante es igual a la media de la variable
más (o menos) el valor de la constante
Propiedad 3
Si cada uno de los valores de la variable se multiplica por un mismo valor, entonces la media
de este nuevo grupo de datos, también se incrementará en ese mismo factor.
La media de una variable por una constante es igual a la constante por la media de la
variable.
Propiedad 4
Utiliza los datos originales del ejemplo 4 y comprueba la siguiente propiedad:
31
Si se resta la media a cada uno de los valores observados, entonces la suma de estas
diferencias es igual a cero.
( Xi X ) 0
di 0
Media aritmética ponderada.
Ejemplo 1. Un profesor informa a su clase que la nota del período se distribuirá de la
manera siguiente: dos exámenes cortos, cada uno de los cuales equivaldrá al 25% de su
nota, un examen al final del período que corresponderá al 35%, y su participación en clase
valdrá un 15%. Si un estudiante tiene las calificaciones respectivas siguientes: 7.0, 6.0, 7.0
y 8.0, ¿cuál es la media aritmética de la nota mensual?
Solución
La media de los 4 puntajes es (6 + 7 + 7 + 8) / 4 = 7. 0 ¡ERROR!!!
El cálculo anterior supone que cada observación es de igual importancia. En el caso que
nos ocupa, las evaluaciones tienen diferente importancia o peso; repercutiendo en el valor
de la media.
Solución correcta.
La nota mensual se obtiene multiplicando cada puntaje por su respectiva ponderación y
dividiendo entre la suma de las ponderaciones (100). Así:
Media ponderada:
( Xip ) i
p i
Una aplicación especial de la media ponderada, es la obtención de la media total o media
general de k muestras de datos, que tienen medias x1 , x 2 ,.... x k y consiste en
observaciones respectivamente. El resultado se obtiene por medio de la fórmula:
Media total:
(x n )
i i
n i
32
donde los pesos relativos son los tamaños de las muestras o grupos de datos.
Solución.
a) Sustituyendo X
1 = 200; 2 = 250, nt = 80, n2 = 60 en la fórmula de la media total,
X se
tiene
Mediana.
Ejemplo 1. El propietario de un taller comenta a un amigo que el sueldo promedio de los
5 empleados de su taller es de $422.00 mensuales. El amigo le felicita, pues considera
un salario aceptable. Al profundizar un poco más, se da cuenta que los empleados son: 4
operarios y el hijo de su amigo; con sueldos respectivos de $180.00, $190.00, $240.00,
$300.00 y $1,200.00.
Solución.
33
La mediana, es el valor que se encuentra en el centro de una secuencia ordenada de
datos.
Una forma fácil de localizar la posición del elemento central para datos no agrupados, es
aplicar la expresión:
n 1
2
donde n es el número de elementos.
Ejemplo 2. Una muestra de los honorarios médicos cobrados en clínicas dentales del
municipio, dio las siguientes cantidades: $20.00, $15.00, $55.00, $16.00, $25.00. ¿Cuál es la
mediana?
Solución:
Ordenando los datos de mayor a menor ($) 55.00, 25.00, 20.00, 16.00, 15.00
Obteniendo la posición de la mediana para n = 5
5 1
3
2
La mediana corresponde al tercer dato, siendo este $20.00
Solución
Ordenando los datos en forma ascendente: 4, 6, 7, 8, 10, 12, 15, 16.
Determinando la posición de la mediana, para n = 8:
8 1
4.5
2
Dado que la mediana es el 4.5-ésimo elemento del arreglo, se obtiene la media de los datos
4° y 5°. El cuarto es 8 y el quinto es 10. La media de ellos es 9. Por tanto, 9 es el valor
de la mediana del número de pacientes atendidos por la Cruz Roja.
34
Cálculo de la mediana a partir de datos agrupados.
Una vez que los datos originales se han organizado en una distribución de frecuencias,
parte de la información no es identificable. Como resultado, la mediana exacta se dificulta
obtenerla. Sin embargo podemos obtener una aproximación. A continuación se detalla el
proceso:
Para interpolar, se supondrá que los elementos dentro de la clase mediana, se encuentran
uniformemente espaciados.
n 1
faa
Mediana li 2 ic
f
Donde
Ii: límite real inferior de la clase mediana.
f : Frecuencia de la clase mediana.
faa: Frecuencia acumulada "menor que" anterior a la
clase mediana.
ic: ancho de la clase mediana.
n : número de datos.
35
Solución.
a) Por interpolación
b) Aplicando la fórmula
Reconociendo a la tercera clase como la mediana, se tiene:
Ii =1,009.5
ic = 305
f =40
faa = 25
(n + 1)/2 = 50.5
n 1
faa
Sustituyendo en mediana Me = li 2 ic
f
36
Si la media es mayor que la mediana, la distribución presenta asimetría
positiva o sesgo positivo. Si la media es menor que la mediana, entonces
se dice que la distribución tiene asimetría negativa o sesgo negativo.
Insertar/función/estadísticas/ MEDIANA
37
La Moda
Algunas veces prestamos mayor atención al tema económico, político, social, etc que está
de moda en los medios de comunicación o en la opinión pública; otras veces nos deleitamos
con la canción de moda.
De las tres medidas de tendencia central, la moda es la más fácil de obtener. Basta
determinar el dato de mayor frecuencia. Sin embargo, un grupo de datos puede tener una
moda, varias modas o no tener moda.
La moda es de mayor utilidad para datos cualitativos que cuantitativos. Para datos
cuantitativos, se utiliza cuando se tenga uno o varios valores que tienen frecuencia mucho
mayor que las otras observaciones.
Insertar/función/estadísticas/ MODA
Si se encuentra el símbolo fx en la barra de herramientas:
fx /estadísticas/ MODA
38
Otras Medidas de Posición
Cuartiles.
Frecuentemente interesa encontrar la posición, no necesariamente central, que ocupa un
valor dentro de la distribución. Como por ejemplo en el alquiler de viviendas:
Para responder el literal a) basta observar el número de datos que se acumulan (frecuencia
acumulada) hasta $1,009.5. Esto es 25 datos. Así, el 25% de las viviendas consideradas en
la muestra, se alquilan en $1,009.5 o menos. Mientras que para el literal b) no se obtiene
la respuesta simplemente con detenerse en la frecuencia acumulada, puesto que $1,100 no
es un límite de clase. Hay que recurrir a otro método. La interpolación en las ojivas es una
alternativa; otra opción es la obtención de las medidas estadísticas llamadas cuantiles o
fractiles.
39
Los cuantiles son medidas de posición que incluyen los cuartiles, los deciles y los percentiles
En estos últimos centraremos la atención dado que comprende a los otros dos.
Los cuartiles, denotados generalmente Q1 Q2 y Q3, son valores de la variable que dividen
a un conjunto de datos en cuatro partes iguales. El primer cuartil, Q 1 es el valor antes del
cual queda un 25% de los datos. El segundo cuartil, Q2, es idéntico a la mediana. El tercer
cuartil, Q3, es el valor que deja tras de sí tres cuartas partes de las observaciones.
Conociendo lo que son los cuartiles, se puede intuir el papel de los deciles (D) y los
percentiles (P).
Por ejemplo, el decil 4, (D4) es el mismo valor que el percentil 40, (P40). Ambos
corresponden al valor de la variable que supera al menos a un 40% de los datos. En general,
los percentiles engloban a los otros cuantiles.
Percentiles
El r-ésimo percentil es un valor de la variable tal que por lo menos un r por ciento de
los datos son menores o iguales que dicho valor y por lo menos (100 – r) por ciento de
las observaciones son mayores o iguales que este valor,
40
10.40 15.00 10.00 23. 22 20.00 16.85 30.00 35.00 28.25 6.54 5.00
18.00 10.00 20.00 15.00
a. Calcule el percentil 40
b. Calcule e interprete el valor del percentil 75
Solución
a. Percentil 40 ( P 40
)
i. Ordenar los datos de forma ascendente
5.00 10.00 10.0 10.40 15.00 15.00 16.54 16.85 18.00 20.00 20.00
23.22 28.25 30.00 35.00
ii. Obtener i
15 * 40
i
100
i6
P 40
= $15.77
a. Percentil 75 ( P 75
)
ii. Obtener u
75 * 40
i
100
i 11.25
41
P 75
= $23.22
Datos agrupados
La expresión para calcular un percentil cualquiera puede deducirse a partir de la fórmula
para obtener la mediana.
Percentil r, valor de la variable que supera (está por arriba) a un r % de las observaciones.
Ejemplo 2. Para las rentas de alquiler de viviendas. Por abajo de qué renta mensual
se encuentra el 30% de las viviendas alquiladas a más bajo precio.
42
Solución.
El valor de la renta que supera a un 30% de los datos, es el percentil 30 (P30),
30(100 1)
30
100
El P30se encuentra en la tercera clase, puesto que el dato 30 cae en esta clase. De lo
cual:
li = 1,009.5
ic = 305
f = 40
faa = 25
30 25
P30 1,009.50 ( ) * 305 1,047.63
40
Solución.
Se conoce el valor de la variable (Pr) y se desconoce el porcentaje de datos (r) por abajo
de este valor.
li = 1,009.5
ic = 305
f = 40
faa = 25
Pr=1,100
43
b) Sustituyendo en la fórmula para obtener P
101
r 100 25
1,100 1009.50 * 305
40
Insertar/función/estadísticas/ PERCENTIL
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/ PERCENTIL
44
La media Geométrica, es otra medida de tendencia central.
La media geométrica se utiliza en cuestiones de negocios para obtener las tasas de
cambio promedio o tasas de crecimiento medio. Si se tienen n valores positivos
x , x ,..., x
1 2 n
, la media geométrica es la raíz n-ésima del producto de los n valores.
Como ejemplo se abordará el siguiente caso: “en una pequeña empresa las ventas
mensuales registradas en el último semestre del año anterior fueron (en dólares) 4,525;
4,035; 4,820; 3,800; 5,355; 7,870” Determinar la tasa de crecimiento medio de la
microempresa durante el semestre analizado.
Solución.
Primero hay que determinar la tasa de crecimiento de las ventas mes a mes, así:
4035
0.8917
4525 es decir disminuyeron en un 10.83%. Como se desea un promedio de tasas
de crecimiento, se recomienda utilizar la media geométrica.
Mg 5 (0.8917)(1.1945)(0.7889)(1.4092)(1.4697) 1.1170
La tasa media de crecimiento de las ventas durante el segundo semestre del año anterior
fue de 11.7%.
Mercado A Mercado B
6 5
7 3
5 4
7 10
5 8
45
¿En cuál de los dos grupos se tiene un puntaje más homogéneo?
Al utilizar en el análisis la media aritmética, en ambos nichos se obtiene igual valor (6).
Resulta apresurado el concluir que ambos grupos tienen similar percepción de la calidad del
producto. Basta observar los datos al interior de cada grupo y se descubre que en la grupo
B los puntajes se alejan más de la media que los puntajes del grupo A. Por tanto, las
medidas de tendencia central no son suficientes para describir un grupo de datos. Se
necesita información respecto a la dispersión de esos datos.
Las medidas de dispersión más utilizadas son la desviación típica y la varianza. También
son medidas de dispersión: el rango, la desviación media y el coeficiente de variación.
El Rango
El recorrido, rango o amplitud es la más simple e inmediata medida de dispersión, depende
únicamente de dos valores, el mayor y el menor. Además no proporciona una medida de la
variación de las observaciones en relación al centro de la distribución.
Ejemplo 1. Obtenga el rango de las calificaciones en la muestra del mercado A y del mercado
B.
Mercado A Mercado B
6 5
7 3
5 4
7 10
5 8
Solución
Rango es la diferencia entre el mayor valor y el menor valor de la serie.
Para la sección A, el rango 2 (=7 - 5), mientras que en la B es 7 (=10 - 3).
46
Desviación Media
La variabilidad se estudia en términos de la desviación de cada valor (x) con respecto a
su media aritmética ( x ). En consecuencia, si las desviaciones son pequeñas los datos están
menos dispersos, que si las desviaciones son grandes.
Es de suponer que la media de las desviaciones (di), serviría para detallar la dispersión de
datos. Sin embargo, por propiedades de la media se sabe que su suma di es igual a cero.
Una solución es obtener la media del valor absoluto de las desviaciones. A la medida anterior
se la llama desviación media (DM)
Desviación Media, es la media del valor absoluto de las desviaciones de cada dato respecto
de la media.
Ejemplo 1.Obtener la desviación media por mercado, de los puntajes de la calidad del producto
asignada por los consumidores de cada mercado.
Mercado A Mercado B
6 5
7 3
5 4
7 10
5 8
Solución.
a) Desviación media de los puntajes de calificación de los 5 consumidores seleccionados del
mercado A.
i) Determinar la media. Media = 6.
ii)Obtener la desviación de cada dato respecto a la media.
47
iii) Calcular la desviación media:
DM
XX 4
; DM ; DM 0.8
n 5
b) Desviación media de los puntajes dados por los consumidores del mercado B.
DM
X X ; DM 12 ; DM 2.4
n 5
Al comparar las desviaciones medias de ambas grupos, se tiene que es mayor para la del grupo
B. Por tanto, en la muestra del mercado B se tiene mayor dispersión de notas que en la
muestra del mercado A.
Varianza
Aunque, comprender la desviación media es relativamente sencillo, su uso no es frecuente ya
que otras medidas de dispersión presentan propiedades matemáticas interesantes. El defecto
mayor que se le atribuye es el de ignorar los signos de las desviaciones, lo cual hace que el
método no sea algebraico y dificulte el manejo matemático. Para superar este inconveniente se
trabaja con los cuadrados de las desviaciones y se obtiene la medida de dispersión llamada
Varianza
48
Varianza, es la media aritmética del cuadrado de las desviaciones de cada dato respecto
de la media
2
( X ) 2
s 2
(X X ) 2
n 1
Cando se tiene una serie de datos agrupados, recuerda que el punto medio es el valor que se
utiliza para representar a todos los valores de la clase, en este sentido, la varianza se obtiene
2
[ f ( Pm ) ]2
s2
[ f ( Pm X )2 ]
n 1
Ejemplo 1. Calcular la varianza de los puntajes muestrales del grupo de consumidores del mercado
B.
i) Obtener la media,
La media Aritmética es igual a 6
ii) Obtener las desviaciones y elevarlas al cuadrado.
Desviación Cuadrado de la
(di) desviación
5 – 6 = -1 1
10 – 6 = 4 16
4 – 6 = -2 4
3 – 6 = -3 9
8 – 6 = 2 4
iii) Calcular la varianza.
Sumar los cuadrados de las desviaciones y dividir entre n-1
s 2 34 / 4 8.5
49
Calculo de la Varianza en Excel
Varianza poblacional
Insertar/función/estadísticas/ VARP
Si se encuentra el símbolo fx en la barra de herramientas:
fx/estadísticas/ VARP
La Desviación Típica
La varianza ha de expresarse en unidades cuadradas. Así, cuando los datos correspondan al
precio de un bien serán expresados en dólares, la varianza estará dada en dólares cuadrados
(?); cuando correspondan longitud la unidad de medida pueden ser metros y la varianza tendrá
a metros cuadrados como unidad. La varianza transforma las unidades originales al cuadrado.
¿Cómo superar la situación?
Correcto! Trabajando con la raíz cuadrada (positiva) de la varianza. A dicha medida se le llama
desviación típica o desviación estándar
La desviación típica se denota por medio de σ en el caso poblacional y por s en situación muestral.
Ejemplo 1. Obtener la desviación típica de las calificaciones muestrales del grupo de mercado B.
Solución.
50
Se conoce el valor de la varianza, entonces basta con extraerle raíz cuadrada.
En este caso, s 8.5 2.92
Ejemplo 2. Obtenga la desviación típica del tiempo empleado en realizar un proceso productivo
los 80 obreros de una manufactura.
Tiempo Nº obreros
4.5 - 15.5 3
15.5 - 26.5 7
26.5 - 37.5 12
37.5 - 48.5 18
48.5 - 59.5 20
59.5 - 70.5 10
70.5 - 81.5 6
81.5 - 92.5 4
Total 80
Solución
En la tabla siguiente se muestran las columnas agregadas para obtener la media y la
desviación típica para datos agrupados.
Tiempo Nº obreros Pm f Pm (Pm-μ)2 f(Pm- μ)2
4.5 - 15.5 3 10 30 1 ,471 .68 4,415.04
15.5 - 26.5 7 21 147 748.57 5,239.99
26.5 - 37.5 12 32 384 267.65 3,211.80
37.5 - 48.5 18 43 774 28.73 517.14
48.5 - 59.5 20 54 1080 31.81 636.20
59.5 - 70.5 10 65 650 276.89 2,768.90
70.5 - 81.5 6 76 456 763.97 4,583.82
81.5 - 92.5 4 87 348 1 ,493.05 5,972.20
Total 80 Pm 3,869 27,345.09
27,345.09
18.5 minutos
80
51
Calculo de la Desviación Típica (o desviación estándar) en Excel
A su vez la desviación típica, también tiene una serie de propiedades que se deducen
fácilmente y que se derivan de las propiedades de la varianza (ya que la desviación típica
es la raíz cuadrada de la varianza):
Coeficiente de variabilidad.
52
¿Se puede comparar la variabilidad de dos o más conjuntos de datos expresados en diferentes
unidades de medición? Por ejemplo, tomando como referencia los empleados de una empresa, ¿qué
presenta mayor dispersión: los salarios mensuales o las edades de los empleados? ¿Son suficientes
las medidas de dispersión tratadas hasta el momento, para dar respuesta a la interrogante?
Coeficiente de Variabilidad, es una medida de variación relativa que expresa la desviación típica
como un porcentaje del promedio utilizado
s
Coeficiente de variación CV 100
X
CV = 100
s
CV 100
X
2.92
= 100 48.7%
6
Ejemplo 2. Obtener el coeficiente de variación del tiempo empleado en realizar el proceso por
los obreros de la industria.
Solución.
CV= 100
18.48
= 100 38.2%
48.36
Resumiendo
53
La dispersión es importante porque proporciona información adicional que
permite juzgar la confiabilidad de la medida de tendencia central. Si los
datos se encuentran ampliamente dispersos, la posición central es menos
representativa de los datos.
Teorema de Tchebycheff
Donde k es cualquier número positivo mayor que 1. Este teorema es válido para cualquier
distribución de datos.
54
TEMA ALTERNATIVO: Determinación del número de clases.
El número de clases (k) depende básicamente del número de datos. A mayor cantidad de
datos, mayor será el número de clases. Se recomienda que el número de clases no sea
inferior a 5 ni mayor que 15. ¿Por qué? No olvidar que el objetivo de condensar la
información en una distribución de frecuencias es facilitar su análisis.
Al elaborar la tabla se recomienda que todas tengan el mismo ancho y que sea un número
impar. Con esto se logra que los valores de los puntos medios se expres en con las
mismas divisiones que los valores de la variable. Para tener una idea del tamaño de
la clase (ic), se divide el rango de los datos entre el número de clases que se desean.
Rango
Ancho de clases (ic ) .
número de clases
55
Límites de Clase.
Ejemplo 3. Supóngase que se tiene un total de 150 observaciones. El mayor valor que toma
la variable es 61 y el menor 42 Determinar el número de clases apropiado, el ancho de
clase y cada una de las clases.
a. Número de clases
Aplicando la fórmula k = 1 + 3.32 log(n), para n = 150, se tiene:
k 1 3.32 log(150)
k 1 3.32 (2.176)
k 8.22
Se aconseja considerar 3 valores para k: el entero obtenido mediante la fórmula (8),
el entero anterior a este (7) y el posterior (9). Estos 3 valores se analizan en la
determinación del ancho de clases y se opta por el que implique ancho de clases
impar y un menor alejamiento del rango original.
b. Ancho de clases.
Una idea del valor del ancho de clases, la da el cociente: Rango/k. Veamos lo
que sucede para los tres posibles valores de k.
3 3 3
56
Dado que el rango original es de 19, lo recomendado es k = 7 e ic = 3.
Ahora hay que determinar cada una de las 7 clases con ancho igual a 3, tratando
de ser lo más equitativo posible.
41___42_______________________61___62
Nótese, que los límites de clase son enteros, igual que los valores de la variable. Esto
puede ocasionar problemas al momento de ubicar aquellos valores de la variable que
son iguales a los límites de clase. Por ejemplo, ¿a cuál clase pertenece una observación
con valor igual a 47, a la segunda o a la tercera?
Para evitar la posible confusión, se recomienda presentar los valores límites de clase
con una división más de la que presenta la variable. Para el caso, como los valores
de la variable están dados en enteros, entonces, los límites de clase hay que darlos
con décimas.
Solución:
a. El número de clases.
k 1 3.32 log(40)
k 6.3
Evaluamos para k = 5, 6 y 7.
57
(Si para ninguno de los 3 valores se tiene ancho de clases impar, entonces se
prueba para un cuarto y quinto valor, uno menor y otro mayor
b. El ancho de clases.
k5 k6 k7
1.1 1.1 1.1
ic ic ic
5 6 7
0.22 0.18 0.16
Dado que los valores de ic corresponden a 0 enteros, entonces los aumentamos hasta la
décima, convirtiéndose en 0.3, 0.2 y 0.2 respectivamente. Optamos por el valor impar, que
es 0.3.
(Cuando el ancho de clases sea inferior a 2, es posible aumentar a la décima y no al entero
más próximo.)
Sabemos que son 5 clases con ancho igual a 0.3. Al efectuar su producto se obtiene
1.5, siendo superior en 0.4 al rango original (1.5 - 1.1 = 0.4). Al repartir esta diferencia
entre los valores extremos se tiene: 0.4/2 = 0.2. Entonces, la primera clase sería 1.7 - 2.0,
pero resulta que los límites quedarían expresados hasta las décimas, igual que los valores
de la variable. Esto, se dijo, puede crear confusión al ubicar un valor igual a una de las
fronteras de clase; para evitarlo, hay que dejar los límites con una división más de las
presentadas por los valores de la variable. Obedeciendo la sugerencia, las clases vendrían
a ser:
1.75 - 2.05, 2.05 - 2.35, 2.35 - 2.65, 2.65 - 2.95, 2.95 - 3.25.
58