You are on page 1of 94

Contenido

1 Estadstica descriptiva 3
1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Que signica estadstica? . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Por que usted necesita conocer estadstica? . . . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadstica . . . . . . . . 7
1.1.5 Terminos com unmente usados en estadstica . . . . . . . . . . . 8
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . . . . . . 9
1.2 Organizaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organizaci on de datos de acuerdo al tipo . . . . . . . . . . . . 11
1.2.2 Organizaci on de datos de acuerdo a escalas de medidas . . . . . 12
1.2.3 Organizaci on de datos mediante tablas . . . . . . . . . . . . . . 13
1.2.4 Organizaci on de datos mediante representaciones gracas . . . . 22
1.3 Analisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 32
1.3.1 Medidas de tendencia central o de centralizaci on . . . . . . . . 33
1.3.2 Medidas de colocaci on o de posici on relativa . . . . . . . . . . . 40
1.3.3 Medidas de dispersi on o de variabilidad . . . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Analisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 61
1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco n umeros . . . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadstica descriptiva . . . . . . . . . . . . . 73
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . . . . 73
1.6.2 Analisis simultaneo de dos o mas conjuntos de datos . . . . . . 79
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . . . . . . . . . 83
Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Contenido 2
Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
CAP

ITULO 1
Estadstica descriptiva
Contenido
1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Que signica estadstica? . . . . . . . . . . . . . . . . . . . 4
1.1.2 Por que usted necesita conocer estadstica? . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadstica . . . . . . 7
1.1.5 Terminos com unmente usados en estadstica . . . . . . . . 8
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . . . . 9
1.2 Organizaci on de datos . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organizaci on de datos de acuerdo al tipo . . . . . . . . . . 11
1.2.2 Organizaci on de datos de acuerdo a escalas de medidas . . 12
1.2.3 Organizaci on de datos mediante tablas . . . . . . . . . . . . 13
1.2.4 Organizaci on de datos mediante representaciones gracas . 22
1.3 Analisis de datos en tablas de frecuencias no agrupadas 32
1.3.1 Medidas de tendencia central o de centralizacion . . . . . . 33
1.3.2 Medidas de colocacion o de posici on relativa . . . . . . . . . 40
1.3.3 Medidas de dispersion o de variabilidad . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Analisis de datos en tablas de frecuencias agrupadas . . 61
1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco n umeros . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadstica descriptiva . . . . 73
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . . . 73
1.6.2 Analisis simultaneo de dos o m as conjuntos de datos . . . . 79
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . . 83
Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85
1.1 Introducci on 4
Objetivos del captulo
1. Presentar una vision amplia sobre el campo de estudio de la estadstica y sus aplica-
ciones.
2. Distinguir entre estadstica descriptiva e inferencial.
3. Estudiar los tipos de datos.
4. Mostrar c omo organizar datos.
5. Construir tablas y gracas para datos numericos y categoricos.
6. Describir las medidas de tendencia central, de posici on relativa, de variaci on y de
forma de los datos numericos.
7. Describir las tecnicas para realizar un analisis exploratorio de datos.
8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estadstica.
Empleo de la estadstica
La directora de produccion de una empresa debe informar a su superior sobre
el n umero de das promedio que los empleados de la empresa se ausentan del tra-
bajo. Sin embargo, la planta emplea mas de dos mil trabajadores, y la directora de
produccion no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir como puede ella obtener la informacion nece-
saria. Que consejo podra darle?
1.1 Introduccion
1.1.1 Que signica estadstica?
En la vida diaria los diversos fen omenos de orden econ omico, social, poltico, educa-
cional, e incluso biol ogico, aparecen, se transforman y nalmente desaparecen. Para
tan abundante y complejo material es preciso tener un registro ordenado y continuo a
n de conseguir en un momento dado los datos necesarios para un estudio de lo que
ha sucedido, sucede o puede suceder. Para ello se requiere contar con un metodo, con
un conjunto de reglas o principios, que nos permita la observaci on, el ordenamiento, la
cuanticaci on y el analisis de dichos fen omenos.
En general, el termino estadstica tiene tres acepciones gramaticales perfectamente
denidas:
1. Estadstica, en su acepci on mas com un, no es mas que una colecci on de datos
numericos ordenados y clasicados seg un un determinado criterio. Nos referimos
a este signicado cuando hablamos de estadsticas de producci on, estadsticas de
cotizaciones bursatiles, estadsticas demogracas, etc.
2. Estadstica, en una segunda acepci on, es la ciencia que, utilizando como ins-
trumento a las matematicas y al calculo de probabilidades, estudia las leyes de
comportamiento de aquellos fen omenos que, no estando sometidos a las leyes
fsicas y basandose en ellas predice e inere resultados. El termino estadstica
matematica viene a ser el nombre propio de esta acepci on.
1.1 Introducci on 5
3. Finalmente, estadstica, signica en su ultima acepci on, la tecnica o metodo
cientco usado para recolectar, organizar, resumir, presentar, analizar, interpretar,
generalizar y contrastar los resultados de las observaciones de los fen omenos reales.
Se considera fundador de la estadstica a Godofredo Achenwall (1719-1772;53),
profesor y economista aleman quien, siendo profesor de la universidad de Leipzig (Ale-
mania), escribi o sobre el descubrimiento de una nueva ciencia que llam o estadstica (pa-
labra derivada del termino aleman Staat que signica estado) y que deni o como
el conocimiento profundo de la situaci on respectiva y comparativa de cada estado.
Achenwall y sus seguidores estructuraron los metodos estadsticos que se orientaron
a investigar, medir y comparar las riquezas de las naciones. Lo anterior no signica que,
antes de los estudios de G. Achenwall, los estados no hubiesen efectuado inventarios
de sus riquezas. Estos inventarios se efectuaron desde la antig uedad. Se sabe que 2.000
a 2.500 a nos antes de Cristo, los inventarios que efectuaron los chinos y los egipcios
eran muy elementales.
1.1.2 Por que usted necesita conocer estadstica?
En general, el problema que enfrentan las compa nas e industrias no es la escasez de
informaci on, sino c omo utilizar la informaci on disponible para tomar las decisiones mas
adecuadas. Por esta raz on, desde la perspectiva de una toma de decisiones informada,
cabe preguntarse por que un ingeniero, un administrador y un economista necesita saber
estadstica. Para dar respuesta a esta inquietud podemos decir que estos deben com-
prender la estadstica, basicamente, por tres razones fundamentales:
1. Presentar y describir la informaci on en forma adecuada.
2. Inferir conclusiones sobre poblaciones grandes basandose solamente en la infor-
maci on obtenida de subconjuntos de ellas.
3. Utilizar modelos para obtener pron osticos conables.
En el diagrama de la gura 1.1 se presenta un esquema general de las rutas que sugeri-
mos tomar desde la perspectiva de estas tres razones para aprender estadstica. En este
esquema se observa que para tener en cuenta la primera raz on, se abordan los metodos
referentes a la recopilacion, descripci on y presentaci on de la informaci on (que corres-
ponde al captulo 1 de nuestro texto). Para la segunda raz on, necesitaremos desarrollar
los conceptos de distribuciones muestrales, estimaci on y pruebas de hip otesis. Debido
a que estos temas no hacen parte de los objetivos de este texto, s olo se desarrollaran
los conceptos basicos de probabilidad (captulo 2) y algunas distribuciones (captulos 3,
4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda raz on.
Para la tercera raz on, sugerimos realizar el enfoque al analisis de regresi on, modelado
y analisis de series de tiempo que proporcionan metodos para hacer pron osticos (temas
que tampoco tratamos en este texto).
1.1.3 Algunas aplicaciones de la estadstica
En esta secci on presentaremos ejemplos que ilustran algunas de las aplicaciones de la
estadstica en la ingeniera, en la administraci on y en la economa.
1.1 Introducci on 6
Fig. 1.1: Mapa de rutas del texto
Ingeniera
La importancia de la estadstica en la ingeniera ha sido subrayada por la participaci on
de la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de
que la baja calidad de un producto (ya sea en la forma de defectos de fabricaci on, en
una baja conabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciado
en la productividad global de la compa na, en el mercado y la posici on competitiva y,
nalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puede
eliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad de
volver a maquilar las piezas, los requerimientos para inspecci on y prueba y las perdidas
por garanta. Ademas de mejorar la satisfacci on del consumidor y permitir que la empresa
se convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,
la estadstica es un elemento decisivo en el incremento de la calidad, ya que las tecnicas
estadsticas pueden emplearse para describir y comprender la variabilidad.
1
Contabilidad
Las empresas de contadura p ublica emplean procedimientos estadsticos de muestreo
para llevar a cabo auditoras a sus clientes. Por ejemplo, supongamos que una empresa
de contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en el
balance de un cliente, representa elmente la cantidad real de ese rubro. Normalmente,
la cantidad de cuentas individuales por cobrar es tan grande que sera demasiado lento y
costoso revisar y validar cada cuenta. En casos como este, regularmente se acostumbra
que el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).
1
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-
ciones.
1.1 Introducci on 7
Despues de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusi on acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
nancieros de sus cliente, es aceptable.
Finanzas
Los asesores nancieros recurren a una gama de informaci on estadstica para guiarse
en sus recomendaciones de inversi on. En el caso de las acciones, revisan una variedad
de datos nancieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la informaci on de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor nanciero puede comenzar a sacar
conclusiones sobre si esas acciones estan sobre o subevaluadas.
Mercadotecnia
Los escaners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigaci on de mercados.
Producci on
Con el enfasis actual hacia la calidad, el control de calidad es una aplicaci on importante
de la estadstica en la producci on. Para vigilar el resultado de un proceso de producci on
se emplean diversas gracas de control estadstico de calidad, en especial, se usa una
graca para vigilar el promedio de un producto. Por ejemplo, supongamos que una
maquina llena envases con 12 onzas de una bebida muy conocida. Peri odicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una graca, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producci on.
Economa
Con frecuencia se pide a los economistas su pron ostico acerca del futuro de la economa
o de alguno de sus aspectos. Recurren a diversas informaciones estadsticas para ela-
borarlo. As, para pronosticar las tasas de inaci on usan indicadores como el ndice de
precios al productor, la tasa de desempleo y la ocupaci on de la capacidad de producci on.
Muchas veces, esos indicadores estadsticos se introducen en modelos computarizados
de pron ostico, cuyo resultado son predicciones sobre las tasas de inaci on.
1.1.4 Los computadores, la calculadora y la estadstica
El computador se ha convertido en una herramienta importante en la presentaci on y el
analisis de datos. Si bien muchas tecnicas estadsticas s olo necesitan una calculadora de
mano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareas
con mucha eciencia.
La mayor parte del analisis estadstico se realiza utilizando una biblioteca de progra-
mas estadsticos. El usuario introduce los datos y luego selecciona los tipos de analisis
y la presentaci on de los resultados que le interesan. Los paquetes estadsticos estan
1.1 Introducci on 8
disponibles para grandes sistemas de c omputo y para computadores personales. Entre
los paquetes mas utilizados estan SAS (Statistical Analysis System), SPSS (Statisti-
cal Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la secci on 1.6
explicaremos c omo utilizar Statgraphics en la estadstica y en la 1.7, c omo emplear la
calculadora para hacer calculos estadsticos.
1.1.5 Terminos com unmente usados en estadstica
Denici on 1.1.1 Una poblaci on es el conjunto total de objetos que son de in-
teres para un problema dado. Los objetos pueden ser personas, animales, producto
fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de
la poblaci on
Ejemplo 1.1.2 Todos los ni nos nacidos en determinado a no pueden constituir una poblacion.
Si el director de una gran empresa manufacturera desea estudiar la producci on de todas
las plantas de propiedad de la rma, entonces, la producci on de todas estas plantas es la
poblacion.
Denici on 1.1.3 Una muestra es un subconjunto de la poblaci on.
Ejemplo 1.1.4 Si todos los ni nos nacidos en determinado a no constituyen una poblacion,
entonces, los ni nos nacidos en el mes de febrero pueden constituir una muestra.
Denici on 1.1.5 Los datos u observaciones son n umeros o denominaciones
que podemos asignar a un individuo o elemento de la poblaci on.
Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
Usted fuma?, el tipo de sangre, el salario mensual de una trabajador, etc.
Denici on 1.1.7 Un par ametro es cualquier caracterstica medible de una
poblaci on.
Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de par ametro, si todos los trabajadores se consideran como una poblacion.
Denici on 1.1.9 Un estadstico es cualquier caracterstica medible de una mues-
tra.
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada secci on
de la empresa (viendo a los trabajadores de esta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadstico.
1.1 Introducci on 9
Denici on 1.1.11 Un censo (palabra derivada del latn censere que signica
valuar o tasar) es una enumeraci on completa de la poblaci on.
Ejemplo 1.1.12 Seg un el censo llevado a cabo por el DANE (Departamento Administra-
tivo Nacional de Estadstica), en 1.993 Colombia tena 33.109.840 habitantes, de los cuales
16.296.539 eran hombres y 16.813.301, mujeres.
1.1.6 Estadsticas descriptiva e inferencial
Los procedimientos y analisis que aparecen en estadstica caen en dos categoras gene-
rales, estadstica descriptiva (o deductiva) y estadstica inferencial (o inductiva), depen-
diendo del prop osito del estudio.
Denici on 1.1.13 La estadstica descriptiva comprende aquellos metodos que
incluyen tecnicas para recolectar, presentar, analizar e interpretar datos.
En general, la estadstica descriptiva tiene como funci on el manejo de los datos recopila-
dos en cuanto se reere a su ordenaci on y presentaci on, para poner en evidencia ciertas
caractersticas en la forma que sea mas objetiva y util. En este sentido, investiga los
metodos y procedimientos y establece reglas para que el manejo de los datos sea mas
eciente y para que la informaci on entregada resulte conable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.
Ejemplo 1.1.14 Las siguientes situaciones utilizan estadstica descriptiva:
(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en
algunos productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporci on de colombianos encuestados que estan a
favor de determinado candidato poltico.
Denici on 1.1.15 La estadstica inferencial abarca aquellos metodos y con-
juntos de tecnicas que se utilizan para obtener conclusiones sobre las leyes de com-
portamiento de una poblaci on bas andose en los datos de muestras tomadas de esa
poblaci on.
Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadstica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-
centaje de estudiantes que fuman.
(b) Con base en una encuesta de opinion, al poltico le gustara calcular la oportunidad
de reelegirse en las proximas elecciones.
1.1 Introducci on 10
Denici on 1.1.17 Las tecnicas y metodos utilizados por la ciencia estadstica,
tanto en su parte descriptiva como en la parte inferencial son los llamados m etodos
estadsticos.
Ejercicios de la seccion 1.1
1. Describa una posible muestra de tama no 5 de cada una de las siguientes poblaciones:
(a) Todos los periodicos publicados en Colombia.
(b) Todas las empresas importantes de Colombia.
(c) Todos los estudiantes de su curso.
(d) Todos los promedios de calicaciones de los alumnos de su universidad.
2. Una revista publica datos sobre la clasicacion de las 300 corporaciones industriales mas
grandes de un pais, en terminos de ventas y utilidades. En la tabla 1.1 vemos datos acerca
de una muestra de estas 300 compa nas.
(a) Cuantos elementos hay en este conjunto de datos?
(b) Cual es la poblacion?
(c) Calcule las ventas anuales en la muestra.
(d) Con el resultado del inciso (c), cual es la estimaci on de las ventas promedio para la
poblacion?
Ventas Utilidades C odigo del ramo
Compa na ($ millones) ($ millones) industrial
Todo Confort 38.420 2.586,0 12
Alles klar 20.847 5.157,0 15
Ramos del Caribe 8.071 234,0 2
Sofort 3.075 212,2 22
Express 8.092 168,7 48
El unico 10.272 1.427,0 8
Integer 8.588 213,3 11
Good 6.371 49,7 10
Pueblo City 9.844 580,0 19
Report Info 6.454 87,0 19
Tabla 1.1: Muestra de 10 empresas que publica una revista
3. Una empresa desea probar la ecacia de un nuevo comercial de television. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales
en cierta ciudad. Tres das despues, una empresa de investigaci on de mercado lleva a
cabo una encuesta telef onica para obtener informacion sobre la frecuencia de recuerdos
(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresiones
del comercial.
(a) Cual son la poblacion y la muestra para este estudio?
1.2 Organizaci on de datos 11
(b) Por que se necesita usar una muestra en este caso? Explique su respuesta.
4. El se nor Marim on, candidato a alcalde de un pueblo peque no, quiere determinar si debe
hacer una campa na mas fuerte contra su oponente. Para ello entrevistara a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% mas votos que su
oponente, no intensicar sus esfuerzos de campa na contra su rival.
(a) Identique la poblacion, la muestra, un estadstico y un parametro.
(b) Que hara el se nor Marim on si tuviera el 75% de los votos de la muestra?
5. Se estableci o que el costo promedio de los textos escolares en un colegio peque no durante
el ultimo a no fue de $ 354.400, con base en una inscripci on de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadstica encuesto a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el ultimo a no y se concluy o que
fue de $ 399.700.
(a) Identique la poblacion, la muestra, los parametros y dos estadsticos.
(b) Que podra concluir el grupo de estadstica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?
1.2 Organizacion de datos
Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,
de acuerdo a escalas de medidas, mediante tablas y mediante representaciones gracas.
1.2.1 Organizacion de datos de acuerdo al tipo
Como se ilustra en la gura 1.2, existen dos tipos de datos: categ oricos (o cualitativos)
y numericos (cuantitativos).
Fig. 1.2: Tipos de datos
1. Los datos categ oricos o cualitativos representan categoras o atributos
(como, por ejemplo, s o no) que pueden clasicarse como un criterio o cualidad.
2. Los datos num ericos o cuantitativos producen respuestas numericas como
el peso en kilogramos o el n umero de universidades que hay en la Costa Atlantica.
Estos datos son de dos tipos: dicretos y continuos.
1.2 Organizaci on de datos 12
Los datos discretos producen respuestas numericas que surgen de un
conteo. Ejemplos de datos discretos son la cantidad de universidades que hay
en la Costa Atlantica, el n umero de estudiantes en la Universidad del Norte
en 2.003, la cantidad de hermanos que tiene un determinado estudiante de
administracion, el n umero de personas en una la, etc.
Los datos continuos producen respuestas numericas que surgen de un
proceso de medici on, donde la caracterstica de que se mide puede tomar
cualquier valor numerico en un intervalo. Ejemplos datos continuos son el
peso (en kilogramos) de una persona, su estatura (en metros), el tiempo que
usted tarda en llegar a la Universidad del Norte, etc.
1.2.2 Organizacion de datos de acuerdo a escalas de medidas
Los datos tambien se pueden clasicar seg un la escala de medici on o el procedimiento
que los gener o. Cuatro tipos de escalas de medici on usados en estadstica son las escalas
nominal, ordinal, de intervalo y de raz on.
Datos de nivel nominal
Un dato nominal se crea cuando se utilizan nombres para establecer categoras con la
condici on de que cada dato pertenezca unica y exclusivamente a una de estas categoras.
Existen escalas nominales tanto para los datos numericos como categ oricos. Una escala
nominal para datos numericos asigna n umeros a las categoras. Por ejemplo, entre los
datos numericos que son nominales se incluyen los n umeros en las camisetas deportivas,
los n umeros telef onicos, etc.
Una escala nominal para datos categ oricos es un agrupamiento no ordenado de los
datos en categoras discretas, donde cada dato puede incluirse solamente en uno de los
grupos. Por ejemplo, los datos nominales que son cualitativos incluyen el genero, la
raza, el tipo de sangre y la religi on.
Datos de nivel ordinal
Los datos medidos en una escala nominal ordenada de alguna manera se denominan
datos ordinales. Una escala ordinal coloca las medidas en categoras, cada una de
las cuales indica un nivel distinto respecto a un atributo que se esta midiendo. La lista
de datos ordinales comprende:
1. Clasicaciones por letra: A, B, C y D; estos grados indican categoras de perfec-
cionamiento, as como los niveles alcanzados.
2. Rangos academicos: Doctor, magister, especialista y licenciado.
3. La evaluaci on de un maestro: insuciente, aceptable, bueno y excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codiquemos las letras A como 4, B como 3, C como 2 y D como
1.2 Organizaci on de datos 13
1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calicaci on A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.
Datos de nivel de intervalo
Los datos medidos en una escala ordinal para los cuales pueden clasicarse las distancias
entre valores, se llaman datos de intervalos. La distancia entre dos valores es
importante y los datos de intervalo son numericos por necesidad; una escala de intervalo
no siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que se
quiere medir). La lista de datos de intervalo comprenden:
1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cinco
puntos superior a uno de 105 (datos ordinales). En este caso, no s olo podemos
decir que un puntaje de 110 es superior a uno de 105, sino que tambien podemos
decir que es cinco puntos mas alto; pero no podemos decir que una persona con
un puntaje de inteligencia de 180 es doblemente inteligente que una persona que
tiene uno de 90.
2. Temperaturas Celsius. Una temperatura Celsius de 80

es 40

mas caliente que


una de 40, pero no es correcto decir que 80

es el doble de caliente que 40

.
N otese tambien que una temperatura de 0 no representa la ausencia de calor. El
punto cero en la escala de temperatura Celsius fue escogido arbitrariamente como
el punto de congelamiento e indica que esta presente algo de calor.
3. Fechas. Brian LLinas naci o en Mainz (Alemania) en el a no 2000, 31 a nos despues
de su padre, el Dr. rer. nat Humberto LLinas (1969). Podemos especicar la
distancia entre estos dos sucesos ordenados, 31 a nos, pero si existiera el a no cero,
no representara la ausencia de tiempo.
Datos de nivel de razon
Los datos medidos en una escala de intervalo con un punto cero que signica ninguno,
se llaman datos de raz on. Con datos medidos en una escala de raz on, podemos de-
terminar cuantas veces es mayor una medida que otra. Las escalas de raz on incluyen
salarios, unidades de producci on, peso, altura, etc. El dinero nos da una buena ilus-
traci on. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.
Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sin
importar si se utiliza distintas escalas de raz on como kilogramos, gramos o libras). Las
escalas de raz on tambien incluyen escalas usadas com unmente para medir unidades como
pies, libras, centmetros, etc. Los resultados de contar objetos tambien son datos de
raz on como, por ejemplo, diez peras es el doble que cinco.
1.2.3 Organizacion de datos mediante tablas
En esta forma de organizaci on de datos es importante el concepto de frecuencia de un
dato.
1.2 Organizaci on de datos 14
Denici on 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra
f, es el n umero de veces que aparece ese dato en una colecci on de datos.
Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro solo aparece una vez
(por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el
7 tiene frecuencia f = 3, etc.
Existen dos tipos generales de tablas para reportar datos usando frecuencias, estas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.
2
Tabla de frecuencias no agrupadas
Son aquellas en donde cada dato tiene la frecuencia correspondiente. Los datos que
organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no
agrupados.
Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4
3 7 6 6 7 5 7 es
Dato 3 4 5 6 7
Frecuencia 2 1 2 3 4

Tabla de frecuencias agrupadas


Otra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalos
de clase o, simplemente, clases) y determinar la llamada frecuencia de clase
de cada clase, es decir, el total de datos que hay en cada clase. Posteriormente, las
clases y las frecuencias de clase se ubican en una tabla que llamaremos tabla de fre-
cuencias agrupadas . Los datos que organizados en tablas de frecuencias agrupadas
se denominan generalmente datos agrupados.
Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y
15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para los
datos de tiempo de auditoras de n de a no.
Tiempo de auditora (das) Frecuencia
10 - 14 4
15 - 19 8
20 - 24 5
25 - 29 2
30 - 34 1
Tabla 1.2: Distribuci on de frecuencias para los datos de tiempo de auditora
2
En vez del termino tablas de frecuencia se utiliza a menudo distribucion de frecuencias.
1.2 Organizaci on de datos 15
Las clases de frecuencias agrupadas poseen lo que se llama lmites de clase. Consi-
deremos la tabla 1.2. En la clase 10-14, a 10 se le llama lmite inferior de clase y
a 14, lmite superior de clase. La distancia entre cualquiera de dos lmites supe-
riores consecutivos o entre cualquiera de dos lmites inferiores consecutivos es llamada
amplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.
Cada clase en una tabla de frecuencia tiene lmites de clases te oricos llamados lmites
reales de clase o frontera de clase (termino que utilizaremos en el texto). Al
lmite superior te orico se le llama frontera superior de clase (o lmite real
superior de clase) y al lmite inferior te orico de clase se le llama frontera infe-
rior de clase (o lmite real inferior de clase). En general, para una clase
dada, cualquier frontera se calcula de la siguiente manera:
Frontera inferior =
lmite inf. de la clase dada + lmite sup. de la clase anterior
2
.
Observemos que la frontera inferior de una clase siempre conincide con la frontera supe-
rior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior
para la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la
frontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de la
quinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna de
la tabla 1.3.
Tiempo de auditora (das) Fronteras inferior - superior Frecuencia
10 - 14 9,5 - 14,5 4
15 - 19 14,5 - 19,5 8
20 - 24 19,5 - 24,5 5
25 - 29 24,5 - 29,5 2
30 - 34 29,5 - 34,5 1
Tabla 1.3: Distribuci on de frecuencias para los datos de tiempo de auditora
El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la f ormula
Marca de clase =
frontera inferior de clase + frontera superior de clase
2
.
Sugerencias para construir una tabla de frecuencias agrupadas
Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los si-
guientes comentarios:
1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde los
extremos de la clase son las respectivas fronteras, en vez de los lmites de clase.
De ahora en adelante, nosotros lo haremos siempre as.
2. Para mayor comodidad en el proceso de construcci on de las clases, acordaremos
que la primera clase debe contener por lo menos el dato menor (en la realidad,
esto no siempre es as).
1.2 Organizaci on de datos 16
3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar
exactamente en una sola clase, no en dos al mismo tiempo.
4. Para mayor comodidad en el proceso de construcci on de las clases, acordaremos
que todas las clases deben tener la misma amplitud (en la realidad, esto no siempre
es as).
Determinacion de la amplitud de clase. Para determinar la amplitud de clase en
cualquier tabla de frecuencias agrupadas, restense dos lmites superiores de clases
consecutivos o dos lmites inferiores de clases consecutivos, o dos fronteras infe-
riores consecutivas, o dos fronteras superiores consecutivas, o restese la frontera
inferior de una clase de la frontera inferior superior de dicha clase.
5. Mientras menos clases escojamos sera mas facil el trabajo, pero se perdera mas
informaci on. Debido a que no hay un acuerdo general entre los estadsticos acerca
del n umero de clases que debe usarse y dado que la elecci on es arbitraria, para
nuestros nes, escogeremos entre 5 y 20. Una sugerencia util para el n umero de
clases esta dado por la regla de Sturges.
Regla de Sturges. La regla de Sturges establece como n umero de clases
necesario, aproximadamente
c = 3, 3(log n) + 1,
donde n es el n umero de medidas y log n es el logaritmo de n en base 10. El
valor de c es com un redondearlo al entero mas cercano.
Otra regla razonable para el n umero de clases es
c =

n.
6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y
menor.
7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-
guiente recuadro.
Amplitud de clase. La amplitud de clase w se determina calculando el cociente
entre el rango R y el n umero de clases c. Es decir,
Amplitud de clase w =
R
c
.
El valor de w es com un redondearlo al entero siguiente.
8. El dato menor debe caer en la primera clase. Por esta raz on, el lmite inferior de la
primera clase debe estar en, o un poco antes de, el dato menor. As que podemos
establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias
1.2 Organizaci on de datos 17
agrupadas, empezando siempre la primera clase con la frontera inferior teniendo
en cuenta que el lmite inferior coincide con el dato menor. Cuando hacemos esto,
el valor mnimo que puede tomar la amplitud de clase se determina redondeando
a w al siguiente valor entero.
Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-
cuencias agrupadas considerando los siguientes datos.
14 21 23 21 16 19 22 25 16 16 24 24 25 19
16 19 18 19 21 12 16 17 18 23 25 20 23 16
20 19 24 28 15 22 24 20 22 24 22 20
SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 12 = 16.
Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el n umero de clase es
c = (3, 3) log 40 +1 = (3, 3)(1, 60) +1 = 6, 2867 6.
donde signica aproximadamente igual que. Observemos que con la otra regla se
obtiene el mismo resultado porque c =

40 = 6, 324 6.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =
R
c
=
16
6
= 2, 666.
Como la unidad de precision para los datos es 1, escogemos el mnimo entero mayor
que 2,666 como el valor de la amplitud. En este caso, el mnimo entero mayor que
2,666 es 3. Por lo tanto, w = 3.
Paso 4. A continuacion se construye la primera clase con un ancho de w = 3. Para ello,
primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como
la unidad de medida es 1 (porque todos los datos son enteros) y como el punto medio
de cada unidad de medida es
Punto medio de cada unidad de medida =
Unidad de medida
2
=
1
2
= 0, 5,
entonces, en este caso, la frontera inferior de la primera clase la hallaremos as:
Front. inf. de primera clase = dato menor punto medio de unidad de medida
= 12 0, 5 = 11, 5.
Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,
entonces, la frontera superior sera
Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.
En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.
1.2 Organizaci on de datos 18
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 11,5 - 14,5
Clase 2: 14,5 - 17,5 (Observe: 17, 5 = 14, 5 +3)
Clase 3: 17,5 - 20,5 (Observe: 20, 5 = 17, 5 +3)
Clase 4: 20,5 - 23,5 (Observe: 23, 5 = 20, 5 +3)
Clase 5: 23,5 - 26,5 (Observe: 26, 5 = 23, 5 +3)
Clase 6: 26,5 - 29,5 (Observe: 29, 5 = 26, 5 +3)
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna corre-
spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.
Clase Cuenta Frecuencia
11,5 - 14,5 || 2
14,5 - 17,5 ||||| ||| 8
17,5 - 20,5 ||||| ||||| | 11
20,5 - 23,5 ||||| ||||| 10
23,5 - 26,5 ||||| ||| 8
26,5 - 29,5 | 1
Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos
Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-
tribucion de frecuencias considerando los siguientes datos:
8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5
SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es
R = 15, 8 6, 0 = 9, 8.
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el n umero de clase es
c = (3, 3) log 20 +1 = (3, 3)(1, 30) +1 = 5, 2933 5.
donde signica aproximadamente igual que.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =
R
c
=
9, 8
5
= 1, 96.
El mnimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.
1.2 Organizaci on de datos 19
Paso 4. Como la unidad de medida es 0,1 (por tener los datos un solo lugar decimal) y como
el punto medio de cada unidad de medida es
Punto medio de cada unidad de medida =
Unidad de medida
2
=
0, 1
2
= 0, 05,
entonces, la frontera inferior de la primera clase es
Frontera inferior = dato menor 0, 05 = 6, 0 0, 05 = 5, 95
y la frontera superior sera
Frontera superior = frontera inferior + amplitud = 5, 95 + 2 = 7, 95.
En consecuencia, la primera clase es 5,95 - 7,95.
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 5,95 - 7,95
Clase 2: 7,95 - 9,95 (Observe: 9, 95 = 7, 95 +2)
Clase 3: 9,95 - 11,95 (Observe: 11, 95 = 9, 95 +2)
Clase 4: 11,95 - 13,95
Clase 5: 13,95 - 15,95
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspon-
diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Ademas, all tambien aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula as:
X =
6, 0 +7, 9
2
= 6, 95.
Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.
Clase Cuenta Frecuencia Marcas de clase X
5,95 - 7,95 |||| 4 6,95
7,95 - 9,95 || 2 8,95
9,95 - 11,95 ||||| ||| 8 10,95
11,95 - 13,95 ||| 3 12,95
13,95 - 15,95 ||| 3 14,95
Tabla 1.5: Tabla de frecuencia agrupada con 5 clases para 20 datos
Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-
tribucion de frecuencias considerando los siguientes datos:
39,78 28,30 28,31 17,95 44,47 46,65 31,47 33,45 29,17
48,39 82,71 43,63 41,17 47,32 52,16 25,94 50,32 35,25
35,70 17,89 60,20 48,14 22,78 38,22 23,25
1.2 Organizaci on de datos 20
SOLUCION:
Paso 1. El rango es R = 82, 71 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el n umero de clase es
c = (3, 3) log 25 +1 = (3, 3)(1, 3979) +1 = 5, 613 6.
Observemos que con la otra regla se obtiene c =

25 = 5. Es decir, podemos construir


la tabla con 5 o con 6 clases. Escogeremos c = 6.
Paso 3. Como c = 6 y R = 64, 82, entonces, w =
R
c
= 10, 803. El mnimo entero mayor que
10,803 es 11. Por lo tanto, w = 11.
Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como
como el punto medio de cada unidad de medida es
Punto medio de cada unidad de medida =
Unidad de medida
2
=
0, 01
2
= 0, 005,
entonces, la frontera inferior de la primera clase es
Frontera inferior = dato menor 0, 005 = 17, 89 0, 005 = 17, 885
y la frontera superior
Frontera superior = frontera inferior + amplitud = 17, 885 + 11 = 28, 885.
En consecuencia, la primera clase es 17,885 - 28,885.
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta
que la frontera inferior de la clase precedente coincide con la frontera superior de la
clase anterior y que la amplitud del intervalo es w = 11. De esta forma, las seis
clases son como se muestran en la tabla 1.6. All, tabien aparecen las marcas de clase
correspondientes a cada clase.
Clase Cuenta Frecuencia Marcas de clase X
17,885 - 28,885 ||||| || 7 23,385
28,885 - 39,885 ||||| || 7 34,385
39,885 - 50,885 ||||| ||| 8 45,385
50,885 - 61,885 || 2 56,385
61,885 - 72,885 0 67,385
72,885 - 83,885 | 1 78,385
Tabla 1.6: Tabla de frecuencia agrupada con 6 clases para 25 datos
Tabla de frecuencia relativas, de frecuencias acumuladas y de frecuencias
relativas acumuladas
Son tablas de frecuencias agrupadas o no agrupadas en donde adicionalmente aparecen
las frecuencias relativas, las frecuencias acumuladas y/o las frecuencias acumuladas
relativas.
1.2 Organizaci on de datos 21
Denici on 1.2.8 (a) La frecuencia relativa de un dato o de una clase se en-
cuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total de
datos. Entonces, a la tabla se le llama tabla de frecuencias relativas.
(b) La frecuencia acumulada de cualquier dato o clase, es la suma de la fre-
cuencia de ese mismo dato o clase con las frecuencias de todos los dem as datos o
clases anteriores. A la tabla se le llama tabla de frecuencias acumuladas.
(c) La frecuencia relativa acumulada de un dato o de una clase se obtiene
dividiendo la frecuencia acumulada del dato o de la clase por el n umero total de
datos. A la tabla que contiene a estas frecuencias se les denomina tabla de
frecuencias relativas acumuladas.
Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias
acumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.
Clase Frec. Frec. rel. Frec. acum. Frec. rel. acum.
11,5 - 12,5 2 2/40 =0,05 5% 2 2/40 = 0,05
12,5 - 15,5 8 8/40 =0,20 20% 10 (=8+2) 10/40 = 0,25
15,5 - 18,5 11 11/40 =0,275 27,5% 21 (=11+10) 21/40 = 0,525
18,5 - 21,5 10 10/40 =0,25 25% 31 (=21+10) 31/40 = 0,775
21,5 - 24,5 8 8/40 =0,32 32% 39 (=8+31) 39/40 = 0,975
24,5 - 27,5 1 1/40 =0,025 2,5% 40 (=1+39) 40/ 40 = 1,0
Tabla 1.7: Tabla de frecuencias relativas, de frecuencias acumuladas y de frecuencias
relativas acumuladas con 6 clases para las datos del ejemplo 1.2.5.
Tablas bivariadas
Una tabla de frecuencias bivariadas es un arreglo de datos clasicados en dos
categoras con sus respectivas frecuencias. Las categoras pueden ser n umeros discretos,
intervalos numericos o valores cualitativos como genero, color de cabello o religi on.
Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y
mujeres que se muestran en la siguiente tabla bivariada.
Deporte preferido
Beisbol B asquetbol F utbol Total
Hombres 19 15 24 58
Mujeres 16 18 16 50
Total 35 33 40 108
La informaci on que sigue, entre otras, puede leerse facilmente de la tabla:
(a) Se han encuestado en total a 108 personas.
1.2 Organizaci on de datos 22
(b) Hay 19 hombres que juegan beisbol.
(c) Hay 40 personas que juegan f utbol.
(d) Hubo 50 mujeres entrevistadas.
1.2.4 Organizacion de datos mediante representaciones gracas
Hay gracas de varios tipos, entre los cuales se encuentran los siguientes: el diagrama
circular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,
el histograma, el polgono (de frecuencia o de frecuencias relativas), la ojiva (o polgono
de frecuencias acumuladas o polgono de frecuencias relativas acumuladas) y el diagrama
de tallo y hojas. Discuteremos cada uno de ellos con excepci on del diagrama de caja y
bigotes, que se introducira en la secci on 1.5.2.
Diagramas circulares (o de pastel)
Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan gene-
ralmente para datos categ oricos.
Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de
marca A, B, C, D y E que se vendieron en una tienda.
Refresco Frecuencia Frecuencia relativa
A 19 0,38
B 8 0,16
C 5 0,10
D 13 0,26
E 5 0,10
Esta informaci on se puede presentar a traves de un diagrama circular como el que se muestra
en la gura 1.3.
Fig. 1.3: Diagrama de pastel sobre compras de refresco
Para trazarlo se dibuja primero un crculo. A continuacion, con las frecuencias relativas, se
divide el crculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.
Por ejemplo, como hay 360 grados en un crculo, y como el refresco A tiene 0,38 de frecuencia
relativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8
1.2 Organizaci on de datos 23
grados. Se efect uan c alculos semejantes para las demas clases, obteniendose el diagrama
de la gura 1.3. Los valores numericos que se ven para cada sector pueden ser frecuencias,
frecuencias relativas o porcentajes.
Pictogramas o pict ografos
Un pictograma es la representaci on de datos estadsticos por medio de smbolos que
por su forma sugieren la naturaleza del dato.
Ejemplo 1.2.12 El siguiente pictograma representa una informaci on sobre las casas cons-
truidas en algunos a nos por una rma constructora. En el se hacen las siguientes conven-
ciones: signica 1.000 casas construidas y signica 500 casas construidas.
A nos Casas construidas
2.000
2.001
2.002
2.003
Facilmente se puede interpretar del diagrama que en el a no 2.000, la rma construyo 5.000
casas y, el 2.002, construyo 5.500 casas.
Diagrama de barras
Es una representaci on graca en la que cada una de las modalidades del aspecto de
interes se representa mediante una barra. En este graco se suelen disponer los datos
en el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas
una barra para cada modalidad del dato observado. La altura de la barra ha de ser
proporcional a la frecuencia absoluta o relativa, que se representara en el eje de las
ordenadas. Estos diagramas se utilizan tanto para datos categ oricos como numericos.
Ejemplo 1.2.13 La gura 1.4 muestra un diagrama de barras sobre los datos del ejemplo
1.2.11.
Fig. 1.4: Diagrama de barras para la compra de refrescos
1.2 Organizaci on de datos 24
Histogramas
Los histogramas son una forma de representaci on graca de una distribuci on de fre-
cuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o
relativas acumuladas) por medio de areas de rectangulos (barras). Cuando utilizamos fre-
cuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias
relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse
para distribuciones de frecuencias agrupadas y no agrupadas.
Histogramas para frecuencias agrupadas
La idea de construir un histograma para frecuencia no agrupada de los datos, es repre-
sentar cada frecuencia por una barra cuya area sea proporcional a ella. Tpicamente, el
ancho de cada barra se escoge como 1 y as el area de la barra es igual a la frecuencia
(absoluta, relativa, acumulada o relativa acumulada) del dato.
Es importante se nalar que aqu los datos pueden ser categ oricos o n umericos y que
estos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) en el eje vertical del diagrama.
Ejemplo 1.2.14 El diagrama que se muestra en la gura 1.4 es un ejemplo de un histograma
para la frecuencia de los datos de compra de refrescos.
Histogramas para frecuencias no agrupadas
Para construir un histograma para datos medidos en una escala de intervalo o en una
escala de raz on, se acostumbra seguir dos pasos:
Se organizan los datos en una tabla de frecuencias (absolutas, relativas, acumu-
ladas o relativas acumuladas) agrupadas.
Se construye una graca de barras usando las fronteras de clase para colocar
barras, y las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas)
para indicar las alturas de las barras.
Ejemplo 1.2.15 La tabla de frecuencias (absolutas, acumuladas y relativas) correspondien-
te a los datos del ejemplo 1.2.6 se muestra en la tabla 1.8.
Clase Frecuencia Frecuencia acumulada Frecuencia relativa
5,95 - 7,95 4 4 0,2
7,95 - 9,95 2 6 0,1
9,95 - 11,95 8 14 0,4
11,95 - 13,95 3 17 0,15
13,95 - 15,95 3 20 0,15
Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6
Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son
como se ve en las guras 1.5 y 1.6, respectivamente.
1.2 Organizaci on de datos 25
Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6
Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6
Polgonos
Estos gracos se utilizan para representar series cronol ogicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan
frecuencias absolutas, se denomina polgono de frecuencias y si se utilizan frecuencias
relativas, polgono de frecuencias relativas.
Ejemplo 1.2.16 Construir un polgono de frecuencia para los datos del ejemplo 1.2.6.
SOLUCION:
Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos
del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polgono
con frecuencias absolutas mostrada en la gura 1.7. Las marcas de clase se colocan en el eje
horizontal y las frecuencias en el eje vertical. Notemos que el polgono se baja en ambos
extremos, colocando el primer y el ultimo puntos en puntos del eje horizontal que distan
w = 2 de las marcas de clase m as cercanas.
1.2 Organizaci on de datos 26
Fig. 1.7: Polgono de frecuencias para los datos del ejemplo 1.2.6
Ojivas
La ojiva, llamada tambien polgono de frecuencias acumuladas (o polgono de frecuen-
cias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas o
relativas acumuladas). Las ojivas ofrecen un medio graco para interpolar o aproximar
el n umero o porcentaje de observaciones menores o iguales que un valor especco.
Ejemplo 1.2.17 La gura 1.8 representa una ojiva con frecuencias acumuladas para los
datos del ejemplo 1.2.6. Para su construcci on consideramos la tabla 1.8.
Fig. 1.8: Ojiva para los datos del ejemplo 1.2.6
Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas
1.2 Organizaci on de datos 27
siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadas
siempre sobre el eje vertical). Despues unimos los puntos consecutivos por segmentos de
recta (observe que la frecuencia acumulada para la frontera inferior de la primera clase es
0).
Diagrama de tallo y hojas
El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos
originales se pierden en el proceso de agrupamiento. Para salvar esta limitaci on puede
usarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por el
estadstico John Tukey y ofrecen una forma novedosa y rapida de exhibir informaci on
numerica: si un numeral tiene dos o mas digitos, entonces, se puede descomponer en
una rama y una hoja. Un tallo es el primer dgito o parte del numeral, mientra que
una hoja esta formada por el o los dgitos restantes. Por ejemplo, el numeral 534 se
puede descomponer en dos formas:
5 | 34 53 | 4

tallo hoja tallo hoja
La exhibici on graca de datos es muy facil de realizar usando tallos y hojas; cada dato
aporta una hoja de alg un tallo.
Ejemplo 1.2.18 Los datos de abajo muestran el n umero de anuncios radiofonicos de 30
segundos pagados el a no pasado por cada uno de los 45 miembros de una empresa. Organice
los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.
Alrededor de que valores tiende a acumularse el n umero de anuncios? Cu al es el menor
n umero de anuncios pagados por un comerciante? El mayor n umero pagado?
96 93 88 117 127 95 113 96 108 94 148 156 139 142 94
107 125 155 155 103 112 127 117 120 112 135 132 111 125 104
106 139 134 119 97 89 118 136 125 143 120 103 113 124 138
SOLUCION:
En el conjunto de datos se observa que el menor n umero de anuncios pagados es 88. As es
que el valor del primer tallo sera 8. El n umero m as grande es 156. Entonces, los valores de
los tallos empezar an en 8 e ir an hasta 15. El primer n umero en los datos es 96, que tendr a
como tallo 9 y como hoja 6. Moviendose por el rengl on superior el segundo valor es 93 y el
tercero 88. Despues de tomar los tres primeros valores del conjunto de datos, su diagrama
es
8 8
9 6 3
10
11
12
13
14
15
Despuees de organizar todos los datos, el diagrama de tallo y hojas se ve as:
1.2 Organizaci on de datos 28
8 8 9
9 6 3 5 6 4 4 7
10 8 7 3 4 6 3
11 7 3 2 7 2 1 9 8 3
12 7 5 7 0 5 5 0 4
13 9 5 2 9 4 6 8
14 8 2 3
15 6 5 5
Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama nal se ver a as:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las
siguientes:
Primero, el menor n umero de anuncios comprados es 88 y el mayor es 156.
Dos comerciantes compraron menos de 90 anuncios y tres, m as de 150.
Puede observarse, por ejemplo, que los tres comenrciantes que compraron m as de 150,
compraron 155, 155 y 156 comerciales.
La mayor concentraci on del n umero de comerciales esta entre 110 y 130.
Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraron
entre 120 y 129.
Tambien podemos decir que dentro del grupo de 120 a 129 el n umero de anuncios
comprados se repartio uniformemente.
Dos comerciantes compraron 120, un comenrciante compr o 124, tres compraron 125
y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un
rectangulo para representar la cantidad de hojas de cada tallo. Al hacerlo obtenemos la
siguiente representacion:
8 8 9
9 3 4 4 5 6 6 7
10 3 3 4 6 7 8
11 1 2 2 3 3 7 7 8 9
12 0 0 4 5 5 5 7 7
13 2 4 5 6 8 9 9
14 2 3 8
15 5 5 6
Si giramos la pagina 90 grados en el sentido de las manecillas del reloj, obtenemos una
imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,
90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma
informaci on que un histograma, tiene dos ventajas principales:
1.2 Organizaci on de datos 29
1. Es m as facil de construir.
2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da m as informaci on que
un histograma porque muestra los valores reales.
Ejercicios de la seccion 1.2
6. Clasique los datos siguientes en cuantitativos (numericos) y cualitativos (categoricos).
En caso de ser numerico, como discretos o continuos:
(a) Estaturas en centmetros de cuatro jugadores de f utbol.
(b) El n umero de goles anotados por Pele en toda su carrera deportiva.
(c) Los sueldos ganados por unos profesores universitarios.
(d) Las temperaturas promedios diarias en el ultimo mes.
(e) Clasicacion etnica de 30 empleados.
(f) N umeros telef onicos ciertas personas.
(g) Calicaciones del primer parcial de Estadstica de unos estudiantes un universitarios.
(h) Distancia (en metros) recorrido por un atleta en una temporada.
(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.
(j) Fecha de cumplea nos de determinadas personas.
(k) Calicaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
(l) Rango militar.
7. Diga la clase de gracas que son apropiadas para datos (a) cualitativos, (b) cuantitativos
y (c) nominales.
8. La tabla siguiente contiene la distribuci on de vehculos que hay en un aparqueadero.
Clase Tipo de vehculo Cifra registrada
1 Taxi 30
2 Camioneta 20
3 Motocicleta 35
4 Bicicleta 40
(a) Identique los datos de cada una de las tres columnas como cuantitativos o cualita-
tivos.
(b) Identique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de raz on.
9. A continuacion, se presenta una escala numerica para medir la efectividad de la tecnologa
en la ense nanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva
y competente; y 5, si es verdaderamente extraordinaria.
(a) Identique el tipo de escala de medicion.
(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadstica.
Sera mas facil interpretar esos resultados que los que se obtendran si los 20 es-
tudiantes evaluaran a su maestro mediante una opinion escrita de respuesta libre?
Explique.
1.2 Organizaci on de datos 30
10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre.
29 89 77 72 39 47 64 84 88 57 28 63 38
42 36 72 69 68 41 52 39 84 45 52 72
Construya una tabla de frecuencias agrupadas usando la regla de Sturges.
11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de la
gasolina extra en una cierta ciudad a lo largo de un a no en particular.
123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9
121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9
126,9 119,9 118,9 119,8 116,9 129,9 122,8 119,9
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasic o a los estudiantes de un programa universitario de acuerdo a con el semestre
que cursa y su preferencia deportiva. Los resultados estan registrados en la siguiente tabla.
Primero Segundo Tercero Cuarto
F utbol 15 14 5 9
Beisbol 12 22 6 6
Voleivol 5 5 9 5
Basquetbol 26 7 6 7
Natacion 7 8 4 2
(a) Que porcentaje de los estudiantes de primer semestre preeren el f utbol?
(b) Que porcentaje de los acionados a la natacion son de segundo semestre?
(c) Que porcentaje del total de los estudiantes preeren el basquetbol?
(d) Que porcentaje de los estudiantes son de cuarto semestre?
(e) Que porcentaje del total de estudiantes son de tercer o cuarto semestre?
(f) Que porcentaje preere la natacion, el voleibol o el beisbol?
13. Los siguientes datos representan las cuentas telef onicas mensuales, en miles de pesos, de
25 residentes de un peque no pueblo:
21,48 21,15 25,12 23,47 27,81 19,80 36,05 28,50 26,66
20,35 30,22 25,49 20,80 23,83 25,35 23,48 25,81 21,07
26,83 30,96 33,38 20,77 19,98 35,87 22,02
(a) Que porcentaje del grupo pago mas de 21.000 pesos?
(b) Que porcentaje pago mas de 22.000 pesos pero menos de 27.000 pesos?
14. Considere la distribuci on de frecuencias:
Clase 20-40 40-60 60-80 80-100 100-120
Frecuencia 14 23 15 20 28
Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acu-
muladas, un polgono de frecuencias absolutas y una ojiva de frecuencias acumuladas para
estos datos.
15. Los datos que se indican a continuacion representan el costo (en miles de pesos) de la
energa electrica durante un determinado mes del a no para una muestra aleatoria de 50
apartamentos en cierta ciudad importante:
1.2 Organizaci on de datos 31
128 144 168 109 167 141 149 206 175 123
153 197 127 82 96 171 202 178 147 102
135 191 137 129 158 108 119 183 151 114
111 148 213 130 165 157 185 90 116 172
143 187 166 139 149 95 163 150 154 130
(a) Obtenga una tabla de frecuencias con 7 intervalos de clase.
(b) Graque el correspondiente histograma de frecuencias, el polgono de frecuencias
relativas y la ojiva con frecuencias acumuladas relativas.
(c) Alrededor de que cantidad parece concentrarse el costo mensual de energa electrica?
(d) Seg un su opinion, cual de las gracas representa mejor la distribuci on de los costos
de energa electrica?
16. Se les pidio a 20 personas que identicaran su preferencia religiosa. Los resultados son:
C P P J J A J C P P C J J C P P A P C J
donde C denota catolico; P, protestante; J, judo y A, ateo. Construya una tabla de
frecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama de
barras, uno circular y un pictograma.
17. Los siguientes datos que aparecen a continuacion presentan los porcentajes de rentabilidad
de las acciones de 25 empresas.
30,8 20,3 24,0 29,6 19,4 38,0 24,5 21,5 25,6
30,8 32,9 30,3 39,5 13,3 28,0 19,9 24,6 32,3
30,7 20,3 24,7 18,7 36,8 31,2 50,9
Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tabla
responda las preguntas que se formulan en los siguientes incisos:
(a) Que porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
mayor que 34,25%?
(b) Cuantas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%
y 48,25%?
(c) Que porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
entre 34,25% y 41,25%?
(d) Cuantas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Seg un un estudio reciente, en cierto pas mueren cada a no 40.000 mujeres a causa del
cancer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y un
pictograma que represente esta informacion.
19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19
a nos. En 1.991, el n umero de nacimiento fue de 62,1 por cada mil mujeres de la misma
edad. Dibujar un diagrama de barras que represente esta informacion.
20. De las pelculas que estan en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% son pelculas de accion, otro 6% de ciencia cci on, el 10% son policiacas,
y el 4% son de terror. Construir un diagrama circular que represente esta informaci on.
21. La siguiente tabla se reere a los usos mas comunes citados en una encuesta realizada
a usuarios de computadores de peque nas y medianas empresas. Construir un diagrama
circular para representar esta informacion.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 32

Area Respuestas (%)


Contabilidad 22
Procesadores de texto 12
Hojas de calculo 16
Bases de datos 13
Puntos de venta 1
Telecomunicaciones 4
Otros 32
22. Un reporte sobre galletas reporto las siguientes calicaciones para varias marcas:
Integral: 32 53 50 65 45 40 56 44 62 32
30 40 50 56 30 22 56 68 41
No integral: 47 40 34 62 52 62 53 75 42
75 80 47 56 62 50 34 42 36
Construya una presentaci on comparativa de tallo y hoja, ponga en una lista los tallos (en
el centro de la pagina), las hojas integrales a la derecha y las hojas no integrales a la
izquierda. Describa las similitudes y diferencias para los dos tipos.
1.3 Analisis de datos en tablas de frecuencias no agru-
padas
A continuaci on, estudiaremos las medidas que describen el comportamiento de un con-
junto de datos. Estas medidas son: las de tendencia central (o de centralizaci on), las de
colocacion (o de posicion relativa), las de dispersi on (o de variabilidad) y las de forma.
Estas se pueden visualizar intuitivamente en las siguientes gracas (que corresponden a
las gracas de los llamados histogramas suavizados):
1.3 An alisis de datos en tablas de frecuencias no agrupadas 33
1.3.1 Medidas de tendencia central o de centralizacion
Al estudiar la informaci on estadstica mediante su representaci on graca, se puso en
evidencia un signicativo comportamiento de los datos en cuanto a la frecuencia con
que se presentan los valores: algunos de estos valores son mas frecuentes que otros.
Ademas, se observ o una clara tendencia de agrupaci on en el vecindario de los valores
mas frecuentes, haciendo que las gracas representativas adquieran formas especiales.
Por lo general, la mayor densidad de frecuencia esta en la parte central de las gracas,
de aqu deriva el nombre de medidas de tendencia central que se da a la media,
la mediana, la moda, el rango medio, la media geometrica, la media arm onica y la media
cuadratica. En esta secci on estudiaremos estas medidas de tendencia central.
Media
Denici on 1.3.1 La media aritm etica de cierto conjunto de n umeros se encuen-
tra sumando los n umeros y dividiendo despues entre la cantidad de datos. En otras
palabras, si x
1
, . . . , x
n
son n umeros, entonces, la media aritmetica de este conjunto
de n umeros est a dada por
Media aritmetica =
x
1
+ +x
n
n
.
En estadstica se habla de media aritm etica poblacional, y se simboliza por , cuando el con-
junto de datos corresponden a los de la poblacion; y de media aritm etica muestral, y se simboliza
por x, cuando se tienen en cuentan los datos de una muestra.
Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en a no de prin-
cipiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la media
aritmetica de estos datos es
x =
18 +18 +18 +18 +19 +19 +19 +20 +20 +21
10
= 19.
Generalmente, para calcular la media de un conjunto de datos, es mas c omodo utilizar la
llamada media aritmetica ponderada, la cual es un caso especial de la media aritmetica.
Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo que
puede ocurrir si se han organizado los datos en una tabla de frecuencias.
Denici on 1.3.3 Sea dada siguiente tabla de frecuencias no agrupadas:
Dato x
1
x
2
. . . x
n
Frecuencia f
1
f
2
. . . f
n
en donde f
i
es la frecuencia del dato x
i
. Entonces, la media aritm etica ponde-
rada o, simplemente, media artim etica, de los datos x
1
, . . . , x
n
se dene como
Media aritmetica =
x
1
f
1
+ +x
n
f
n
f
1
+ +f
n
.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 34
Ejemplo 1.3.4 La media aritmetica de los datos del ejemplo 1.3.2 se pueden calcular con
ayuda de la llamada media aritmetica ponderada. Para ello, organizamos estos datos en una
tabla de frecuencias no agrupadas, tal como
Dato 18 19 20 21
Frecuencia 4 3 2 1
Luego, aplicamos la denicion 1.3.3 y hallamos la media de los datos de la siguiente manera:
x =
(18)(4) + (19)(3) + (20)(2) + (21)(1)
4 +3 +2 +1
= 19.
Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del nal de
una distribuci on. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.
Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmetica, por eso son
de menor importancia te orica que ella. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmetica
que promedia todos los valores igualando en un justo reparto todas las observaciones,
es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan
los valores individuales, de lo que se desprende su utilidad e importancia en cierto tipo
de analisis.
Mediana
Denici on 1.3.5 Para datos medidos en al menos una escala de intervalo, la
mediana es el puntaje medio ordenado.
Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:
Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas
ordenado.
El valor de la mediana dependera del hecho de que n sea par o impar:
Si n es impar, entonces, la mediana sera el dato en el centro, es decir, la mediana es
el dato que se encuentra en el lugar
n+1
2
;
si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones
centrales, es decir, la mediana es el promedio de las datos que se encuentran en los
lugares
n
2
y
n
2
+ 1.
Notese que, por ejemplo,
n+1
2
no representa uno de los datos, sino el n umero de valores que
deben contarse para llegar a la mediana.
Ejemplo 1.3.6 El conjunto de n umeros 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puesto
que ya los datos estan ordenados, el n umero de datos es 9 (impar) y, en este caso, el 6 esta
ubicado en el centro (en el cuarto lugar).
1.3 An alisis de datos en tablas de frecuencias no agrupadas 35
Ejemplo 1.3.7 El conjunto de n umeros 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana
1
2
(9+11) =
10, puesto que ya los datos estan ordenados, el n umero de datos es 8 (par), el 9 y el 11 son
los dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos.
Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de
frecuencias.
Dato 0 1 2 3 4
Frecuencia 10 10 8 4 8
SOLUCION:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la me-
diana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran
en la tabla 1.9.
Dato Frecuencia Frecuencia acumulada
0 10 10
1 10 20
2 8 28
3 4 22
4 8 40
Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8
Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidas
que estan en las posicones
n
2
= 20 y
n
2
+1 = 21. Para encontrar la mediana recomendamos
contar los datos en direccion de la medida menor a la mayor. De la tabla es facil ver que el
dato en lugar 20 es 1 y que el dato en la posici on 21 es 2. Por tanto, la mediana es
Mediana =
dato en la posici on 20 + dato en la posici on 21
2
=
1 +2
2
= 1, 5.
Ventajas y desventajas de la mediana
El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas.
Una ventaja es que la mediana no se ve afectada por valores extremos al nal de la
distribuci on. La desventaja del uso de la mediana reside en que no es facilmente de-
terminable si el conjunto de datos es grande, puesto que las medidas deben ordenarse
primero y ponerse en orden numerico de menor a mayor o al contrario.
Moda
Denici on 1.3.9 La moda, si se da, es el dato con mayor frecuencia.
Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el dato
con mayor frecuencia.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 36
Ventajas y desventajas de la moda
Tiene dos ventajas: Para ciertas muestras peque nas, se le determina facilmente
y, en general, no se ve afectada por los valores extremos al nal de un conjunto
de datos ordenados. Cuando se analizan datos categ oricos, la moda es el unico
dato de tendencia central que puede utilizarse. Finalmente, la moda puede usarse
como una medida de tendencia central para datos numericos empleados en sentido
categ orico. Una moda para datos en una tabla de frecuencia, se encuentra loca-
lizando el valor de frecuencia maxima, si no todas las frecuencias son iguales. El
dato que corresponde al valor de frecuencia maxima se toma como la moda.
Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco m as popular es el A
(es decir, la moda es el refresco A), puesto que es el que m as se compra.
La moda tiene varias desventajas como medida de tendencia central: una de ellas
es que para un cierto conjunto de datos no puede haber moda. Esta situaci on
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja es que
la moda puede existir pero no ser unica.
Ejemplo 1.3.12 (a) El conjunto 3, 3, 5, 5, 7 y 7 no tiene moda.
(b) El conjunto 3, 3, 5, 5, 5, 7, 7, 7, y 9 tiene dos modas: el 5 y el 7.
Rango medio
Denici on 1.3.13 El rango medio de un conjunto de datos es el promedio de las
medidas mayor y menor.
Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 esta
dado por
Rango medio =
27 +45
2
= 36,
ya que 45 y 27 son los datos mayor y menor, respectivamente.
Ventajas y desventajas del rango medio
Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto para
analisis nanciero como para reportes metereol ogicos, porque puede proporcionar una
medida adecuada, rapida y sencilla que caracteriza a todo el conjunto de datos. No
obstante, a pesar de estas ventajas y de su sencillez, el rango medio se debe utilizar con
cuidado. Como solo incluye la observaci on mas peque na y la mas grande en un conjunto
de datos, el rango medio es una medida modicada de tendencia central si esta presente
un valor extremo. En estas situaciones, el rango medio no es apropiado.
Media geometrica
La media geom etrica es util para encontrar los cambios procentuales en una serie
de n umeros positivos, inclusive, para encontrar el promedio de proporciones, ndices, o
1.3 An alisis de datos en tablas de frecuencias no agrupadas 37
tasas de crecimiento. Tiene mucha aplicaci on en el comercio y en la economa porque
nos interesa encontrar el cambio porcentual en las ventas, salarios o datos econ omicos,
tales como el producto nacional bruto.
Denici on 1.3.15 La media geom etrica de un conjunto de n n umeros enteros
positivos se dene como la n-esima raz del producto de los n valores. Es decir,
la media geometrica de los n n umeros positivos x
1
, . . . , x
n
se calcula a traves de la
f ormula
Media geometrica = (x
1
x
n
)
1/n
.
Si estos n umeros positivos x
1
, . . . , x
n
tienen frecuencias (ponderaciones o pesos)
f
1
, . . . , f
n
, respectivamente, entonces, la media geom etrica (ponderada) de es-
tos n umeros viene dada por la (f
1
+ +f
n
)-esima raz del producto de los valores,
elevando cada uno a su respectiva frecuencia, es decir,
Media geometrica =
_
x
f
1
1
x
f
n
n
_
1/(f
1
++f
n
)
.
La media geometrica siempre sera menor que la media aritmetica salvo en el extra no caso en el que
todos los incrementos porcentuales sean iguales. Si esto ultimo sucede, las dos medias seran iguales.
Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de creci-
miento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de
creciemiento promedio es menor que el promedio industrial del 10%, se asumira una nueva
campa na publicitaria.
A no Ingreso (en d olares) Porcentaje del a no anterior
1.992 50.000
1.993 55.000 55/50 = 1, 10
1.994 66.000 66/55 = 1, 20
1.995 60.000 60/66 = 0, 91
1.996 78.000 78/60 = 1, 30
Tabla 1.10: Ingresos para una empresa
SOLUCION:
Primero es necesario determinar el porcentaje que los ingresos de cada a no representan
respecto de los obtenidos el a no anterior. En otras palabras, que porcentaje del ingreso de
1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre los
de 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de
1.992. Tambien se calculan los porcentajes para los tres a nos restantes. Tomando la media
geometrica de estos porcentajes da
Media geometrica = [(1, 10)(1, 2)(0, 91)(1, 3)]
1/4
= 1, 1179.
Restando 1 para convertirlo a un incremento anual promedio da 0,1179, o un incremento
promedio de 11,79% para el promedio de cinco a nos. Por otro lado, la media aritmetica es
x =
1, 1 +1, 2 +0, 91 +1, 3
4
= 1, 1275
1.3 An alisis de datos en tablas de frecuencias no agrupadas 38
o un cambio promedio de 12,75%. Se divide por 4 ya que se presentaron cuatro cambios
durante el periodo de cinco a nos. Sin embargo, si un incremento promedio de 12,75%, basado
en la media aritmetica, se aplica a la serie que comienza con 50.000 dolares, los resultados
son
50.000 dolares 1, 1275 = 56.375 dolares
56.375 dolares 1, 1275 = 63.563 dolares
63.563 dolares 1, 1275 = 71.667 dolares
71.667 dolares 1, 1275 = 80.805 dolares
Ya que 80.805 dolares excede los 78.000 que la empresa en realidad gan o, el incremento del
12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geometrica
del 11,79%, se obtiene
50.000 dolares 1, 1179 = 55.895 dolares
55.895 dolares 1, 1179 = 62.485 dolares
62.485 dolares 1, 1179 = 69.852 dolares
69.852 dolares 1, 1179 = 78.088 78.000 dolares
Esto da un valor de 78.088 dolares, lo que esta mucho m as cerca al ingreso real de 78.000
dolares.
Como interpretacion nal podemos decir lo siguiente. La media geometrica representa el
cambio promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio de
la industria del 10%, la nueva campa na publicitaria no se llevara a cabo.
Ejemplo 1.3.17 Dos pueblos determinados tienen un 48% y un 34%, respectivamente, de
poblacion masculina. Discutir la mayor conveniencia de la media geometrica para promediar
porcentajes.
SOLUCION:
La media aritmetica para estos porcentajes es
x =
48% +34%
2
= 41%
y la media geometrica,
G =

48% 34% = 40, 4%.


Ahora, la media aritmetica de los porcentajes recprocos es
x

=
1
48%
+
1
34%
2
=
0, 0208 +0, 0294
2
= 0, 0251
y la media geometrica es
G

=
_
1
48%

1
34%
=

0, 0208 0, 0294 = 0, 0247.


Debido a que
1
x
= 0, 02439 = 0, 0251 = x

y, en cambio,
1
G
=
1
40, 4%
= 0, 0247 = G

.
Debido a que
1
x
= x

y a que
1
G
= G

, podemos armar que la media geometrica es mejor


que la media artimetica para promediar porcentajes y proporciones.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 39
A continuaci on se presenta un ejemplo que ilustra el calculo de la media geometrica de
un conjunto de datos que aparecen en una tabla frecuencias no agrupadas.
Ejemplo 1.3.18 La media geometrica de la distribucion de frecuencias que aparece en la
tabla
Dato 1 3 4 6
Frecuencia 3 2 3 5
viene dada por
Media geometrica =
_
1
3
3
2
4
3
6
5
_
1/13
3, 248.
Media arm onica
Denici on 1.3.19 La media arm onica es el recproco de la media aritmetica de
los datos. Es decir, la media arm onica de los datos x
1
, x
2
, . . . , x
n
est a dada por
Media arm onica =
n
1
x
1
+
1
x
2
+ +
1
x
n
.
Si estos datos x
1
, . . . , x
n
tienen frecuencias (ponderaciones o pesos) f
1
, . . . , f
n
, res-
pectivamente, entonces, la media arm onica (ponderada) de estos datos viene
dada por
Media arm onica =
f
1
+f
2
+ +f
n
f
1
x
1
+
f
2
x
2
+ +
f
n
x
n
.
Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro a nos arroz a distintos
precios:
El primer a no a $ 1.200 el kilogramo.
El segundo a no a $ 1.400 el kilogramo.
El tercer a no a $ 1.600 el kilogramo.
El cuarto a no a $ 1.700 el kilogramo.
Hallar el costo promedio del arroz durante estos cuatro a nos, suponiendo que:
(a) El n umero promedio de kilos consumidos al a no por el ama de casa es constante.
(b) La cantidad de dinero gastado al a no es constante.
SOLUCION:
Aqu nos piden calcular el cociente
T := Costo promedio =
Costo total
Cantidad total comprada
.
(a) Si K representa al n umero de kilos consimidos cada a no, entonces, el costo promedio T
sera
T =
$ 1.200K + $ 1.400K + $ 1.600K + $ 1.700K
4K
=
$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700
4
= $ 1.475 por kilogramo,
1.3 An alisis de datos en tablas de frecuencias no agrupadas 40
lo cual no es m as que la media aritmetica de los precios.
(b) Ahora, sea D la cantidad de dinero gastado por a no. Entonces, en este caso, el costo
promedio T sera
T =
4D
D
$ 1.200
+
D
$ 1.400
+
D
$ 1.600
+
D
$ 1.700
=
4
1
$ 1.200
+
1
$ 1.400
+
1
$ 1.600
+
1
$ 1.700
=
$ 4
0, 00276
= $ 1.449, 27 por kilogramo,
lo cual no es m as que la media armonica de los precios.
La media arm onica tambien es util para promediar velocidades desarrolladas en distancias
iguales, como se ilustra en el siguiente
Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad
media de 60 kilometros por hora y regresa (por la misma va) a una velocidad media de 120
kilometros por hora. Hallar su velocidad media en el viaje completo.
SOLUCION:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que
recorre el auto de Cartagena a Barranquilla). Entonces,
Tiempo para ir de Barranquilla a Cartagena =
D
60km/h
,
Tiempo para ir de Cartagena a Barranquilla =
D
120km/h
.
Por consiguiente,
Velocidad media del viaje total =
distancia total
tiempo total
=
2D
D
60km/h
+
D
120km/h
=
2D
D
60km/h
+
D
120km/h
= 80km/h,
que corresponde
3
a la media armonica de 60 km/h y 120 km/h. Notemos que uno hubiera
estado tentado de calcular la media aritmetica de 60 km/h y 120 km/h obteniendo 45 km/h,
lo cual es incorrecto.
1.3.2 Medidas de colocacion o de posicion relativa
Denici on 1.3.22 Una medida de colocaci on o de posici on relativa para
una distribuci on de frecuencias es aquel valor para el cual una porci on especca de
la distribuci on queda en o debajo de el.
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posicion relativa.
3
Si las distancias recorridas no son iguales, se llega a una media armonica ponderada, en donde
las ponderaciones o pesos son las distancias.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 41
Percentiles
Denici on 1.3.23 El p- esimo (punto) percentil es un valor tal que por lo
menos un p% de los datos tienen dicho o menos de ese valor y, al menos, un
(100 p)% de los datos tienen este valor o m as.
Para calcular el p-esimo (punto) percentil de un conjunto de n datos, es importante tener
en cuenta los siguientes pasos:
Ordenar los datos de manera ascendente.
Calcular un ndice i a traves de la formula i = np/100, siendo p el percentil de interes y n,
la cantidad de datos.
Decidir de acuerdo a uno de los dos casos:
Si el ndice i no es entero, se redondea al entero siguiente. Este valor aproximado de
i indica la posicion del p-esimo percentil.
Si i es entero, el p-esimo percentil es el promedio de los valores de los datos ubicados
en las posicones i y i + 1.
Ejemplo 1.3.24 Calcule (a) el 85-esimo punto percentil y (b) el 50-esimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados
en una empresa:
2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380.
SOLUCION:
Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferi-
blemente, con ayuda de un diagrama de tallo y hojas):
2, 210 2, 255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550 2, 630 2, 825.
(a) Para determinar el 85-esimo punto percentil, calcular el ndice i = np/100, con p = 85
y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 no
es entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-esimo percentil es
el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el
85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el
25% de estos empleados ganan $2.630.000 o m as que este valor.
(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un n umero
entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y septimo
(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto
de datos. En conclusion, podemos decir que el 50% de los empleados tienen un salario
menor o igual (o mayor o igual) que $2.405.000.
Cuartiles
Como veremos en la siguiente denici on, los cuartiles son casos particulares de los per-
centiles.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 42
Denici on 1.3.25 Los cuartiles son las medidas de posici on relativa correspon-
diente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se
denen como sigue:
Q
1
= primer cuartil o 25-esimo percentil.
Q
2
= segundo cuartil o 50-esimo percentil o tambien mediana.
Q
3
= tercer cuartil o 75-esimo percentil.
Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCION:
Como Q
2
coincide con la mediana, entonces, Q
2
= 2, 405. Calculando los percentelis como
en el ejemplo 1.3.24 podemos vericar que
Q
1
=
2, 350 +2, 380
2
= 2, 365 y Q
3
=
2, 450 +2, 550
2
= 2, 500.
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil signica
que el 25% de los empleados gana al menos $2.365.000 o el 75%, gana m as de este salario y
el valor del tercer cuartil signica que el 75% de los empleados gana al menos $2.500.000 o
el 25%, gana m as de este salario.
Deciles
Al igual que los cuartiles, los deciles tambien son casos particulares de los percentiles.
Denici on 1.3.27 Los deciles son las medidas de posici on relativa correspondi-
ente a un conjunto de datos (ordenado ascendentemente) que est a dividido en diez
partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.
Hay nueve deciles, denotados por D
1
, D
2
, . . . y D
9
. Si D
n
es el n-esimo decil, entonces,
cada punto decil corresponde a un punto percentil. Por ejemplo, D
4
es el 40-esimo punto percentil,
D
7
es 70-esimo punto percentil, etc.
1.3.3 Medidas de dispersion o de variabilidad
Los datos que se presentan en la tabla 1.11 muestran los salarios anuales de siete su-
pervisores de ventas de una empresa y los de siete, de otra empresa. Observemos que
ambos conjuntos de datos tienen la misma media (33.500 d olares) y la misma mediana
(33.800 d olares).
Por tanto, si nos limitasemos a jarnos en las medidas de centralizaci on, no tendramos
base alguna para distinguir entre la distribuci on de los salarios en las dos empresas.
Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar en
la gura 1.9. Evidentemente que los datos del segundo conjunto estan mucho mas
dispersos que los del primero. Una medida de centralizaci on, casi nunca es suciente
por s sola, para analizar adecuadamente las caractersticas de un conjunto de datos. Por
1.3 An alisis de datos en tablas de frecuencias no agrupadas 43
Empresa 1: 34.500 30.700 32.900 36.000 34.100 33.800 32.500
Empresa 2: 34.000 27.500 31.600 39.700 35.300 33.800 31.700
Tabla 1.11: Salarios anuales (en d olares) de la plantilla de supervisores de ventas de
dos empresa.
(a) En la primera empresa
(b) En la segunda empresa
Fig. 1.9: Dispersi on de los salarios anuales de los empleados de dos empresas
(comp arese con los datos de la tabla 1.11)
lo general, necesitaremos, ademas, una medida de la dispersi on o variaci on de los datos,
entre las que analizaremos se encuentran el rango o recorrido, el rango intercuartil, la
desviacion, la varianza y la desviaci on estandar.
Rango
Es la medida de dispersi on mas simple. Esta medida ya ha sido utilizada en secciones
anteriores.
Denici on 1.3.28 El rango o recorrido de un conjunto de datos se dene
como la diferencia entre el dato m as alto y el m as bajo.
Su ventaja es que es facil de calcular. Su desventaja es que considera solo dos de la gran
cantidad de datos que hay en un conjunto (de datos), ignorando as el resto de los datos.
Ejemplo 1.3.29 El rango R del conjunto de datos del ejemplo 1.3.24 es
R = $2.825.000 $2.210.000 = $615.000.
Rango intercuartil
Una medida de dispersi on que elimina la inuencia de los valores extremos de los datos
es el rango intercuartil.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 44
Denici on 1.3.30 El rango intercuartil, simbolizado por R.I, es la diferencia
entre el tercer y el primer cuartil. Es decir,
R.I = Q
3
Q
1
.
El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los
datos y a la derecha, el 25% superior.
Ejemplo 1.3.31 Halle el rango intercuartil del conjunto de datos de la empresa 1 de la
tabla 1.11.
SOLUCION:
Para estos datos, el primer cuartil es 32.500 dolares y el tercer cuartil, 34.500 dolares. Por
lo tanto,
Rango intercuartil = 34.500 32.500 = 2.000 dolares.
Desviaci on
Denici on 1.3.32 La desviaci on de un dato se dene como la diferencia entre el
dato y la media del conjunto de datos de donde proviene dicho dato. Es decir, sean
dados los datos x
1
, . . . , x
n
. Entonces, la desviaci on del dato x
i
se dene como
Desviaci on del dato x
i
= x
i
x.
Una desviacion positiva para una medida, indica que la medida esta por encima de la media, mientras
que una desviacion negativa nos se nala que esta por debajo de la media. Una desviacion 0 para un
dato indica que el dato es igual a la media.
Ejemplo 1.3.33 Calcule la desviacion de los puntaje para los datos siguientes, que repre-
senten el n umero de defectos encontrados por un inspector de automoviles en una lnea de
ensamblaje en los ultimos cinco automoviles producidos: 1, 4, 6, 6 y 8.
SOLUCION:
Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores se
presentan en la tabla siguiente:
x x x
1 1-5 = -4
4 4-5 = -1
6 6-5 = 1
6 6-5 = 1
8 8-5 = 3
Podemos observar que
1. Las medidas 6 y 8 estan arriba de la media y sus desviaciones son positivas.
2. Las medidas 1 y 4 estan debajo de la media y sus desviaciones son negativas.
3. La suma de las desviaciones es 0.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 45
Una propiedad importante que podemos resaltar con respecto la desviaci on de un dato
es la siguiente:
Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjunto
de n umeros x
1
, . . . , x
n
es igual a cero. Esto es, (x
1
x) + + (x
n
x) = 0.
La desviacion de los valores puede usarse para describir la dispersi on de una distribuci on
dada de datos cuantitativos. Recordemos que la desviaci on de un valor representa
la diferencia entre un dato y la media del conjunto de datos del cual proviene. En
consecuencia, podramos pensar que el promedio de todas las desviaciones de los valores
proporciona una medida de la dispersi on de todos los valores, pero eso no ocurre, pues
ya se ha dicho en el teorema 1.3.34 que la suma de todas las desviaciones de los valores
es 0.
Varianza y desviaci on estandar (o tpica)
Aunque el rango es una medida de dispersi on total y el rango intercuartil es una medida
de la dispersi on de la media, ninguna de estas medidas de variaci on toma en cuenta
c omo se distribuyen o se agrupan las observaciones. Dos medidas de uso com un que
s toman en cuenta la distribuci on de los valores de los datos son la varianza y su raz
cuadrada, la desviacion estandar o tpica. Estas medidas eval uan la manera en que
uct uan los valores respecto a la media.
Denici on 1.3.35 La varianza de una poblaci on de valores se dene como
el promedio de los cuadrados de las desviaciones de los valores y se denota por
2
(lease sigma cuadrada). La varianza de la poblaci on de valores x
1
, . . . , x
n
est a
dada por la f ormula

2
=
(x
1
)
2
+ (x
2
)
2
+ + (x
n
)
2
n
.
La desviaci on est andar (o tpica) poblacional de un conjunto de datos, sim-
bolizada por , se dene como la raz cuadrada positiva de la varianza poblacional
de los datos. Es decir,
=
_
Varianza poblacional.
Por razones de comodidad en los calculos, para determinar la varianza de la poblaci on
se usa normalmente la formula que aparece en el siguiente
1.3 An alisis de datos en tablas de frecuencias no agrupadas 46
Teorema 1.3.36 La varianza de la poblaci on de valores x
1
, . . . , x
n
est a dada por

2
=
x
2
1
+x
2
2
+ +x
2
n
n

2
.
Esta formula es equivalente a la que se introdujo en la denicion 1.3.35 y puede recordarse facilmente
mediante la espresion: la media de los cuadrados menos el cuadrado de la media.
Ejemplo 1.3.37 Encuentre la varianza y desviacion de los datos 62, 80, 83, 72 y 73 si estos
constituyen una poblacion.
SOLUCION:
La media de estos datos es = 74. Por lo tanto, la varianza poblacional esta dada por

2
=
(62 74)
2
+ (80 74)
2
+ (83 74)
2
+ (72 74)
2
+ (73 74)
2
5
=
266
5
= 53, 2.
La desviacion estandar de estos datos es =

53, 2 = 7, 29.
Denici on 1.3.38 La varianza de una muestra con valores x
1
, . . . , x
n
se de-
nota por s
2
y se dene por
s
2
=
(x
1
x)
2
+ (x
2
x)
2
+ + (x
n
x)
2
n 1
.
La desviaci on est andar (o tpica) muestral de un conjunto de datos , deno-
tada por s, se dene como la raz cuadrada positiva de la varianza muestral de los
datos. Es decir,
s =

Varianza muestral.
Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra ma-
nera como se ilustra en el siguiente
Teorema 1.3.39 La varianza muestral de un conjunto de datos x
1
, . . . , x
n
se puede
calcular por
s
2
=
(x
2
1
+x
2
2
+ +x
2
n
) nx
2
n 1
.
Ejemplo 1.3.40 Encuentre la varianza y desviacion estandar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una poblacion.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral esta dada por
s
2
=
(62 74)
2
+ (80 74)
2
+ (83 74)
2
+ (72 74)
2
+ (73 74)
2
5 1
=
266
4
= 66, 5
y la desviacion muestral, por s =

66, 5 = 8, 15. Observemos c omo cambia el valor de la


varianza (y, por consiguiente, tambien la desviacion muestral) al considerar los datos como
una muestra o como una poblacion.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 47
Desviaci on media
Otro tipo de medida de dispersi on es la que se dene a continuaci on.
Denici on 1.3.41 La desviaci on media de un conjunto de datos es la media de
las desviaciones de cada dato. Es decir, la desviaci on media de los datos x
1
, . . . , x
n
se dene como
DM =
|x
1
x| + |x
2
x| + + |x
n
x|
n
.
La denicion es analoga para datos poblacionales. Observemos que la desviacion media esta medida
en las mismas unidades que la de los datos.
Ejemplo 1.3.42 Para la poblacion 2, 2, 4, 5 y 2 de las edades (en a nos) de cinco casas, la
media es x = 3, con lo que la desviacion media es DM = 6/5 = 1, 2 a nos. As, la edad de
cada casa diere de la media de la poblacion en un promedio de 1,2 a nos.
Ventajas y desventajas de la varianza, la desviaci on estandar y la desviaci on
media
Si la varianza se usa por s misma como medida descriptiva de la dispersi on, es difcil
interpretarla porque las unidades de la varianza son el cuadrado de las unidades de me-
dida. En otras palabras, la desviaci on estandar se mide con las mismas unidades que
las de los datos originales. Por esta raz on la desviaci on estandar se compara con mas
facilidad con el promedio y otros estadsticos que tienen las mismas unidades que los
datos originales.
A la hora de elegir una medida que describa la cantidad de dispersi on de un conjunto
de datos, la desviacion media tiene dos ventajas frente a la desviaci on tpica. En primer
lugar, es mas facil de interpretar conceptualmente. Es mas sencillo conceptuar el
promedio de las desviaciones respecto de la media que la raz cuadrada del promedio
del cuadrado de las desviaciones respecto de la media. En segundo lugar, dado que en
el calculo de la varianza y de la desviaci on tpica se elevan al cuadrado las desviaciones
individuales, estas dos medidas se veran mas inuenciadas por observaciones extremada-
mente grandes o extremadamente peque nas que la desviaci on media. A pesar de sus
ventajas, la desviacion media se emplea con poca frecuencia en la practica, debido a las
complicaciones que pueden surgir si se usa para hacer inferencias sobre una poblaci on a
partir de las observaciones de una muestra.
La varianza y la desviacion estandar tienen una limitaci on seria: pueden verse afec-
tadas en presencia de observaciones aberrantes, pues ambas dependen de la media, que
se modica por las medidas extremas. Cuando en un conjunto de datos estan presentes
observaciones aberrantes y se requiere una medida resistente a ellas, debe utilizarse el
rango intercuartil.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 48
Varianza y desviaci on tpica para datos en tablas de frecuencia
A menudo tendremos ocasi on de encontrar la varianza y la desviaci on estandar para
datos desplegados en una tabla de frecuencia.
Denici on 1.3.43 Las varianzas poblacional y muestral (ponderadas) de
un conjunto de datos x
1
, . . . , x
n
con frecuencias f
1
, . . . , f
n
se calculan mediante las
siguientes f ormulas:

2
=
f
1
(x
1
)
2
+ +f
n
(x
n
)
2
f
1
+ +f
n
, s
2
=
f
1
(x
1
)
2
+ +f
n
(x
n
)
2
(f
1
+ +f
n
) 1
.
Estas medidas se pueden calcular, equivalentemente, de la siguiente manera:

2
=
f
1
x
2
1
+ + f
n
x
2
n
f
1
+ + f
n

2
, s
2
=
_
f
1
x
2
1
+ + f
n
x
2
n
_
(f
1
+ + f
n
)x
2
(f
1
+ + f
n
) 1
,
respectivamente.
Ejemplo 1.3.44 Dados los siguientes datos de una poblacion, hallar la media, varianza y
desviacion estandar.
Dato 28 31 34 37 40 43 46
Frecuencia 1 10 14 33 14 7 3
SOLUCION:
Primero construimos la tabla 1.12 que nos ayudar a en los c alculos.
Dato x Frecuencia f fx x (x )
2
f(x )
2
28 1 28 -9 81 81
31 10 310 -6 36 360
34 14 476 -3 9 126
37 33 1.221 0 0 0
40 14 560 3 9 126
43 7 301 6 36 252
46 3 138 9 81 243
Sumas 82 3.034 1.188
Tabla 1.12: Tabla de frecuencias para el ejemplo 1.3.44
Se encuentra que la media poblacional es
=

fx

f
=
3.034
82
= 37.
Ademas,

2
=

f(x )
2

f
=
1.188
82
= 14, 4878
y de esta forma =

14, 4878 = 3, 806.


1.3 An alisis de datos en tablas de frecuencias no agrupadas 49
Aplicaciones de la desviaci on estandar poblacional
Hasta ahora, hemos visto que la varianza y la desviaci on estandar son muy utiles para
comparar la dispersi on de dos poblaciones. Pero tambien podemos interpretar la desvia-
ci on de una unica poblaci on. Concretamente, puede usarse esta cantidad para estimar
el porcentaje de valores de la poblaci on que se encontraran a menos de una distancia
especca de la media. Para construir tales estimaciones, utilizaremos dos reglas: la
regla de Tchebychev (valida para cualquier poblaci on) y la emprica.
Teorema 1.3.45 (Regla de Tchebychev) Para cualquier poblaci on con media
y desviaci on est andar , por lo menos el 100(11/k
2
)% de los valores de la poblaci on
se encuentran a una distancia de la media menor que k veces la desviaci on est andar,
para cualquier n umero k > 1. En otras palabras, dentro del intervalo que va desde
k hasta +k se encuentra por lo menos el 100(1 1/k
2
)% de los valores de
la poblaci on.
Para ver como funciona la regla de Tchebychev en la practica, hemos construido la
siguiente tabla:
k 1,5 2 2,5 3 3,5 4
100(1 1/k
2
)% 55,6% 75% 84% 88,9% 91,18% 93,7%
Es decir, de acuerdo con la regla de Tchebychev, al menos el 55,6% de los valores
de la poblaci on se encuentran a una distancia de la media menor que 1,5 veces de la
desviacion tpica. O, dicho de otra forma, dentro del intervalo que va desde 1, 5
hasta +1, 5 se encuentra por lo menos el 55, 6% de los valores de la poblaci on. Esta
situacion se ilustra en la gura 1.10.
Fig. 1.10: Ilustraci on de la regla de Tchebychev
1.3 An alisis de datos en tablas de frecuencias no agrupadas 50
Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tena una
media de 33.000 dolares y una desviacion estandar de 1.554 dolares. La regla de Tchebychev
nos dice que, para esta poblacion, al menos el 55% de los salarios deben estar a una distancia
de la media menor que (1,5)(1.554)=2.331 dolares. En otras palabras, dentro del intervalo
que va desde 31.169 dolares a 35.831 dolares estan por lo menos el 55,6% de los salarios.
Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dolares se encuentran por
lo menos el 75% de los salarios.
Ejemplo 1.3.47 Un inspector de control de calidad selecciona aleatoriamente 14 clavos de
una caja de 100 clavos de 1 pulgada (una pulg.=2,54 cm). Las longitudes, en cm, son
2, 54 2, 55 2, 50 2, 60 2, 51 2, 52 2, 70 2, 40 2, 36 2, 53 2, 54 2, 52 2, 51 2, 55.
Si el inspector decide excluir los clavos que estan fuera del intervalo x 2s, cual es el
porcentaje de clavos excluidos? Se verica la regla de Tchebychev?
SOLUCION:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que estan fuera
del intervalo x 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese
intervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla
de Tchebychev arma que por lo menos el 75% de los clavos deber an estar en el intervalo
x 2s, es decir, a lo m as el 25% estar an fuera de dicho intervalo, lo cual verica la regla de
Tchebychev.
La ventaja de la regla de Tchebychev es que se puede aplicar a cualquier poblaci on.
Pero, en contrapartida, tiene un importante inconveniente. Para muchas poblaciones, el
porcentaje de valores que se encuentran de un intervalo determinado es mucho mayor
que el mnimo asegurado por la regla de Tchebychev. Para poblaciones que tengan
forma acampanada, es posible establecer una regla emprica que proporcione estima-
ciones ables.
Teorema 1.3.48 (Regla emprica) Para las poblaciones que tengan forma acam-
panada, aproximadamente el 68% de los valores de la poblaci on se encuentran a una
distancia de la media menor que una desviaci on est andar, y aproximadamente el
95% est an a una distancia de la media menor que dos veces la desviaci on tpica
(comp arese con la gura 1.11).
Ejemplo 1.3.49 Supongamos que tenemos una poblacion de salarios que tienen forma
acampanada con una media de 33.000 dolares y una desviacion estandar de 1.554 dolares.
La regla emprica estimara que aproximadamente el 68% de los salarios estar an dentro del
intervalo que va desde 31.946 d olares a 35.054 y que aproximadamente el 95% estar a dentro
del intervalo que va desde 30.392 a 36.608 dolares.
El coeciente de variaci on
Para comparar las dispersiones de dos o mas conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estandar respectivas, puesto que estos coe-
cientes de dispersi on vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa inuencia convirtiendo dichos valores en n umeros sin
1.3 An alisis de datos en tablas de frecuencias no agrupadas 51
(a) El 68% de los datos se encuentran en el intervalo (
1, + 1).
(b) El 95% de los datos se encuentran en el intervalo (
2, + 2).
Fig. 1.11: Ilustraci on de la regla emprica para una poblaci on con forma acampanada
unidades de medidas. Una medida que cumple perfectamente con este cometido es el
llamado coeciente de variaci on de Pearson.
Denici on 1.3.50 El coeficiente de variaci on de Pearson de un conjunto
de datos, simbolizado por CV, es igual a la desviaci on est andar dividida entre la
media, multiplicada por 100 por ciento. Es decir,
CV =
_
desviaci on est andar de los datos
media aritmetica de los datos
_
100%.
Observemos que al dividir la desviaci on estandar por la media aritmetica se elimina la
1.3 An alisis de datos en tablas de frecuencias no agrupadas 52
inuencia de la escala de medida, convirtiendose as el coeciente de variaci on en una
medida util para comparar conjuntos de datos con diferentes unidades de medida. El
inconveniente de este coeciente esta en que deja de ser utilizable cuando la media es
igual a cero.
El siguiente ejemplo ilustra el calculo del coeciente de variaci on.
Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galon diario
por cinco das para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeciente de
variaci on e interprete su respuesta.
SOLUCION:
La media y desviacion estandar de millas por galon estan dadas por x = 25 y s = 7, 9,
respectivamente. Por tanto, el coeciente de variaci on de estos datos es
CV =
_
s
x
_
100% =
_
7, 9
25
_
100% = 31, 6%.
Por consiguiente, el tama no relativo de la dispersion media alrededor de la media con
relacion a la media es 31,6%.
Como medida relativa, el coeciente de variaci on resulta especialmente util cuando se
compara la variabilidad de dos o mas conjuntos de datos, que se expresan en diferentes
unidades de medidas. Esto se muestra en el siguiente
Ejemplo 1.3.52 El gerente de operaciones de un servicio de paquetera desea adquirir una
nueva ota de autos. Cuando los paquetes se guardan con eciencia en el interior de los
autos (durante la preparacion de las entregas), se deben considerar dos restricciones prin-
cipales: el peso (en libras) y el volumen (en pies c ubicos) de cada paquete. Ahora, en una
muestra de 200 paquetes, el peso promedio es 26 libras con una desviacion estandar de 3,9
libras. Ademas, el volumen promedio de cada paquete es 8,8 pies c ubicos con una desviacion
estandar de 2,2 pies c ubicos. C omo se puede comparar la variaci on del peso y del volumen?
SOLUCION:
Como las unidades de medida dieren para las restricciones de peso y volumen, si el
gerente de operaciones desea comparar las uctuaciones en estas medidas, debe conside-
rar la variabilidad relativa en ambos tipos de medidas. Para el peso, el coeciente de
variaci on es CV = (3, 9/26)100% = 15%; para el volumen, el coeciente de variaci on es
CV = (2, 2/8, 8)100% = 25%. Entonces, con relacion a la media, el volumen de un paquete
es mucho m as variable que su peso porque el coeciente de variaci on del peso es menor que
el del volumen.
El coeciente de variacion es muy util cuando se comparan dos o mas conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparaci on
directa de las desviaciones estandar respectivas no ayuda mucho. Esto se ilustra en el
siguiente
Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compa nas
A o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compa nas ofrece
dividendos a sus clientes y ambas tienen igual clasicacion (seg un varios servicios de in-
version) en terminos de crecimiento potencial, el posible inversionista quiz as considere la
volatilidad (variabilidad) de ambas acciones para ayudar en la decision de inversion. En los
ultimos meses, el precio promedio de las acciones en la compa na A fue de 50 dolares con una
desviacion estandar de 10 dolares. Ademas, durante el mismo periodo, el precio promedio
1.3 An alisis de datos en tablas de frecuencias no agrupadas 53
de las acciones en la compa na B fue de 12 dolares con una desviacion estandar de 4 d olares.
C omo puede determinar el inversionista cu ales acciones son m as variables?
SOLUCION:
En terminos de la desviacion estandar, el precio de las acciones de A parece m as vol atil
que el de las acciones de B. Sin embargo, como los precios promedio por accion de las dos
compa nas son tan diferentes, sera conveniente que el inversionista potencial considere la
variabilidad en precio respecto al promedio a n de examinar la volatilidad/estabilidad de
ambas acciones.
Para la compa na A, el coeciente de variaci on es CV = (10/50)100% = 20%; para la
compa na B, el coeciente de variaci on es CV = (4/12)100% = 33, 3%. Entonces, en relaci on
con la media, el precio de las acciones B es mucho m as variable que el de las acciones A.
1.3.4 Medidas de formas
Una vez iniciado el analisis estadstico de sintetizaci on de la informaci on, para lo cual
hemos estudiado las medidas de tendencia central, de posici on relativa y de dispersi on de
un conjunto de datos, necesitamos conocer mas sobre el comportamiento de tales datos.
Para ello estudiaremos las medidas de forma, las cuales nos proporcionan informaci on
sobre c omo se distribuyen los datos.
Las medidas de forma se clasican en medidas de asimetra (o coeciente de sesgo)
y medidas de curtosis (o de apuntamiento). A continuaci on, explicaremos cada una de
ellas. Antes, estudiaremos los conceptos de simetra y asimetra.
Simetra y asimetra
Una distribuci on de frecuencias sera simetrica o asimetrica seg un lo sea su representaci on
graca.
Denici on 1.3.54 Decimos que una distribuci on de frecuencias es sim etrica
cuando lo es su representaci on gr aca, es decir, los datos equidistantes a una
medida central de la misma tienen frecuencias iguales. Esta medida central coincide
con la mediana y la media.
Una distribuci on de frecuencias que no es simetrica, se denomina asim etrica. La
asimetra se puede presentar a la derecha ( asimetra positiva) o a la izquierda
( asimetra negativa) si la representaci on gr aca est a m as estirada hacia la
derecha o hacia la izquierda, respectivamente.
Los conceptos explicados en la deci on se ilustran en la gura 1.12. Ahora, consideremos
los siguientes comentarios para el caso en que la distribuci on de frecuencias tiene una
sola moda:
En una distribuci on simetrica, la media, la media y la moda siempre coinciden
(comparese con la gura 1.13a). Es decir, se cumple la relaci on
Media = mediana = moda.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 54
(a) Distribucion simetrica uni-
modal
(b) Distribucion simetrica bi-
modal
(c) Distribucion asimetrica a
la derecha
(d) Distribucion asimetrica a
la izquierda
Fig. 1.12: Comparaci on de cuatro distribuciones cuya forma diere.
En este tipo de distribuciones, los datos se encuentran repartidos a lo largo del
recorrido de forma que todas las medidas de tendencia central estan justo en el
centro del conjunto de datos.
Si la distribuci on es asimetrica a la derecha el orden en que aparecen las medidas
de tendencia central es moda-mediana-media (comparese con la gura 1.13b). Es
decir, se cumple la relaci on
Moda < mediana < media.
Esto es as porque es en el lado derecho d onde se concentra la mayor frecuencia de
los datos, por lo tanto, observamos una cola larga a la derecha de la distribuci on.
Si la distribuci on es asimetrica a la izquierda, el orden en que aparecen es media-
mediana-moda (comparese con la gura 1.13c). Es decir, se cumple la relaci on
Media < mediana < moda.
En este caso, la mayor frecuencia de los datos se concentra en el lado izquierdo.
Por lo tanto, observamos una cola larga hacia la izquierda de la distribuci on.
Consideremos el caso en que la distribuci on no es unimodal :
Para distribuciones que no tengan moda, si la media es igual a la mediana, en-
tonces, la representaci on graca de la distribuci on es simetrica.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 55
Para distribuciones que tengan mas de una moda, la media es igual a la mediana
si y solo si la representaci on graca de la distribuci on es simetrica.
(a) Distribucion simetrica (b) Distribucion asimetrica a la derecha
(c) Distribucion asimetrica a la izquierda
Fig. 1.13: Comparaci on de tres distribuciones unimodales cuya forma diere.
Medidas de asimetra
Las medidas de asimetra o coeficientes de sesgo tienen como nalidad la
de elaborar un indicador que permita establecer el grado de simetra (o asimetra) que
presenta una distribuci on, sin necesidad de llevar a cabo su representaci on graca. La
medida de asimetra mas utilizada en la practica es el llamado coeciente de asimetra
de Pearson.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 56
Denici on 1.3.55 El coeficiente de asimetra de Pearson, simbolizado por
A
p
, se dene como la diferencia entre la media aritmetica y la mediana dividida por
la desviaci on est andar. Es decir,
A
p
=
Media aritmetica Moda
Desviaci on est andar
.
Cuando A
s
= 0, se dice que la distibucion es simetrica; cuando A
s
> 0, se dice que la distribucion
es sesgada positivamente o a la izquierda y cuando A
s
> 0, se dice que la distribucion es
sesgada negativamente o a la derecha.
Consideremos la gura 1.13, en donde mostramos la forma de tres conjuntos de datos.
Los datos en la gura 1.13(a) son simetricos. Por esta raz on, el coeciente de
sesgo es cero.
Los datos de la gura 1.13(b) estan sesgados a la derecha. Por lo tanto, el
coeciente de sesgo es positivo.
Los datos de la gura 1.13(c) estan sesgados a la izquierda. Por consiguiente, el
el coeciente de sesgo es negativo.
Ahora bien, por diversas razones, el coeciente de asimetra de Pearson tan s olo es apli-
cable en las distribuciones de forma acampanada y unimodales . En distribuciones de
otro tipo se puede utilizar, entre otros, los llamados coeciente de asimetra de Fisher
y coeciente de asimetra de Fisher estandarizado.
Denici on 1.3.56 Los coeficientes de asimetra de Fisher (simbolizado por
g
1
) y de Fisher estandarizado (simbolizado por g
s
) de un conjunto de datos
x
1
, . . . , x
n
con frecuencias f
1
, . . . , f
n
se denen, respectivamente, como
g
1
=
(x
1
x)
3
f
1
+ + (x
n
x)
3
f
n
s
3
n
, g
s
=
g
1
_
6/n
.
Si g
1
= 0 la distribucion es simetrica; si g
1
> 0, la distribucion es sesgada positivamente, y si
g
1
> 0, la distribucion es sesgada negativamente. Interpretaciones analogas se tienen con el valor
de g
s
.
Relaci on emprica entre media, mediana y moda
El siguiente terema fue encontrado empricamente por Pearson. All se puede observar
claramente una relaci on emprica entre la media, la mediana y la moda.
4
4
Tengase en cuenta que, en las distribuciones moderadamente asimetricas, la mediana siempre
se sit ua entre la media y la moda.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 57
Teorema 1.3.57 Para distribuciones campanoides, unimodales y moderadamente
asimetricas se cumple aproximadamente la relaci on emprica
Media Moda 3(Media aritmetica Mediana),
Con lo anterior, el coeciente de asimetra de Pearson se puede calcular tambien a
traves de la f ormula
A
p
=
3(Media aritmetica Mediana)
Desviaci on est andar
.
Medidas de curtosis o apuntamiento
Las medidas de curtosis estudian la distribuci on de frecuencias en la zona central de la
misma. La mayor o menor concentraci on de frecuencias alrededor de la media y en la
zona central de la distribuci on dara lugar a una distribuci on mas o menos apuntada. Por
esta raz on, a las medidas de curtosis se aplican a distribuciones campaniformes, es decir,
unimodales simetricas o con ligera asimetra. Para estudiar la curtosis de una distribuci on
es necesario denir previamente una distribuci on tipo, que vamos a tomar como modelo
de referencia. Esta distribuci on es la normal, que s olo introduciremos en la secci on ??.
Por esta raz on, aplazaremos nuestro estudio de la curtosis de una distribuci on para mas
adelante, una vez que hallamos introducido la distribuci on normal.
Ejercicios de la seccion 1.3
23. Responda las siguientes preguntas. Justique sus respuestas.
(a) Que escala de medida se requiere para la mediana? Y para la moda?
(b) En que condiciones coinciden la media, la mediana y la moda de una muestra?
(c) En que caso sera demasiado grande la diferencia entre la media y la mediana?
(d) Que efecto tiene el tama no de la muestra en la desviacion estandar y en la varianza?
24. Supongamos que en un conjunto de 10 observaciones la media es 20 y la mediana es 15.
Si hay en ese conjunto dos seis, y todos los otros valores son diferentes, cual es la moda?
25. Veinti un personas en un salon de clase tienen altura promedio de 168 centmetros. Si al
salon entra una persona adicional, entonces, cual es la altura que debe tener esta persona
para que la altura promedio se incremente en un centmetro?
26. Una empresa de servicio electrico de una ciudad le realiza la lectura del contador de luz a
un usuario, obteniendo los siguientes datos:
Fecha Lectura
Agosto 27 00553 Kwh
Agosto 30 00571 Kwh
Septiembre 4 00605 Kwh
El recibo de pago le llego al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,
pero la empresa no dejo constancia de lectura, hecho que motiv o el reclamo del usuario
alegando que le estaban cobrando de mas. Tiene la raz on el usuario? Explique.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 58
27. Un piloto A de la Formula 1 gano 60 carreras de las 152 en las cuales participo, mientras
que otro piloto B gano 52 carreras de las 115 en las que participo. Cual de los dos es
mejor piloto? Explique su respuesta.
28. Durante cierto da caluroso en Barranquilla, se registro una temperatura de 38

C a las
3:00 p.m. De repente un viento fro se hizo acompa nado con lluvias que hizo descender
la temperatura a 25

C a las 3:35 p.m. Se puede armar que la temperatura promedio de
ese da fue de 31,5

C? Justique sus respuestas.
29. Seg un el recibo de energa electrica, los consumos de los ultimos cinco meses de un usuario
son: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega con
una lectura estimada (no real) de 50 Kwh. Debe el usuario reclamar ante la empresa de
energa electrica? Por que?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen
de ventas durante el perodo de navidad y se comparan con las obtenidas en el mismo
perodo del a no anterior. Los porcentajes de incrementos de ventas en dolares de los diez
establecimiento fueron
10,2 3,1 5,9 7,0 3,7 2,9 6,8 7,3 8,2 4,3
Halle la media, la mediana, la varianza muestral, la desviacion tpica, el rango y el rango
intercuartil del porcentaje de incremento de ventas en dolares. Interprete sus respuestas.
31. Los neumaticos de cierta marca tiene una duracion de vida con media de 29.000 kilometros
y desviacion tpica de 3.000 kilometros.
(a) Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menos
el 75% de los tiempos de vida de los neumaticos de esta marca.
(b) Usando la regla imprica y suponiendo que la poblacion tiene forma acampanada,
encontrar un intervalo en el cual se estime que se encuentra aproximadamente el 95%
de los tiempos de vida de los neumaticos de esta marca.
32. Se ha estimado, que la media de la cantidad de dinero que gastan en ropa las mujeres
colombianas es de 500.000 pesos, mientras que para los hombres, la media es de 350.000
pesos. Dibujar un diagrama de barras que represente esta informacion.
33. Considere las siguientes observaciones de resistencia al corte (en megapascales), de una
union pegada de cierta manera:
73,7 36,6 109,9 4,4 33,1 66,7 30,0 81,5 22,2 40,4 16,4
Determine el valor de la media y mediana muestrales. Por que la mediana es tan diferente
de la media?
34. Los valores de presion sangunea se reportan a veces a los 5 mm Hg mas cercanos (100,
105, 110, etc.). Suponga que los valores reales de presion sangunea para nueve individuos
seleccionados al azar son:
130,0 113,7 122,0 108,3 131,5 133,2 118,6 127,4 138,4
(a) Cual es la mediana de los valores reportados de presion sangunea?
(b) Suponga que la presion del octavo individuo es 127,6 en lugar de 127,4 (un peque no
cambio en su valor). Como afectara esto a la mediana de los valores reportados?
Que dice esto sobre la sensibilidad de la mediana para redondear o agrupar los datos?
1.3 An alisis de datos en tablas de frecuencias no agrupadas 59
35. La propagaci on de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en a nos recientes. Los datos que aparecen a continuacion constan de
tiempo de propagaci on (horas de vuelo/10
4
) para llegar a un tama no de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
0,915 0,937 0,983 1,007 0,736 0,863 0,865 0,913
1,132 1,140 1,153 1,253 1,394 1,011 1,064 1,109
(a) Calcule los valores de la media y mediana muestrales.
(b) En cuanto se puede reducir la observaci on muestral mas grande, sin afectar el valor
de la mediana?
36. Una manifestacion interesante de la variacion surge cuando se efect uan los analisis de
emision de gases en los vehculos automotores. Los requisitos de costo y tiempo del
procedimiento federal de prueba (PFT) en cierto pais evitan la difusion de su uso en los
programas de inspeccion vehicular. Como resultado, muchas agencias han desarrollado
analisis menos costosos y mas rapidos con la esperanza de reproducir los resultados.
Seg un un artculo de una prestigiosa revista, se dice que la eceptaci on del PFT como
patron de excelencia ha conducido a la creencia de que las mediciones repetidas en el
mismo vehculo daran resultados identicos (o casi). Los autores del artculo aplicaron el
PFT a siete vehculos caracterizados como grandes emisores. Los resultados de uno de
esos vehculos son los siguientes:
HC (g/mi) 32,2 32,5 13,8 18,3
CO (g/mi) 232 236 118 149
(a) Calcule las desviaciones estandar muestrales de las observaciones de HC y CO. Parece
justicada la creencia general?
(b) Compare los coecientes de variacion de cada conjunto de datos para determinar
cuales presentan mayor o menor variacion.
37. Los puntajes nales de 20 alumnos en un curso de Estadstica son:
50 55 61 60 71 73 53 54 67 67
54 77 72 76 81 83 87 44 48 67
Que proporcion de estos puntajes cae
(a) dentro de 1 desviacion estandar de la media?
(b) dentro de 2 desviaciones estandar de la media?
(c) dentro de 3 desviaciones estandar de la media?
38. Un taller de mecanica acepta una orden por 10.000 ruedas de 2 pulgadas de diametro.
Las especicaciones de tama no del producto podran ser mantenidas solo si el diametro
medio es de 2 pulgadas y la desviacion estandar es muy peque na. En este caso, cual es
el margen de tolerancia permitido para la desviacion estandar?
39. Un procesador de alimentos debe envasar su cafe instantaneo en frascos de 400 gramos
y para ello considera que la operacion de llenado esta funcionando adecuadamente si el
peso medio de cada frasco es de 405 gramos y la desviacion estandar es de 1 gramo.
Aproximadamente, cuantos frascos contienen menos de 400 gramos?
40. Millones de habitantes de un cierto pais se levantan cada ma nana y trabajan en sus propias
casas. Se sugiere que el uso creciente de computadoras es una de las razones por las que
las personas pueden trabajar en empresas caseras. A continuacion vemos una muestra de
datos sobre las edades de esas personas.
1.3 An alisis de datos en tablas de frecuencias no agrupadas 60
57 31 30 41 22 58 24 50 29 52
37 32 44 49 29 44 40 46 29 31
(a) Calcule la media y la moda.
(b) Suponga que se sabe que la mediana de edad de la poblacion de todos los adultos
es de 35.1 a nos. Use la mediana de la edad de los datos anteriores para comentar si
los trabajadores en casa tiende a ser mas jovenes o mas viejos que la poblaci on de
todos los adultos.
(c) Calcule el primer y el tercer cuartil y el 42% percentil. Interprete sus resultados.
41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400
millas, en condiciones de transito en ciudad y en el campo; de lo anterior se obtuvieron
los siguientes datos en millas por galon.
Ciudad: 14,4 13,2 15,3 16,8 16,2 16,7 15,9
16,0 15,3 16,2 16,1 15,3 15,2
Campo: 18,3 18,6 19,2 17,4 19,4 20,6 17,2
18,6 18,5 18,7 19,0 21,1 19,4
Para llegar a una conclusion sobre la diferencia de rendimiento en la ciudad y en el campo,
use la media, la mediana y la moda.
42. La asociacion de Inversionistas Independientes de cierto pais lleva a cabo una encuesta
anual de descuentos con los corredores. En la tabla de datos del ejercicio ?? se ven las
comisiones que se cobran en una muestra de 20 corredores con dos tipos de operaciones:
500 acciones a $ 50 cada una, y 1.000 acciones a $ 5 cada una. Calcule el rango, el rango
intercuartil, la varianza, la desviacion estandar, el coeciente de variacion y la variabilidad
del costo para cada tipo de transacion.
43. La profesora Greyci borra accidentalmente la calicacion de uno de sus seis estudiantes; las
cinco calicaciones restantes son 3,8; 4,3; 2,2; 4,5 y 3,3; y la media de las seis calicaciones
es 3,5. Encuentre la calicacion que borr o Greyci.
44. En un esfuerzo por reducir su consumo de cigarillo, un trabajador de ocina registra los
n umeros siguientes de cigarillos fumados durante un periodo de 21 das:
5 6 5 8 4 0 2 3 7 5 6 4 5 3 6 7 1 2 3 0 3
Que la medida de tendencia central le servira mejor para su proposito? Cual es su valor
numerico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.
Salario anual 550 600 700 800 3.000
Frecuencia 8 6 7 5 4
(a) Determine la moda, la media, la mediana, el rango medio y el sesgo.
(b) Cual medida de tendencia usara para determinar el valor central? Explique.
(c) Cual es el primer cuartil, el tercer cuartil y el sexto decil?
(d) Encuentre el rango, la desviacion estandar y el rango intercuartil.
46. Una maestra hizo un examen con el mismo grado de dicultad en cada uno de sus tres
grupos. Con los resultados determino las tres medianas y las promedio para estimar el
punto central de su habilidad profesional. Puede enga narse al hacer esto? Diga por que.
47. Suponga que una muestra tiene media 26 y desviacion estandar 3,1.
1.4 An alisis de datos en tablas de frecuencias agrupadas 61
(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) Cual es el mnimo porcentaje de la muestra que esta contenido en el intervalo 18 -
34?
48. Suponga que una muestra tiene media 542 y desviacion estandar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) Cual es el mnimo porcentaje de la muestra que esta contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.
Humberto 0,8 0,9 1,0 0,9 1,0 1,0 0,9 1,0
Greyci 1,1 0,9 1,4 1,3 1,3 1,3 1,0 0,9
(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respecti-
vamente.
(c) Que auto tuvo un desempe no mas consistente, si la consistencia se mide con la
varianza?
(d) Encuentre el coeciente de variacion para cada carro y comente al respecto.
50. Una gran lechera vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviacion estandar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registro
el porcentaje grasa en cada uno. Los resultados se anotan a continuacion:
1,97 1,80 2,05 2,23 1,65 1,86 1,85 2,25 2,01 1,90
2,14 1,93 2,08 2,17 1,91 1,93 2,02 2,09 2,04 2,07
Calcule la media y la desviacion estandar para la muestra de contenidos de grasa. Hay
evidencia de que el contenido de grasa es demasiado alto? Explique.
1.4 Analisis de datos en tablas de frecuencias agrupadas
Es posible calcular las medidas de tendencia central y dispersi on para datos exhibidos
en una tabla de frecuencia agrupada, pero sus valores no son exactos sino unicamente
aproximados. Eso se debe al desconocimiento de las medidas en grupo, las cuales se
han colocado en intervalos de clase. En esta secci on, describiremos procedimientos
para calcular medidas numericas que resuman la informaci on cuando s olo disponemos
de datos agrupados.
Media para datos agrupados
Si debemos encontrar la media para datos proporcionados en tablas de frecuencia agru-
pada, usamos marcas de clase para representar las medidas para cada clase. De esta
forma, usamos la formula conocida de la media aritmetica para determinar la llamada
media muestral aproximada x
a
, puesto que los datos originales se desconocen y
cada observacion esta representada por su marca de clase.
1.4 An alisis de datos en tablas de frecuencias agrupadas 62
Ejemplo 1.4.1 Los datos siguientes representan el n umero de personas que han entrado a
un establecimiento diariamente durante un periodo de 25 das.
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Los datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la formula
c =

n para el n umero de clases.


N umero de personas N umero de das
14,5 - 25,5 4
25,5 - 36,5 7
36,5 - 47,5 3
47,5 - 58,5 6
58,5 - 69,5 5
Tabla 1.13: Tabla de frecuencias agrupadas para el ejemplo 1.4.1
(a) Calcular la media x del n umero de personas que entran por da.
(b) Calcular la media aproximada x
a
del n umero de personas que entran por da.
SOLUCION:
(a) Se puede comprobar que la media de los datos es x = 42, 4.
(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clase
es el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por su
frecuencia correspondiente, como se muestra en la tabla 1.14.
N umero de personas N umero de das f Marca de clase X fX
14,5 - 25,5 4 20 80
25,5 - 36,5 7 31 217
36,5 - 47,5 3 42 126
47,5 - 58,5 6 53 318
58,5 - 69,5 5 64 320
Sumas 25 1.061
Tabla 1.14: Tabla de frecuencias para el ejemplo 1.4.1
Por consiguiente, la media aproximada es
x
a
=

fx

f
=
1.061
25
= 42, 44,
el cual es solo un valor aproximado para la media de las 25 medidas muestrales originales.
La aproximacion se considera buena comparada con el valor exacto x = 42, 40, obtenido
en la parte (a).
1.4 An alisis de datos en tablas de frecuencias agrupadas 63
Clase Frecuencia Frecuencia acumulada
49,5 - 59,5 3 3
59,5 - 69,5 7 10
69,5 - 79,5 18 28
79,5 - 89,5 12 40
89,5 - 99,5 8 48
99,5 - 109,5 2 50
Tabla 1.15: Distribuci on de frecuencia
Mediana para datos agrupados
Si se han registrado datos en una tabla de frecuencias, no pueden colocarse en un arreglo
ordenado para calcular la mediana. A manera de ilustraci on, presentamos la siguiente
tabla de frecuencias:
Primero se halla la clase de la mediana de la distribuci on de frecuencia. La clase
mediana es la mnima clase cuya frecuencia acumulada es mayor o igual a n/2, siendo
n el n umero total de datos. Debido a que n es igual a 50, se necesita localizar la primera
clase que tenga una frecuencia acumulada de 25 o mas. En este caso, la tercera clase
es la clase mediana porque tiene una frecuencia acumulada de 28. La mediana puede
determinarse entonces como
Mediana = L
med
+
_
n/2 F
f
med
_
w,
en donde
L
med
es la frontera inferior de la clase de la mediana (de la tabla, es 69,5),
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (en
este caso, es la frecuencia acumulada correspondiente a la segunda clase, o sea
F = 10),
f
med
es la frecuencia de la clase de la mediana (en este caso, f = 18),
w es la amplitud del intervalo de clase de la clase de la mediana (w = 10).
Es decir,
Mediana = 69, 5 +
_
25 10
18
_
10 = 77, 83.
Moda para datos agrupados
Una desventaja de usar la moda con una distribuci on de frecuencia agrupada es que
el valor de la moda a menudo depende del agrupamiento arbitrario de los datos. La
clase que contiene al mayor n umero de datos suele denominarse clase modal o moda
cruda.
1.4 An alisis de datos en tablas de frecuencias agrupadas 64
Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente f ormula:
Moda = L
mod
+
_
D
a
D
b
+D
a
_
w,
en donde
L
mod
es la frontera inferior de la clase modal (por ejemplo, de la tabla de la gura
1.15, L
mod
= 69, 5),
D
a
es la diferencia entre la frecuencia de la clase modal y de la clase que la
antecede (por ejemplo, de la tabla de la gura 1.15, D
a
= 18 7 = 11),
D
b
es la diferencia entre la frecuencia de la clase modal y de la clase que le sigue
(por ejemplo, de la tabla de la gura 1.15, D
b
= 18 12 = 6),
w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla de
la gura 1.15,w = 10).
De la tabla 1.15, la moda es
Moda = 69, 5 +
_
11
6 +11
_
10 = 75, 97.
Rango medio para datos agrupados
Para datos organizados en una tabla de frecuencias agrupadas, el rango medio es aprox-
imadamente el promedio de la frontera inferior de clase de la primera clase y la frontera
superior de clase de la ultima clase.
Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es
Rango promedio =
26, 5 +47, 5
2
= 74.
Puntos de posicion para datos de una tabla de frecuencia agrupada
Supongamos que queremos encontrar el sexagesimo punto percentil de los datos que
presentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagesimo
punto percentil de la distribuci on de frecuencias. En general, la clase del p- esimo
punto percentil es la mnima clase cuya frecuencia acumulada es mayor o igual a
p%n, siendo n el n umero total de datos. Como n = 50 y p = 60, entonces, necesitamos
localizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o mas.
En este caso, la cuarta clase es la clase donde se encuentra el sexagesimo punto percentil
de los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagesimo
punto percentil puede determinarse como
p-esimo punto percentil = L
p
+
_
p%n F
f
p
_
w,
en donde
1.4 An alisis de datos en tablas de frecuencias agrupadas 65
L
p
es la frontera inferior de la clase del p-esimo punto percentil (de la tabla, es
79,5),
F es la frecuencia acumulada de la clase que antecede a la clase del p-esimo punto
percentil (en este caso, es la frecuencia acumulada correspondiente a la tercera
clase, o sea F = 28),
f
p
es la frecuencia de la clase del p-esimo punto percentil (en este caso, f = 12),
w es la amplitud del intervalo de clase de la clase del p-esimo punto percentil
(w = 10).
Es decir,
Sexagesimo punto percentil = 79, 5 +
_
30 28
12
_
10 81, 16.
Varianza y desviacion tpica
Las marcas de clase se usan tpicamente para representar medidas que caen en las
clases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o
la desviacion estandar aproximadas de los datos. Al hacerse esto, se usan las f ormulas
analogas para calcular la varianza y la desviaci on estandar, para el caso de distribuciones
de frecuencias no agrupada.
Ejemplo 1.4.3 Calcular la varianza y desviacion estandar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo
a
la media poblacional aproximada de los datos.
Clase m f fm m
a
(m
a
)
2
f(m
a
)
2
26,5 - 29,5 28 1 28 -9 81 81
29,5 - 32,5 31 10 310 -6 36 360
32,5 - 35,5 34 14 476 -3 9 126
35,5 - 38,5 37 33 1.221 0 0 0
38,5 - 41,5 40 14 560 3 9 126
41,5 - 44,5 43 7 301 6 36 252
44,5 - 47,5 46 3 138 9 81 243
Sumas 82 3.034 1.188
Tabla 1.16: Tabla de frecuencias para el ejemplo 1.4.3
Se encuentra que la media poblacional aproximada es

a
=

fm

f
=
3.034
82
= 37.
Ademas, la varianza poblacional aproximada es

2
a
=

f(m
a
)
2

f
=
1.188
82
= 14, 4878
y de esta forma la desviacion poblacional aproximada sera
a
=

14, 4878 = 3, 806.


1.4 An alisis de datos en tablas de frecuencias agrupadas 66
Ejercicios de la seccion 1.4
51. Situemonos en el contexto del ejercicio 17, en el que se recogan los porcentajes de
rentabilidad de las acciones de 25 empresas:
(a) A partir de la agrupacion de datos usada para construir el histograma, estimar la
media, la mediana, la desviacion tpica y el rango intercuartil de los porcentajes de
rentabilidad.
(b) Calcular directamente la media y la desviacion tpica a partir de las 25 observaciones
y compararlas con las obtenidas en el apartado (a).
52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen.
Tiempo de estudio (Horas) 0-3 3-6 6-9 9-12 12-15
N umero de estudiantes 2 6 7 4 1
(a) Hallar las frecuencias relativas y las frecuencias relativas acumuladas.
(b) Estimar la media, la mediana, la moda y la desviacion tpica del tiempo de estudio.
53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron
mas largos de lo habitual. La siguiente tabla resume la distribuci on de los tiempos de
espera para una muestra de 24 pacientes que visitaron el centro de salud durante este
perodo.
Tiempo de espera (horas) 0-1 1-2 2-3 3-4
N umero de pacientes 7 10 5 2
(a) Hallar las frecuencias acumuladas, relativas y relativas acumuladas.
(b) Dibujar el histograma, un polgono y una ojiva.
(c) Estimar la media, la mediana, la moda, la varianza y la desviacion tpica del tiempo
de espera.
(d) Estimar el rango intercuartil.
54. Se dispone de la siguiente informacion acerca de las rentas familiares (en millones de
pesos) en los hogares de cierta ciudad.
Renta familiar 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 4,0-4,5 4,5-5,0
Frec. relativa 0,10 0,20 0,22 0,12 0,13 0,08 0,15
Estimar la media y la desviacion tpica poblacional de la renta familiar.
55. Las ayudas concedidas, en miles de euros, por cierto gobierno a 60 proyectos empresariales
innovadores, vienen reejadas en la siguiente tabla:
Importe de la ayuda 0-600 600-1.200 1.200-1.800 1.800-2.400
No. de proyectos 10 15 20 15
(a) Calcular la ayuda media y ver si este valor es representativo.
(b) Calcular la ayuda maxima concedida al 70% de los proyectos menos favorecidos en el
reparto.
(c) Calcular la ayuda mnima concedida al 65% de los proyectos mas favorecidos.
1.5 An alisis exploratorio de datos 67
(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, c omo
afecta a los incisos anteriores?
(e) Si para el a no siguiente las ayudas aumentan un 5% sobre el valor inicial, man-
teniendose el criterio del reparto, cual sera ahora la ayuda media? Sigue siendo
representativa?
56. A continuacion se presentan algunas medidas estadsticas (mediana, primer y segundo
cuartiles) y una tabla de frecuencia agrupada, para las edades de un grupo de personas
que hay en una sala de concierto. A partir de estos datos, responder las preguntas que
aparecen abajo. Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.
Frecuencia Frecuencia Frec. acum.
Edades Frecuencia relativa acumulada relativa
11,5 - 14,5 2 0,0500 2 0,0500
14,5 - 17,5 8 0,2000 10 0,2500
17,5 - 20,5 11 0,2750 21 0,5250
20,5 - 23,5 10 0,2500 31 0,7750
23,5 - 26,5 8 0,2000 39 0,9750
26,5 - 29,5 1 0,0250 40 1,0000
(a) Cual era el n umero exacto de personas que haban en la sala del concierto?
(b) Cual es la media aproximada de las personas que asistieron al concierto?
(c) Que edad tienen el 77,5% de las personas?
(d) Que porcentaje de personas tienen una edad entre 11,5 y 20,5?
(e) Que porcentaje de personas tienen una edad mayor de 23,5?
(f) Cuantas personas tienen una edad entre 17,5 y 20,5?
(g) Cuantas personas tienen una edad mayor que 14,5?
(h) Que interpretacion tiene el valor de la mediana y el de los cuartiles?
1.5 Analisis exploratorio de datos
Una vez que hemos estudiado las cuatro propiedades mas importante de los datos
numericos (tendencia central, posici on relativa, dispersi on y forma), es importante iden-
ticar y describir las caractersticas principales de los datos en forma resumida. Un en-
foque a este an alisis exploratorio de datos
5
consiste en desarrollar un resumen
de cinco n umeros y construir un diagrama de caja y bigotes.
1.5.1 Resumen de cinco n umeros
Denici on 1.5.1 Un resumen de cinco n umeros consiste en cinco cantidades
que se emplean para resumir los datos: valor mnimo, primer cuartil (Q
1
), Mediana
(Q
2
), tercer cuartil (Q
3
) y valor m aximo.
5
En general, las tecnicas del an alisis exploratorio de datos consisten en operaciones aritme-
ticas sencillas y representaciones faciles de trazar, que pueden emplearse para resumir con rapidez los
datos. Muchos autores presentan el diagrama de tallo y hoja como tecnica del analisis exploratorio
de datos.
1.5 An alisis exploratorio de datos 68
A partir del resumen de cinco n umeros se pueden obtener, entre otras, dos medidas de
tendencia central (la mediana y el rango medio) y dos medidas de variaci on (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribuci on.
Si la distribuci on es simetrica, la relaci on entre las diversas medidas nos la da el siguiente
teorema.
Teorema 1.5.2 (Situaciones para reconocer la simetra de los datos) Si la
distribuci on es simetrica:
La distancia de Q
1
a la mediana es igual a la distancia de la mediana a Q
3
.
La distancia del valor mnimo a Q
1
es igual a la distancia de Q
3
al valor
m aximo.
La mediana y el rango medio son iguales. (Estas medidas son iguales a la
media de los datos.)
Por otra parte, si se trata de distribuciones no simetricas, la relaci on de las diversas
medidas se expresan en el siguiente teorema.
Teorema 1.5.3 (Situaciones para reconocer a los datos no simetricos) Si
la distribuci on no es simetrica:
En las distribuciones sesgadas a la derecha, la distancia de Q
3
al valor m aximo
excede la distancia del valor mnimo a Q
1
. Adem as, la mediana es menor que
el rango medio.
En las distribuciones sesgadas a la izquierda, la distancia del valor mnimo a
Q
1
excede la distancia de Q
3
al valor m aximo. Adem as, el rango medio es
menor que la mediana.
Ejemplo 1.5.4 Utilice el resumen de cinco n umeros para estudiar la forma de la dis-
tribucion de los datos del ejemplo 1.3.24.
SOLUCION:
En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana es 2,405 y el
tercer cuartil es 2,500. Por tanto, el resumen de cinco n umeros es
2, 210 2, 365 2, 405 2, 500 2, 825.
De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salarios
estan sesgados a la derecha porque la distancia del valor mnimo a Q
1
(es decir, 0,155) es
bastante menor que la distancia de Q
3
al valor m aximo (es decir, 0,325).
Ademas, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que el
rango medio se mueve debido al valor extremo 2,825, y es por mucho la m as grande de estas
medidas de resumen (comp arese con la gura 1.14).
1.5 An alisis exploratorio de datos 69
Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4
1.5.2 Diagrama de caja y bigotes
El diagrama de caja y bigotes, como el que se muestra en la gura 1.15, propor-
ciona una representaci on graca de los datos mediante el resumen de cinco n umeros.
Esta herramienta de analisis exploratorio de datos va a permitir estudiar la simetra de los
datos, detectar los valores atpicos y vislumbrar un ajuste de los datos a una distribuci on
de frecuencias determinada.
Fig. 1.15: Diagrama de caja y bigotes
El diagrama de caja y bigotes divide los datos en cuatro areas de igual frecuencia, una
caja central dividida en dos areas por una lnea vertical y otras dos areas representadas
por dos segmentos horizontales (bigotes) que parten del centro de cada lado de la caja.
La caja central encierra el 50% de los datos. En el interior de caja central se acostumbra
a representar la media con un signo mas y se dibuja la mediana como una lnea vertical
en el interior de la caja (comparese con la gura 1.15). Si esta lnea esta en el centro de
1.5 An alisis exploratorio de datos 70
la caja no hay asimetra en los datos. Los lados verticales estan situados en los cuartiles
inferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja se
dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo en
cuenta lo siguiente:
El bigote de la izquierda tiene un extremo en el primer cuartil Q
1
y el otro en el
valor dado por el primer cuartil menos 1,5 veces el rango intercuartil R.I, esto es,
Q
1
1, 5R.I.
El bigote de la derecha tiene un extremo en el tercer cuartil Q
3
y el otro en el
valor dado por el tercer cuartil mas 1,5 veces el rango intercuartil R.I, esto es,
Q
3
+1, 5R.I.
Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del
bigote derecho se les denomina valores atpicos.
Denici on 1.5.5 Todo valor que est a m as alejado del 1,5R.I del cuarto m as
cercano se dice que es atpico. Un valor atpico es extremo si est a a m as de
3R.I del cuarto m as cercano y es moderado en otro caso.
En el diagrama de caja, los valores atpicos moderados se representan mediante un peque no
cuadrado y los extremos, con un peque no cuadrado con un signo m as en su interior.
Un valor atpico puede ser un elemento para el cual se haya anotado su valor en forma
err onea. Si es as, puede corregirse antes de proseguir con el analisis. Tambien, un valor
atpico puede ser uno que por error se incluy o en el conjunto de datos y, en estos casos,
debe eliminarse. Por ultimo, puede ser tan s olo un elemento poco com un que se haya
anotado en forma correcta y que s pertenece al conjunto de datos. En estos casos ese
elemento debe mantenerse.
Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCION:
Tenemos que el rango intercuartil es R.I = 2, 500 2, 365 = 0, 135, de donde se obtiene que
la longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
El bigote de la izquierda tiene un extremo en el primer cuartil Q
1
= 2, 365 y el otro
en el valor Q
1
1, 5R.I = 2, 1625.
El bigote de la derecha tiene un extremo en el tercer cuartil Q
3
= 2, 500 y el otro en
el valor Q
3
+1, 5R.I = 2, 7025.
La gura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar
que hay un valor atpico (el valor 2,825) porque este se encuentra por fuera de los bigotes.
Debido a que Q
3
+3R.I = 2, 905, este valor atpico es moderado porque esta 2,825 es menor
que 2,905. Ademas, podemos armar que la distribucion de frecuencias esta sesgada a la
derecha porque el area del rectangulo a la izquierda de la mediana es menor que el del
rectangulo a la derecha de la mediana. Esto tambien se puede concluir al tener en cuenta
que media es mayor que la mediana.
1.5 An alisis exploratorio de datos 71
Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4
Diagramas de cajas m ultiples (o comparativos)
Un diagrama de caja m ultiple (o comparativo) es una forma muy ecaz de mostrar
semejanzas y diferencias entre dos o mas conjuntos de datos.
Ejemplo 1.5.7 La gura 1.17 contiene los diagramas de caja de las calicaciones en un
examen de matematicas para quince estudiantes de primer curso de primaria, quince de
segundo y quince de tercero.
Fig. 1.17: Diagrama de caja y bigotes de las calicaciones en un examen
En el diagrama puede apreciarse que no hay valores atpicos en ninguno de los tres gru-
pos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calicaciones
tienen una variabilidad considerablemente que la de los otros grupos. Otro hecho que llama
la atencion es la gran cantidad de calicaciones bajas obtenidas por los estudiantes de primer
curso. Finalmente, podemos armar que las distribuciones de frecuencias de los tres con-
juntos de datos estan sesgadas a la izquierda.
1.5 An alisis exploratorio de datos 72
Ejercicios de la seccion 1.5
57. Un fabricante de bateras para linternas tom o una muestra de 13 bateras de un da de
produccion y las us o hasta que se agotaron. Las horas que funcionaron hasta fallar son:
166 342 426 492 562 298 264 631 451 1.049 317 545 512
Proporcione el resumen de cinco n umeros, construya el diagrama de caja y bigotes, deter-
mine en cada caso si hay valores atpicos y haga un analisis exploratorio de cada conjunto
de datos.
58. Los siguientes datos muestran las yardas acumuladas durante la temporada de f utbol
americano colegial para una muestra de 20 receptores:
451 1.023 852 809 596 744 652 576 1.112 971
1.278 820 511 907 1.251 941 975 400 711 1.174
Forme el resumen de cinco n umeros, trace un diagrama de caja e indentique en el el o
los valores atpicos.
59. Los siguientes datos representan los rendimientos porcentuales anuales en cuentas de
mercado de dinero de una muestra de 15 bancos comerciales en el area metropolitana de
una ciudad a una determinada fecha:
Nombre del Banco Rendimiento Nombre del banco Rendimiento
Banco su cuenta 3,10 Banco el Pais 2,28
The Bank 2,63 Banco la Clave 3,01
Mein Bank 2,79 Banco del Norte 2,53
Your Bank 3,25 Banco del Sur 2,00
El Banco del pueblo 1,90 Banco Nacional 3,05
Aero Bank 2,79 Nuestro Banco 2,02
Union Bank 2,90 Banco el dinero 3,05
Bank del cliente 2,73
(a) Proporcione el resumen de cinco n umeros.
(b) Construya el diagrama de caja y bigotes y describa la forma.
(c) Si alguien le dijera:los rendimientos del mercado de dinero no varan mucho de un
banco a otro, con base en estos datos, que dira?
60. Una de las metas de toda administracion es ganar lo mas posible en relaci on con el
capital invertido en la empresa. Una medida del exito en alcanzarla es el retorno sobre
la aportaci on, que es la relaci on de la ganancia neta entre el valor de las acciones. A
continuacion se muestran los porcentajes de ganancia sobre las acciones para 25 empresas.
11,4 15,8 52,7 17,3 12,3 9,0 19,6 22,9 41,6
5,1 17,3 31,1 6,2 19,2 14,7 9,6 8,6 11,2
16,6 5,0 30,3 12,8 12,2 14,5 9,2
Forme el resumen de cinco n umeros, trace un diagrama de caja y bigotes y determine si
hay valores atpicos. Como podra un analista nanciero usar esta informacion?
61. Una revista publica regularmente las clasicaciones de funcionamiento y de calidad para
muchos productos de consumo. Se publicaron calicaciones generales de una muestra de
16 televisores de precio intermedio en esta revista. Las marcas y las calicaciones aparecen
en la tabla siguiente.
1.6 Uso de Statgraphics en la estadstica descriptiva 73
Fabricante Calicacion Fabricante Calicacion Fabricante Calicacion
PCG 73 Rernat 72 Katze 81
Monch 89 Kuril 77 Sheck 76
RMA 79 Tosh 79 Fish 77
Cuark 75 Pate 78 Karl 79
Magnifon 80 Wand 78 Wind 90
Sodium 86
(a) Determine la calicacion promedio y forme el resumen de cinco n umeros.
(b) Una evaluacion similar de radios proporciono calicaciones que tuvieron una media
de 82,56, una desviacion estandar 6,39 y un resumen de cinco n umeros 75, 77, 82,
86 y 93. Compare los datos de calicaciones de la revista de televisores con los del
radio. Trace los diagramas de caja de ambos.
(c) Hay valores atpicos en los datos de televisores? Explique su respuesta.
62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte p ublico
y el autom ovil. A continuacion vemos unas muestras de tiempos de cada modo. Las cifras
son minutos:
Transporte p ublico: 25 29 32 41 34 28 29 32 37 33
Autom ovil: 30 31 32 35 33 29 31 33 32 34
(a) Calcule la media y la desviacion estandar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), que modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, se
respalda la conclusion del inciso (b)?
1.6 Uso de Statgraphics en la estadstica descriptiva
A continuaci on presentaremos una breve descripci on de la forma c omo se utiliza Stat-
graphics en el analisis descriptivo de uno o mas conjuntos de datos.
1.6.1 Analisis de un solo conjunto de datos
En esta secci on, trabajaremos con los datos que aparecen en el archivo calles.sf3. Este
contiene las variables longitud, anchura y nombre, que son la longitud, anchura y el
nombre de 112 calles del antiguo casco de Madrid (Espa na). Utilizando este archivo y
con ayuda de Statgraphics realizaremos un analisis de la variable longitud. Al abrir el
archivo calles.sf3 sale la ventana de hojas de calculos que se muestra en la gura 1.18.
El acceso a todas las opciones analticas y gracas que se necesitan en cualquier practica
se realiza de la misma manera:
Se selecciona Describe . . . Numeric Data . . . One-Variable Analysis y aparecen
todas las variables que contiene el archivo.
Con el rat on se elige la variable deseada (que en nuestro caso sera la variable lon-
gitud), aparecera resaltada, y a continuaci on se pulsa el bot on Data, apareciendo
el nombre de dicha variable como variable activa. Dicha ventana tiene la opci on
1.6 Uso de Statgraphics en la estadstica descriptiva 74
Fig. 1.18: Aspecto de la ventana de hojas de c alculos
ordenar (sort) las variables alfabeticamente. Los botones que aparecen en la parte
inferior permiten realizar el analisis, cancelar el analisis, transformar los datos y
consultar la ayuda. Se pulsa la opci on OK para realizar el analisis y aparece la
llamada ventana del analisis, dando informaciones estadsticas acerca del conjunto
de datos con el que se esta trabajando (vease la gura 1.19).
Fig. 1.19: Aspecto de la ventana del an alisis
Los conos principales que hay en la barra de herramientas de esta ventana son los cuatro
de la izquierda (los restantes se activan en algunas opciones gracas):
El primer cono (Input dialog, cono de dialogos) permite la selecci on (o cambio)
1.6 Uso de Statgraphics en la estadstica descriptiva 75
de variables dentro del archivo y analisis seleccionado. Por ejemplo, dentro del
archivo calles.sf3 se puede cambiar la variable longitud por la varible anchura
utilizando este cono.
El segundo cono (Tabular options, cono de opciones tabulares) permite selec-
cionar opciones analticas.
El tercer cono (Graphical options, cono de opciones gracas) permite seleccionar
diferentes opciones de gracos.
El cuarto cono (Save results, cono de salvar resultados) permite salvar los resul-
tados del analisis para tratarlos posteriormente o para imprimirlos.
Opciones numericas
Al marcar el segundo cono (Tabular options) de la barra de herramientas de la ventana
del analisis podemos seleccionar las siguientes opciones:
Analysis Summary (Resumen de procedimiento).
Nos presenta una informaci on muy general del analisis (nombre de la variable,
n umero de datos que ella tiene, datos mayor y menor, etc.).
Summary Statistics (Resumen estadstico).
Esta opci on permite obtener algunas medidas estadsticas. Por defecto, ofrece el
numero de datos, la media, varianza, desviaci on tpica, valores maximo y mnimo,
los coecientes de asimetra y apuntamiento estandarizados y la suma de los valores
de las observaciones. Para obtener un n umero mayor o menor de medidas es
suciente con pulsar el bot on derecho del rat on y seleccionar Pane options, con lo
que aparece una ventana con un amplio conjunto de medidas.
Percentiles.
Permite el calculo simultaneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el bot on derecho del rat on y elegimos
Pane options, se introducen los percentiles que se deseen calcular.
Frequency Tabulation (Tabla de frecuancia).
Nos permite resumir la distribuci on de los datos en una tabla de frecuencias abso-
lutas, relativas, absolutas acumuladas y relativas acumuladas. Si, estando situados
sobre esta salida, pulsamos el bot on derecho del rat on y elegimos Pane options,
obtenemos la ventana de dialogo Frequency Tabulation Options, en donde tenemos
los siguientes campos:
Number of Classes (N umero de clases).
Aqu, se introduce el n umero de intervalos de clase para agrupar los datos
de la distribuci on.
Lower Limit (Lmite inferior ).
Se introduce el lmite inferior para la primera clase.
Upper Limit (Lmite superior ).
Se introduce el lmite superior para la ultima clase.
1.6 Uso de Statgraphics en la estadstica descriptiva 76
Hold (Mantener ).
Se se nala cuando se quiere mantener la denici on actual de clase para la
siguiente tabla de frecuencias que se realice.
Stem-and-Leaf Display (Diagrama de Tallo y Hojas).
Esta opci on permite mostrar el diagrama de tallo y hojas. En este caso, el dia-
grama de tallo y hojas para la variable longitud esta formado por cuatro tallos.
Los valores que estan a la izquierda de cada tallo son la frecuencia absoluta acu-
mulada de los tallos, donde dicha frecuencia se comienza a contar tanto por arriba
como por abajo, a excepci on de valor que aparece entre parentesis que corre-
sponde al tallo donde se encuentra la mediana. Si, estando situados sobre esta
opci on, pulsamos el bot on derecho del rat on y elegimos Pane options, obtenemos
la ventana de dialogo Stem-and-Leaf Display Options, cuyo campo Flag Outliers
(Valores An omalos) permite marcar valores atpicos en el diagrama. Como puede
observarse, el diagrama de tallo y hojas de la variable longitud presenta cuatro
valores atpicos.
Las otras dos opciones Condence Intervals (Intervalos de conanza) y Hypothesis
Tests (Pruebas de hip otesis) corresponden a conceptos de la estadstica inferencial.
Opciones gracas
Al marcar el tercer cono (Graphical options) de la barra de herramientas de la ventana
del analisis podemos seleccionar las siguientes opciones:
Scatterplot (Graco de dispersi on).
Nos presenta un diagrama de dispersi on para la variable en el que se presentan sus
valores mediante puntos no conectados a lo largo de un eje horizontal agrupados
por intervalos.
Box-and-Whisker Plot (Graco de Cajas y Bigotes).
Nos permite realizar diagramas de cajas y bigotes. Si, estando situados sobre esta
salida, pulsamos el bot on derecho del rat on y elegimos Pane options, obtenemos la
ventana de dialogo Frequency Tabulation Options, en donde tenemos los siguientes
campos:
Direction (Direcci on).
Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentido
que uno lo desee.
Features (Aspectos).
Esta opci on nos permite se nalar o no en el graco la media (Mean Marker ),
los valores atpicos (Outlier Symbols) y muescas sobre la mediana (Median
Nocht).
Frequency Histogram (Histograma de Frecuencia).
Esta opci on nos permite realizar histogramas y polgonos de frecuencias absolutas
y relativas, que tambien pueden ser acumulados.
6
Si, estando situados sobre el
6
Recordemos que los polgonos acumulados o acumulados relativos son las llamadas ojivas.
1.6 Uso de Statgraphics en la estadstica descriptiva 77
graco del histograma, pulsamos el bot on derecho del rat on y elegimos Pane op-
tions, obtenemos la ventana de dialogo Frequency Plot Options con las siguientes
opciones:
En los campos Number of Classes, Lower Limit y Upper Limit podemos
denir el n umero de clases deseado, el lmite inferior de la primera clase y el
lmite superior de la ultima clase, respectivamente.
El campo counts permite seleccionar frecuencias relativas (Relative) y acu-
muladas (Cumulative).
El campo Hold (Mantener ) permite mantener la escala actual para los gracos
siguientes.
El histograma de frecuencias absolutas se obtiene se obtiene se nalando el
bot on Histogram del campo Plot Type y dejando en blanco los dos botones
del campo Counts; el de frecuencias relativas, se nalando el bot on Histogram
del campo Plot Type y el bot on Relative del campo Counts; el de frecuencias
acumuladas, se nalando el bot on Histogram del campo Plot Type y el bot on
Cumulative del campo Counts; el de frecuencias acumuladas, se nalando el
bot on Histogram del campo Plot Type y los botones Cumulative y Relative
del campo Counts.
El polgono de frecuencias absolutas se obtiene se nalando el bot on Polygon
del campo Plot Type y dejando en blanco los dos botones del campo Counts;
el de frecuencias relativas, se nalando el bot on Polygon del campo Plot Type
y el bot on Relative del campo Counts.
La ojiva de frecuencias acumuladas se obtiene se nalando el bot on Polygon
del campo Plot Type y el bot on Cumulative Relative del campo Counts; la
de frecuencias acumuladas relativas, se nalando el bot on Polygon del campo
Plot Type y los botones Relative y Cumulative del campo Counts.
Density Trace (Graco de densidad).
Esta opci on nos permite visualizar en cierta forma el histograma suavizado.
Symmetry Plot (Graco de simetra).
Este graco nos permite analizar visualmente el grado de simetra de un conjunto
de datos. En el eje de las abcisas se representan las distancias de los datos a la
mediana que quedan por debajo de ella. Si la simetra fuese perfecta, el conjunto
de puntos resultante sera la diagonal principal. Mientras mas se aproxime la
graca a la diagonal, mas simetra existira en la distribuci on de los datos.
Conclusiones sobre la variable longitud
Tiene especial interes la comparaci on de la media (Average) y la mediana (Median),
donde se observa que la media es mayor que la mediana en 40 unidades. Esto indica
cierta asimetra en los datos, que debe concordar con un coeciente de asimetra grande
y positivo.
En el histograma observamos asimetra, con mayor concentraci on de datos en la parte
1.6 Uso de Statgraphics en la estadstica descriptiva 78
izquierda. Es recomendable modicar el n umero de clases del histograma, para as ob-
servar las variaciones que se producen en este.
El diagrama de caja de la variable longitud pone claramente de maniesto la asimetra
de los datos, con mayor concentraci on en la parte izquierda que en la derecha, y la
presencia de valores atpicos. La caja esta delimitada por el primer y tercer cuartil con
valores respectivos de 89 y 210. La lnea que separa la caja en dos partes es la mediana
con magnitud igual a 135. El valor mnimo es 25, no observandose valores atpicos en
la parte izquierda de los datos. En la parte derecha aparecen varios valores atpicos.
Si se desea obtener una distribuci on simetrica y con probable desaparici on de ciertos
valores atpicos es recomendable realizar una transformaci on.
Transformacion de la variable longitud
Las cuatro transformaciones mas habituales para resolver este tipo de problemas son:
logaritmo, raz cuadrada, inversa y cuadrado.
Los comandos que representan estas tres transformaciones son:
LOG(nombre variable) para el logaritmo neperiano,
SQRT(nombre variable) para la raz cuadrada
y 1/(nombre variable) para la inversa.
Para trabajar con la variable transformada es suciente con escribir en lugar del nombre
de la variable la transformaci on adecuada. Por ejemplo, si quisieramos trabajar con el
logaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro metodo para
escribir la transformaci on adecuada es desde la opci on de One Variable Analysis; en la
parte inferior de la ventana activar el bot on Transform, lo que nos permite acceder a los
diferentes operadores (Operators) entre los que se encuentran las transformaciones antes
mencionadas. De las estas transformaciones, la que ofrece una distribuci on mas simetrica
es el logaritmo. A continuaci on presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caractersticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).
Conclusiones sobre el logaritmo de la variable longitud
Se repite todo el analisis realizado para la variable longitud, pero ahora con la variable
transformada (LOG(longitud)). Como consecuencia de la transformaci on realizada se
obtiene un comportamiento simetrico, aunque se detecta la presencia de un valor atpico
correspondiente a la calle Atocha de 1260 metros.
7
7
La presencia de este valor atpico se puede explicar acudiendo a razones historicas. Por ejemplo,
la calle Atocha esta ubicada entre la Plaza de Santa Cruz y el Paseo del Prado, con existencia desde
1589, al igual que las calles de su entorno. Una explicacion de su caracter peculiar (atpico) es su
funcion como union entre Madrid capital y el Hospital General (inicialmente en la periferia).
1.6 Uso de Statgraphics en la estadstica descriptiva 79
1.6.2 Analisis simultaneo de dos o mas conjuntos de datos
Mediante la opci on Compare . . . Two Samples . . . Two Sample Comparison . . . pode-
mos analizar dos conjuntos de datos simultaneamente (vease el ejercicio 68).
Para obtener diagramas de cajas m ultiples para dos o mas conjuntos de datos, una
alternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample
Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta ultima opci on
mencionar los datos que se quieren comparar).
Statgrpahics tambien habilita la subopci on Plot . . . Exploratory Plots . . . Multiple Box-
and-Whishker Plot . . . Data=distancia . . . Level codes=year . . . para obtener diagramas
de cajas m ultiples de varios conjuntos de datos con respecto diferentes grupos en que
se puede dividir los conjuntos de datos (vease el ejercicio 64c).
Ejercicios de la seccion 1.6

63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en el
archivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (Espa na).
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeciente de variaci on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera
frontera inferior sea 0 y la ultima frontera superior sea 40. A partir de ella, responda
las siguientes preguntas:
i. Cuantas calles tienen un ancho entre 5 y 25 kilometros?
ii. Que porcentaje de calles tienen un ancho entre 10 y 30 kilometros?
iii. Cuantas calles tienen un ancho mayor de 20 kilometros?
iv. Que porcentaje de calles tienen un ancho mayor 25 kilometros?
v. Cuantas calles tienen un ancho menor de 15 kilometros?
vi. Que porcentaje de calles tienen un ancho menor de 35 kilometros?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la ultima frontera superior
sea 40), construir los histogramas de frecuencias absolutas y de frecuencias absolutas
acumuladas, los polgonos de frecuencia y de frecuencias relativas y las ojivas de fre-
cuencias acumuladas y de frecuencias relativas acumulada. A partir de estos gracos,
responda las siguientes preguntas:
i. Aproximadamente cuantas calles tienen un ancho mayor que 16,9 kilometros?
ii. Aproximadamente cuantas calles tienen un ancho menor que 12,5 kilometros?
iii. Que porcentaje aproximado de calles tienen un ancho mayor de 7,7 kilometros?
iv. Que porcentaje aproximado de calles tienen un ancho menor de 13,8 kil ometros?
(d) Estudie la simetra de la distribuci on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Existe alguna transformacion que mejora la simetra? Y la presencia de valores
atpicos? Indique en caso positivo la transformacion seleccionada.
1.6 Uso de Statgraphics en la estadstica descriptiva 80
64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galon) de 154 modelos de autom oviles sacados al mercado entre los a nos 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). Tambien aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de el, responda las siguientes preguntas: Entre cuales valores vara la distancia
recorrida? Cuanto recorre el 50% central de los autos? Hay valores atpicos? Es
simetrica o asimetrica la distribuci on de los datos? En caso de ser asimetrica, es
asimetrica a la izquierda o a la derecha? Cuales son los valores de la media y de la
mediana?
(b) Estudie el grado de simetra de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadsticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. Porque este histograma resulta
mas adecuado que el que construy o con 5 clases?
iv. Construyendo un graco de simetra con la opci on graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco a nos.
i. Analice graca y numericamente cada uno de estos conjuntos.
ii. Utilizando la opci on Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(m ultiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los a nos. Que se observa? Conoce alguna raz on que pueda explicar
lo que resulta de los analisis numericos y de la observaci on de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja m ultiple de la distancia recorrida de los au-
tom oviles seg un su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formu-
ladas en la parte (a).
ii. Compare entre s los distintos diagramas y responda las siguientes preguntas:
D onde es mas fuerte la asimetra? D onde es menor? D onde no existe? Vara
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja m ultiple de la potencia de los autom oviles seg un su
origen y responda las preguntas formuladas en el inciso anterior.
65. Se han medido los diametros (en milmetros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y septimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
las siguientes preguntas:
i. Cuantos tornillos tienen un diametro entre 29 y 32 milmetros?
ii. Que porcentaje de tornillos tienen un diametro entre 30 y 34 milmetros?
iii. Cuantos tornillos tienen un diametro mayor de 32 milmetros?
iv. Que porcentaje de tornillos tienen un diametro mayor 34 milmetros?
1.6 Uso de Statgraphics en la estadstica descriptiva 81
v. Cuantos tornillos tienen un diametro menor de 31 milmetros?
vi. Que porcentaje de tornillos tienen un diametro menor de 33 milmetros?
(c) Con 6 clases, construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gracos, responda las siguientes preguntas:
i. Aproximadamente cuantos tornillos tienen un diametro mayor que 34,4 milmetros?
ii. Aproximadamente cuantos tornillos tienen un diametro menor que 32,2 milmetros?
iii. Que porcentaje aproximado de tornillos tienen un diametro mayor de 31,6
milmetros?
iv. Cuantos tornillos tienen un diametro menor de 32,8 milmetros?
(d) Estudie la simetra de la distribuci on de los datos.
66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado a no.
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeciente de variaci on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la ultima frontera superior sea $ 1.400.000. A partir de ella, responda
las siguientes preguntas:
i. Cuantos estudiantes han gastando entre $ 175.000 y $ 525.00 en el a no?
ii. Que porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el a no?
iii. Cuantos estudiantes han gastando mas de $ 1.050.000 en el a no?
iv. Que porcentaje de estudiantes han gastando mas de $ 350.000 en el a no?
v. Cuantos estudiantes han gastando menos de $ 875.000 en el a no?
vi. Que porcentaje de estudiantes han gastando menos de $ 525.000 en el a no?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la ultima frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gracos, responda las siguientes preguntas:
i. Aproximadamente cuantos estudiantes han gastando mas de $ 767.810 en el
a no?
ii. Aproximadamente cuantos estudiantes han gastando menos de $ 391.821 en el
a no?
iii. Que porcentaje aproximado de estudiantes han gastando mas de $ 601.583 en
el a no?
iv. Cuantos estudiantes han gastando menos de $ 1.104.220 en el a no?
(d) Estudie la simetra de la distribuci on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Realice una transformacion logartmica de los datos e interprete los resultados. Co-
mente las diferencias con los datos sin transformar.

67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), as como el nombre del atleta y la fecha en que se consiguio la marca.
1.6 Uso de Statgraphics en la estadstica descriptiva 82
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 42, 53, 76 y 89, el sesgo y el coeciente de variaci on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 19,2 segundos y la ultima frontera superior sea 20,2 segundos. A partir
de ella, responda las siguientes preguntas:
i. Cuantos atletas han recorrido entre 19,325 y 19,7 segundos?
ii. Que porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?
iii. Cuantos atletas han recorrido mas de 19,7 segundos?
iv. Que porcentaje de atletas han recorrido mas de 19,45 segundos?
v. Cuantos atletas han recorrido menos de 19,95 segundos?
vi. Que porcentaje de atletas han recorrido menos de 19,825 segundos?
(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la ultima fron-
tera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutas
y de frecuencias absolutas acumuladas, los polgonos de frecuencia y de frecuencias
relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.
A partir de estos gracos, responda las siguientes preguntas:
i. Aproximadamente cuantos atletas han recorrido mas de 19,818 segundos?
ii. Que porcentaje aproximado de atletas han recorrido mas de 19,845 segundos?
iii. Que porcentaje aproximado de atletas han recorrido mas de 19,782 segundos?
iv. Aproximadamente cuantos atletas han recorrido menos de 20,03 segundos?
(d) Estudie la simetra de la distribuci on de los datos.
(e) Se detecta algo peculiar en la distribuci on de estos datos?
(f) Se detecta alg un valor potencialmente atpico? Cual es?
68. En el archivo de datos gemelos.sf3 se muestran los resultados de tests de inteligencia
realizados a parejas de gemelos monozigoticos. Los gemelos monozigoticos se forman
por la division en dos de un mismo ovulo ya fecundado y, por tanto, tienen la misma
carga genetica. Al mismo tiempo, por razones obvias, es muy frecuente que compartan el
entorno vital y es difcil separar ambos factores. En el conjunto de datos, los datos de la
columna A corresponden al gemelo criado por sus padres naturales, los de la columna B al
criado por un familiar u otra persona. Mediante la opci on Compare . . . Two Samples . . .
Two Sample Comparison . . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:
(a) Compare la simetra de los datos de la columna A y B.
(b) Construya un diagrama de caja m ultiple para los datos de la columna A y B y describa
sus interesantes propiedades.
(c) Como interpreta el coeciente de variacion de ambos conjuntos de datos?
69. En el archivo de datos Cavendish.sf3 se presentan 29 medidas de la densidad de la tierra
obtenidas por Henry Cavendish en 1798 empleando una balanza de torsi on. La densidad
de la tierra se proporciona como un m ultiplo de la densidad del agua.
(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algun valor
atipico.
(b) Proponga, razonando la respuesta, un valor para la densidad de la tierra.
70. En 1893 Lord Rayleigh investigo la densidad del nitrogeno empleando en su obtenci on
distintas fuentes. Previamente haba comprobado la gran discrepancia existente entre la
densidad del nitrogeno producido tras la eliminacion del oxgeno del aire y el nitrogeno
1.7 Uso de la calculadora en la estadstica 83
producido por la descomposici on de ciertos compuestos qumicos. Los datos del archivo
Rayleigh.sf3 muestran esta diferencia de forma clara. Esto llevo a Lord Rayleigh a in-
vestigar detenidamente la composicion del aire libre de oxgeno y al descubrimiento de un
nuevo elemento gaseoso, el arg on.
(a) Analice numerica y gracamente estos datos. Preste especial atenci on a los diagramas
de tallo y hojas y al diagrama de cajas. Hay alguna peculiaridad de la poblacion de
pesos que se manieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de aire
y los obtenidos a partir de compuestos qumicos del nitrogeno. Que se observa?
71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generacion de energa o de extraccion de esta es el disparo del reactor. Esta medida
consiste en la detencion del proceso de fusion mediante la inserci on en el n ucleo del reactor
de venenos neutronicos. El n umero de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de abilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos a nos diferentes (1984 y 1993), el n umero
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamerica.
(a) Analice numerica y gracamente, por separado, el n umero de disparos de reactor en
cada uno de los dos a nos considerados.
(b) Compare gracamente las distribuciones de ambas variables Se aprecian diferencias
importantes entre ellas? Que conclusiones le merece esta comparaci on?
1.7 Uso de la calculadora en la estadstica
El objetivo de esta secci on es ilustrar en forma breve el manejo de la calculadora como
herramienta de ayuda en los calculos estadsticos, pero utilizando directamente las fun-
ciones estadsticas que estan all incorporadas. En particular, las explicaciones se basaran
en la utilizaci on de la calculadora Casio fx-82MS, fx-83MS, fx-85MS, fx-270MS, fx-
300MS y fx-350MS.
Calculos estadsticos
Para realizar calculos estadsticos en la calculadora, tenga en cuenta los siguientes co-
mentarios:
Utilice las teclas mode 2 para ingresar el modo SDcuando desea realizar calculos
estadsticos con ayuda de las funciones estadsticas que hay incorporadas en la
calculadora.
El ingreso de datos comienza siempre con shift clr 1 = para borrar la
memoria de estadsticas.
Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .
Los datos ingresados se usan para calcular los valores para n (el total de datos),

x (la suma de todos los datos),

x
2
(la suma de los cuadrados de los datos), x
(la media),
n
(la desviaci on estandar poblacional) y
n1
(la desviaci on estandar
muestral), que pueden llamarse usando las operaciones de tecla indicados a con-
tinuaci on:
1.7 Uso de la calculadora en la estadstica 84
Para llamar este tipo de valor: Realice esta operaci on:

x
2
shift s-sum 1

x shift s-sum 2
n shift s-sum 3
x shift s-var 1

n
shift s-var 2

n1
shift s-var 3
Ejemplo 1.7.1 Calcular n,

x,

x
2
, x,
n
y
n1
para los datos siguientes: 55, 54, 51,
55, 53, 53, 54 y 52.
SOLUCION:
Primero, ingresamos al modo SD con las teclas mode 2 .
Luego, borramos la memoria con la secuencia de teclas shift clr 1 = .
Posteriormente, ingresamos los datos: 55 dt 54 dt 51 dt 55 dt 53 dt 53 dt
54 dt 52 dt
Por ultimo, calculamos las medidas estadsticas pedidas:
Suma de los cuadrados de los valores

x
2
= 22.805 shift s-sum 1 =
Suma de valores

x = 427 shift s-sum 2 =


N umero de datos n = 8 shift s-sum 3 =
Media aritmetica x = 53, 375 shift s-var 1 =
Desviacion estandar poblacional
n
= 1, 316956719 shift s-var 2 =
Desviacion estandar muestral
n1
= 1, 407885953 shift s-var 3 =

Precauciones con el ingreso de datos


dt dt ingresa el mismo dato dos veces.
Tambien puede ingresar m ultiples entradas del mismo dato usando shift ; . Por
ejemplo, para ingresar el dato 110 diez veces presiones 110 shift ; 10 dt .
Mientras ingresa datos o despues de completar el ingreso de datos, puede usar
las teclas y para ir visualizando a traves de los datos que ha ingresado.
Si ingresa m ultiples ingresos del mismo dato usando shift ; para especicar la
frecuencia de datos (n umero de temes de datos) como se describe anteriormente,
pasando a traves de los datos muetra el tem de dato y una pantalla separada para
la frecuencia de datos (freq).
Los datos visualizados pueden editarse, si as lo desea. Ingrese el valor nuevo y
presione la tecla = para reemplazar el valor antiguo por el valor nuevo. Esto
tambien signica que si desea realizar alguna otra operaci on (calculo, llamada de
resultados de calculos estadsticos, etc.), siempre debera presionar primero la tecla
ac para salir de la presentaci on de datos.
Presionando la tecla dt en lugar de = despues de cambiar un valor sobre la
presentaci on, registra el valor que ha ingresado como un elemento de dato nuevo,
y deja el valor antiguo tal como esta.
Cap. 1. Ejercicios complementarios 85
Puede borrar el valor del dato visualizado usando y , y luego presionando
shift cl . Borrando un valor de dato ocasiona que todos los valores siguientes
se desplacen hacia arriba.
Despues de ingresar los datos estadsticos en el modo SD, no podra visualizar
o editar mas los datos temes de datos individuales, despues de cambiar a otro
modo.
Ejercicios de la seccion 1.7
72. Una determinada persona es propietario de 12 terrenos cuyos tama nos (en kilometros
cuadrados) son:
21 22 27 36 22 29 22 23 22 28 36 33
Hallar la media y la desviacion tpica directamente de la calculadora.
73. Los porcentajes de rentabilidad de los fondos de inversion de diez grandes empresas fueron
17,6 26,6 15,6 12,4 22,9 25,0 22,4 18,5 27,9 11,6
Hallar la media y la desviacion tpica directamente de la calculadora.
74. Directamente de la calculadora, hallar la media y la desviacion tpica de los datos del
ejercicio 45.
75. Sea dada la siguiente tabla de frecuencias. Hallar la media y la desviacion tpica directa-
mente de la calculadora.
Dato 5,0 2,5 3,2 2,0
Frecuencia 8 2 6 3
Ejercicios complementarios
76. Diga si la armacion dada es verdadera o falsa. Justique siempre su respuesta. En caso
que sea falso, de un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviacion estandar de un conjunto de datos es 0, entonces, los datos son iguales.
(c) El valor de la desviacion estandar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviacion estandar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total es
de $ 10.000.000.
(g) Si 10 calicaciones tienen una media de 2,0 y 27 calicaciones una media de 3,0,
entonces, la media del grupo total de 37 calicaciones es 2,5.
(h) Existen datos con desviacion estandar negativa.
(i) En una distribuci on simetrica, la media, la mediana y la moda son iguales.
(j) En una distribuci on positivamente sesgada, la mediana es mayor que la media.
(k) La desviacion estandar esta dada por las mismas unidades que la media.
Cap. 1. Ejercicios complementarios 86
(l) Toda informacion numerica proporciona datos cuantitativos.
(m) Toda informacion no numerica ofrece datos cuantitativos.
(n) Cuando todos los datos son categoricos, la moda es la unica medida de tendencia
central que se puede utilizar.
(o) Si el primer cuartil en el primer examen de estadstica fue de 3,0, entonces, este valor
indica que el 25% de los estudiantes ganaron el examen.
(p) Si x es un dato de una muestra y s
2
es la varianza de esa muestra, entonces, la
expresion x s
2
carece de sentido.
(q) Si un conjunto de datos no es asimetrico, entonces, su coeciente de sesgo es 1.
77. Un determinado reporte presenta las siguientes observaciones de resistencia de vigas (los
datos estan en megapascales):
6,8 7,0 7,6 6,8 5,9 7,2 7,3 6,3 8,1 11,6 9,0 11,8 10,7 11,3
6,5 7,0 6,3 7,9 8,2 8,7 7,8 9,7 7,7 9,7 7,8 7,7 7,4
(a) Construya un diagrama comparativo de tallo y hojas de los datos. Cual parece
ser un valor representativo de la resistencia? Parecen estar las observaciones muy
concentradas cerca del valor representativo, o solo estan dispersas?
(b) Parece ser razonablemente simetrico el diagrama respecto a un valor representativo,
o describira su forma de otra manera?
(c) Parece haber alg un valor extra no o atpico?
(d) Que proporcion de observaciones de resistencia fueron mayores que 10 megapascales?
78. El reporte del ejercicio 77 tambien presenta las siguientes observaciones de resistencia de
cilindros:
9,2 6,6 8,3 7,0 8,3 6,1 5,8 7,8 7,1 7,2
9,8 9,7 14,1 12,6 11,2 7,8 8,1 7,4 8,5 8,9
(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuacion conteste las preguntas de la parte (b) a (d) de aquel ejercicio,
sobre las observaciones con cilindros.
(b) En que aspectos se parecen los dos lados del diagrama? Hay diferencias obvias
entre las observaciones para vigas y para cilindros?
79. Seg un un diario, en Colombia la donacion y disponibilidad de sangre es muy baja, tomando
en cuenta que la captacion anual es tan solo de 485 mil unidades, lo que equivale al 1 por
ciento de la poblacion. Cual es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dolares. Si el multicentro tiene 190 mil metros cuadrados, cual es el precio
promedio por metro cuadrado? Cuanto recibira aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al a no,
cuanto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectu o una encuesta para estudiar sus suscriptores en ciertos pases. Una de
las preguntas peda el valor del portafolio del suscriptor (acciones, bonos, fondos hipote-
carios y certicados de dep ositos). La siguiente distribuci on de frecuencias porcentuales
fue preparada con las respuestas.
Cap. 1. Ejercicios complementarios 87
Inversi on (dolar) Frecuencia porcentual
Menos de 15.000 27
15.000 - 40.000 7
40.000 - 90.000 10
90.000 - 240.000 18
240.000 - 490.000 5
490.000 - 990.000 13
990.000 y mas 20
(a) Que porcentaje de suscriptores tienen inversiones menores de 90.000 dolares?
(b) Que porcentajes de suscriptores tienen inversiones en el intervalo de 40.000 a 490.000
dolares?
(c) Que porcentajes de suscriptores tienen inversiones de 490.000 dolares o mas?
(d) La distribuci on porcentual de frecuencias se basa en 816 respuestas. Aproximada-
mente cuantos encuestados dijeron tener inversiones entre 40.000 y 990.000 dolares?
(e) Estime la cantidad de encuestados que aseguran tener inversiones menores a 90.000
dolares.
83. De todos los anuncios de bebidas alcoholicas en vallas publicitarias, el 60% son de cerveza,
el 30% de licores con alta graduacion, el 6% sobre vino, y el 4% restantes de bebidas
con bajas graduacion alcoholica. Construir un diagrama de barras y uno de pastel que
represente esta informacion.
84. Una sucursal bancaria que se localiza en la zona comercial de una ciudad desarrollo un
proceso para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a
1:00 p.m. Se registro el tiempo de espera en minutos (denido como el tiempo desde que
el cliente se forma en la cola hasta que lo atienden) para todos los clientes que asisten a
esta hora durante una semana. Se selecciono una muestra aleatoria de 15 clientes y los
resultados fueron:
2,34 3,02 3,54 3,20 5,13 4,21 5,55 4,77
4,50 6,10 6,19 3,79 5,12 6,46 0,38
(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviacion estandar y el coeciente de variaci on.
(b) Estan los datos sesgados? Si es as, como?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuanto tiempo tendra
que esperar.

Este responde: es casi seguro que no tendra que esperar mas de cinco
minutos. Eval ue esta armacion seg un los resultados obtenidos en el inciso (a).
85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norte-
americana tiene una media de 300 dolares, y una desviacion tpica de 65 dolares. Hallar
un intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b)
80% de estos valores.
86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipo
universitario de pista (tiempos en minutos).
Tiempos en el cuarto de milla: 1,04 0,90 0,99 0,92 0,98
Tiempos en la milla 4,60 4,70 4,50 4,52 4,35
Despues de ver esta muestra de tiempos, uno de los entrenadores comento que los corre-
dores de cuarto de milla corran con mas consistencia. Emplee la desviacion estandar y
el coeciente de variacion para resumir la variabilidad de los datos. El coeciente de
variacion indica que es cierta la armacion del entrenador?
Cap. 1. Ejercicios complementarios 88
87. La maxima temperatura registrada durante el verano en una ciudad europea durante los
ultimos 8 a nos son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35

C. Se puede considerar la
ultima temperatura como fuera de lo normal? Justique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es
la misma, y tambien lo son sus desviaciones tpicas. Si (a) n = 2, (b) n = 3, son
necesariamente iguales los valores numericos de los datos de las dos poblaciones?
89. Sean dados los datos x
1
, . . ., x
n
.
(a) Para que valor de c la cantidad

n
i=1
(x
i
c)
2
es minimizada?
(b) Mediante el resultado del inciso (a), cual de las dos cantidades

n
i=1
(x
i
x)
2
y

n
i=1
(x
i
)
2
sera menor que la otra (suponiendo que x = )?
90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada x
i
en una muestra, obteniendo
y
i
= x
i
+c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales mas la constante. Es decir, y = x +c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales mas la constante. Es decir,
(Mediana de los y
i
) = (Mediana de los x
i
) + c.
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(Varianza de los y
i
) = (Varianza de los x
i
).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales. Es decir,
(Desviaci on estandar de los y
i
) = (Desviaci on estandar de los x
i
).
91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada x
i
en una muestra, obteniendo
y
i
= kx
i
.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,
(Mediana de los y
i
) = k (Mediana de los x
i
).
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(Varianza de los y
i
) = k
2
(Varianza de los x
i
).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,
(Desviaci on estandar de los y
i
) = |k| (Desviaci on estandarde los x
i
).
Cap. 1. Ejercicios complementarios 89
Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reaccion qumica dio una media mues-
tral de 87, 3

C y una desviac on estandar muestral de 1, 04

C. Cual son la media y


desviacion estandar muestrales medidas en

F? (Sugerencia: F =
9
5
C +32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviacion estandar
de 7, cual es la desviacion estandar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calicaciones.
i. Si se suma 5 decimas a cada calicacion, cual es la media del nuevo conjunto?
ii. Si cada calicacion se multiplica por 1,5 puntos, cual sera la media?
93. El propietario de una peque na empresa tiene asignado un sueldo de 3.910 euros mensuales.
Los salarios de los empleados aparecen a continuacion:
480 510 739 883 859 499 505 1.106 980
1.172 853 487 553 944 920 1.713 1.893 595
(a) Cual es el salario medio de todos los que trabajan en la empresa incluyendo al
propietario? Cual es la desviacion estandar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, como vara la media? Y
la desviacion estandar?
(c) Si se aumenta solo el sueldo del due no en 600 euros, que ocurre con la media?
(d) Hallar la mediana. Como vara la mediana si se aumentan todos los sueldos en 300
euros? Y si solo se aumenta el salario del director en 1.200 euros?
94. Se pidio a los alumnos de la facultad de Aministraci on de Empresas de una prestigiosa
universidad, llenar un cuestionario de evaluacion del curso nal del mismo. Consiste en una
diversidad de preguntas cuyas respuestas se clasican en cinco categoras: mala, regular,
buena, muy buena, excelente. Una de las preguntas es: En comparaci on con otros cursos
que has estudiado, cual es la calidad general de este? En una muestra de 60 alumnos
que terminaron un curso de estadstica durante un determinado semestre de cierto a no se
obtuvieron las respuestas que se presentan a continuacion (para facilitar el procesamiento
de los resultados del cuestionario en el computador, se us o una escala numerica en la que
1 = mala, 2 = regular, 3 = buena, 4 = muy buena, 5 = excelente):
5 2 4 5 4 4 3 3 4 4 5 1 5 4 3 5 4 5 4 3
2 5 4 2 4 4 4 4 5 5 4 4 4 5 1 5 3 3 4 3
3 4 5 4 3 5 4 5 5 3 4 5 5 2 4 5 3 4 4 3
(a) Comente porque estos datos son cualitativos.
(b) Elabore un diagrama de frecuencias y una distribuci on de frecuencias relativas de los
datos.
(c) Trace un resumen de los datos en forma de graca de barras y de diagrama circular.
(d) Con base en sus res umenes, haga comentarios sobre la evaluacion general del curso
por parte de los alumnos.
95. En el archivo de datos bombeo.sf3 se proporcionan los nombres y potencias instaladas
(en Megawatios) de las veinticuatro centrales espa nolas de bombeo en funcionamiento en
el a no 2.000. Se desea analizar numerica y gracamente este conjunto de datos.
Cap. 1. Ejercicios complementarios 90
96. Una de las principales atracciones tursticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamerica) es el geiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duracion). Ambas variables se dan en minutos. Estudie numerica y gracamentre ambas
variables. Se observa alguna peculiaridad en ellas?
97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dgitos del n umero .
Analice numerica y gracamente este conjunto de datos.
98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en das) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron mas de 1000 vctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de
marzo de 1977. Estudie numerica y gracamente estos datos.
Respuestas a ejercicios impares
seleccionados
Captulo 1
5. (b) Se ha cometido un error.
7. (a) de barras, circular (b) histograma,
ojiva (c) de barras
9. (a) Ordinal
13. (a) 80% (b) 40%
15. (c) 149 en la clase 138,5 - 157,5 (d)
Ojiva
17. (a) 16% (b) 20 (c) 12% (d) 13
23. (a) Ordinal, nominal (b) Distribucion
simetrica unimodal
25. 190
27. El piloto A
29. S
31. (a) 23.000 - 35.000
33. Media 46,81 y mediana 36,6
35. (a) Media 1,0297 y mediana 1,0090
(b) Disminuir maximo en 0,385
37. x = 65, s = 12, 18 (a) 70% (b) 100%
(c) 100%
39. S (aplicar regla de Tchebychev)
43. 2,9
45. (a) 963,33; 550; 700; 1.775; 413,3 (b)
Mediana (c) 550; 800; 700 (d) 2.450;
803,52; 250
47. (a) [12,05; 39,95] (b) Por lo menos
aproximadamente el 85%
49. (a) H:0,9375; G:1,15 (b) H:5,53
10
3
; G:0,04 (c) El de Humberto (d)
CV(H)=0,075; CV(G)=0,173
51. (a) x = 27, 95; x = 27, 639;
s = 8, 0829; R.I = 5, 42 (b)
x = 27, 944; s = 8, 1061
53. (c) x = 1, 6; x = 2, 6; M
0
= 0, 875;
s = 1, 0208
55. (a) 1.300 (b) 1.710 (c) 1.040 (d)
12.300; 12.710; 12.040 (e) 1.365
57. Resumen de cinco n umeros: 166; 317;
451; 545; 1.049
Respuestas a ejercicios impares seleccionados 92
59. (a) 1,9; 2,28; 2,79; 3,05; 3,25 (b) La
distribuci on esta sesgada a la izquierda
(c) El rango de los datos de 1,35
puntos es grande dado los peque nos
rendimientos porcentuales sobre los que
esta calculado. Las tasas del mercado
de dinero varan entre bancos.
61. (a) x = 79, 31; Resumen de cinco
n umeros: 72; 76,5; 78,5; 80,5; 90 (c) S
73. x = 20, 05; s = 5, 7812; = 5, 484
75. x = 3, 694; s = 1, 214; = 1, 182
77. (a) El valor representativo parece ser
7,9. Regla usada a veces: La variacion
tiende a ser grande si el rango es grande
comparada con un valor representativo
(en este caso, grande signica que el
porcentaje esta mas cerca de 100% que
a 0%). Aqu, el rango es 5,9. Esto
constituye un 5, 9/7, 9 75% del valor
representativo. Por tanto, la variaci on
es grande. (b) Tendencia a ser sesgada
a la derecha (c) No parece (d) 15%
79. 10 unidades
81. 0,273 botellas; 2,19 onzas
85. (a) [402,7; 197,3] (b) [445,34; 145,34]
Indice
Amplitud de clase, 15
Analisis exploratorio de datos, 67
Censo, 9
Clase, 14
del p-esimo punto percentil, 64
mediana, 63
modal, 63
Coeciente
de sesgo, 55
de asimetra
de Fisher, 56
de Fisher estandarizado, 56
de Pearson, 56
de variacion de Pearson, 51
Cuartil, 42, 64
Dato, 8
categorico o cualitativo, 11
numerico o cuantitativo, 11
continuo, 12
discreto, 12
Datos
agrupados, 14
de nivel
de intervalo, 13
de raz on, 13
nominal, 12
ordinal, 12
no agrupados, 14
Decil, 42
Desviaci on, 44
estandar
muestral, 46
poblacional, 45
media, 47
tpica, ver desviacion estandar, ver desviaci on
estandar
Diagrama
circular o de pastel, 22
de barras, 23
de caja y bigotes, 69
comparativos, 71
de tallo y hoja, 27
Distribucion
asimetrica, 53
negativamente, 53
positivamente, 53
sesgada
negativamente o a la derecha, 56
positivamente o a la izquierda, 56
simetrica, 53
Elemento de una poblacion, 8
Escala de medida, 12
de intervalo, 13
de raz on, 13
nominal, 12
ordinal, 12
Estadstica
descriptiva o deductiva, 9
inferencial o inductiva, 9
Estadstico, 8
metodo, 10
Estadstica, 4, 5
Frecuencia, 14
acumulada, 21
de clase, 14
relativa, 21
relativa acumulada, 21
Frontera
INDICE 94
de clase, 15
inferior de clase, 15
superior de clase, 15
Histograma, 24
suavizado, 32
Individuo de una poblacion, 8
Intervalos de clase, ver clase
Lmite
de clase, 15
inferior de clase, 15
real
inferior de clase, ver Frontera inferior
de clase
superior de clase, ver Frontera supe-
rior de clase
real de clase, ver frontera de clase
superior de clase, 15
Marca de clase, 15
Media
aritmetica ponderada, 33
aritmetica, 33, 61
arm onica, 39
arm onica ponderada, 39
geometrica, 37
geometrica ponderada, 37
Mediana, 34, 63
Medidas
de asimetra, 55
de colocacion o de posici on relativa, 40
de curtosis o apuntamiento, 57
de forma, 53
de tendencia central, 33
Moda, 35, 63
cruda, 63
Muestra, 8
Observacion, 8
Ojiva, 26
Parametro, 8
Percentil, 41, 64
Pictografos, ver pictograma
Pictograma, 23
Poblacion, 8
Polgono, 25
Rango, 16, 43
intercuartil, 44
medio, 36, 64
Recorrido, ver Rango
Regla
de Sturges, 16
de Tchevichev, 49
emprica, 50
Resumen de cinco n umeros, 67
Tabla de frecuencias, 14
acumuladas, 21
agrupadas, 14
bivariadas, 21
no agrupadas, 14
relativas, 21
relativas acumuladas, 21
Valor atpico, 70
extremo, 70
moderado, 70
Varianza
muestral, 46
muestral ponderada, 48
poblacional, 45
poblacional ponderada, 48