Professional Documents
Culture Documents
1 Estadstica descriptiva 3
1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Que signica estadstica? . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Por que usted necesita conocer estadstica? . . . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadstica . . . . . . . . 7
1.1.5 Terminos com unmente usados en estadstica . . . . . . . . . . . 8
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . . . . . . 9
1.2 Organizaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organizaci on de datos de acuerdo al tipo . . . . . . . . . . . . 11
1.2.2 Organizaci on de datos de acuerdo a escalas de medidas . . . . . 12
1.2.3 Organizaci on de datos mediante tablas . . . . . . . . . . . . . . 13
1.2.4 Organizaci on de datos mediante representaciones gracas . . . . 22
1.3 Analisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 32
1.3.1 Medidas de tendencia central o de centralizaci on . . . . . . . . 33
1.3.2 Medidas de colocaci on o de posici on relativa . . . . . . . . . . . 40
1.3.3 Medidas de dispersi on o de variabilidad . . . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Analisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 61
1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco n umeros . . . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadstica descriptiva . . . . . . . . . . . . . 73
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . . . . 73
1.6.2 Analisis simultaneo de dos o mas conjuntos de datos . . . . . . 79
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . . . . . . . . . 83
Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Contenido 2
Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
CAP
ITULO 1
Estadstica descriptiva
Contenido
1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Que signica estadstica? . . . . . . . . . . . . . . . . . . . 4
1.1.2 Por que usted necesita conocer estadstica? . . . . . . . . . 5
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . . . . 5
1.1.4 Los computadores, la calculadora y la estadstica . . . . . . 7
1.1.5 Terminos com unmente usados en estadstica . . . . . . . . 8
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . . . . 9
1.2 Organizaci on de datos . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Organizaci on de datos de acuerdo al tipo . . . . . . . . . . 11
1.2.2 Organizaci on de datos de acuerdo a escalas de medidas . . 12
1.2.3 Organizaci on de datos mediante tablas . . . . . . . . . . . . 13
1.2.4 Organizaci on de datos mediante representaciones gracas . 22
1.3 Analisis de datos en tablas de frecuencias no agrupadas 32
1.3.1 Medidas de tendencia central o de centralizacion . . . . . . 33
1.3.2 Medidas de colocacion o de posici on relativa . . . . . . . . . 40
1.3.3 Medidas de dispersion o de variabilidad . . . . . . . . . . . 42
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53
1.4 Analisis de datos en tablas de frecuencias agrupadas . . 61
1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . 67
1.5.1 Resumen de cinco n umeros . . . . . . . . . . . . . . . . . . 67
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69
1.6 Uso de Statgraphics en la estadstica descriptiva . . . . 73
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . . . 73
1.6.2 Analisis simultaneo de dos o m as conjuntos de datos . . . . 79
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . . 83
Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85
1.1 Introducci on 4
Objetivos del captulo
1. Presentar una vision amplia sobre el campo de estudio de la estadstica y sus aplica-
ciones.
2. Distinguir entre estadstica descriptiva e inferencial.
3. Estudiar los tipos de datos.
4. Mostrar c omo organizar datos.
5. Construir tablas y gracas para datos numericos y categoricos.
6. Describir las medidas de tendencia central, de posici on relativa, de variaci on y de
forma de los datos numericos.
7. Describir las tecnicas para realizar un analisis exploratorio de datos.
8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estadstica.
Empleo de la estadstica
La directora de produccion de una empresa debe informar a su superior sobre
el n umero de das promedio que los empleados de la empresa se ausentan del tra-
bajo. Sin embargo, la planta emplea mas de dos mil trabajadores, y la directora de
produccion no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir como puede ella obtener la informacion nece-
saria. Que consejo podra darle?
1.1 Introduccion
1.1.1 Que signica estadstica?
En la vida diaria los diversos fen omenos de orden econ omico, social, poltico, educa-
cional, e incluso biol ogico, aparecen, se transforman y nalmente desaparecen. Para
tan abundante y complejo material es preciso tener un registro ordenado y continuo a
n de conseguir en un momento dado los datos necesarios para un estudio de lo que
ha sucedido, sucede o puede suceder. Para ello se requiere contar con un metodo, con
un conjunto de reglas o principios, que nos permita la observaci on, el ordenamiento, la
cuanticaci on y el analisis de dichos fen omenos.
En general, el termino estadstica tiene tres acepciones gramaticales perfectamente
denidas:
1. Estadstica, en su acepci on mas com un, no es mas que una colecci on de datos
numericos ordenados y clasicados seg un un determinado criterio. Nos referimos
a este signicado cuando hablamos de estadsticas de producci on, estadsticas de
cotizaciones bursatiles, estadsticas demogracas, etc.
2. Estadstica, en una segunda acepci on, es la ciencia que, utilizando como ins-
trumento a las matematicas y al calculo de probabilidades, estudia las leyes de
comportamiento de aquellos fen omenos que, no estando sometidos a las leyes
fsicas y basandose en ellas predice e inere resultados. El termino estadstica
matematica viene a ser el nombre propio de esta acepci on.
1.1 Introducci on 5
3. Finalmente, estadstica, signica en su ultima acepci on, la tecnica o metodo
cientco usado para recolectar, organizar, resumir, presentar, analizar, interpretar,
generalizar y contrastar los resultados de las observaciones de los fen omenos reales.
Se considera fundador de la estadstica a Godofredo Achenwall (1719-1772;53),
profesor y economista aleman quien, siendo profesor de la universidad de Leipzig (Ale-
mania), escribi o sobre el descubrimiento de una nueva ciencia que llam o estadstica (pa-
labra derivada del termino aleman Staat que signica estado) y que deni o como
el conocimiento profundo de la situaci on respectiva y comparativa de cada estado.
Achenwall y sus seguidores estructuraron los metodos estadsticos que se orientaron
a investigar, medir y comparar las riquezas de las naciones. Lo anterior no signica que,
antes de los estudios de G. Achenwall, los estados no hubiesen efectuado inventarios
de sus riquezas. Estos inventarios se efectuaron desde la antig uedad. Se sabe que 2.000
a 2.500 a nos antes de Cristo, los inventarios que efectuaron los chinos y los egipcios
eran muy elementales.
1.1.2 Por que usted necesita conocer estadstica?
En general, el problema que enfrentan las compa nas e industrias no es la escasez de
informaci on, sino c omo utilizar la informaci on disponible para tomar las decisiones mas
adecuadas. Por esta raz on, desde la perspectiva de una toma de decisiones informada,
cabe preguntarse por que un ingeniero, un administrador y un economista necesita saber
estadstica. Para dar respuesta a esta inquietud podemos decir que estos deben com-
prender la estadstica, basicamente, por tres razones fundamentales:
1. Presentar y describir la informaci on en forma adecuada.
2. Inferir conclusiones sobre poblaciones grandes basandose solamente en la infor-
maci on obtenida de subconjuntos de ellas.
3. Utilizar modelos para obtener pron osticos conables.
En el diagrama de la gura 1.1 se presenta un esquema general de las rutas que sugeri-
mos tomar desde la perspectiva de estas tres razones para aprender estadstica. En este
esquema se observa que para tener en cuenta la primera raz on, se abordan los metodos
referentes a la recopilacion, descripci on y presentaci on de la informaci on (que corres-
ponde al captulo 1 de nuestro texto). Para la segunda raz on, necesitaremos desarrollar
los conceptos de distribuciones muestrales, estimaci on y pruebas de hip otesis. Debido
a que estos temas no hacen parte de los objetivos de este texto, s olo se desarrollaran
los conceptos basicos de probabilidad (captulo 2) y algunas distribuciones (captulos 3,
4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda raz on.
Para la tercera raz on, sugerimos realizar el enfoque al analisis de regresi on, modelado
y analisis de series de tiempo que proporcionan metodos para hacer pron osticos (temas
que tampoco tratamos en este texto).
1.1.3 Algunas aplicaciones de la estadstica
En esta secci on presentaremos ejemplos que ilustran algunas de las aplicaciones de la
estadstica en la ingeniera, en la administraci on y en la economa.
1.1 Introducci on 6
Fig. 1.1: Mapa de rutas del texto
Ingeniera
La importancia de la estadstica en la ingeniera ha sido subrayada por la participaci on
de la industria en el aumento de la calidad. Muchas empresas se han dado cuenta de
que la baja calidad de un producto (ya sea en la forma de defectos de fabricaci on, en
una baja conabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciado
en la productividad global de la compa na, en el mercado y la posici on competitiva y,
nalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puede
eliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad de
volver a maquilar las piezas, los requerimientos para inspecci on y prueba y las perdidas
por garanta. Ademas de mejorar la satisfacci on del consumidor y permitir que la empresa
se convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,
la estadstica es un elemento decisivo en el incremento de la calidad, ya que las tecnicas
estadsticas pueden emplearse para describir y comprender la variabilidad.
1
Contabilidad
Las empresas de contadura p ublica emplean procedimientos estadsticos de muestreo
para llevar a cabo auditoras a sus clientes. Por ejemplo, supongamos que una empresa
de contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en el
balance de un cliente, representa elmente la cantidad real de ese rubro. Normalmente,
la cantidad de cuentas individuales por cobrar es tan grande que sera demasiado lento y
costoso revisar y validar cada cuenta. En casos como este, regularmente se acostumbra
que el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).
1
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-
ciones.
1.1 Introducci on 7
Despues de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusi on acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
nancieros de sus cliente, es aceptable.
Finanzas
Los asesores nancieros recurren a una gama de informaci on estadstica para guiarse
en sus recomendaciones de inversi on. En el caso de las acciones, revisan una variedad
de datos nancieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la informaci on de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor nanciero puede comenzar a sacar
conclusiones sobre si esas acciones estan sobre o subevaluadas.
Mercadotecnia
Los escaners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigaci on de mercados.
Producci on
Con el enfasis actual hacia la calidad, el control de calidad es una aplicaci on importante
de la estadstica en la producci on. Para vigilar el resultado de un proceso de producci on
se emplean diversas gracas de control estadstico de calidad, en especial, se usa una
graca para vigilar el promedio de un producto. Por ejemplo, supongamos que una
maquina llena envases con 12 onzas de una bebida muy conocida. Peri odicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una graca, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producci on.
Economa
Con frecuencia se pide a los economistas su pron ostico acerca del futuro de la economa
o de alguno de sus aspectos. Recurren a diversas informaciones estadsticas para ela-
borarlo. As, para pronosticar las tasas de inaci on usan indicadores como el ndice de
precios al productor, la tasa de desempleo y la ocupaci on de la capacidad de producci on.
Muchas veces, esos indicadores estadsticos se introducen en modelos computarizados
de pron ostico, cuyo resultado son predicciones sobre las tasas de inaci on.
1.1.4 Los computadores, la calculadora y la estadstica
El computador se ha convertido en una herramienta importante en la presentaci on y el
analisis de datos. Si bien muchas tecnicas estadsticas s olo necesitan una calculadora de
mano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareas
con mucha eciencia.
La mayor parte del analisis estadstico se realiza utilizando una biblioteca de progra-
mas estadsticos. El usuario introduce los datos y luego selecciona los tipos de analisis
y la presentaci on de los resultados que le interesan. Los paquetes estadsticos estan
1.1 Introducci on 8
disponibles para grandes sistemas de c omputo y para computadores personales. Entre
los paquetes mas utilizados estan SAS (Statistical Analysis System), SPSS (Statisti-
cal Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la secci on 1.6
explicaremos c omo utilizar Statgraphics en la estadstica y en la 1.7, c omo emplear la
calculadora para hacer calculos estadsticos.
1.1.5 Terminos com unmente usados en estadstica
Denici on 1.1.1 Una poblaci on es el conjunto total de objetos que son de in-
teres para un problema dado. Los objetos pueden ser personas, animales, producto
fabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo de
la poblaci on
Ejemplo 1.1.2 Todos los ni nos nacidos en determinado a no pueden constituir una poblacion.
Si el director de una gran empresa manufacturera desea estudiar la producci on de todas
las plantas de propiedad de la rma, entonces, la producci on de todas estas plantas es la
poblacion.
Denici on 1.1.3 Una muestra es un subconjunto de la poblaci on.
Ejemplo 1.1.4 Si todos los ni nos nacidos en determinado a no constituyen una poblacion,
entonces, los ni nos nacidos en el mes de febrero pueden constituir una muestra.
Denici on 1.1.5 Los datos u observaciones son n umeros o denominaciones
que podemos asignar a un individuo o elemento de la poblaci on.
Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
Usted fuma?, el tipo de sangre, el salario mensual de una trabajador, etc.
Denici on 1.1.7 Un par ametro es cualquier caracterstica medible de una
poblaci on.
Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de par ametro, si todos los trabajadores se consideran como una poblacion.
Denici on 1.1.9 Un estadstico es cualquier caracterstica medible de una mues-
tra.
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada secci on
de la empresa (viendo a los trabajadores de esta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadstico.
1.1 Introducci on 9
Denici on 1.1.11 Un censo (palabra derivada del latn censere que signica
valuar o tasar) es una enumeraci on completa de la poblaci on.
Ejemplo 1.1.12 Seg un el censo llevado a cabo por el DANE (Departamento Administra-
tivo Nacional de Estadstica), en 1.993 Colombia tena 33.109.840 habitantes, de los cuales
16.296.539 eran hombres y 16.813.301, mujeres.
1.1.6 Estadsticas descriptiva e inferencial
Los procedimientos y analisis que aparecen en estadstica caen en dos categoras gene-
rales, estadstica descriptiva (o deductiva) y estadstica inferencial (o inductiva), depen-
diendo del prop osito del estudio.
Denici on 1.1.13 La estadstica descriptiva comprende aquellos metodos que
incluyen tecnicas para recolectar, presentar, analizar e interpretar datos.
En general, la estadstica descriptiva tiene como funci on el manejo de los datos recopila-
dos en cuanto se reere a su ordenaci on y presentaci on, para poner en evidencia ciertas
caractersticas en la forma que sea mas objetiva y util. En este sentido, investiga los
metodos y procedimientos y establece reglas para que el manejo de los datos sea mas
eciente y para que la informaci on entregada resulte conable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.
Ejemplo 1.1.14 Las siguientes situaciones utilizan estadstica descriptiva:
(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en
algunos productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporci on de colombianos encuestados que estan a
favor de determinado candidato poltico.
Denici on 1.1.15 La estadstica inferencial abarca aquellos metodos y con-
juntos de tecnicas que se utilizan para obtener conclusiones sobre las leyes de com-
portamiento de una poblaci on bas andose en los datos de muestras tomadas de esa
poblaci on.
Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadstica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-
centaje de estudiantes que fuman.
(b) Con base en una encuesta de opinion, al poltico le gustara calcular la oportunidad
de reelegirse en las proximas elecciones.
1.1 Introducci on 10
Denici on 1.1.17 Las tecnicas y metodos utilizados por la ciencia estadstica,
tanto en su parte descriptiva como en la parte inferencial son los llamados m etodos
estadsticos.
Ejercicios de la seccion 1.1
1. Describa una posible muestra de tama no 5 de cada una de las siguientes poblaciones:
(a) Todos los periodicos publicados en Colombia.
(b) Todas las empresas importantes de Colombia.
(c) Todos los estudiantes de su curso.
(d) Todos los promedios de calicaciones de los alumnos de su universidad.
2. Una revista publica datos sobre la clasicacion de las 300 corporaciones industriales mas
grandes de un pais, en terminos de ventas y utilidades. En la tabla 1.1 vemos datos acerca
de una muestra de estas 300 compa nas.
(a) Cuantos elementos hay en este conjunto de datos?
(b) Cual es la poblacion?
(c) Calcule las ventas anuales en la muestra.
(d) Con el resultado del inciso (c), cual es la estimaci on de las ventas promedio para la
poblacion?
Ventas Utilidades C odigo del ramo
Compa na ($ millones) ($ millones) industrial
Todo Confort 38.420 2.586,0 12
Alles klar 20.847 5.157,0 15
Ramos del Caribe 8.071 234,0 2
Sofort 3.075 212,2 22
Express 8.092 168,7 48
El unico 10.272 1.427,0 8
Integer 8.588 213,3 11
Good 6.371 49,7 10
Pueblo City 9.844 580,0 19
Report Info 6.454 87,0 19
Tabla 1.1: Muestra de 10 empresas que publica una revista
3. Una empresa desea probar la ecacia de un nuevo comercial de television. Como parte
de la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias locales
en cierta ciudad. Tres das despues, una empresa de investigaci on de mercado lleva a
cabo una encuesta telef onica para obtener informacion sobre la frecuencia de recuerdos
(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresiones
del comercial.
(a) Cual son la poblacion y la muestra para este estudio?
1.2 Organizaci on de datos 11
(b) Por que se necesita usar una muestra en este caso? Explique su respuesta.
4. El se nor Marim on, candidato a alcalde de un pueblo peque no, quiere determinar si debe
hacer una campa na mas fuerte contra su oponente. Para ello entrevistara a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% mas votos que su
oponente, no intensicar sus esfuerzos de campa na contra su rival.
(a) Identique la poblacion, la muestra, un estadstico y un parametro.
(b) Que hara el se nor Marim on si tuviera el 75% de los votos de la muestra?
5. Se estableci o que el costo promedio de los textos escolares en un colegio peque no durante
el ultimo a no fue de $ 354.400, con base en una inscripci on de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadstica encuesto a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el ultimo a no y se concluy o que
fue de $ 399.700.
(a) Identique la poblacion, la muestra, los parametros y dos estadsticos.
(b) Que podra concluir el grupo de estadstica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?
1.2 Organizacion de datos
Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,
de acuerdo a escalas de medidas, mediante tablas y mediante representaciones gracas.
1.2.1 Organizacion de datos de acuerdo al tipo
Como se ilustra en la gura 1.2, existen dos tipos de datos: categ oricos (o cualitativos)
y numericos (cuantitativos).
Fig. 1.2: Tipos de datos
1. Los datos categ oricos o cualitativos representan categoras o atributos
(como, por ejemplo, s o no) que pueden clasicarse como un criterio o cualidad.
2. Los datos num ericos o cuantitativos producen respuestas numericas como
el peso en kilogramos o el n umero de universidades que hay en la Costa Atlantica.
Estos datos son de dos tipos: dicretos y continuos.
1.2 Organizaci on de datos 12
Los datos discretos producen respuestas numericas que surgen de un
conteo. Ejemplos de datos discretos son la cantidad de universidades que hay
en la Costa Atlantica, el n umero de estudiantes en la Universidad del Norte
en 2.003, la cantidad de hermanos que tiene un determinado estudiante de
administracion, el n umero de personas en una la, etc.
Los datos continuos producen respuestas numericas que surgen de un
proceso de medici on, donde la caracterstica de que se mide puede tomar
cualquier valor numerico en un intervalo. Ejemplos datos continuos son el
peso (en kilogramos) de una persona, su estatura (en metros), el tiempo que
usted tarda en llegar a la Universidad del Norte, etc.
1.2.2 Organizacion de datos de acuerdo a escalas de medidas
Los datos tambien se pueden clasicar seg un la escala de medici on o el procedimiento
que los gener o. Cuatro tipos de escalas de medici on usados en estadstica son las escalas
nominal, ordinal, de intervalo y de raz on.
Datos de nivel nominal
Un dato nominal se crea cuando se utilizan nombres para establecer categoras con la
condici on de que cada dato pertenezca unica y exclusivamente a una de estas categoras.
Existen escalas nominales tanto para los datos numericos como categ oricos. Una escala
nominal para datos numericos asigna n umeros a las categoras. Por ejemplo, entre los
datos numericos que son nominales se incluyen los n umeros en las camisetas deportivas,
los n umeros telef onicos, etc.
Una escala nominal para datos categ oricos es un agrupamiento no ordenado de los
datos en categoras discretas, donde cada dato puede incluirse solamente en uno de los
grupos. Por ejemplo, los datos nominales que son cualitativos incluyen el genero, la
raza, el tipo de sangre y la religi on.
Datos de nivel ordinal
Los datos medidos en una escala nominal ordenada de alguna manera se denominan
datos ordinales. Una escala ordinal coloca las medidas en categoras, cada una de
las cuales indica un nivel distinto respecto a un atributo que se esta midiendo. La lista
de datos ordinales comprende:
1. Clasicaciones por letra: A, B, C y D; estos grados indican categoras de perfec-
cionamiento, as como los niveles alcanzados.
2. Rangos academicos: Doctor, magister, especialista y licenciado.
3. La evaluaci on de un maestro: insuciente, aceptable, bueno y excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
No es posible determinar la diferencia o distancia entre los valores medidos en una escala
ordinal. Aun cuando codiquemos las letras A como 4, B como 3, C como 2 y D como
1.2 Organizaci on de datos 13
1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calicaci on A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.
Datos de nivel de intervalo
Los datos medidos en una escala ordinal para los cuales pueden clasicarse las distancias
entre valores, se llaman datos de intervalos. La distancia entre dos valores es
importante y los datos de intervalo son numericos por necesidad; una escala de intervalo
no siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que se
quiere medir). La lista de datos de intervalo comprenden:
1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cinco
puntos superior a uno de 105 (datos ordinales). En este caso, no s olo podemos
decir que un puntaje de 110 es superior a uno de 105, sino que tambien podemos
decir que es cinco puntos mas alto; pero no podemos decir que una persona con
un puntaje de inteligencia de 180 es doblemente inteligente que una persona que
tiene uno de 90.
2. Temperaturas Celsius. Una temperatura Celsius de 80
es 40
.
N otese tambien que una temperatura de 0 no representa la ausencia de calor. El
punto cero en la escala de temperatura Celsius fue escogido arbitrariamente como
el punto de congelamiento e indica que esta presente algo de calor.
3. Fechas. Brian LLinas naci o en Mainz (Alemania) en el a no 2000, 31 a nos despues
de su padre, el Dr. rer. nat Humberto LLinas (1969). Podemos especicar la
distancia entre estos dos sucesos ordenados, 31 a nos, pero si existiera el a no cero,
no representara la ausencia de tiempo.
Datos de nivel de razon
Los datos medidos en una escala de intervalo con un punto cero que signica ninguno,
se llaman datos de raz on. Con datos medidos en una escala de raz on, podemos de-
terminar cuantas veces es mayor una medida que otra. Las escalas de raz on incluyen
salarios, unidades de producci on, peso, altura, etc. El dinero nos da una buena ilus-
traci on. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.
Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sin
importar si se utiliza distintas escalas de raz on como kilogramos, gramos o libras). Las
escalas de raz on tambien incluyen escalas usadas com unmente para medir unidades como
pies, libras, centmetros, etc. Los resultados de contar objetos tambien son datos de
raz on como, por ejemplo, diez peras es el doble que cinco.
1.2.3 Organizacion de datos mediante tablas
En esta forma de organizaci on de datos es importante el concepto de frecuencia de un
dato.
1.2 Organizaci on de datos 14
Denici on 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra
f, es el n umero de veces que aparece ese dato en una colecci on de datos.
Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro solo aparece una vez
(por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el
7 tiene frecuencia f = 3, etc.
Existen dos tipos generales de tablas para reportar datos usando frecuencias, estas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.
2
Tabla de frecuencias no agrupadas
Son aquellas en donde cada dato tiene la frecuencia correspondiente. Los datos que
organizados en tablas de frecuencias no agrupadas se denominan usualmente datos no
agrupados.
Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 4
3 7 6 6 7 5 7 es
Dato 3 4 5 6 7
Frecuencia 2 1 2 3 4
n.
6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor y
menor.
7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-
guiente recuadro.
Amplitud de clase. La amplitud de clase w se determina calculando el cociente
entre el rango R y el n umero de clases c. Es decir,
Amplitud de clase w =
R
c
.
El valor de w es com un redondearlo al entero siguiente.
8. El dato menor debe caer en la primera clase. Por esta raz on, el lmite inferior de la
primera clase debe estar en, o un poco antes de, el dato menor. As que podemos
establecer un acuerdo general sobre las clases de nuestras tablas de frecuencias
1.2 Organizaci on de datos 17
agrupadas, empezando siempre la primera clase con la frontera inferior teniendo
en cuenta que el lmite inferior coincide con el dato menor. Cuando hacemos esto,
el valor mnimo que puede tomar la amplitud de clase se determina redondeando
a w al siguiente valor entero.
Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-
cuencias agrupadas considerando los siguientes datos.
14 21 23 21 16 19 22 25 16 16 24 24 25 19
16 19 18 19 21 12 16 17 18 23 25 20 23 16
20 19 24 28 15 22 24 20 22 24 22 20
SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 12 = 16.
Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el n umero de clase es
c = (3, 3) log 40 +1 = (3, 3)(1, 60) +1 = 6, 2867 6.
donde signica aproximadamente igual que. Observemos que con la otra regla se
obtiene el mismo resultado porque c =
40 = 6, 324 6.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =
R
c
=
16
6
= 2, 666.
Como la unidad de precision para los datos es 1, escogemos el mnimo entero mayor
que 2,666 como el valor de la amplitud. En este caso, el mnimo entero mayor que
2,666 es 3. Por lo tanto, w = 3.
Paso 4. A continuacion se construye la primera clase con un ancho de w = 3. Para ello,
primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como
la unidad de medida es 1 (porque todos los datos son enteros) y como el punto medio
de cada unidad de medida es
Punto medio de cada unidad de medida =
Unidad de medida
2
=
1
2
= 0, 5,
entonces, en este caso, la frontera inferior de la primera clase la hallaremos as:
Front. inf. de primera clase = dato menor punto medio de unidad de medida
= 12 0, 5 = 11, 5.
Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,
entonces, la frontera superior sera
Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.
En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.
1.2 Organizaci on de datos 18
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 11,5 - 14,5
Clase 2: 14,5 - 17,5 (Observe: 17, 5 = 14, 5 +3)
Clase 3: 17,5 - 20,5 (Observe: 20, 5 = 17, 5 +3)
Clase 4: 20,5 - 23,5 (Observe: 23, 5 = 20, 5 +3)
Clase 5: 23,5 - 26,5 (Observe: 26, 5 = 23, 5 +3)
Clase 6: 26,5 - 29,5 (Observe: 29, 5 = 26, 5 +3)
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna corre-
spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.
Clase Cuenta Frecuencia
11,5 - 14,5 || 2
14,5 - 17,5 ||||| ||| 8
17,5 - 20,5 ||||| ||||| | 11
20,5 - 23,5 ||||| ||||| 10
23,5 - 26,5 ||||| ||| 8
26,5 - 29,5 | 1
Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos
Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-
tribucion de frecuencias considerando los siguientes datos:
8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,2
6,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5
SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es
R = 15, 8 6, 0 = 9, 8.
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el n umero de clase es
c = (3, 3) log 20 +1 = (3, 3)(1, 30) +1 = 5, 2933 5.
donde signica aproximadamente igual que.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =
R
c
=
9, 8
5
= 1, 96.
El mnimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.
1.2 Organizaci on de datos 19
Paso 4. Como la unidad de medida es 0,1 (por tener los datos un solo lugar decimal) y como
el punto medio de cada unidad de medida es
Punto medio de cada unidad de medida =
Unidad de medida
2
=
0, 1
2
= 0, 05,
entonces, la frontera inferior de la primera clase es
Frontera inferior = dato menor 0, 05 = 6, 0 0, 05 = 5, 95
y la frontera superior sera
Frontera superior = frontera inferior + amplitud = 5, 95 + 2 = 7, 95.
En consecuencia, la primera clase es 5,95 - 7,95.
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clases
resultan ser las siguientes:
Clase 1: 5,95 - 7,95
Clase 2: 7,95 - 9,95 (Observe: 9, 95 = 7, 95 +2)
Clase 3: 9,95 - 11,95 (Observe: 11, 95 = 9, 95 +2)
Clase 4: 11,95 - 13,95
Clase 5: 13,95 - 15,95
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspon-
diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Ademas, all tambien aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula as:
X =
6, 0 +7, 9
2
= 6, 95.
Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.
Clase Cuenta Frecuencia Marcas de clase X
5,95 - 7,95 |||| 4 6,95
7,95 - 9,95 || 2 8,95
9,95 - 11,95 ||||| ||| 8 10,95
11,95 - 13,95 ||| 3 12,95
13,95 - 15,95 ||| 3 14,95
Tabla 1.5: Tabla de frecuencia agrupada con 5 clases para 20 datos
Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-
tribucion de frecuencias considerando los siguientes datos:
39,78 28,30 28,31 17,95 44,47 46,65 31,47 33,45 29,17
48,39 82,71 43,63 41,17 47,32 52,16 25,94 50,32 35,25
35,70 17,89 60,20 48,14 22,78 38,22 23,25
1.2 Organizaci on de datos 20
SOLUCION:
Paso 1. El rango es R = 82, 71 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el n umero de clase es
c = (3, 3) log 25 +1 = (3, 3)(1, 3979) +1 = 5, 613 6.
Observemos que con la otra regla se obtiene c =
=
1
48%
+
1
34%
2
=
0, 0208 +0, 0294
2
= 0, 0251
y la media geometrica es
G
=
_
1
48%
1
34%
=
y, en cambio,
1
G
=
1
40, 4%
= 0, 0247 = G
.
Debido a que
1
x
= x
y a que
1
G
= G
2
=
(x
1
)
2
+ (x
2
)
2
+ + (x
n
)
2
n
.
La desviaci on est andar (o tpica) poblacional de un conjunto de datos, sim-
bolizada por , se dene como la raz cuadrada positiva de la varianza poblacional
de los datos. Es decir,
=
_
Varianza poblacional.
Por razones de comodidad en los calculos, para determinar la varianza de la poblaci on
se usa normalmente la formula que aparece en el siguiente
1.3 An alisis de datos en tablas de frecuencias no agrupadas 46
Teorema 1.3.36 La varianza de la poblaci on de valores x
1
, . . . , x
n
est a dada por
2
=
x
2
1
+x
2
2
+ +x
2
n
n
2
.
Esta formula es equivalente a la que se introdujo en la denicion 1.3.35 y puede recordarse facilmente
mediante la espresion: la media de los cuadrados menos el cuadrado de la media.
Ejemplo 1.3.37 Encuentre la varianza y desviacion de los datos 62, 80, 83, 72 y 73 si estos
constituyen una poblacion.
SOLUCION:
La media de estos datos es = 74. Por lo tanto, la varianza poblacional esta dada por
2
=
(62 74)
2
+ (80 74)
2
+ (83 74)
2
+ (72 74)
2
+ (73 74)
2
5
=
266
5
= 53, 2.
La desviacion estandar de estos datos es =
53, 2 = 7, 29.
Denici on 1.3.38 La varianza de una muestra con valores x
1
, . . . , x
n
se de-
nota por s
2
y se dene por
s
2
=
(x
1
x)
2
+ (x
2
x)
2
+ + (x
n
x)
2
n 1
.
La desviaci on est andar (o tpica) muestral de un conjunto de datos , deno-
tada por s, se dene como la raz cuadrada positiva de la varianza muestral de los
datos. Es decir,
s =
Varianza muestral.
Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra ma-
nera como se ilustra en el siguiente
Teorema 1.3.39 La varianza muestral de un conjunto de datos x
1
, . . . , x
n
se puede
calcular por
s
2
=
(x
2
1
+x
2
2
+ +x
2
n
) nx
2
n 1
.
Ejemplo 1.3.40 Encuentre la varianza y desviacion estandar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una poblacion.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral esta dada por
s
2
=
(62 74)
2
+ (80 74)
2
+ (83 74)
2
+ (72 74)
2
+ (73 74)
2
5 1
=
266
4
= 66, 5
y la desviacion muestral, por s =
2
=
f
1
(x
1
)
2
+ +f
n
(x
n
)
2
f
1
+ +f
n
, s
2
=
f
1
(x
1
)
2
+ +f
n
(x
n
)
2
(f
1
+ +f
n
) 1
.
Estas medidas se pueden calcular, equivalentemente, de la siguiente manera:
2
=
f
1
x
2
1
+ + f
n
x
2
n
f
1
+ + f
n
2
, s
2
=
_
f
1
x
2
1
+ + f
n
x
2
n
_
(f
1
+ + f
n
)x
2
(f
1
+ + f
n
) 1
,
respectivamente.
Ejemplo 1.3.44 Dados los siguientes datos de una poblacion, hallar la media, varianza y
desviacion estandar.
Dato 28 31 34 37 40 43 46
Frecuencia 1 10 14 33 14 7 3
SOLUCION:
Primero construimos la tabla 1.12 que nos ayudar a en los c alculos.
Dato x Frecuencia f fx x (x )
2
f(x )
2
28 1 28 -9 81 81
31 10 310 -6 36 360
34 14 476 -3 9 126
37 33 1.221 0 0 0
40 14 560 3 9 126
43 7 301 6 36 252
46 3 138 9 81 243
Sumas 82 3.034 1.188
Tabla 1.12: Tabla de frecuencias para el ejemplo 1.3.44
Se encuentra que la media poblacional es
=
fx
f
=
3.034
82
= 37.
Ademas,
2
=
f(x )
2
f
=
1.188
82
= 14, 4878
y de esta forma =
fx
f
=
1.061
25
= 42, 44,
el cual es solo un valor aproximado para la media de las 25 medidas muestrales originales.
La aproximacion se considera buena comparada con el valor exacto x = 42, 40, obtenido
en la parte (a).
1.4 An alisis de datos en tablas de frecuencias agrupadas 63
Clase Frecuencia Frecuencia acumulada
49,5 - 59,5 3 3
59,5 - 69,5 7 10
69,5 - 79,5 18 28
79,5 - 89,5 12 40
89,5 - 99,5 8 48
99,5 - 109,5 2 50
Tabla 1.15: Distribuci on de frecuencia
Mediana para datos agrupados
Si se han registrado datos en una tabla de frecuencias, no pueden colocarse en un arreglo
ordenado para calcular la mediana. A manera de ilustraci on, presentamos la siguiente
tabla de frecuencias:
Primero se halla la clase de la mediana de la distribuci on de frecuencia. La clase
mediana es la mnima clase cuya frecuencia acumulada es mayor o igual a n/2, siendo
n el n umero total de datos. Debido a que n es igual a 50, se necesita localizar la primera
clase que tenga una frecuencia acumulada de 25 o mas. En este caso, la tercera clase
es la clase mediana porque tiene una frecuencia acumulada de 28. La mediana puede
determinarse entonces como
Mediana = L
med
+
_
n/2 F
f
med
_
w,
en donde
L
med
es la frontera inferior de la clase de la mediana (de la tabla, es 69,5),
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (en
este caso, es la frecuencia acumulada correspondiente a la segunda clase, o sea
F = 10),
f
med
es la frecuencia de la clase de la mediana (en este caso, f = 18),
w es la amplitud del intervalo de clase de la clase de la mediana (w = 10).
Es decir,
Mediana = 69, 5 +
_
25 10
18
_
10 = 77, 83.
Moda para datos agrupados
Una desventaja de usar la moda con una distribuci on de frecuencia agrupada es que
el valor de la moda a menudo depende del agrupamiento arbitrario de los datos. La
clase que contiene al mayor n umero de datos suele denominarse clase modal o moda
cruda.
1.4 An alisis de datos en tablas de frecuencias agrupadas 64
Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente f ormula:
Moda = L
mod
+
_
D
a
D
b
+D
a
_
w,
en donde
L
mod
es la frontera inferior de la clase modal (por ejemplo, de la tabla de la gura
1.15, L
mod
= 69, 5),
D
a
es la diferencia entre la frecuencia de la clase modal y de la clase que la
antecede (por ejemplo, de la tabla de la gura 1.15, D
a
= 18 7 = 11),
D
b
es la diferencia entre la frecuencia de la clase modal y de la clase que le sigue
(por ejemplo, de la tabla de la gura 1.15, D
b
= 18 12 = 6),
w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla de
la gura 1.15,w = 10).
De la tabla 1.15, la moda es
Moda = 69, 5 +
_
11
6 +11
_
10 = 75, 97.
Rango medio para datos agrupados
Para datos organizados en una tabla de frecuencias agrupadas, el rango medio es aprox-
imadamente el promedio de la frontera inferior de clase de la primera clase y la frontera
superior de clase de la ultima clase.
Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es
Rango promedio =
26, 5 +47, 5
2
= 74.
Puntos de posicion para datos de una tabla de frecuencia agrupada
Supongamos que queremos encontrar el sexagesimo punto percentil de los datos que
presentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagesimo
punto percentil de la distribuci on de frecuencias. En general, la clase del p- esimo
punto percentil es la mnima clase cuya frecuencia acumulada es mayor o igual a
p%n, siendo n el n umero total de datos. Como n = 50 y p = 60, entonces, necesitamos
localizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o mas.
En este caso, la cuarta clase es la clase donde se encuentra el sexagesimo punto percentil
de los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagesimo
punto percentil puede determinarse como
p-esimo punto percentil = L
p
+
_
p%n F
f
p
_
w,
en donde
1.4 An alisis de datos en tablas de frecuencias agrupadas 65
L
p
es la frontera inferior de la clase del p-esimo punto percentil (de la tabla, es
79,5),
F es la frecuencia acumulada de la clase que antecede a la clase del p-esimo punto
percentil (en este caso, es la frecuencia acumulada correspondiente a la tercera
clase, o sea F = 28),
f
p
es la frecuencia de la clase del p-esimo punto percentil (en este caso, f = 12),
w es la amplitud del intervalo de clase de la clase del p-esimo punto percentil
(w = 10).
Es decir,
Sexagesimo punto percentil = 79, 5 +
_
30 28
12
_
10 81, 16.
Varianza y desviacion tpica
Las marcas de clase se usan tpicamente para representar medidas que caen en las
clases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o
la desviacion estandar aproximadas de los datos. Al hacerse esto, se usan las f ormulas
analogas para calcular la varianza y la desviaci on estandar, para el caso de distribuciones
de frecuencias no agrupada.
Ejemplo 1.4.3 Calcular la varianza y desviacion estandar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo
a
la media poblacional aproximada de los datos.
Clase m f fm m
a
(m
a
)
2
f(m
a
)
2
26,5 - 29,5 28 1 28 -9 81 81
29,5 - 32,5 31 10 310 -6 36 360
32,5 - 35,5 34 14 476 -3 9 126
35,5 - 38,5 37 33 1.221 0 0 0
38,5 - 41,5 40 14 560 3 9 126
41,5 - 44,5 43 7 301 6 36 252
44,5 - 47,5 46 3 138 9 81 243
Sumas 82 3.034 1.188
Tabla 1.16: Tabla de frecuencias para el ejemplo 1.4.3
Se encuentra que la media poblacional aproximada es
a
=
fm
f
=
3.034
82
= 37.
Ademas, la varianza poblacional aproximada es
2
a
=
f(m
a
)
2
f
=
1.188
82
= 14, 4878
y de esta forma la desviacion poblacional aproximada sera
a
=
63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en el
archivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (Espa na).
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeciente de variaci on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera
frontera inferior sea 0 y la ultima frontera superior sea 40. A partir de ella, responda
las siguientes preguntas:
i. Cuantas calles tienen un ancho entre 5 y 25 kilometros?
ii. Que porcentaje de calles tienen un ancho entre 10 y 30 kilometros?
iii. Cuantas calles tienen un ancho mayor de 20 kilometros?
iv. Que porcentaje de calles tienen un ancho mayor 25 kilometros?
v. Cuantas calles tienen un ancho menor de 15 kilometros?
vi. Que porcentaje de calles tienen un ancho menor de 35 kilometros?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la ultima frontera superior
sea 40), construir los histogramas de frecuencias absolutas y de frecuencias absolutas
acumuladas, los polgonos de frecuencia y de frecuencias relativas y las ojivas de fre-
cuencias acumuladas y de frecuencias relativas acumulada. A partir de estos gracos,
responda las siguientes preguntas:
i. Aproximadamente cuantas calles tienen un ancho mayor que 16,9 kilometros?
ii. Aproximadamente cuantas calles tienen un ancho menor que 12,5 kilometros?
iii. Que porcentaje aproximado de calles tienen un ancho mayor de 7,7 kilometros?
iv. Que porcentaje aproximado de calles tienen un ancho menor de 13,8 kil ometros?
(d) Estudie la simetra de la distribuci on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Existe alguna transformacion que mejora la simetra? Y la presencia de valores
atpicos? Indique en caso positivo la transformacion seleccionada.
1.6 Uso de Statgraphics en la estadstica descriptiva 80
64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galon) de 154 modelos de autom oviles sacados al mercado entre los a nos 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). Tambien aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de el, responda las siguientes preguntas: Entre cuales valores vara la distancia
recorrida? Cuanto recorre el 50% central de los autos? Hay valores atpicos? Es
simetrica o asimetrica la distribuci on de los datos? En caso de ser asimetrica, es
asimetrica a la izquierda o a la derecha? Cuales son los valores de la media y de la
mediana?
(b) Estudie el grado de simetra de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadsticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. Porque este histograma resulta
mas adecuado que el que construy o con 5 clases?
iv. Construyendo un graco de simetra con la opci on graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco a nos.
i. Analice graca y numericamente cada uno de estos conjuntos.
ii. Utilizando la opci on Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(m ultiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los a nos. Que se observa? Conoce alguna raz on que pueda explicar
lo que resulta de los analisis numericos y de la observaci on de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja m ultiple de la distancia recorrida de los au-
tom oviles seg un su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formu-
ladas en la parte (a).
ii. Compare entre s los distintos diagramas y responda las siguientes preguntas:
D onde es mas fuerte la asimetra? D onde es menor? D onde no existe? Vara
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja m ultiple de la potencia de los autom oviles seg un su
origen y responda las preguntas formuladas en el inciso anterior.
65. Se han medido los diametros (en milmetros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y septimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
las siguientes preguntas:
i. Cuantos tornillos tienen un diametro entre 29 y 32 milmetros?
ii. Que porcentaje de tornillos tienen un diametro entre 30 y 34 milmetros?
iii. Cuantos tornillos tienen un diametro mayor de 32 milmetros?
iv. Que porcentaje de tornillos tienen un diametro mayor 34 milmetros?
1.6 Uso de Statgraphics en la estadstica descriptiva 81
v. Cuantos tornillos tienen un diametro menor de 31 milmetros?
vi. Que porcentaje de tornillos tienen un diametro menor de 33 milmetros?
(c) Con 6 clases, construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gracos, responda las siguientes preguntas:
i. Aproximadamente cuantos tornillos tienen un diametro mayor que 34,4 milmetros?
ii. Aproximadamente cuantos tornillos tienen un diametro menor que 32,2 milmetros?
iii. Que porcentaje aproximado de tornillos tienen un diametro mayor de 31,6
milmetros?
iv. Cuantos tornillos tienen un diametro menor de 32,8 milmetros?
(d) Estudie la simetra de la distribuci on de los datos.
66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado a no.
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeciente de variaci on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la ultima frontera superior sea $ 1.400.000. A partir de ella, responda
las siguientes preguntas:
i. Cuantos estudiantes han gastando entre $ 175.000 y $ 525.00 en el a no?
ii. Que porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el a no?
iii. Cuantos estudiantes han gastando mas de $ 1.050.000 en el a no?
iv. Que porcentaje de estudiantes han gastando mas de $ 350.000 en el a no?
v. Cuantos estudiantes han gastando menos de $ 875.000 en el a no?
vi. Que porcentaje de estudiantes han gastando menos de $ 525.000 en el a no?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la ultima frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos gracos, responda las siguientes preguntas:
i. Aproximadamente cuantos estudiantes han gastando mas de $ 767.810 en el
a no?
ii. Aproximadamente cuantos estudiantes han gastando menos de $ 391.821 en el
a no?
iii. Que porcentaje aproximado de estudiantes han gastando mas de $ 601.583 en
el a no?
iv. Cuantos estudiantes han gastando menos de $ 1.104.220 en el a no?
(d) Estudie la simetra de la distribuci on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Realice una transformacion logartmica de los datos e interprete los resultados. Co-
mente las diferencias con los datos sin transformar.
67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), as como el nombre del atleta y la fecha en que se consiguio la marca.
1.6 Uso de Statgraphics en la estadstica descriptiva 82
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 42, 53, 76 y 89, el sesgo y el coeciente de variaci on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 19,2 segundos y la ultima frontera superior sea 20,2 segundos. A partir
de ella, responda las siguientes preguntas:
i. Cuantos atletas han recorrido entre 19,325 y 19,7 segundos?
ii. Que porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?
iii. Cuantos atletas han recorrido mas de 19,7 segundos?
iv. Que porcentaje de atletas han recorrido mas de 19,45 segundos?
v. Cuantos atletas han recorrido menos de 19,95 segundos?
vi. Que porcentaje de atletas han recorrido menos de 19,825 segundos?
(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la ultima fron-
tera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutas
y de frecuencias absolutas acumuladas, los polgonos de frecuencia y de frecuencias
relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.
A partir de estos gracos, responda las siguientes preguntas:
i. Aproximadamente cuantos atletas han recorrido mas de 19,818 segundos?
ii. Que porcentaje aproximado de atletas han recorrido mas de 19,845 segundos?
iii. Que porcentaje aproximado de atletas han recorrido mas de 19,782 segundos?
iv. Aproximadamente cuantos atletas han recorrido menos de 20,03 segundos?
(d) Estudie la simetra de la distribuci on de los datos.
(e) Se detecta algo peculiar en la distribuci on de estos datos?
(f) Se detecta alg un valor potencialmente atpico? Cual es?
68. En el archivo de datos gemelos.sf3 se muestran los resultados de tests de inteligencia
realizados a parejas de gemelos monozigoticos. Los gemelos monozigoticos se forman
por la division en dos de un mismo ovulo ya fecundado y, por tanto, tienen la misma
carga genetica. Al mismo tiempo, por razones obvias, es muy frecuente que compartan el
entorno vital y es difcil separar ambos factores. En el conjunto de datos, los datos de la
columna A corresponden al gemelo criado por sus padres naturales, los de la columna B al
criado por un familiar u otra persona. Mediante la opci on Compare . . . Two Samples . . .
Two Sample Comparison . . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:
(a) Compare la simetra de los datos de la columna A y B.
(b) Construya un diagrama de caja m ultiple para los datos de la columna A y B y describa
sus interesantes propiedades.
(c) Como interpreta el coeciente de variacion de ambos conjuntos de datos?
69. En el archivo de datos Cavendish.sf3 se presentan 29 medidas de la densidad de la tierra
obtenidas por Henry Cavendish en 1798 empleando una balanza de torsi on. La densidad
de la tierra se proporciona como un m ultiplo de la densidad del agua.
(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algun valor
atipico.
(b) Proponga, razonando la respuesta, un valor para la densidad de la tierra.
70. En 1893 Lord Rayleigh investigo la densidad del nitrogeno empleando en su obtenci on
distintas fuentes. Previamente haba comprobado la gran discrepancia existente entre la
densidad del nitrogeno producido tras la eliminacion del oxgeno del aire y el nitrogeno
1.7 Uso de la calculadora en la estadstica 83
producido por la descomposici on de ciertos compuestos qumicos. Los datos del archivo
Rayleigh.sf3 muestran esta diferencia de forma clara. Esto llevo a Lord Rayleigh a in-
vestigar detenidamente la composicion del aire libre de oxgeno y al descubrimiento de un
nuevo elemento gaseoso, el arg on.
(a) Analice numerica y gracamente estos datos. Preste especial atenci on a los diagramas
de tallo y hojas y al diagrama de cajas. Hay alguna peculiaridad de la poblacion de
pesos que se manieste en un diagrama y no en el otro?
(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de aire
y los obtenidos a partir de compuestos qumicos del nitrogeno. Que se observa?
71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generacion de energa o de extraccion de esta es el disparo del reactor. Esta medida
consiste en la detencion del proceso de fusion mediante la inserci on en el n ucleo del reactor
de venenos neutronicos. El n umero de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de abilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos a nos diferentes (1984 y 1993), el n umero
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamerica.
(a) Analice numerica y gracamente, por separado, el n umero de disparos de reactor en
cada uno de los dos a nos considerados.
(b) Compare gracamente las distribuciones de ambas variables Se aprecian diferencias
importantes entre ellas? Que conclusiones le merece esta comparaci on?
1.7 Uso de la calculadora en la estadstica
El objetivo de esta secci on es ilustrar en forma breve el manejo de la calculadora como
herramienta de ayuda en los calculos estadsticos, pero utilizando directamente las fun-
ciones estadsticas que estan all incorporadas. En particular, las explicaciones se basaran
en la utilizaci on de la calculadora Casio fx-82MS, fx-83MS, fx-85MS, fx-270MS, fx-
300MS y fx-350MS.
Calculos estadsticos
Para realizar calculos estadsticos en la calculadora, tenga en cuenta los siguientes co-
mentarios:
Utilice las teclas mode 2 para ingresar el modo SDcuando desea realizar calculos
estadsticos con ayuda de las funciones estadsticas que hay incorporadas en la
calculadora.
El ingreso de datos comienza siempre con shift clr 1 = para borrar la
memoria de estadsticas.
Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .
Los datos ingresados se usan para calcular los valores para n (el total de datos),
x
2
(la suma de los cuadrados de los datos), x
(la media),
n
(la desviaci on estandar poblacional) y
n1
(la desviaci on estandar
muestral), que pueden llamarse usando las operaciones de tecla indicados a con-
tinuaci on:
1.7 Uso de la calculadora en la estadstica 84
Para llamar este tipo de valor: Realice esta operaci on:
x
2
shift s-sum 1
x shift s-sum 2
n shift s-sum 3
x shift s-var 1
n
shift s-var 2
n1
shift s-var 3
Ejemplo 1.7.1 Calcular n,
x,
x
2
, x,
n
y
n1
para los datos siguientes: 55, 54, 51,
55, 53, 53, 54 y 52.
SOLUCION:
Primero, ingresamos al modo SD con las teclas mode 2 .
Luego, borramos la memoria con la secuencia de teclas shift clr 1 = .
Posteriormente, ingresamos los datos: 55 dt 54 dt 51 dt 55 dt 53 dt 53 dt
54 dt 52 dt
Por ultimo, calculamos las medidas estadsticas pedidas:
Suma de los cuadrados de los valores
x
2
= 22.805 shift s-sum 1 =
Suma de valores
n
i=1
(x
i
c)
2
es minimizada?
(b) Mediante el resultado del inciso (a), cual de las dos cantidades
n
i=1
(x
i
x)
2
y
n
i=1
(x
i
)
2
sera menor que la otra (suponiendo que x = )?
90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada x
i
en una muestra, obteniendo
y
i
= x
i
+c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales mas la constante. Es decir, y = x +c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales mas la constante. Es decir,
(Mediana de los y
i
) = (Mediana de los x
i
) + c.
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(Varianza de los y
i
) = (Varianza de los x
i
).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales. Es decir,
(Desviaci on estandar de los y
i
) = (Desviaci on estandar de los x
i
).
91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada x
i
en una muestra, obteniendo
y
i
= kx
i
.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,
(Mediana de los y
i
) = k (Mediana de los x
i
).
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(Varianza de los y
i
) = k
2
(Varianza de los x
i
).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,
(Desviaci on estandar de los y
i
) = |k| (Desviaci on estandarde los x
i
).
Cap. 1. Ejercicios complementarios 89
Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reaccion qumica dio una media mues-
tral de 87, 3