Professional Documents
Culture Documents
Estadística Descriptiva y
Probabilidades
Introducción
Cualquiera que sea la actividad que realiza una persona, siempre se enfrentará al reto de
tomar decisiones. Cada día, iniciamos un juego en decisiones que va de la mano con
nuestro trabajo diario. Del mismo modo, para la gestión diaria de una empresa, de un
sector, de un país, etc. se requiere tomar continuamente decisiones; por ejemplo, para dar
una medida económica sobre modificación de aranceles a los productos importados se
pueden tener algunas interrogantes como: ¿De qué manera afectaran las medidas a otros
sectores productivos? ¿Generarán condiciones favorables para una mejora en la
tecnología? ¿Permitirán generar una mayor oferta de trabajo?, etc. Para tomar una decisión
al respecto es necesario tener información sobre el comportamiento de los diferentes
sectores económicos y de la forma como se relacionan entre sí. Obviamente, para esto se
requiere disponer de datos apropiados (suficientes, oportunos y de buena calidad), de
metodologías y procesos que permitan alcanzar el conocimiento deseado de la realidad
sobre la cual se tomaran decisiones. La estadística también brinda apoyo a otras ciencias
mediante el desarrollo de procesos dirigidos a la aceptación y análisis de datos; de esta
manera, se pueden asociar ciertos niveles de confiabilidad con los procesos de toma de
decisiones.
1
Estadística Descriptiva
I. PRINCIPALES DEFINICIONES
1. ESTADÍSTICA
2
Estadística Descriptiva
2.1. DESCRIBIR COLECCIONES DE DATOS EMPÍRICOS: Para lograr este
objetivo general de la estadística es necesario realizar algunos procesos básicos,
tales como:
- El muestreo estadístico.
- La estimación estadística.
- El cálculo de probabilidades.
- Las pruebas estadísticas.
3. TÉRMINOS DE ESTADÍSTICA.
3
Estadística Descriptiva
Es el conjunto de todos los individuos, objetos u observaciones que
poseen alguna característica observable en común. Conjunto formado
POBLACIÓN (N)
por todas las unidades de análisis (elementos) que son cobertura de la
investigación planteada
TIPOS DE CARACTERES:
CARACTERES Cualitativos: Aquellos que son categóricos, pero no son numéricos.
p. ej. <Color de los ojos>, <profesión>, <marca de automóvil>,...
Ordinales: Aquellos que pueden ordenarse, pero no son numéricos.
p. ej. <Grado de instrucción: primaria, secundaria, superior>.
Cuantitativos: son numéricos.
p. ej. <Peso>, <talla>, <núm. de hijos>,...
4
Estadística Descriptiva
Un carácter puede mostrar distintas modalidades o valores, es decir, son
distintas manifestaciones o situaciones posibles que puede presentar un
carácter estadístico. Las modalidades o valores son incompatibles y
exhaustivos.
5
Estadística Descriptiva
4. ETAPAS EN LA INVESTIGACIÓN ESTADÍSTICA
Una hipótesis es ante todo, una explicación provisional de los hechos objeto de
estudio, y su formulación depende del conocimiento que el investigador posea
sobre la población investigada. Una hipótesis estadística debe ser susceptible de
docimar, esto es, debe poderse probar para su aceptación o rechazo.
Una hipótesis que se formula acerca de un parámetro (media, proporción,
varianza, etc.), con el propósito de rechazarla, se llama Hipótesis de Nulidad y se
representa por Ho; a su hipótesis contraria se le llama Hipótesis Alternativa (H1).
4.4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD
DE MEDIDA
La Unidad de Observación, entendida como cada uno de los elementos
constituyentes de la población estudiada, debe definirse previamente, resaltando
6
Estadística Descriptiva
todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la
medición.
La unidad de observación puede estar constituida por uno o varios individuos u
objetos y denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medición debe ser previamente definido y unificado
por todo el equipo de investigación. Si se trata de medidas de longitud, volumen,
peso, etc., debe establecerse bajo qué unidad se tomarán las observaciones ya sea
en metros, pulgadas, libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las
condiciones en las cuales se ha de efectuar la toma de la información.
4.6. LA RECOLECCIÓN
7
Estadística Descriptiva
4.7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN
4.8. LA TABULACIÓN.
4.9. LA PRESENTACIÓN
4.10. EL ANÁLISIS
La técnica estadística ofrece métodos y procedimientos objetivos que convierten
las especulaciones de primera mano en aseveraciones cuya confiabilidad puede
ser evaluada y ofrecer una premisa medible en la toma de una decisión.
Es el análisis donde se cristaliza la investigación. Esta es la fase de la
determinación de los parámetros y estadísticos muestrales para las estimaciones e
inferencias respecto a la población, el ajuste de modelos y las pruebas de las
hipótesis planteadas, con el fin de establecer y redactar las conclusiones
definitivas.
4.11. PUBLICACIÓN
Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros
estudiosos del mismo problema a quienes se les puede aportar información,
conocimientos y otros puntos de vista acerca de él.
8
Estadística Descriptiva
5. MÉTODOS PARA RECOLECTAR DATOS:
Existen tres principales métodos con los cuales el investigador puede obtener los datos:
Ejemplo:
reportes financieros
Reportes de operaciones, que están dadas por la información de la
producción, compras, ventas, estados de pérdida y ganancias.
Reportes especiales, es la información adicional para el análisis estadístico.
9
Estadística Descriptiva
MÉTODOS DE RECOLECCIÓN. Cuando es utilizada una fuente primaria para
recolectar información se distinguen dos procedimientos fundamentales: La observación y
el interrogatorio.
MÉTODOS DE INTERROGATORIOS.
El interrogatorio puede hacerse mediante dos métodos:
SISTEMAS DE RECOLECCIÓN.
TÉCNICAS DE RECOLECCIÓN
Son procedimientos que se utilizan para recolectar información según la naturaleza del
trabajo de investigación. Pueden ser:
a) La observación: Es la acción de mirar con rigor, en forma sistemática y profunda,
con el interés de descubrir la importancia de aquello que se observa.
DATO: Es el valor que toma una variable en cada unidad de análisis. Los datos están
clasificados en:
10
Estadística Descriptiva
SEGÚN EL NÚMERO DE VARIABLES.
7. TIPOS DE DATOS.
Sea cual fuere la fuente de la que obtenemos la información, esta puede estar referida a
características cualitativas o cuantitativas.
VARIABLE.
Es una característica de la población que se va investigar y que puede tomar diferentes
valores.
Ejemplo.
Las horas extras trabajadas por los trabajadores de una empresa y los valores de esta
variable vendrían dadas por las diferentes horas trabajados por cada trabajador fuera de
la jornada normal: ninguna, una, dos, tres, ……….
Notación. Las variables se denotaran por X, Y, etc.
Las variables se clasifican en: cualitativas y cuantitativas.
VARIABLE CUALITATIVA.
Se llama así, cuando la variable está asociada a una característica cualitativa. Es decir,
son variables cuyos valores son cualidades que presenta la población.
Ejemplos.
La variable “profesión” puede adoptar las modalidades: Ingeniero, Médico, Biólogo,
Contador, Economista, etc.
Ejemplo:
Clasificar un grupo de individuos por sexo: masculino, femenino.
Por estado civil: soltero, casado, viudo. Etc.
11
Estadística Descriptiva
VARIABLE CUALITATIVA ORDINAL.
Son aquellos datos que agrupan a los objetos, individuos, en categorías ordenadas, para
establecer relaciones comparativas. Es decir, se puede establecer un orden entre sus
atributos.
Ejemplo.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Nivel de educación (primaria, secundaria, superior).
Ejemplo:
Ingreso por familia
Número de ventas diarias de cierto establecimiento.
Número total de habitaciones que tiene la vivienda.
Longitud, tiempo, etc.
Las variables cuantitativas se dividen en discretas y continuas.
Ejemplo.
El peso, la estatura, la tensión arterial de las personas, los ingresos, el tiempo de
servicio, precio en soles, etc.
En general, todas las magnitudes relacionadas con el tiempo (edad, duración de un
fenómeno,...), la masa (volumen; peso,….), el espacio (longitud, superficie,…) o una
combinación de estos (velocidad, densidad, capacidad,…) son variables continuas.
MUESTREO
Para estudiar, analizar y evaluar una población con el fin de efectuar un diagnostico
requerirá de contar con información cuantitativa y cualitativa:
Representativa,
Oportuna,
Confiable y
Suficiente
Esto se logrará a través de observaciones y mediciones sobre una muestra de elementos
adecuadamente elegidos de la población bajo en estudio.
1) Población y muestra.
Población.
Conjuntos formado por todas las unidades de análisis (elementos) que son
cobertura de la investigación planteada.
12
Estadística Descriptiva
2) Muestra. Es una parte o subconjunto representativo de la población y al proceso de
obtener la muestra se le llama muestreo.
En el segundo caso tenemos una problemática diferente. Para poder estudiar la duración de
una pila, debemos usarla hasta que se gaste, lo que nos impide volver a usar la pila. Es
decir, de alguna manera “destruimos” este elemento de la población. Si quisiéramos probar
todas y cada una de las pilas, nos quedaríamos sin ellas. En este caso, de nuevo sería
conveniente estudiar sólo un conjunto de esas pilas y luego extraer conclusiones más
generales a partir del conjunto que hemos estudiado.
Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero para
que podamos extraer conclusiones, es importante que elijamos bien las muestras para
nuestros estudios.
Por ejemplo, para el caso del acceso a internet de los peruanos, elegir a 10 personas de 30
millones es insuficiente, no es representativo. Tampoco lo sería preguntarle, por ejemplo a
100 personas de Lima, o elegir a todos sus amigos y su familia. Hay cuestiones que
debemos especificar a la hora de elegir una muestra:
1. El método de selección de los individuos de la población (tipo de muestreo que se
va a utilizar).
2. El tamaño de la muestra.
3. El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, una
estimación del error que vamos a cometer (en términos de probabilidad).
13
Estadística Descriptiva
por la tarde no se verán representadas por lo que la muestra no representará a todos
los clientes del gimnasio. Una forma de evitar este tipo de error es tomar la muestra
de manera que todos los clientes tengan la misma probabilidad de ser
seleccionados.
2. Error o sesgo por no respuesta: Es posible que algunos elementos de la población
no quieran o no puedan responder a determinadas cuestiones. O también puede
ocurrir, cuando tenemos cuestionarios de tipo personal, que algunos miembros de la
población no contesten sinceramente. Estos errores son, en general, difíciles de
evitar, pero en el caso de la sinceridad, se suelen incorporar cuestiones (preguntas
filtro) para detectar si se está contestando sinceramente.
Después de lo que se acaba de ver, podemos decir que una muestra es sesgada
cuando no es representativa de la población.
MÉTODOS DE MUESTREO.
Ya hemos hecho referencia a la importancia de la correcta elección de la muestra para que
sea representativa para nuestra población pero ¿cómo clasificamos las diferentes formas de
elegir una muestra? Podemos decir que hay dos tipos de muestreo:
MUESTREO NO PROBABILÍSTICO
FORTALEZAS DEBILIDADES
Bajo costo y requiere menor tiempo No permite calcular errores de muestreo
Elige solo a las unidades queridas Sus resultados no son generalizables
Permite entrar información inesperada Pueden ser rechazadas por los usuarios
Diseño y cobertura flexible e informal Puede haber sesgo en la selección
No permite hacer inferencia estadística
Requiere de personal muy especializado
La supervisión es difícil de realizar
Probabilidad no conocida de elegir a la
unidad como parte de la muestra.
14
Estadística Descriptiva
Selección de muestras bajo un enfoque cuantitativo.
Diseños de Muestreo:
Es el método de muestreo que asegura que cada una de las unidades de análisis tiene igual
probabilidad de ser incluida en la muestra, igualmente, cada una de las muestras posibles
tendrá la misma probabilidad de ser elegida; esta característica asegura la representatividad
e imparcialidad de la muestra elegida para el estudio.
Procedimiento:
Elabore el marco de muestreo.
Determine un tamaño de muestra “n”.
Seleccione “n” números aleatorios “sin reemplazo” de la tabla de números aleatorios o
generados por un computador.
Recopile la información de cada una de las unidades de análisis seleccionadas.
Estimar: Promedios, totales o porcentajes y su error estándar respectivo.
15
Estadística Descriptiva
Estimación del total poblacional
Ejemplo.
Muestra inicial:
𝑍2 ∗ 𝑝 ∗ 𝑞 ∗ 𝑁
𝑛0 =
𝑒 2 (𝑁 − 1) + 𝑍 2 ∗ 𝑝 ∗ 𝑞
Donde:
Z = Valor tabular de una distribución normal estandarizado con probabilidad (1 – 𝛼). Para
95% de confianza Z = 1.96
1
[Fuente: MINISTERIO DE EDUCACIÓN - Censo Escolar./ http://escale.minedu.gob.pe/magnitudes]
16
Estadística Descriptiva
p = probabilidad de éxito. p = 0.5
Reemplazando:
365
𝑛= 365 = 347 𝐴𝑙𝑢𝑚𝑛𝑜𝑠.
1+ 7154
Se requeriría encuestar a no menos de 347 estudiantes del 5to año de secundaria para poder
tener una seguridad del 95%.
En toda actividad de carácter científico, lo que se hace en última instancia, es dar repuestas
a ciertas preguntas. De acuerdo con esto, necesitamos un documento donde plantear
preguntas y registrar sus respuestas, resultando así que una de las primeras y realmente
más decisiva etapa en cualquier investigación es la confección de formularios.
Antes de elaborar un formulario debe considerarse:
Lo primero tiene importancia para decidir sobre los datos que se recogerán y lo segundo
para la determinación del tamaño de muestra y del material más conveniente.
En todo formulario se debe recoger sólo los datos útiles y adecuados al estudio.
Formularios muy extensos conspiran contar la exacta recolección de los datos. Es pues,
entonces conveniente:
a. Hacer una lista de todos los datos que sean necesario recoger de acuerdo a la
finalidad del estudio.
b. Considerar cuales datos son factibles de recoger y exacta.
c. Limitar a aquellos datos prácticos a recoger y que se usará.
17
Estadística Descriptiva
educación, vivienda, y otras referentes a condiciones económicas y sociales no deben estar
separadas.
El espacio que se deja debe ser adecuado para las respuestas que se esperan y siempre que
sea posible se adoptará el sistema que exige el menor esfuerzo.
Ejemplo.
a. Sexo:……………………; b.Sexo:………..Femenino
………..Masculino.
En el inciso (a), se pone nombre y en el (b), se marca con una cruz, este último es de
menor esfuerzo.
Puede usarse otro método que sea la utilización de un código, por ejemplo, ¿Debe existir
una revisión periódica de salario mínimo?
1 Si
2 No
0 No sabe o no opina.
Debe procurarse que se puede elegir varias respuestas, evitando la ambigüedad u omisión
de datos.
Ejemplo.
¿Enfermedades que Ud. Ha padecido?
Sarampión___________________
Bronquitis___________________
Asma ___________________
Debe realizarse un estudio piloto antes que el formulario sea impreso de manera definitiva,
con el fin de probarlo y ver la operatividad del formulario y para darse cuenta de las fallas
que pueda tener y hacer las correcciones necesarias.
18
Estadística Descriptiva
CASO PRÁCTICO DE DISEÑO DE ENCUESTA
Un grupo de inversionistas ha formado una mediana empresa llamada Sport Time, cuyo
negocio es el servicio de preparación y mantenimiento físico de las personas. De acuerdo
con sus experiencias empresariales, este gimnasio será dirigido a los integrantes del nivel
socio económico A y B de la ciudad de Tingo María, teniendo como área de influencia a la
ciudad. Sin embargo les gustaría poder contar con mayor información del mercado con la
finalidad de crear y ofrecer un centro deportivo de calidad, incorporando los gustos y
preferencia del futuro cliente.
Frente a esta necesidad, uno de los socios propuso realizar una investigación de mercado,
propuesta que fue aceptada por todos para tal efecto se procedió a determinar los
parámetros que definen correctivamente las características de la población que conforma
su mercado:
1.- El segmento estará compuesto por hombres y mujeres con edades entre 18 y 60 años.
2.- El gimnasio estará orientado al segmento A y B de la ciudad de Tingo María.
Una vez determinado estos parámetros se considero que los más convenientes para realizar
esta investigación era aplicar una encuesta cuyo proceso de elaboración implica seguir los
siguientes pasos:
19
Estadística Descriptiva
Solución
Propósito: Sera evaluar las actitudes y preferencias de las personas respecto a los
gimnasios.
20
Estadística Descriptiva
B). Diseño de Encuesta.
21
Estadística Descriptiva
VALIDEZ Y CONFIABILIDAD DE LOS INSTRUMENTOS DE MEDICIÓN
(ENCUESTAS):
CONFIABILIDAD
Consiste en la aplicación de dos veces o más veces un mismo instrumento de medición a un mismo
grupo de personas, después de cierto período. Si la correlación entre los resultados de las
diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. Se
determinará mediante el cálculo de Coeficiente de Correlación de Pearson (r).
Donde:
n = Número de parejas.
Xi : valores obtenidos en el momento 1
Yi : valores obtenidos en el momento 2
22
Estadística Descriptiva
2.2.- METODO DE DIVIDIR EN MITADES (Ver Ejemplo en el presente módulo)
Consiste en calcular el coeficiente de correlación de Pearson entre las dos mitades de cada
factor (pares o impares) de los elementos y luego corregir los resultados según la fórmula
de Sperman – Brown, que es una fórmula de corrección, que da como resultado un
estímulo corregido de confiabilidad. Este método requiere solo una aplicación de la
medición. Específicamente el conjunto total de ítems (o componentes) se divide en
dos mitades y se comparan las puntuaciones o los resultados de ambas. Si el
instrumento es confiable, las puntuaciones de ambas mitades deben estas muy
correlacionadas.
Reemplazando:
23
Estadística Descriptiva
CÁLCULO DEL COEFICIENTE:
𝐾 ∑ 𝑆𝑖 2
𝛼= [1 − ]
𝐾−1 𝑆𝑇 2
Donde:
K : Es el número de ítems.
∑ 𝑆𝑖 2 : Sumatoria de varianzas de los ítems.
𝑆𝑇 2 : Varianza de la suma de los ítems.
𝛼 : Coeficiente de Alfa de cronbach.
EJEMPLO:
Se tienen los resultados referidos a la opinión de 06 alumnos respecto a los ítems
formulados en un cuestionario
Items
Alumnos
I II III
Campos (1) 3 5 5
Gómez (2) 5 4 5
Linares (3) 4 4 5
Rodas (4) 4 5 3
Saavedra (5) 1 2 2
Tafur (6) 4 3 3
PROCEDIMIENTO:
Paso 1: Calcular las varianzas de cada uno de los ítems; en el cuadro de cálculo.
Items
Alumnos Suma de Items
I II III
Campos (1) 3 5 5 13
Gómez (2) 5 4 5 14
Linares (3) 4 4 5 13
Rodas (4) 4 5 3 12
Saavedra (5) 1 2 2 5
Tafur (6) 4 3 3 10
VAR. (𝑆𝑖 2 ) 1.90 1.37 1.77 𝟐
𝑺𝑻 = 10.97
∑ 𝑆𝑖 2 = 5.03
24
Estadística Descriptiva
Ejercicio 1. Con el fin de medir los niveles de actitud adversa hacia la fauna silvestre en
una comunidad rural, se propone aplicar la escala de medición siguiente:
Encuesta I1 I2 I3 I4 I5 I6 Total
E1 2 1 1 1 2 1 8
E2 1 1 1 1 2 1 7
E3 1 2 2 1 2 2 10
E4 2 2 2 1 2 3 12
E5 3 3 3 3 3 3 18
E6 2 3 3 3 3 4 18
E7 4 4 4 3 5 4 24
E8 4 4 4 3 5 4 24
E9 5 5 4 5 5 5 29
E10 5 5 5 5 5 4 29
Variancia 2.322 2.222 1.878 2.489 2.044 1.878
𝟐 ∑ 𝑺𝒋 𝟐 = 70.54
𝑺𝒙 = 12.833
Fuente: Elaboración propia.
𝒏 ∑ 𝑺𝒋 𝟐 6 12.833
𝜶 = 𝒏−𝟏 (𝟏 − 𝟐 ) 𝛼 = 6−1 (1 − ) = 0.982
𝑺𝒙 70.54
Donde:
n: Es el número items incluidos en la escala de medición =6
S2j: Variancia del j-ésimo item de la escala =12.833
S2x: Variancia del puntaje total obtenido a través de la escala de medición = 70.54
Comentario:
De 10 agricultores entrevistados la fiabilidad de las respuestas de los 6 items según el
coeficiente alfa de Cronbach (𝛼 = 0.982), indica que las respuestas o resultados de los
individuos entrevistados son muy consistentes, es decir presenta una confiabilidad
aceptable.
2
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 = Siempre (S)]
25
Estadística Descriptiva
Salida de SPSS vs 20.0:
Estadísticos de fiabilidad
Alfa de Cronbach basada en
Alfa de Cronbach N de elementos
los elementos tipificados
,982 ,982 6
Ejercicio 2. Estime el índice de fiabilidad del cuestionario con base en la correlación par
impar.
El coeficiente de fiabilidad par impar se calcula con base en la correlación entre los
puntajes totales obtenidos con los ítems pares e impares utilizando la función EXCEL:
2𝑟 2(0.949)
Coeficiente de fiabilidad: 𝑟𝑥𝑥 = 1− 𝑟𝑃𝐼 = = 0.974
𝑃𝐼 1+ 0.949
Comentario: se registra un alto índice de fiabilidad para la alta consistencia interna que se
registra entre los ítems pares e impares del instrumento.
26
Estadística Descriptiva
Ejercicio 3. Encuentre los índices de homogeneidad corregidos para cada ítem.
Puntaje Calificativo
Entrevista
Total Global
1 8 5
2 7 7
3 10 7
4 12 7
5 18 14
6 18 14
7 24 17
8 24 17
9 29 20
10 29 20
27
Estadística Descriptiva
Cuestionario A Cuestionario B
Encuesta I1 I2 I3 I4 I5 I6 Total Encuesta I1 I2 I3 I4 I5 I6 I7 I8 Total
E1 2 1 1 1 2 1 8 E1 2 1 2 2 3 1 1 3 15
E2 1 1 1 1 2 1 7 E2 4 5 5 3 4 3 1 2 27
E3 1 2 2 1 2 2 10 E3 4 3 4 4 3 4 3 3 28
E4 2 2 2 1 2 3 12 E4 4 4 4 4 4 4 5 4 33
E5 3 3 3 3 3 3 18 E5 1 1 2 2 3 2 2 1 14
E6 2 3 3 3 3 4 18 E6 3 3 4 4 4 5 5 4 32
E7 4 4 4 3 5 4 24 E7 2 2 2 2 1 1 1 1 12
E8 4 4 4 3 5 4 24 E8 4 4 5 4 3 5 3 1 29
E9 5 5 4 5 5 5 29 E9 4 3 1 3 3 3 2 1 20
E10 5 5 5 5 5 4 29 E10 4 5 4 5 4 4 3 2 31
28
Estadística Descriptiva
II. ORGANIZACIÓN DE DATOS
1. DISTRIBUCIÓN DE FRECUENCIAS
ORDENACIÓN DE DATOS
CARACTERES CUALITATIVOS
Consideremos una muestra de tamaño “n” sacada de una población estadística de la que
observamos un carácter cualitativo A que presenta las modalidades siguientes: a1, a2, a3,...,
ak, llamamos
……..
……..
ak fk hk
Total. ∑ 𝑓𝑖 = 𝑛 ∑ ℎ𝑖 = 1
29
Estadística Descriptiva
CARACTERES CUANTITATIVOS
Consideramos una variable estadística X que, en una muestra de tamaño “n” extraída de
una población estadística, toma los valores x1<x2<x3< ...<xk , definimos los siguientes
conceptos :
∑ 𝑓𝑖 = 𝑛 ; 0 ≤ 𝑓𝑖 ≤ 𝑛 ; 𝑖 = 1, 2, 3, ….
𝑖=1
Llamamos frecuencia absoluta acumulada en el valor xi a la
suma de las frecuencias absolutas de los valores inferiores o
Frecuencia iguales a él.
Absoluta Fi Evidentemente, los valores xi han de estar ordenados de
Acumulada forma creciente, como ya se ha indicado, y la frecuencia
absoluta acumulada del último valor será igual a “n”.
𝐹𝑘 = 𝑛
Llamamos frecuencia relativa de un valor xi de la variable
estadística X al cociente entre la frecuencia absoluta simple y
Frecuencia el número de observaciones realizadas.
hi 𝑘
Relativa 𝑓𝑖
ℎ𝑖 = ; ∑ ℎ𝑖 = 1 ; 0 ≤ ℎ𝑖 ≤ 1.
𝑛
𝑖=1
Llamamos frecuencia relativa acumulada en el punto xi al
Frecuencia cociente entre la frecuencia absoluta acumulada y el número
Relativa Hi de observaciones realizadas.
Acumulada 𝐹𝑖
𝐻𝑖 = ; 𝐻𝑘 = 1
𝑛
1. Que la variable estadística tome pocos valores diferentes (ya sea grande o pequeño
el tamaño de la muestra).
2. Que, en una muestra de gran tamaño, la variable estadística tome muchos valores
diferentes, ya se trate de variable estadística discreta como de variable estadística
continua (este último caso es el más habitual).
30
Estadística Descriptiva
En este primer caso (Si la variable Xi fi hi Fi Hi
es cuantitativa Discreta), no es
x1 f1 h1 F1 H1
necesario agrupar los datos, y la
tabla de distribución presenta el x2 f2 h2 F2 H2
……..
……..
……..
……..
……..
siguiente aspecto (ordenando los
datos de menor a mayor):
xk Fk hk Fk=n Hk=1
Total. ∑ 𝑓𝑖 = 𝑛 ∑ ℎ𝑖 = 1
En el segundo caso por tratarse de variable continua o discreta, con un número de datos
muy grande, es aconsejable AGRUPAR LOS DATOS EN CLASES.
Rango (R).
𝑅 = 𝑉𝑎𝑙𝑜𝑟 𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑀𝑖𝑛𝑖𝑚𝑜
……..
……..
……..
……..
……..
[ak– ak+1] xk fk hk Fk=n Hk=1
Total. ∑ 𝑓𝑖 = 𝑛 ∑ ℎ𝑖 = 1
31
Estadística Descriptiva
MEDIDAS DE TENDENCIA CENTRAL.
Son estadígrafos de posición que son interpretados como valores que permiten a un
conjunto de datos dispersos, podría asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos
predeterminados.
MEDIDAS DE POSICIÓN
Percentiles.
Cuartiles
Deciles
1. Amplitud o rango.
2. Varianza.
3. Desviación estándar.
4. Coeficiente de variabilidad.
MEDIDAS DE FORMA
1. Asimetría o sesgo.
2. Curtosis.
32
Estadística Descriptiva
1. LA MEDIA ARITMÉTICA.
∑𝑛𝑖=1 𝑋𝑖 𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑛
𝑋̅ = =
n 𝑛
Ejemplo:
Durante los últimos 32 días el valor de las compras (soles) en periódicos fue:
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 8.2
6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 6.4 10.1 9.1
9.0 7.8 8.2 5.3 6.2 8.6 7.0 7.7 8.3 7.5
El promedio aritmético del valor de las compras en periódicos es:
∑𝑛𝑖=1 𝑋𝑖 250.2
𝑋̅ = = = 7.82
n 32
Para Datos Agrupados.
Rango (R).
𝑅 = 𝑉𝑎𝑙𝑜𝑟 𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑀𝑖𝑛𝑖𝑚𝑜 = 10.2 − 5.2 = 5
Número de clases (m).
Determinamos atreves de la regla de sturges.
𝑚 = 1 + 3.3 ∗ Log(𝑛) = 1 + 3.3 ∗ 𝐿𝑜𝑔(32) = 5.97 ≅ 6
∑𝑛𝑖=1 𝑋𝑖 ∗ 𝑓𝑖
𝑋̅ =
𝑛
Donde: fi = frecuencia en la clase K –ésima.
Xi = marca de clase en el intervalo K – éimo.
Ejemplo.
Para los gastos diarios en periódicos del hotel agrupados en una tabla de frecuencia:
Intervalo Xi fi hi Fi Hi 10
fi
Durante los 32 días el hotel tuvo un gasto promedio en periódicos de 7.86 soles
33
Estadística Descriptiva
2. LA MEDIANA.
Ejemplo. Para los gastos diarios en periódicos del hotel en una tabla de frecuencias.
El 50% de los días el hotel gastó menos de 7.9 soles en la compra de periódicos.
34
Estadística Descriptiva
3. LA MODA.
Es el valor; clase o categoría que ocurre con mayor frecuencia y sus características son:
Por ejemplo, Durante los últimos 32 días el valor de las compras en periódicos fue:
5.2 10.2 7 7.1 10.2 8.3 9.4 9.2
6.6 7.8 6.8 7.1 8.4 9.6 7.1 5.7
Moda =Mo= 7.1; es el valor más frecuente, ocurre tres veces.
Intervalo Xi fi hi Fi Hi
[5.2 - 6.0) 5.62 3 0.09 3 0.09
[6.0 - 6.9) 6.45 5 0.16 8 0.25
[6.9 - 7.7) 7.28 6 0.19 14 0.44
[7.7 - 8.5) 8.12 8 0.25 22 0.69
[8.5 - 9.4) 8.95 5 0.16 27 0.84
[9.4 - 10.2] 9.78 5 0.16 32 1.00
Total 32 1
2
𝑀𝑜 = 7.7 + [ ] ∗ 0.83 = 8.03
2+3
Donde:
𝐿𝑖 = 7.7
𝑑1 = (8 − 6) = 2
𝑑2 = (8 − 5) = 3
35
Estadística Descriptiva
4. MEDIA GEOMÉTRICA.
La media geométrica simple 𝑋̅𝐺 de n observaciones X1, X2, X3,…..,Xn positivos, está dado
por la raíz enésima del producto de los n valores observados. El promedio geométrico de
los valores: (X1, X2, X3,…..,Xn) es :
Ejemplo.
Hallar la media geométrica de los números 3, 5, 8, 3, 5, 2.
Solución.
En este caso n = 6, entonces la media geométrica es:
̅ 𝑮 = 𝟔√𝟑 𝒙 𝟓 𝒙 𝟖 𝒙 𝟑 𝒙𝟓 𝒙 𝟐 = 3.915
𝑿
𝟏
̅𝑮 =
Log 𝑿 [𝑓 𝑥 𝑙𝑜𝑔𝑋1 + 𝑓2 𝑥 𝑙𝑜𝑔𝑋2 +, … , + 𝑓𝑛 𝑥 𝑙𝑜𝑔𝑋𝑛 ]
𝒏 1
1
= 𝑛 ∑𝑛𝑖=1 𝑓𝑖 𝑙𝑜𝑔𝑋𝑖 ; Luego.
∑𝑚
𝑖=1 𝑓𝑖 𝑙𝑜𝑔𝑋𝑖
̅ 𝑮 = 𝒂𝒏𝒕𝒊 𝒍𝒐𝒈 [
𝑿 ]
𝒏
Ejemplo.
36
Estadística Descriptiva
Desventajas de la media geométrica.
Está limitado para valores positivos para que pueda ser interpretado.
Si algún valor de la variable es cero, la media geométrica será cero.
Si aparece algún valor negativo, el estadígrafo toma un valor imaginario.
5. PROMEDIO PONDERADO
Cuando se desea encontrar el promedio de valores (X1, X2, X3,…..,Xn) que ocurren con
frecuencias (f1,f2,….fn)diferentes se deberán ponderar los valores observados con pesos
diferentes:
𝒏
̅ = ∑ 𝑾𝒊 ∗ 𝑿𝒊
𝑿
𝒊=𝟏
Ejemplo.
En una agencia de viajes se han vendido 200 pasajes a los precios siguientes:
6. PROMEDIO TOTAL
̅𝟏 + 𝒏 𝟐 𝒙
𝒏𝟏 𝒙 ̅𝟐…… 𝒏𝑲 𝒙
̅𝒌
̅𝑻 =
𝑿
𝒏𝟏 + 𝒏𝟐 + ⋯ . +𝒏𝒌
37
Estadística Descriptiva
Ejemplo.
GUPO A GUPO B
Nota Xi fi Nota Xi fi
5 – 10 7.5 4 0 – 5 2.5 8
10 – 15 12.5 16 5 – 10 2.5 10
15 – 20 17.5 5 10 – 15 12.5 16
Total 25 15 – 20 17.5 6
Total 40
Promedio del grupo A: Promedio del grupo B:
Grupo ̅
Xi fi
Promedio A 12.7 25 25(12.7) + 40(10)
̅T =
X = 11.04
Total B 10 40 65
Total 65
7. MEDIA ARMÓNICA.
n
̅
XH = 1 1 1
+ x + ⋯………….+x
x1 2 n
Ejemplo. Calcular el rendimiento promedio para el caso de tres automóviles que
recorrieron 500 kilómetros y cada auto tuvo el rendimiento siguiente:
Auto A B C
Rendimiento(Km/galón) 50 62.4 77.6
3 3 Km
̅
XH = = = 61.334
1 1 1 0.0489121 galón
+ 62.4 + 77.6
50
Verificación.
Para Datos Agrupados. La media armónica para datos tabulados (media armónica
ponderada) se define por:
n
̅
XH = Mh = fi
∑mi=1 Xi
Donde:
m = número de clases, Xi = marca de clase, fi = frecuencia absoluta de cada clase.
38
Estadística Descriptiva
MEDIDAS DE POSICIÓN.
Las medidas de posición equivalen a los valores que puede tomar una variable
caracterizados por agrupar a cierto porcentaje de observaciones en la muestra o población.
Las medidas de posición son ideales para obtener información adicional a partir de datos
resumidos, es decir, que presentan perdida de información por agrupamiento en intervalos
de clase.
PERCENTILES.
Ejemplo.
1. Se determina 80*n/100.
El 80% de los datos analizados serán menores de 9.09 y el 20% restante serán superiores.
39
Estadística Descriptiva
CUARTILES.
Son tres valores Q1, Q2, Q3 que dividen a los datos en cuatro partes iguales.
𝑛 3𝑛
4
− 𝐹𝑖−1 − 𝐹𝑖−1
𝑄1 = 𝐿𝑖 + ( ) ∗ 𝐶 ; 𝑄2 = 𝑀𝑒 ; 𝑄3 = 𝐿𝑖 + ( 4 )∗𝐶
𝑓𝑖 𝑓𝑖
Ejemplo.
Calcular el tercer cuartil (Percentil 75%) de los gastos diarios en periódicos de la tabla
anterior.
Solución.
1. Se determina n/4.
El 75% de los datos analizados serán menores a 8.8 y el 25% restante serán superiores.
DECILES.
Son nueve valores D1, D2, D3, D4, D5, D6, D7, D8, y D9, que dividen a un conjunto de datos
en 10 partes iguales.
Ejemplo.
Calcular el decil siete (Percentil 70%) de los gastos diarios en periódicos de la tabla de
frecuencia anterior.
𝑖𝑛
− 𝐹𝑖−1 (𝟐𝟐. 𝟒 − 17)
10
𝐷𝑖 = 𝐿𝑖 + ( ) ∗ 𝐶 = 8.5 + ∗ 0.83 = 9.396
𝑓𝑖 5
70% de los datos serán menores a 9.396 y el 30% restante serán superiores a 9.396.
40
Estadística Descriptiva
Para Datos no Agrupados.
El lugar o posición donde se encuentran los cuartiles para n datos ordenados es:
Ejemplo.
Supóngase que los siguientes datos representan los salarios por día de 12 trabajadores de
una compañía muy grande seleccionados aleatoriamente (en soles)
9 10 12 3 5 7 15 10 9 11 13 11
Solución.
3 5 7 9 9 10 10 11 11 12 13 15
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
𝑛+1 12+1
2. Como n = 12, 4 = 4 = 3.25. Esto significa que el valor de Q1 es el tercer dato
más 25% de la diferencia entre los valores de las observaciones tercero y cuarto.
Así, el valor de la tercera observación es 7 y el del cuarto es 9, entonces
Ejemplo:
10 11 11 12 12 13 13 13 14 15 17 18 20
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
41
Estadística Descriptiva
MEDIDAS DE VARIABILIDAD.
1. AMPLITUD O RANGO
Sean los valores:x1, x2, x3,…..,xnla amplitudo rango de estos datos es
R = (Xmax - Xmin).
(x i )2
2 i 1
( xi X ) 2
s2 i 1
n
n n
( xi x) 2 xi2 n x
2
Es fácil verificar que:
i 1 i 1
Por lo tanto,
n
x 2
i
2
s2 i 1
x
n
2 2
∑𝑛 (𝑥 −𝑥̅ ) ∑𝑛 (𝑥 −𝑥̅ )
La diferencia entre 𝑖=1 𝑛 𝑖 𝑦 𝑖=1𝑛−1𝑖 es grande para muestras pequeñas, y es
mínima para muestras grande, prácticamente son iguales. Entonces, para muestras
grandes 𝑛 ≥ 60, puede usarse cualquiera de las formulas. Para muestras pequeñas
2
∑𝑛 (𝑥 −𝑥̅ )
se usa 𝑖=1𝑛−1𝑖 , lo cual es llamada varianza muestral o también varianza
corregida, y se acostumbra denotar por 𝑆 2 . Es decir la varianza muestral estará
definida por:
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 2
∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑋̅ 2
𝑆 = ó 𝑆 =
𝑛−1 𝑛−1
42
Estadística Descriptiva
Ejemplo.
Calcular la varianza de los cuatro datos siguientes: (Xi: 3, 4, 6 y 7)
∑𝑛𝑖=1 𝑋𝑖 3 + 4 + 6 + 7 20
𝑋̅ = = = =5
n 4 4
∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑋̅ 2 32 + 42 + 62 + 72 10
= = = 3.333
𝑛−1 4−1 3
(x i X )2 * fi
s2 i 1
n
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖 ∑𝑛
𝑖=1 𝑓𝑖 ∗ 𝑥𝑖 − 𝑛𝑋̅ 2
𝑆2 = 2
ó 𝑆 =
𝑛−1 𝑛−1
Ejemplo.
Marca Frecuencia
Intervalo
de clase Absoluta Xi*fi ( Xi -𝑋̅)2*fi
De clase
Xi fi
[5.2 - 6.0) 5.62 3 16.85 15.10
[6.0 - 6.9) 6.45 5 32.25 9.94
[6.9 - 7.7) 7.28 6 43.70 2.00
[7.7 - 8.5) 8.12 8 64.93 0.53
[8.5 - 9.4) 8.95 5 44.75 5.94
[9.4 - 10.2] 9.78 5 48.92 18.50
Total ∑= 32 ∑ = 251.40 ∑ = 52.00
𝒙̅ = 𝟕. 𝟖𝟔
∑𝑛𝑖=1(𝑥𝑖 2 − 𝑥̅ )2 ∗ 𝑓𝑖 52
𝑆2 = = = 1.68
𝑛−1 31
3. DESVIACIÓN ESTÁNDAR.
Es una medida de variabilidad que corresponde a la raíz cuadrada de la varianza.
Este indicador tiene la misma unidad de medida en la que se expresa el promedio.
∑𝑛 (𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
𝑆 = √𝑆 2 = √ 𝑖=1
𝑛−1
Entonces, 𝑆 = √1.68 = 1.3 soles.
43
Estadística Descriptiva
𝑉 (𝑥 ) ≥ 0
La varianza de una constante es cero.
𝑉 (𝑘 ) = 0
Si a cada observación x1, x2, x3,…..,xn, se adiciona o resta una constante
k>0, la varianza del nuevo conjunto de valores y1, y2, y3,…..,yn, donde
yi=xi ± K, i=1, 2,….,n, coincide con la varianza del conjunto original. Es
decir
𝑉(𝑘 ∗ 𝑥) = 𝑘 2 𝑉 (𝑥 ).
1
𝑉 (𝑦) = 𝑉 (𝑎𝑥 ± 𝑏) = 𝑎2 𝑉(𝑥 ) ó 𝑉(𝑥 ) = 𝑎2 𝑉(𝑦), donde a y b son
constantes.
4. COEFICIENTE DE VARIACIÓN.
𝑺
𝑪. 𝑽. = ( ) 𝒙𝟏𝟎𝟎
𝐱̅
𝟏. 𝟑
𝑪. 𝑽. = ( ) 𝒙𝟏𝟎𝟎 = 𝟏𝟔. 𝟓𝟑𝟗%
𝟕. 𝟖𝟔
El coeficiente de variación del recipiente pequeño es más de tres veces mayor que el
coeficiente de variación del recipiente grande. En otras palabras, aunque el recipiente
grande presenta una mayor desviación estándar, el recipiente pequeño presenta una
variabilidad mucho mayor con respecto a su media.
44
Estadística Descriptiva
MEDIDAS DE FORMA.
1. ASIMETRÍA O SEGO.
Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos
respecto a su valor promedio tomando como centro de gravedad. El coeficiente de
asimetría de pearson es:
3(𝑋̅ − 𝑀𝑒 )
𝐴𝑘 =
𝑆
Grado de asimetría Valor del sesgo
Simetría perfecta Cero: El promedio es igual a la mediana
Sesgo positivo Positivo: Promedio mayor que la mediana
Sesgo negativo Negativo: Promedio menor que la mediana
CURTOSIS.
45
Estadística Descriptiva
REPRESENTACIÓN GRÁFICA.
GRÁFICOS DE CAJAS.
Existe una gran variedad de graficas estadísticas para extraer información acerca de las
propiedades de un conjunto de datos.
Una grafica útil para reflejar propiedades de los datos es la grafica de caja (“box plots”)
que se basa en la medida(o en la media), los cuartiles y valores extremos. La caja
representa el rango intercuartil que encierra el 50% de los valores y tiene la mediana (Me)
dibujada dentro. El rango intercuartil tiene como extremos el percentil 75, P75 (cuartil
superior) y el percentil 25, P25 (cuartil inferior).
Además de la caja se incluya la extensión de los datos mediante segmentos que se
extienden de la caja hacia el valor máximo (U) y hacia el valor mínimo (L) de los datos. Es
te recuadro se dibuja con el eje de la variable en forma horizontal o vertical como se indica
en la figura que sigue.
Los datos atípicos o discordantes o raros llamados “outliers” (aislados) son aquellos
que se ubican fuera del intervalo.
46
Estadística Descriptiva
Diagrama de Causa-Efecto
CUADRO 1
Material Variación del material
Material defectuoso Materia prima de mala calidad
Proveedores no adecuados
Maquinaria Antigüedad de la maquinaria
Mal diseño de la maquina
Equipos sin calibración
Método Sin procedimientos
Especificaciones mal estructuradas
Medio Ambiente Alta temperatura
Ambiente de trabajo contaminado
Mano de Obra Personal sin entrenamiento
Personal sin experiencia
Personal mal seleccionado
Medición Sin instrumentos de control
Velocidad sin control
control
at
er
Pr
ia
ov
d
im
or
a
es
de
ad
e
ca
cu
l
a
id
do
Variacion del
a
Material defectuoso
s
d
espesor en
10%
Equipos sin calibración
Ambiente de trabajo Especificaciones mal
contaminado estructuradas
47
Estadística Descriptiva
Diagrama de Pareto
1.- En la empresa Las Malvinas el ensamblaje de mangueras ha sido criticado debido a que
presenta muchos defectos. De 14993 ensamblajes inspeccionados en un año, un total de 1509,
el 10.1% estaban defectuosos. El reporte de inspección se muestra en el cuadro 2:
CUADRO 2
La gerencia expresó su preocupación por que los tres turnos no cuentan con igual supervisión, lo
que puede contribuir al problema. Desarrolle un Diagrama de Pareto para el total de defectos en
los tres turnos y un Diagrama de Pareto para cada turno.
1200 80
1000
60 Porcentaje
Total
800
600 40
400
20
200
0 0
Defectos Fugas Sin roscas Muy largo Muy corto Retrabajado Otro
Total 998 209 132 91 55 24
Porcentaje 66.1 13.9 8.7 6.0 3.6 1.6
% acumulado 66.1 80.0 88.7 94.8 98.4 100.0
48
Estadística Descriptiva
Diagrama de Pareto para cada turno.
500 100
400 80
Porcentaje
300 60
Turno 1
200 40
100 20
0 0
Defectos Fugas Sin roscas Muy largo Muy corto Retrabajado Otro
Turno 1 330 70 44 30 22 8
Porcentaje 65.5 13.9 8.7 6.0 4.4 1.6
% acumulado 65.5 79.4 88.1 94.0 98.4 100.0
Diagrama de Dispersión
1.- En un equipo de mejora se obtienen los siguientes datos, que recogen el número de
defectos por lote e conjuntos de 10 000 piezas en función del tiempo de tratamiento al
que se someten:
49
Estadística Descriptiva
18 49 811 B 43 50 831 B
19 49 820 A 44 56 841 B
20 48 826 A 45 50 843 A
21 52 832 B 46 49 850 A
22 50 837 A 47 52 841 B
23 49 839 A 48 50 855 A
24 54 839 B 49 46 829 A
25 56 842 B 50 49 838 A
Diagrama de dispersión.
2.- Fiber Borrad fabrica forros interiores de techo para la industria automotriz. La gerente
de manufactura está preocupada por la calidad de este producto. Sospecha que un
defecto en particular, las rasgaduras de la tela, está relacionado con el tamaño de las
actuales partidas de producción. Un asistente ha recopilado los datos que se
encuentran en la tabla, basándose en los registros de producción:
50
Estadística Descriptiva
b) ¿Existe alguna relación entre el tamaño de la partida y el porcentaje de defectos? ¿Qué
consecuencias tiene esto para los negocios de Fiber Borrad?
5
Defecto (%)
GRÁFICO DE BARRAS
51
Estadística Descriptiva
Gráfico N° 01. Distribución porcentual de plántulas de tornillo según su altura (en
milímetros). Brunas-UNAS/Tingo María. Mayo 2011
16.0% 14.2%
14.0% 12.1% 12.5%
11.3% 10.8%
12.0% 10.0% 10.0% 10.0%
9.2%
10.0%
8.0%
6.0%
4.0%
2.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]
GRÁFICO DE SECTORES.
Bueno Regular Malo Malo Bueno Regular Malo Bueno Regular Malo Bueno Regular
Regular Excelente Excelente Regular Regular Excelente Excelente Regular Excelente Excelente Regular Excelente
Malo Bueno Bueno Malo Malo Bueno Bueno Malo Bueno Bueno Malo Bueno
Excelente Malo Regular Excelente Excelente Malo Regular Excelente Malo Regular Excelente Malo
Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo
Excelente Malo Excelente Excelente Excelente Malo Excelente Excelente Malo Excelente Excelente Malo
Malo Excelente Bueno Regular Malo Excelente Bueno Regular Malo Excelente Malo Excelente
Solución
Cuadro N° 02: Distribución de personas según su opinión sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo María. Julio – Agosto del 2012.
Opinión sobre la conserva fi Fi hi Hi hi% Hi%
Bueno 13 13 0.15 0.15 15% 15%
Regular 14 27 0.17 0.32 17% 32%
Malo 33 60 0.39 0.71 39% 71%
Excelente 24 84 0.29 1.00 29% 100%
Total 84 1.00 100%
Fuente: Elaboración Propia
52
Estadística Descriptiva
Gráfico N° 02: Distribución de personas según su opinión sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo María. Julio – Agosto del 2012.
Excelente Bueno
29% 15%
Regular
17%
Malo
39%
HISTOGRAMA.
1. La Biomasa de los recursos hidrobiológicos del Perú en los años de 2004 a 2009 se
da en la siguiente tabla:
Recurso 2004 2005 2006 2007 2008 2009
Jurel 5300 5000 4330 7000 2800 4303
Caballa 1511 450 1700 1900 1300 1052
Sardina 4200 2500 2700 1750 4500 3680
Anchoveta 1500 6500 6000 4500 5900 3060
a) Construya su grafico correspondiente para los recursos hidrobiológicos del Perú en
los años 2005, 2008 y 2009 e interprete. (2 pts)
7000
6000
5000
4000
3000
2000
1000
0
2005 2008 2009
GRÁFICO DE LINEAS.
53
Estadística Descriptiva
PROBLEMAS RESUELTOS.
Solución
Del
PASOS PARA AGRUPAR DATOS Función en Excel Ejemplo
Tamaño de muestra: ( n ) = CONTAR(Seleccionar BD3) 240
Valor Máximo = MAX() 50
Valor Mínimo = MIN() 14
Rango (R)= Valor Máximo - Valor Mínimo 36
Aplicando la regla de STURGES:
N° de intervalos (m) = 1+3.3*log (n) 8.855
m redondeado = REDONDEAR() 9
Amplitud (C ) = R/[m = redondeado] 4
3
BD: base de datos.
54
Estadística Descriptiva
Cuadro N° 01: Distribución de plántulas de tornillo según su altura (en milímetros).
Brunas-UNAS/Tingo María. Mayo 2011
Marca de Clase Frecuencia
mi Li Ls Grupos (Fi) (hi) (Hi) (hi%) (Hi%)
(Xi) (fi)
1 14 18.0 16 17.0 29 29 0.121 0.121 12.1% 12.1%
2 18.0 22.0 20 21.0 24 53 0.100 0.221 10.0% 22.1%
3 22.0 26.0 24 25.0 27 80 0.113 0.333 11.3% 33.3%
4 26.0 30.0 28 29.0 30 110 0.125 0.458 12.5% 45.8%
5 30.0 34.0 32 33.0 34 144 0.142 0.600 14.2% 60.0%
6 34.0 38.0 36 37.0 24 168 0.100 0.700 10.0% 70.0%
7 38.0 42.0 40 41.0 24 192 0.100 0.800 10.0% 80.0%
8 42.0 46.0 44 45.0 26 218 0.108 0.908 10.8% 90.8%
9 46.0 50.0 48 50.0 22 240 0.092 1.000 9.2% 100.0%
Total 240 1.000 100%
Fuente: Facultad de Recursos de la UNAS.
55
Estadística Descriptiva
Coeficiente de Variación muestral porcentual:
𝑺
𝑪. 𝑽. = ( ) 𝒙𝟏𝟎𝟎
̅
𝒙
5.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]
Ejemplo 02:
Los siguientes datos corresponden a una muestra aleatoria de los gastos semanales en
dólares de turistas que se alojaron en el hotel “Sheraton” la ciudad de Lima en julio del
2013.
17 18 9 8 18 14 18 31 32 9 21 33 34 31 33 19 18 20
27 26 15 38 20 32 14 14 17 15 19 36 33 39 31 27 26 17
40 14 25 27 33 20 17 10 33 18 12 25 18 24 19 30 26 14
25 29 40 8 11 23 35 11 39 37 25 28 36 37 10 18 14 10
26 16 36 8 37 31 40 17 10 15 19 31 38 30 37 32 29 34
20 26 21 29 34 28 37 29 8 12 16 20 21 13 30 19 20 18
La información fue obtenida de los registros de clientes de dicho hotel.
Solución:
Del
PASOS PARA AGRUPAR DATOS Función en Excel 2007 Ejemplo
Tamaño de muestra: ( n ) = CONTAR(Seleccionar BD) 108
Valor Máximo = MAX() 40
Valor Mínimo = MIN() 8
Rango (R)= Valor Máximo - Valor Mínimo 32
Aplicando la regla de STURGES:
Nº de intervalos (m) = 1+3.3*log (n) 7.71029
m redondeado = REDONDEAR() 8
Amplitud (C ) = R/[m = redondeado] 4
56
Estadística Descriptiva
Cuadro N° 02: Distribución de turistas, según sus gastos semanales (dólares).
“hotel Sheraton – Lima“. Julio de 2013.
Nº clases
[ Li - Ls > Xi fi Fi hi Hi hi% Hi%
o intervalos
1 [8 - 12> 10 12 12 0.11 0.11 11% 11%
2 [12 - 16> 14 12 24 0.11 0.22 11% 22%
3 [16 - 20> 18 20 44 0.19 0.41 19% 41%
4 [20 - 24> 22 10 54 0.09 0.50 9% 50%
5 [24 - 28> 26 13 67 0.12 0.62 12% 62%
6 [28 - 32> 30 14 81 0.13 0.75 13% 75%
7 [32 - 36> 34 12 93 0.11 0.86 11% 86%
8 [36 - 40] 38 15 108 0.14 1.00 14% 100%
Total 108 1.00 100%
Fuente: Registros de clientes - “hotel Sheraton – Lima”.
Nº de Nº de
[ Li - Ls > [ Li - Ls ]
intervalos intervalos
1 [8 - 12> 1 [8 - 11]
2 [12 - 16> 2 [12 - 15]
3 [16 - 20> 3 [16 - 19]
4 [20 - 24> 4 [20 - 23]
5 [24 - 28> 5 [24 - 27]
6 [28 - 32> 6 [28 - 31]
7 [32 - 36> 7 [32 - 35]
8 [36 - 40] 8 [36 - 40]
57
Estadística Descriptiva
Gráfico N° 02: Distribución de turistas, según sus gastos semanales (dólares).
“hotel Sheraton – Lima“. Julio de 2013.
25
20
20
15
15 14
13
12 12 12
10
10
0
[ 8 - 12>[12 - 16>[16 - 20>[20 - 24>[24 - 28>[28 - 32>[32 - 36>[36 - 40]
58
Estadística Descriptiva
MEDIDAS DE TENDENCIA CENTRAL
PARA DATOS AGRUPADOS PARA DATOS SIN AGRUPAR
1) Media aritmética Muestral (𝑋):̅
1) Media aritmética Muestral (𝑋̅):
𝑋̅ = 24.11
𝑋̅ = 23.68
Interpretación:
Interpretación:
El gasto promedio semanal de los
El gasto promedio semanal de los
turistas que se alojaron en hotel
turistas que se alojaron en hotel
“Sheraton” – Lima es de 24.11
“Sheraton” – Lima es de 23.68
dólares
dólares
2) Mediana muestral (Me):
2) Mediana muestral (Me):
Me = 24
Me = 23.5
Interpretación:
Interpretación:
El 50% de los turistas gastaron como
El 50% de los turistas gastaron como
máximo 24 dólares semanales en
máximo 23.5 dólares semanales en
hotel “Sheraton” – Lima y el otro
hotel “Sheraton” – Lima y el otro
50% superaron dicho monto.
50% superaron dicho monto.
3) Moda muestral (Mo):
3) Moda muestral (Mo):
Mo = 17.78
Mo = 18.0
Interpretación:
Interpretación:
El gasto más frecuente semanal de
El gasto más frecuente semanal de
los turistas es de 17.78 dólares
los turistas es de 18 dólares
semanales.
semanales.
̅̅̅̅
4) Media geométrica muestral (𝑋 𝐺 ): ̅̅̅̅
4) Media geométrica muestral (𝑋 𝐺 ):
̅̅̅̅
𝑋𝐺 = 22.21 ̅̅̅̅
𝑋𝐺 = 21.68
Interpretación:
Interpretación:
El gasto promedio geométrico
El gasto promedio geométrico
semanal de los turistas es de 22.21
semanal de los turistas es de
dólares.
21.68dólares.
5) Media armónica muestral (Mh):
5) Media armonica muestral (Mh):
Mh = 20.24
Mh = 19.55
Interpretación:
Interpretación:
El gasto promedio armónico
El gasto promedio armónico semanal
semanal de los turistas es de 20.24
de los turistas es de 19.55 dólares.
dólares.
59
Estadística Descriptiva
MEDIDAS DE DISPERSIÓN
PARA DATOS AGRUPADOS PARA DATOS SIN AGRUPAR
1) Varianza muestral (𝑺𝟐 ): 1) Varianza muestral (𝑺𝟐 ):
𝑺𝟐 = 𝟖𝟒. 𝟏𝟕 dólares2 𝑺𝟐 = 𝟖𝟓. 𝟖𝟕
Interpretación:
Interpretación:
La variabilidad promedio de los
La variabilidad promedio de los
gastos es de 85.87dólares2.
gastos es de 84.17 dólares2.
2) Desviación estándar (S):
2) Desviación estándar (S):
S = 9.27
S = 9.17 dólares.
Interpretación:
Interpretación:
Los gastos semanales de los turistas
Los gastos semanales de los turistas
varían con respecto a su valor central
varían con respecto a su valor
en 9.27 dólares.
central en 9.17 dólares.
3) Coeficiente de variación
3) Coeficiente de variación
porcentual (C.V%):
porcentual (C.V%): CV% = 39.14%
C.V.% = 38.05
Interpretación: Interpretación:
Los datos de la muestra de gastos Los datos de la muestra de gastos
semanales de los turistas son semanales de los turistas son
heterogéneos, por lo tanto presentan heterogéneos, por lo tanto presentan
un alto grado de variabilidad. un alto grado de variabilidad.
ACTIVIDAD DE APRENDIZAJE I
2. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco
de crédito del Perú según sus retenciones al sistema privado de pensiones en febrero del
2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institución.
Se pide:
a) Identificar la unidad de análisis y la variable en estudio.
b) Construya una distribución de frecuencias absolutas
c) Construya un cuadro de distribución de frecuencias ampliada. Utilice la regla
de Sturges.
d) Interprete f3, h3%, F3 y H3%.
e) Determinar qué porcentaje de trabajadores tienen una retención de 140 soles o
más, pero menos de 180 soles.
f) Determinar cuántos trabajadores tienen una retención de 160 a 200 soles.
g) Construir un histograma de frecuencias porcentuales y comente.
60
Estadística Descriptiva
Solución.
a)
Unidad de observación: El trabajador del BCP.
Variable en estudio: Retenciones al Sistema Privado de Pensiones (SPP).
b)
Retenciones al SPP.(Xi) N° de trabajadores (fi)
100 1
115 1
120 1
130 1
135 1
139 1
140 1
144 1
145 1
150 2
155 1
158 1
160 1
170 1
175 1
Total: 20
Cuadro N° 01: Distribución de los trabajadores según sus Retenciones al Sistema Privado
de Pensiones (SPP). Banco de Crédito del Perú. Febrero de 2006.
[Li – Ls> Xi fi Fi hi Hi hi% Hi%
[100 – 120> 110 2 2 0.10 0.10 10% 10%
[120 – 140> 130 4 6 0.20 0.30 20% 30%
[140 – 160> 150 7 13 0.35 0.65 35% 65%
[160 – 180> 170 4 17 0.20 0.85 20% 85%
[180 – 200] 190 3 20 0.15 1.0 15% 100%
Total: 20 1.0 100%
Fuente: Departamento de personal del BCP.
d) Interpretación:
f3 = 7: Existen 7 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 140 soles a más y a menos de 160 nuevos soles.
h3% = 35%: Existe un 35% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 140 soles a más y a menos de 160 soles.
61
Estadística Descriptiva
F3 = 13: Existen 13 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a más y a menos de 160 soles.
H3% = 65%: Existe un 65% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 100 soles a más y a menos de 160 soles.
35%
40%
10%
0%
[100 – 120> [120 – 140> [140 – 160> [160 – 180> [180 – 200]
Comentario:
Del gráfico se puede observar que existe un 35% de los trabajadores que sus retenciones al
Sistema Privado de Pensiones se encuentra de 140 soles a más y a menos de 160 soles y
existe un 10% de los trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a más y a menos de 120 soles.
62
Estadística Descriptiva
Gráfico N°02: Evolución del comercio electrónico de empresas turísticas por ventas al
consumidor final en millones de pesetas. España: 1997 – 2001.
40
30
Ventas
20
10
0
1997 1998 1999 2000 2001
Años
Comentario:
Del gráfico se puede observar que existe una tendencia ascendente del comercio
electrónico de empresas turísticas por ventas al consumidor final en los años 1997 a 1999,
y a partir del año 2000 al 2001 el comercio electrónico de empresas turísticas por ventas al
consumidor final permanece constante.
Donde:
C: “Casa” T: “Trabajo” Cl: “Cibercafé” O: Otros
a) Identificar la unidad de observación y la variable en estudio.
b) Construir una distribución de frecuencias absolutas y porcentuales.
c) Interpretar f3 y h4%
d) Construir un gráfico de barras simples para frecuencias absolutas.
e) Construir un gráfico de sectores y comentar.
Solución:
a)
Unidad de observación: El cibernauta.
Variable en estudio: modo de conexión al al chat a través de internet
b)
Distribución de cibernautas según el modo de conexión al chat a través de internet. Ciudad
de Chimbote. Enero de 2007.
Modo de conexión N° de cibernautas
hi hi%
(Xi) fi
Casa (C) 7 0.23 23%
Trabajo (T) 6 0.20 20%
Cibercafé (Cl) 12 0.40 40%
Otros (O) 5 0.17 17%
Total: 30 1.0 100%
Fuente: Encuesta – Comunidad Virtual Profesional de Marketing
63
Estadística Descriptiva
c) Interpretación:
f3 = 12: Existen 12 de cibernautas de la ciudad de Chimbote que acceden al internet por el
modo de conexión a través de un Cibercafé.
h4% = 17%: Existe un 17% de los cibernautas de la ciudad de Chimbote que acceden al
internet por el modo de conexión a través de otras modalidades.
d)
Grafico N°03: Distribución de cibernautas según el modo de conexión al chat a través de
internet. Ciudad de Chimbote. Enero de 2007.
14
12
12
10
8 7
6
6 5
4
2
0
Casa (C) Trabajo (T) Cibercafé (Cl) Otros (O)
Fuente: Encuesta – Comunidad Virtual Profesional de Marketing.
e)
Grafico N°04: Distribución de cibernautas según el modo de conexión al chat a través de
internet. Ciudad de Chimbote. Enero de 2007.
Otros (O) Casa (C)
17% 23%
Cibercafé Trabajo
(Cl) (T)
40% 20%
Fuente: Encuesta – Comunidad Virtual Profesional de Marketing.
Comentario:
Del gráfico se puede observar que existe un 40% de los cibernautas que acceden por el
modo de conexión al chat a través de internet desde un cibercafé y un 17% a través de
Otros medios en la Ciudad de Chimbote.
ACTIVIDAD DE APRENDIZAJE II
64
Estadística Descriptiva
c) La moda
d) La desviación estándar
e) El coeficiente de variación.
f) El coeficiente de asimetría.
Solución:
a) Media = media aritmética = promedio, (muestral).
∑𝑛𝑖=1 𝑋𝑖 35 + 45 + 50 + 55 + 35 + 40 + 55 + 60 + 42 + 45 462
𝑋̅ = = = = 46.2
n 10 10
Interpretación:
El tiempo promedio que pasan navegando en internet los cibernautas es de 46 minutos
aproximadamente.
b) Mediana muestral (cuando n es par).
La ubicación de la mediana de n datos ordenados en forma ascendente, se determina por:
(n+1)/2 = (10+1)/2 =5.5
Xi: 35 35 40 42 45 45 50 55 55 60
Luego la mediana se encuentra en el 5to y 6ta lugar de los datos ordenados, entonces:
Mediana = (45+45)/2 = 45.
Interpretación:
El 50% de los cibernautas pasan navegando en internet como máximo 45 minutos,
mientras que el otro 50% supera dicho tiempo.
c) La Moda.
Observamos el valor que se repite con mayor frecuencia, que son 35, 45, 55.
Por lo tanto existen tres modas (trimodal). Entonces:
Md1 = 35, Md2 = 45, Md3 = 55
Interpretación:
El mayor tiempo de cibernautas pasan navegando en internet so de 35, 45 y 55 minutos.
d) Desviación estándar.
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2
𝑆 =
𝑛−1
65
Estadística Descriptiva
e) Coeficiente de variación:
𝑺 𝟖. 𝟔
𝑪. 𝑽. = ( ) = ( ) = 𝟎. 𝟏𝟖𝟔
𝐱̅ 𝟒𝟔. 𝟐
f) Coeficiente de asimetría.
3(𝑋̅ − 𝑀𝑑 ) 3(46.2 − 45)
𝐴𝑠 = = = 0.42
𝑆 8.6
Interpretación:
Este valor indica que la distribución es asimétrica positiva.
Xi: 2000, 2500, 2500, 4000, 2700, 3000, 4200, 2500, 5000, 2800, 2500.
a) Calcular la venta mensual máxima en el 50% de los meses.
b) Calcular la venta mensual promedio.
c) Calcular la venta mensual del mayor número de los meses.
Solución.
Xi: 2000 2500 2500 2500 2500 2700 2800 3000 4000 4200 5000
a) Mediana = 2700 dólares.
En el 50% de los meses, la venta mensual máxima por una empresa de productos
hidrobiológicos es de 2700 dólares.
66
Estadística Descriptiva
Solución.
a) SA = 70.71 soles.
b) SB = 37.10 soles.
𝑆 70.71
c) CVA = 𝑋̅𝐴 = = 0.1179.
𝐴 600
𝑆𝐵 37.1024
d) CVB = = 451.667 = 0.0821.
𝑋̅𝐵
e) En empresa B los gastos presentan baja variabilidad de un 8.21%
4. La siguiente tabla corresponde a 300 trabajadores de una empresa “X” según su tiempo
de servicio en años:
tiempo de servicio
(en años) N° de trabajadores
[Li – Ls>
[5 – 10> 40
[10 – 15> 60
[15 – 20> 100
[20 – 25> 92
[25 – 30] 8
Total: 300
Se pide:
67
Estadística Descriptiva
b)
Determinamos la Mediana (Me).
Como la variable es continua y los datos están agrupados en intervalos, la fórmula a
utilizar será:
𝑛
( − 𝐹𝑖−1 )
𝑀𝑒 = 𝐿𝑖 + 2 ∗ 𝐶𝑖
𝑓𝑖
Procedimiento.
Determinamos las frecuencias absolutas acumuladas Fi.
Luego buscamos en que intervalo se encuentra ubicado la mediana a través de
n/2.
(i = subíndice y es la ubicación del intervalo).
Como n = 300, entonces: n/2 = 300/2 = 150, luego buscamos en la frecuencia absoluta
acumulada (Fi) el dato 150, como no se encuentra, buscamos el valor superior a este dato.
(Observamos que se encuentra comprendido entre 100 y 200 de Fi). Por lo tanto el valor
superior a 150 es 200, luego el intervalo donde se encuentra la mediana es [15 – 20> que es
el tercer intervalo, es decir i = 3.
300
( − 100)
2
𝑀𝑒 = 15 + ∗ 5 = 17.5 𝑎ñ𝑜𝑠.
100
Interpretación:
El 50% de los trabajadores de la empresa “X” tiene un tiempo de servicio máximo de 17.5
años, mientras que el otro 50% de los trabajadores de la empresa “X” supera dichos años
de tiempo de servicio.
c) Moda
Como la variable es continua y los datos están agrupados en intervalos, la fórmula a
utilizar será:
𝑑1
𝑀𝑜 = 𝐿𝑖 + [ ] ∗ 𝐶𝑖
𝑑1 + 𝑑2
68
Estadística Descriptiva
Procedimiento.
40
𝑀𝑜 = 15 + ∗ 5 = 19.167 𝑎ñ𝑜𝑠
(40 + 8)
𝑑1 = 100 − 60 = 40
𝑑2 = 100 − 92 = 8
Interpretación:
El tiempo de servicio más frecuente de los trabajadores de la empresa “X” es de 19.167
años.
5. El dueño de una fábrica considera que si la producción de una máquina que tiene
muchos años de vida tiene una producción heterogénea por lo que en estos últimos 5
días tendrá que darle de baja. Los resultados se muestran a continuación, en número de
unidades.
Solución.
Desviación estándar: S = 10.663 unidades.
𝑺 𝟏𝟎.𝟔𝟔𝟕
Coeficiente de variación: 𝑪. 𝑽. = ( 𝐱̅) = ( 𝟏𝟑𝟕.𝟐 ) = 𝟎. 𝟎𝟕𝟕𝟕 ≈ 𝟕. 𝟕𝟕%
69
Estadística Descriptiva
Problemas Propuestos
1. Identifique las siguientes variables según su clasificación, ya sea cuantitativa (discreta o
continua) y cualitativa (nominal u ordinal).
a) Desde hace dos años las compañías gastan en protección de la información. Estos
gastos incluyen los costos de personal, hardware, software, servicios externos y
seguridad física. Se eligieron dos empresas transnacionales y se registraron sus gatos
mensuales, en miles de dólares, correspondientes a la protección de la información de
los últimos seis meses.
4. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco de
crédito del Perú según sus retenciones al sistema privado de pensiones en febrero del 2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institución.
70
Estadística Descriptiva
Se pide:
a. Identificar la unidad de análisis y la variable en estudio.
b. Construya un cuadro de distribución de frecuencias en intervalos de clase o
datos agrupados. Utilice la regla de Sturges.
c. Interprete f3, h3%, F3 y H3%.
d. Determinar qué porcentaje de trabajadores tienen una retención de 140 soles o
más, pero menos de 180 soles.
e. Determinar cuántos trabajadores tienen una retención de 160 a 200 soles.
f. Construir un histograma de frecuencias porcentuales y comente.
0 2 5 0 1 4 1 0 2 1 5 0 1 3 0 0 2 1 3 1
1 4 0 2 4 1 2 4 0 4 3 5 0 1 3 6 4 2 0 2
0 2 3 0 4 2 5 1 1 2 2 1 6 5 0 3 3 0 0 4
7. Una empresa consultora ha entrevistado un grupo de 50 personas a las cuales les han
preguntado la edad. Se obtuvieron los siguientes datos:
71
Estadística Descriptiva
23 34 21 41 42 35 32 36 27 20
19 31 39 38 41 26 24 27 30 33
23 32 40 34 25 28 29 30 22 24
26 36 38 21 39 22 33 35 32 28
27 26 24 32 37 39 32 24 35 26
11. En una investigación agrícola en Tulumayo- Tingo María, en Julio de 2011, se determinó
la producción total (en kilogramos) de un cierto cultivo, el cual fue sembrado en parcelas
experimentales. Los datos se tabularon en una distribución de frecuencias simétrica de
cinco intervalos de igual amplitud, siendo las frecuencias: f4 – f5 = 10, f4 – f3 – f1 = 0, el
límite superior en el cuarto intervalo por f4 es igual a 975, el límite inferior en el primer
intervalo es igual a 12.5 y n = 110.
a. Reconstruir el cuadro de frecuencias.
b. Calcular e interpretar la mediana (Me), moda (Mo).
72
Estadística Descriptiva
12. Las notas de 50 alumnos de la UNAS – Tingo María, se clasifican en una tabla de
distribución de frecuencias con cuatro intervalos de clase de igual amplitud. Sabiendo
además que: X2 = 50, f1 =4, F2 = 20, f3 = 25, 𝑥̅ = 62.4.
a. Calcular e interpretar la mediana (Me).
b. Determine la proporción de estudiantes cuyos puntajes se encuentran por lo menos de
35 puntos pero a lo más 65 puntos.
13. Sabiendo que la siguiente tabla de frecuencias, es simétrica, completar con los datos,
dados. Si además se sabe que la mediana es igual a 27.5. Reconstruir la tabla de
frecuencias y calcular la media aritmética.
[Li Ls> Xi fi Fi hi Hi
0.2
0.65
50 0.95
Total 60
16. Los intervalos y las frecuencias absolutas de los salarios quincenales de 45 empleados
desarrollan en el cuadro siguiente:
Intervalos Frecuencias
de salarios ($) Absolutas Relativas Porcentual
[Li - Ls> fi hi Hi%
[26 - 34> 1 0.022 2.2%
[34 - 42> 2 0.044 4.4%
[42 - 50> 4 0.089 8.9%
[50 - 58> 10 0.222 22.2%
[58 - 66> 16 0.356 35.6%
[66 - 74> 8 0.178 17.8%
[74 - 82] 4 0.089 8.9%
Total: 45 1.000 100.0%
a. Calcule el porcentaje de empleados que tienen salarios entre $52 y $75.
b. Obtenga el salario que divide en dos partes iguales.
73
Estadística Descriptiva
17. La altura de diámetro de pecho de capirona se organizaron en una distribución de
frecuencia, cuyos resultados incompletos se dan en la siguiente tabla:
Marca de clase Frecuencia relativa simple Frecuencia relativa
[Li Ls>
Xi Hi acumulada Hi
0.15
6 0.45
0.70
13.5
0.10
Total
18. Los siguientes datos corresponden a la inversión real anual en miles de dólares de un grupo
de pequeñas empresas. Completar la siguiente tabla de distribución de frecuencia.
[ Li - Ls > Xi fi Fi hi Hi
[20 - 24 > 0.10
[24 - 28 > 0.25
[ - 32 > 11 0.55
[32 - > 0.85
[ - 40] 1
Total
a) Identificar la unidad de análisis y la variable en estudio.
b) Interpretar el f4 y el h4%.
19. En una tabla de distribución simétrica con siete intervalos de clase de igual longitud, se
conocen los datos siguientes: C =10, f1=8 y X3 *f3=1260; f2 + f5 = 62; h3=0.21, H6 =
0.96.
Reconstruir la tabla de frecuencias y determinar la media geométrica.
20. En base a la siguiente información que corresponden a la inversión real anual en miles de
dólares de un grupo de pequeñas empresas. Construir la tabla de distribución de
frecuencia.
X2=550; X5=850; h6 =2/50 = H1; m=6; h2=0.14; H4 = 0.76; h5=0.20; H3-h2 =0.26 y c =
constante
a) Interpretar el f4 y el h4%.
21. De las edades de cuatro personas, se sabe que la media es igual a 24 años, la mediana es
23, y la moda es 22. Encuentre las edades de las cuatro personas.
22. La inversión real en miles de dólares anual de un grupo de pequeñas empresas en el banco
de Crédito de la ciudad de Tingo María fueron:
807 811 620 650 817 732 747
900 753 1050 918 857 867 675
500 872 869 841 847 833 829
766 787 923 792 803 933 947
1056 1076 958 970 776 828 831
La información fue obtenida por el Instituto nacional de Estadística e Informática
en mayo de 2010.
Se pide:
a) Construir una tabla de distribución de frecuencias, con intervalos (datos agrupados) y
hacer gráfico correspondiente e interpretar.
b) Calcular e interpretar: La media, desviación estándar, mediana y la moda.
74
Estadística Descriptiva
TRABAJO PRÁCTICO: ESTADÍSTICA DESCRIPTIVA
(trabajo práctico a entregar de manera individual para ser calificado)
Ejercicio 23: (Se recomienda el uso del Software Estadístico Minitab 16 o SPSS 20.0)
75
Estadística Descriptiva
18 CN DC 0,12 70 2 26 900
19 CN DI 0,48 105 3 26 1190
20 CN DI 0,36 65 1 14 890
21 CN CR 0,74 120 4 30 810
22 CN CR 0,70 80 2 23 470
23 CN CR 0,97 80 1 11 180
24 CN CR 0,80 125 4 29 65
25 CN CR 0,78 95 2 19 580
26 V CR 0,53 125 3 22 670
27 V CR 0,83 110 2 16 680
28 V CR 0,73 120 3 23 800
29 V CR 0,51 105 1 9 600
30 V CR 0,46 75 2 24 940
31 V CR 0,44 75 1 12 680
32 V CR 0,73 140 3 19 540
33 V CC 0,34 60 2 30 880
34 V CR 0,53 110 1 8 640
35 V CC 0,23 90 2 20 830
36 V CR 0,92 55 1 6 280
37 V CR 0,55 90 1 10 480
38 V CR 0,94 90 1 10 160
39 T CC 0,15 90 2 20 670
40 T CC 0,20 90 2 20 410
41 T CC 0,13 100 1 9 710
42 T CC 0,14 100 1 9 630
43 T CC 0,16 80 0 0 700
44 T CC 0,15 100 1 9 630
45 T CC 0,18 100 1 9 710
46 T CR 0,87 75 1 12 300
47 T CC 0,28 90 0 0 740
Donde:
Producto: CN = Pollo. - V = Vegetales. - T = Tomate.
Tipo: CC = enlatada / condensada. - CR = enlatada / lista para servirse. –
DC = deshidratada / cocinada. - DI = deshidratada / instantánea.
Costo en centavos.
Calorías por ración de 8 onzas.
Grasa en gramos por ración de 8 onzas.
Calorías de grasa como porcentaje de grasa por ración de 8 onzas.
Nivel de sodio en miligramos por ración de 8 onzas.
Se pide:
1.- En base a los datos de la tabla, indicar cuáles fueron las variables relevadas. Para cada
una de ellas indicar si es cualitativa o cuantitativa y especificar las categorías o valores.
2.- Realizar una tabla de distribución de frecuencias (absolutas, relativas y porcentuales)
para las variables Producto y Tipo. Representar gráficamente las frecuencias porcentuales
y obtener conclusiones.
76
Estadística Descriptiva
3.- Realizar una tabla de distribución de frecuencias (absolutas, relativas y acumuladas)
para las variables Costo y Sodio - en cada caso, decidir si es conveniente organizar los
datos de forma simple o en intervalos.
4.- Construir todos los gráficos posibles para las distribuciones del ítem anterior.
5.- Realizar un análisis exploratorio para Calorías. ¿Qué puede decirse de la distribución?
¿Se observan outliers?
24. Acontinuación se muestra una tabla con los datos acerca de la distribución de
exportaciones e importaciones de diferentes países (en millones de euros).
País Exportaciones Importaciones
EEUU 512 690
Alemania 425 380
Japón 390 275
Francia 235 230
Reino Unido 205 220
Italia 190 170
Canadá 160 150
Holanda 155 140
Hong Kong 150 165
Bélgica-Luxem 140 130
China 120 115
Singapur 95 100
Corea Sur 95 105
Taiwán 90 85
España 75 90
a) ¿Cuáles son las variables que intervienen en este análisis? ¿Cuál es el tipo de las
mismas?
b) Realizar un diagrama de dispersión considerando las exportaciones como variable
dependiente. ¿Puede observarse algún tipo de relación entre ambas variables? En tal
caso, ¿qué tipo de relación se observa?
Ejercicio 25:
Objetivos:
1. Identificar la naturaleza de las variables contenidas en una base de datos.
2. Elaborar cuadros de resumen sobre la información de una base de datos.
3. Analizar la información de un cuadro de información.
Con el fin de evaluar las características de las unidades agropecuarias (UA) de un valle
donde existen 2000 unidades agropecuarias, se entrevistó a una muestra aleatoria de 20
unidades solicitándoles la información siguiente:
Edad del N° parcelas N° de cultivos Área de la Nivel tecnológico
Unidad Zona
productor de la UA de la UA UA (has) de la UA
1 Norte 25 1 De 1 a 2 2.01 Baja
2 Norte 27 1 De 1 a 2 2.51 Baja
3 Norte 29 1 De 1 a 2 3.88 Baja
4 Norte 35 1 De 1 a 2 4.01 Baja
5 Norte 36 2 De 5 a 6 4.17 Baja
77
Estadística Descriptiva
6 Norte 39 2 De 5 a 6 4.84 Media
7 Norte 38 2 De 5 a 6 4.59 Media
8 Norte 45 2 De 5 a 6 4.84 Media
9 Norte 56 2 De 5 a 6 5.18 Media
10 Norte 68 3 De 5 a 6 6.7 Media
11 Este 25 2 De 1 a 2 2.8 Baja
12 Este 24 2 De 1 a 2 3.05 Baja
13 Este 30 2 De 7 a 8 7.49 Media
14 Este 35 2 De 7 a 8 6.79 Alta
15 Este 38 2 De 7 a 8 6.95 Alta
16 Sur 25 3 De 7 a 8 7.5 Alta
17 Sur 30 3 De 5 a 6 5.8 Media
18 Oeste 32 3 De 7 a 8 8.75 Alta
19 Oeste 40 3 De 7 a 8 9.48 Alta
20 Oeste 45 3 De 7 a 8 7.8 Alta
Cuadro N° 01
Número de hogares beneficiarios de los proyectos de desarrollo según finalidad del
proyecto por sexo del jefe del hogar beneficiario
Finalidad del Numero de Sexo del jefe del hogar
Proyecto de agricultores Masculino Femenino
desarrollo Numero % Numero % Numero %
Agrícola 6000 50.0 3000 47.6 3000 52.6
Pecuaria 3000 25.0 2000 31.8 1000 17.6
Vivienda 1200 10.0 700 11.1 500 8.8
Educación 1800 15.0 600 9.5 1200 21.0
Total 12000 100.0 6300 100.0 5700 100.0
Notas: (1) Incluye a hogares con proyectos en ejecución
78
Estadística Descriptiva
Cuál es su opinión sobre la conformidad o no de cada componente del cuadro
Ejercicio 27. Para cada uno de los escenarios referidos a una encuesta de evaluación sobre
el universo de proyectos realizados en el valle, entre una investigación cuantitativa ó
cualitativa, elija la investigación con que está más relacionado
79
Estadística Descriptiva
CASO 1
Banco Pacífico es una entidad financiera que ha ingresado con fuerza al sistema financiero
peruano. Debido a su rápido crecimiento el Gerente de Operaciones desea hacer un estudio
descriptivo e Inferencial entre los clientes que cuentan con tarjeta de crédito. Para cumplir
con su objetivo se seleccionaron al azar muestras aleatorias e independientes de tres tipos
de clientes según el tipo de tarjeta de crédito otorgada. Las variables de interés analizadas
fueron las siguientes:
Tipo de Tarjeta de Crédito: Clásica, Platino y Dorada.
Género del cliente: Masculino, Femenino.
Monto de crédito adeudado (en miles de soles) en enero del 2009.
Monto de crédito adeudado (en miles de soles) en mayo del 2009.
Número de retiros por cajero el día del cierre de cobro del mes de mayo.
Número de pagos en establecimientos comerciales el día del cierre de cobro
del mes de mayo.
Categoría del cliente: A1 y A2.
Edad del cliente (en años)
Ingreso mensual del cliente (en soles)
Número de hijos
Principal uso de crédito: vivienda, auto, otros.
80
Estadística Descriptiva
Formulario:
Xi Xi fi
X i 1
X i 1
n n
Mediana (Me). Mediana (Me).
Es el valor central de un conjunto de n
datos ordenados de menor a mayor. Fi 1
Me Li C
2
La ubicación de la mediana de n datos
fi
ordenados en forma ascendente, se
determina por: (n)/2
Moda (Mo). Moda (Mo).
Es valor más frecuente en el conjunto d1
de datos. Mo Li C
d1 d 2
donde :
d1 fi f i 1
d 2 fi f i 1
Media armónica ( X h ): Media armónica ( X h ):
n n n
Xh Xh m
.... m f i
1 1 1 f1 f 2 f
....
x1 x2 xn x1 x2 xm
i 1 xi
81
Estadística Descriptiva
Medidas de variabilidad o de dispersión muestral:
Para datos sin agrupar: Para datos agrupados:
Varianza ( S 2 ). Varianza ( S 2 ).
X X
n
X X fi
n
2 2
i i
S2 i 1
S2 i 1
n 1 n 1
Desviación estándar (S): Desviación estándar (S):
S S2 S S2
Coeficiente de variación porcentual Coeficiente de variación porcentual
(CV%): (CV%):
S S
CV % *100 CV % *100
X X
Distribuciones bidimensionales
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe el
nombre de tabla de contingencia.
82
Estadística Descriptiva
Distribuciones marginales y condicionales.
Dada una variable estadística bidimensional, las distribuciones marginales permiten
estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble
entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias
de la tabla por filas y por columnas.
Distribuciones marginales de X e Y.
X ni Y n j
x1 n1 y1 n1
x2 y2 n2
. n2 . .
. . . .
. . . .
xl . n k
yk
nl
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las
variables cuando la otra permanece constante. Vienen dadas por:
Distribuciones condicionadas de X e Y.
X/Y= y j ni / j Y/X= xi n j /i
x1 n1 j y1 ni1
x2 n2 j y2 ni 2
. . . .
. . . .
. . . .
xl nlj yk nik
Ejemplo:
Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un país. En la
tabla de doble entrada adjunta se presentan los resultados de un estudio de 100
explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se
proporcionan las frecuencias conjuntas del número de cabezas (en miles) de cabras (X) y
ovejas (Y) que poseen las explotaciones.
X\Y 0 1 2 3 4
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
a) Hallar las medias, varianzas y desviaciones típicas marginales.
b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000
ovejas.
c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que
no tienen cabras.
Solución:
83
Estadística Descriptiva
X\Y 0 1 2 3 4 ni
0 4 6 9 4 1 24
1 5 10 7 4 2 28
2 7 8 5 3 1 24
3 5 5 3 2 1 16
4 2 3 2 1 0 8
n j 23 32 26 14 5 100
a) La media de X es:
La varianza de X es:
S X S X 2 =1.2355
Observe que la media muestral es un buen representante de los datos, ya que la desviación
estándar no es demasiado alta.
Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la
variable Y.
84
Estadística Descriptiva
Solución.
x y
l k
i X j Y nij
i 1
Cov( X , Y ) S XY
j
85