You are on page 1of 86

ESTADÍSTICA APLICADA

Estadística Descriptiva y
Probabilidades

ING. WILMER JULIO BERMÚDEZ PINO


Docente de la Facultad de Ing. Informática y Sistemas.
Universidad Nacional Agraria de la Selva.
Tingo María
Estadística Descriptiva

Introducción

El término estadística es utilizado frecuentemente para hacer referencia a datos


individuales, un conjunto de datos o cualquier información derivada de ellos; sin embargo,
la estadística es mucho más que una simple colección o tabulación de datos pues involucra
todo un conjunto de procesos que tienen como objetivo alcanzar un mayor conocimiento
de una realidad que es desconocida y sobre la cual se desea tomar decisiones confiables.

Cualquiera que sea la actividad que realiza una persona, siempre se enfrentará al reto de
tomar decisiones. Cada día, iniciamos un juego en decisiones que va de la mano con
nuestro trabajo diario. Del mismo modo, para la gestión diaria de una empresa, de un
sector, de un país, etc. se requiere tomar continuamente decisiones; por ejemplo, para dar
una medida económica sobre modificación de aranceles a los productos importados se
pueden tener algunas interrogantes como: ¿De qué manera afectaran las medidas a otros
sectores productivos? ¿Generarán condiciones favorables para una mejora en la
tecnología? ¿Permitirán generar una mayor oferta de trabajo?, etc. Para tomar una decisión
al respecto es necesario tener información sobre el comportamiento de los diferentes
sectores económicos y de la forma como se relacionan entre sí. Obviamente, para esto se
requiere disponer de datos apropiados (suficientes, oportunos y de buena calidad), de
metodologías y procesos que permitan alcanzar el conocimiento deseado de la realidad
sobre la cual se tomaran decisiones. La estadística también brinda apoyo a otras ciencias
mediante el desarrollo de procesos dirigidos a la aceptación y análisis de datos; de esta
manera, se pueden asociar ciertos niveles de confiabilidad con los procesos de toma de
decisiones.

1
Estadística Descriptiva
I. PRINCIPALES DEFINICIONES

1. ESTADÍSTICA

Ciencia que proporciona un conjunto de métodos y técnicas que se utilizan para


recolectar, organizar, presentar, analizar e interpretar el comportamiento de los
datos con respecto a una característica materia de estudio e investigación. En
primer lugar se encarga de obtener información, describirla y luego en base a esta
información, realizar predicciones y una óptima toma de decisiones frente a la
incertidumbre.

El objeto de estudio de la Estadística ES EL ESTUDIO DE LOS DATOS: Hacer una


inferencia óptima a partir de los datos, para la toma de decisiones.

1.1. ¿QUIÉN UTILIZA LA ESTADÍSTICA?

Las técnicas estadísticas se aplican de manera muy general en mercadotecnia,


contabilidad, control de calidad, estudio de consumidores, administradores de
instituciones, en la educación, órganos políticos, en la medicina y por diferentes
profesionales que intervienen en la toma de decisiones.

1.2. DIVISIÓN DE LA ESTADÍSTICA: El campo de la estadística generalmente


está divido en dos grandes áreas: Estadística Descriptiva o Deductiva y
Estadística Inferencial o Inductiva.

1.2.1. ESTADÍSTICA DESCRIPTIVA:

Es el conjunto de métodos que implican la recolección, presentación y


caracterización de un conjunto de datos a fin de describir en forma
apropiada las diversas características de estas. Es decir, un estudio
estadístico se considera “descriptivo” cuando sólo se analiza y describe
un conjunto datos de una muestra o de una población sin sacar
conclusiones de tipo general.

1.2.2. ESTADÍSTICA INFERENCIAL:


La inferencia estadística es un conjunto de métodos o técnicas que
posibilitan la generalización o toma de decisiones en base a una información
parcial obtenida mediante técnicas descriptivas.

En este aspecto es inferir o predecir conclusiones que atañen a toda fuente


de información de donde provienen los datos. Ahora bien esta predicción se
hace con un cierto grado de confianza; este grado de confianza se mide por
la “probabilidad”.

2. OBJETIVOS GENERALES DE LA ESTADÍSTICA:


La estadística tiene tres objetivos:

2.1 Describir colecciones de datos empíricos


2.2 Inferir las propiedades de una población.
2.3 Realizar predicciones sobre el comportamiento de fenómenos.

2
Estadística Descriptiva
2.1. DESCRIBIR COLECCIONES DE DATOS EMPÍRICOS: Para lograr este
objetivo general de la estadística es necesario realizar algunos procesos básicos,
tales como:

- Evaluar y corregir los datos.


- Clasificar los datos en categorías adecuadas.
- Tabular los datos clasificados.
- Representar los datos adecuadamente, ya sea en forma de tablas o gráficos.
- Obtener medidas de resumen.

2.2. INFERIR LAS PROPIEDADES DE UNA POBLACIÓN: Esta ciencia pretende


inferir las propiedades de toda una población en estudio a partir del análisis e
interpretación de los datos conocidos de una muestra de dicha población. Para
lograr este segundo gran objetivo general de la estadística se han desarrollado
conceptos, métodos y técnicas relacionadas con:

- El muestreo estadístico.
- La estimación estadística.
- El cálculo de probabilidades.
- Las pruebas estadísticas.

2.3. REALIZAR PREDICCIONES SOBRE EL COMPORTAMIENTO DE


FENÓMENOS: El comportamiento de los fenómenos en el futuro constituye la
máxima aspiración práctica de toda ciencia, puesto que el interés fundamental en
este caso es la toma de decisiones con vigencia y efecto en el futuro. Esta ciencia
ha desarrollado y sigue creando conceptos, métodos y técnicas para tal fin; los
mismos que la convierten en poderosa ciencia auxiliar para el progreso de otras
ciencias.

3. TÉRMINOS DE ESTADÍSTICA.

La estadística usa diversos términos con un significado especial. Para ello es


conveniente especificar el significado de algunos de los más importantes y frecuentes.
A continuación se incluyen algunos términos.

ESTADÍSTICAS. Es cualquier conjunto sistemático de datos estadísticos referentes a


un determinado fenómeno o asunto. Por ejemplo: estadísticas económicas, estadísticas
policiales, número de enfermos según causas en un hospital, etc.

Estadística: Es Ciencia, y siempre se escribe con mayúscula la primera letra

Estadístico: Profesional que se dedica al estudio de la Estadística.

Estadista: Es el hombre de estado, ejemplo el presidente de la república, ministros,


congresistas, etc.

3
Estadística Descriptiva
Es el conjunto de todos los individuos, objetos u observaciones que
poseen alguna característica observable en común. Conjunto formado
POBLACIÓN (N)
por todas las unidades de análisis (elementos) que son cobertura de la
investigación planteada

Conjunto formado por todas las unidades de análisis para el


POBLACIÓN cual se deben hacer las extrapolaciones e inferencias a manera
OBJETIVO
de generalización de los hallazgos realizados.

Conjunto formado por todas las unidades de análisis (elementos) que


POBLACIÓN integran al directorio o marco de muestreo que permite ver su
MUESTREADA identificación y forma de acceder a ella para efectuar las mediciones
respectivas.
Es una parte o subconjunto representativo de la población y al proceso de
obtener la muestra se le llama muestreo.

MUESTRA (n) Subconjunto de elementos elegidos de la población muestreada a través


métodos de selección determinados y del cual se obtendrá la información
primaria cualitativa o cuantitativa que permitirá estudiar, analizar y
evaluar a dicha población
Es el elemento u objeto de la población que será analizado y sobre los
cuales se obtendrán los datos.
UNIDAD DE
ANÁLISIS
Es la unidad básica en la que se genera la información primaria
que es objeto de estudio.
Agrupaciones de unidades de análisis claramente delimitadas no solapadas
o disjuntas que cubren completamente al arco de muestreo. En ciertas
UNIDAD DE
investigaciones la unidad de muestreo coincide con la unidad de análisis,
MUESTREO
sin embargo, con frecuencia la unidad de muestreo es un conglomerado que
comprende a un conjunto de unidades de análisis
Conjunto conformado por el listado de unidades de muestreo que:
•Permite su identificación y localización de cada unidad de muestreo.
MARCO DE
•Dispone de información suficiente para su estratificación respectiva.
MUESTREO
•Permite establecer la probabilidad de incluir cada unidad en la muestra
respectiva.
Subdivisiones de la población para las cuales se prevé elegir muestras
DOMINIOS independientes y representativas con el fin de generar estimaciones de
confiabilidad predeterminada.
Decimos que realizamos un censo cuando se observan todos los
CENSO
elementos de la población estadística.
La observación del individuo la describimos mediante uno o más
caracteres. El carácter es, por tanto una cualidad o propiedad inherente
en el individuo.

TIPOS DE CARACTERES:
CARACTERES Cualitativos: Aquellos que son categóricos, pero no son numéricos.
p. ej. <Color de los ojos>, <profesión>, <marca de automóvil>,...
Ordinales: Aquellos que pueden ordenarse, pero no son numéricos.
p. ej. <Grado de instrucción: primaria, secundaria, superior>.
Cuantitativos: son numéricos.
p. ej. <Peso>, <talla>, <núm. de hijos>,...

4
Estadística Descriptiva
Un carácter puede mostrar distintas modalidades o valores, es decir, son
distintas manifestaciones o situaciones posibles que puede presentar un
carácter estadístico. Las modalidades o valores son incompatibles y
exhaustivos.

MODALIDAD Generalmente se utiliza el término modalidad cuando hablamos de


VALOR caracteres cualitativos y el término valor cuando estudiamos caracteres
cuantitativos.

p. ej. El carácter cualitativo <Estado Civil> puede adoptar las


modalidades: casado, soltero, viudo. El carácter cuantitativo <Edad>
puede tomar los valores: diez, once, doce años, ……
Al conjunto de los distintos valores numéricos que adopta un carácter
cuantitativo se llama variable estadística.

TIPOS DE VARIABLES ESTADÍSTICAS:


Discretas: Aquellas que toman valores aislados (números naturales), y
que no pueden tomar ningún valor intermedio entre dos números
VARIABLE consecutivos fijados.
ESTADÍSTICA
p. ej. <núm. de goles marcados>, <núm. de hijos>, <núm., de discos
comprados>, <núm. de pulsaciones>,...
Continuas: Aquellas que toman infinitos valores (números reales) en un
intervalo dado, de forma que pueden tomar cualquier valor intermedio, al
menos teóricamente, en su rango de variación.
p. ej. <talla>, <peso>, <presión sanguínea>, <temperatura>, ...
Una observación es el conjunto de modalidades o valores de cada
variable estadística medidos en un mismo individuo.
OBSERVACIONES
p. ej. En una población de 100 individuos podemos estudiar, de forma
individual, tres caracteres: <edad: 18, 19, ...>, <sexo : Hombre, Mujer> y
<si ha votado en las elecciones : Si, No>.
Son aquellas medidas que describen numéricamente las características de
una población. Una población puede tener varias características y, por
tanto, varios parámetros.
PARÁMETROS.
Ejemplo: La media poblacional (), la desviación estándar poblacional
(), la varianza poblacional (² )
Son aquellas medidas que describen numéricamente las características de
una muestra. También conocido como estimador puntual. Por ejemplo:
La media aritmética, la mediana (Me), la moda (Mo).
Son aquellas medidas que describen numéricamente las características de
ESTADÍGRA una muestra. También conocido como estimador puntual. Por ejemplo:
FOS. La media aritmética, la mediana (Me), la moda (Mo).

5
Estadística Descriptiva
4. ETAPAS EN LA INVESTIGACIÓN ESTADÍSTICA

El método estadístico, parte de la observación de un fenómeno, y como no puede


siempre mantener las mismas condiciones predeterminadas o a voluntad del
investigador, deja que actúen libremente, pero se registran las diferentes observaciones
y se analizan sus variaciones.
Para el planeamiento de una investigación, por norma general, se siguen las
siguientes etapas:
4.1. Planteamiento del problema.
4.2. Fijación de los objetivos.
4.3. Formulación de la hipótesis.
4.4. Definición de la unidad de observación y de la unidad de medida
4.5. Determinación de la población y de la muestra.
4.6. La recolección.
4.7. Crítica, clasificación y ordenación.
4.8. Tabulación.
4.9. Presentación.
4.10. Análisis.
4.11. Publicación.

4.1.PLANTEAMIENTO DEL PROBLEMA

Al abordar una investigación se debe tener bien definido qué se va a investigar y


por qué se pretende estudiar algo. Es decir, se debe establecer una delimitación
clara, concreta e inteligible sobre el o los fenómenos que se pretenden estudiar,
para lo cual se deben tener en cuenta, entre otras cosas, la revisión bibliográfica
del tema, para ver su accesibilidad y consultar los resultados obtenidos por
investigaciones similares, someter nuestras proposiciones básicas a un análisis
lógico; es decir, se debe hacer una ubicación histórica y teórica del problema.

4.2.FIJACIÓN DE LOS OBJETIVOS

Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta


dónde queremos llegar; en otras palabras, debemos fijar cuáles son nuestras metas
y objetivos.
Estos deben plantearse de tal forma que no haya lugar a confusiones o
ambigüedades y debe, además, establecerse diferenciación entre lo de corto,
mediano y largo plazo, así como entre los objetivos generales y los específicos.

4.3. FORMULACIÓN DE LAS HIPÓTESIS

Una hipótesis es ante todo, una explicación provisional de los hechos objeto de
estudio, y su formulación depende del conocimiento que el investigador posea
sobre la población investigada. Una hipótesis estadística debe ser susceptible de
docimar, esto es, debe poderse probar para su aceptación o rechazo.
Una hipótesis que se formula acerca de un parámetro (media, proporción,
varianza, etc.), con el propósito de rechazarla, se llama Hipótesis de Nulidad y se
representa por Ho; a su hipótesis contraria se le llama Hipótesis Alternativa (H1).
4.4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD
DE MEDIDA
La Unidad de Observación, entendida como cada uno de los elementos
constituyentes de la población estudiada, debe definirse previamente, resaltando

6
Estadística Descriptiva
todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la
medición.
La unidad de observación puede estar constituida por uno o varios individuos u
objetos y denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medición debe ser previamente definido y unificado
por todo el equipo de investigación. Si se trata de medidas de longitud, volumen,
peso, etc., debe establecerse bajo qué unidad se tomarán las observaciones ya sea
en metros, pulgadas, libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las
condiciones en las cuales se ha de efectuar la toma de la información.

4.5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA.

Estadísticamente, la población se define como un conjunto de individuos o de


objetos que poseen una o varias características comunes. No se refiere esta
definición únicamente a los seres vivientes; una población puede estar constituida
por los habitantes de un país o por los peces de un estanque, así como por los
establecimientos comerciales o las unidades de vivienda de una ciudad.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas.

Muestra es un subconjunto de la población a la cual se le efectúa la medición con


el fin de estudiar las propiedades del conjunto del cual es obtenida.
En la práctica, estudiar todos y cada uno de los elementos que conforman la
población no es aconsejable, ya sea por la poca disponibilidad de recursos, por la
homogeneidad de sus elementos, porque a veces es necesario destruir lo que se
está midiendo, por ser demasiado grande el número de sus componentes o no se
pueden controlar; por eso se recurre al análisis de los elementos de una muestra
con el fin de hacer inferencias respecto al total de la población. Existen diversos
métodos para calcular el tamaño de la muestra y también para tomar los elementos
que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos
solamente que la muestra debe ser representativa de la población y sus elementos
escogidos al azar para asegurar la objetividad de la investigación.

4.6. LA RECOLECCIÓN

Una de las etapas más importantes de la investigación es la recolección de la


información, la cual ha de partir, a menos que se tenga experiencia con muestras
análogas, de una o varias muestras piloto en las cuales se pondrán a prueba los
cuestionarios y se obtendrá una aproximación de la variabilidad de la población,
con el fin de calcular el tamaño exacto de la muestra que conduzca a una
estimación de los parámetros con la precisión establecida.
El establecimiento de las fuentes y cauces de información, así como la cantidad y
complejidad de las preguntas, de acuerdo con los objetivos de la investigación son
decisiones que se han de tomar teniendo en cuenta la disponibilidad de los
recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la
zona geográfica, el grado de desarrollo, la ausencia de técnica, etc.
Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se
puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por
correo, o si se necesitan agentes directos que recojan la información; establecer su
número óptimo y preparar su entrenamiento y/o capacitación adecuada.

7
Estadística Descriptiva
4.7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN

Después de haber reunido toda la información pertinente, se necesita la


depuración de los datos recogidos. Para hacer la crítica de una información, es
fundamental el conocimiento de la población por parte de quien depura para poder
detectar falsedades en las respuestas, incomprensión a las preguntas, respuestas al
margen, además de todas las posibles causas de nulidad de una pregunta o nulidad
de todo un cuestionario.
Separado el material de "desecho" con la información depurada se procede a
establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las
que se establecen los cruces necesarios entre las preguntas, se ordenan las
respuestas y se preparan los modelos de tabulación de las diferentes variables que
intervienen en la investigación.
El avance tecnológico y la popularización de los computadores hacen que estas
tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.

4.8. LA TABULACIÓN.

Una tabla es un resumen de información respecto a una o más variables, que


ofrece claridad al lector sobre lo que se pretende describir; para su fácil
interpretación una tabla debe tener por lo menos: Un título adecuado el cual debe
ser claro y conciso. La Tabla propiamente dicha con los correspondientes
subtítulos internos y la cuantificación de los diferentes ítems de las variables, y las
notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla,
u otorguen los créditos a la fuente de la información.

4.9. LA PRESENTACIÓN

Una información estadística adquiere más claridad cuando se presenta en la forma


adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener
cuidado con las variables que se van a presentar y la forma de hacerlo. No es
aconsejable saturar un informe con tablas y gráficos redundantes que, antes que
claridad, crean confusión.
Además la elección de determinada tabla o gráfico para mostrar los resultados,
debe hacerse no sólo en función de las variables que relaciona, sino del lector a
quien va dirigido el informe.

4.10. EL ANÁLISIS
La técnica estadística ofrece métodos y procedimientos objetivos que convierten
las especulaciones de primera mano en aseveraciones cuya confiabilidad puede
ser evaluada y ofrecer una premisa medible en la toma de una decisión.
Es el análisis donde se cristaliza la investigación. Esta es la fase de la
determinación de los parámetros y estadísticos muestrales para las estimaciones e
inferencias respecto a la población, el ajuste de modelos y las pruebas de las
hipótesis planteadas, con el fin de establecer y redactar las conclusiones
definitivas.

4.11. PUBLICACIÓN
Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros
estudiosos del mismo problema a quienes se les puede aportar información,
conocimientos y otros puntos de vista acerca de él.

8
Estadística Descriptiva
5. MÉTODOS PARA RECOLECTAR DATOS:

Existen tres principales métodos con los cuales el investigador puede obtener los datos:

5.1. El investigador puede recurrir a datos ya publicados por fuentes gubernamentales,


industrias, compañías o individuales.
5.2. El investigador puede diseñar un experimento para obtener los datos necesarios.
5.3. Puede efectuar una encuesta.

5.1. FUENTES DE INFORMACIÓN: Es el lugar, la institución, la persona, donde


están los datos que se necesitan para cada una de las variables o aspectos de la
investigación. Las fuentes de datos pueden ser:

5.1.1. FUENTES DE DATOS INTERNOS. Es la información recopilada por la


empresa de los resultados de una propia gestión.

Ejemplo:
 reportes financieros
 Reportes de operaciones, que están dadas por la información de la
producción, compras, ventas, estados de pérdida y ganancias.
 Reportes especiales, es la información adicional para el análisis estadístico.

5.1.2. FUENTES DE DATOS EXTERNOS. Son informaciones estadísticas


elaboradas por instituciones de investigación, que pueden ser públicas o
privadas.

5.1.3. FUENTES PRIMARIAS. Cuando la información estadística es obtenida


directamente de la unidad de observación.

Por ejemplo: los resultados de los censos de población y vivienda, la


inflación, la tasa de interés bancaria, índice de precios al consumidor, etc.

5.1.4. FUENTES SECUNDARIAS. Cuando la información estadística es


elaborada a base de los datos de fuentes primarias.
El organismo oficial fundamental de datos estadísticos es el Instituto
Nacional de Estadística e Informática (INEI).

5.2. DISEÑO DE EXPERIMENTO: Es un segundo método de recolección de la


información. Los diseños experimentales deben utilizarse siempre que sea posible
cuando se desee construir modelos explicativos.

5.3. ENCUESTAS: Proceso de recopilar la información a través de una muestra.

6. PRINCIPALES PROCEDIMIENTOS PARA RECOLECTAR INFORMACIÓN.

Toda información tiene dos aspectos fundamentales: Fuente de obtención y métodos


para su recolección.

FUENTE DE OBTENCIÓN. La fuente de obtención puede ser primaria y secundaria.

Primarios. Cuando se recogen directamente de su origen.


Secundarios. Cuando no se recogen directamente de su origen.

9
Estadística Descriptiva
MÉTODOS DE RECOLECCIÓN. Cuando es utilizada una fuente primaria para
recolectar información se distinguen dos procedimientos fundamentales: La observación y
el interrogatorio.

MÉTODOS DE INTERROGATORIOS.
El interrogatorio puede hacerse mediante dos métodos:

Método directo (se efectúa por medio de entrevistas)


Método indirecto (se efectúa por medio de cuestionarios)

SISTEMAS DE RECOLECCIÓN.

Son procedimientos que se utilizan para recoger información.


Pueden ser:
a) Los Registros: son libros, padrones en donde se anotan en forma regular,
permanente y obligatoria los hechos ocurridos.
Ejemplo: Registros Civiles, RENIEC, Registros Públicos, etc.

b) Las Encuestas:son procedimientos de obtención de información estructurada


según criteriosprevios de sistematización que se efectúa con un propósito específico
en la población o en un sector de ella. Pueden ser:

b.1) Encuesta Censal:Cuando abarca toda la población en estudio.


Ejemplo: censos de población y vivienda en una localidad o país

b.2) Encuesta Muestral:Cuando abarca una parte de la población en estudio.


Ejemplo: llevar a cabo una encuesta de preferencia electoral.

TÉCNICAS DE RECOLECCIÓN

Son procedimientos que se utilizan para recolectar información según la naturaleza del
trabajo de investigación. Pueden ser:
a) La observación: Es la acción de mirar con rigor, en forma sistemática y profunda,
con el interés de descubrir la importancia de aquello que se observa.

b) El cuestionario: En un instrumento constituido por un conjunto de preguntas


sistemáticamente elaboradas que se formulan al encuestado o entrevistado con el
propósito de obtener datos de las variables consideras en estudio.

c) La entrevista: Es un dialogo entre personas, es una técnica donde una persona


llamada entrevistador, encuestador o empadronador solicita al entrevistado le
proporcione algunos datos e información.

d) Análisis de contenido: El fin o propósito del análisis de contenido consiste en


determinar los puntos más importantes de un documento para observar y reconocer
el significado de los mismos en sus elementos, como palabras, frases, etc., y en
clasificarlos adecuadamente para su análisis y explicación.

DATO: Es el valor que toma una variable en cada unidad de análisis. Los datos están
clasificados en:

10
Estadística Descriptiva
SEGÚN EL NÚMERO DE VARIABLES.

1. DATOS UNIDIMENSIONALES: Cuando el registro es de una sola variable de


interés. Por ejemplo: El promedio semestral de los estudiantes del tercer año
del FIIS-UNAS.2009 - II

2. DATOS BIDIMENSIONALES: Cuando el registro es de dos variables de


interés. Por ejemplo: La edad y el promedio semestral de los estudiantes del
tercer año del FIIS-UNAS.2009 - II

3. DATOS TRIDIMENSIONALES: Cuando el registro es de tres variables de


interés. Por ejemplo: La edad, el ingreso mensual y el promedio semestral de
los estudiantes del tercer año del FIIS-UNAS.2009 - II

7. TIPOS DE DATOS.
Sea cual fuere la fuente de la que obtenemos la información, esta puede estar referida a
características cualitativas o cuantitativas.

VARIABLE.
Es una característica de la población que se va investigar y que puede tomar diferentes
valores.

Ejemplo.
Las horas extras trabajadas por los trabajadores de una empresa y los valores de esta
variable vendrían dadas por las diferentes horas trabajados por cada trabajador fuera de
la jornada normal: ninguna, una, dos, tres, ……….
Notación. Las variables se denotaran por X, Y, etc.
Las variables se clasifican en: cualitativas y cuantitativas.

VARIABLE CUALITATIVA.

Se llama así, cuando la variable está asociada a una característica cualitativa. Es decir,
son variables cuyos valores son cualidades que presenta la población.

Ejemplos.
La variable “profesión” puede adoptar las modalidades: Ingeniero, Médico, Biólogo,
Contador, Economista, etc.

Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)


Estado civil o conyugal (Soltero, Casado, Viudo, Divorciado, Conviviente)
Régimen de tenencia de la vivienda (Propia, Alquilada)

Estos datos a su vez se clasifican en: Nominales y ordinales

VARIABLE CUALITATIVA NOMINAL: Son aquellos que establecen distinción de


los elementos en las categorías sin implicar orden entre ellos.

Ejemplo:
Clasificar un grupo de individuos por sexo: masculino, femenino.
Por estado civil: soltero, casado, viudo. Etc.

11
Estadística Descriptiva
VARIABLE CUALITATIVA ORDINAL.
Son aquellos datos que agrupan a los objetos, individuos, en categorías ordenadas, para
establecer relaciones comparativas. Es decir, se puede establecer un orden entre sus
atributos.
Ejemplo.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Nivel de educación (primaria, secundaria, superior).

VARIABLE CUANTITATIVA: Es el resultado de un proceso que cuantifica, es


decir, estas surgen cuando se puede establecer cuanto o en qué cantidad se posee una
determinada característica.

Ejemplo:
Ingreso por familia
Número de ventas diarias de cierto establecimiento.
Número total de habitaciones que tiene la vivienda.
Longitud, tiempo, etc.
Las variables cuantitativas se dividen en discretas y continuas.

VARIABLE CUANTITATIVA DISCRETA. Son aquellas que surgen por el


procedimiento de conteo, suelen tomar valores enteros (positivos).
Ejemplo.
El número de hijos por familia.
Número de estudiantes por colegio, universidad.
VARIABLE CUANTITATIVA CONTINUA. Cuando el valor de la variable puede
tomar cualquier valor dentro de un rango dado, por tanto se expresa por cualquier
número real.

Ejemplo.
El peso, la estatura, la tensión arterial de las personas, los ingresos, el tiempo de
servicio, precio en soles, etc.
En general, todas las magnitudes relacionadas con el tiempo (edad, duración de un
fenómeno,...), la masa (volumen; peso,….), el espacio (longitud, superficie,…) o una
combinación de estos (velocidad, densidad, capacidad,…) son variables continuas.

MUESTREO

Para estudiar, analizar y evaluar una población con el fin de efectuar un diagnostico
requerirá de contar con información cuantitativa y cualitativa:
 Representativa,
 Oportuna,
 Confiable y
 Suficiente
Esto se logrará a través de observaciones y mediciones sobre una muestra de elementos
adecuadamente elegidos de la población bajo en estudio.

1) Población y muestra.

Población.
Conjuntos formado por todas las unidades de análisis (elementos) que son
cobertura de la investigación planteada.

12
Estadística Descriptiva
2) Muestra. Es una parte o subconjunto representativo de la población y al proceso de
obtener la muestra se le llama muestreo.

Motivos para la realización de un muestreo. Consideraciones necesarias

Imagine que va a realizar estudios para conocer la siguiente información:

 El porcentaje de peruanos que tiene acceso a internet.


 La duración media de una determinada marca de pilas.

Para el primer caso, la población a la que debes preguntar es de más de 30 millones de


personas. Es obvio que entrevistar a más de 30 millones de personas supone un gran
esfuerzo en varios sentidos.
Primero, de tiempo, y segundo de dinero, puesto que es necesario contratar a muchos
encuestadores, pagarles viajes para que lleguen a todos los pueblos, etc. Además, hay una
dificultad añadida: es difícil llegar a todos y cada uno de los ciudadanos peruanos, ya que
cuando vayamos a entrevistar, habrá personas que esté de viaje fuera del país, habrá gente
que esté enferma en el hospital, etc. En este caso, por motivos económicos, de tiempo y de
dificultad de acceso a toda la población, sería conveniente entrevistar a una cierta parte de
la población, una muestra, elegida convenientemente para poder extraer después
conclusiones a toda la población.

En el segundo caso tenemos una problemática diferente. Para poder estudiar la duración de
una pila, debemos usarla hasta que se gaste, lo que nos impide volver a usar la pila. Es
decir, de alguna manera “destruimos” este elemento de la población. Si quisiéramos probar
todas y cada una de las pilas, nos quedaríamos sin ellas. En este caso, de nuevo sería
conveniente estudiar sólo un conjunto de esas pilas y luego extraer conclusiones más
generales a partir del conjunto que hemos estudiado.
Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero para
que podamos extraer conclusiones, es importante que elijamos bien las muestras para
nuestros estudios.
Por ejemplo, para el caso del acceso a internet de los peruanos, elegir a 10 personas de 30
millones es insuficiente, no es representativo. Tampoco lo sería preguntarle, por ejemplo a
100 personas de Lima, o elegir a todos sus amigos y su familia. Hay cuestiones que
debemos especificar a la hora de elegir una muestra:
1. El método de selección de los individuos de la población (tipo de muestreo que se
va a utilizar).
2. El tamaño de la muestra.
3. El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, una
estimación del error que vamos a cometer (en términos de probabilidad).

Como ya hemos mencionado, la selección no adecuada de los elementos de la muestra


provoca errores posteriores a la hora de estimar las correspondientes medidas en la
población. Pero podemos encontrar más errores: el entrevistador podría no ser imparcial, es
decir, favorecer que se den unas respuestas más que otras. Puede ocurrir también que, por
ejemplo, la persona que vayamos a entrevistar no quiera contestar a ciertas preguntas (o no
sepa contestar). Clasificamos todos estos posibles errores de la siguiente manera:

1. Error de sesgo o de selección: si alguno de los miembros de la población tiene más


probabilidad que otros de ser seleccionados. Imagine que queremos conocer el
grado de satisfacción de los clientes de un gimnasio y para ello vamos a entrevistar
a algunos de 10 a 12 de la mañana. Esto quiere decir que las personas que vayan

13
Estadística Descriptiva
por la tarde no se verán representadas por lo que la muestra no representará a todos
los clientes del gimnasio. Una forma de evitar este tipo de error es tomar la muestra
de manera que todos los clientes tengan la misma probabilidad de ser
seleccionados.
2. Error o sesgo por no respuesta: Es posible que algunos elementos de la población
no quieran o no puedan responder a determinadas cuestiones. O también puede
ocurrir, cuando tenemos cuestionarios de tipo personal, que algunos miembros de la
población no contesten sinceramente. Estos errores son, en general, difíciles de
evitar, pero en el caso de la sinceridad, se suelen incorporar cuestiones (preguntas
filtro) para detectar si se está contestando sinceramente.

Después de lo que se acaba de ver, podemos decir que una muestra es sesgada
cuando no es representativa de la población.

MÉTODOS DE MUESTREO.
Ya hemos hecho referencia a la importancia de la correcta elección de la muestra para que
sea representativa para nuestra población pero ¿cómo clasificamos las diferentes formas de
elegir una muestra? Podemos decir que hay dos tipos de muestreo:

Muestreo probabilístico: Es aquel en el que cada muestra tiene la misma


probabilidad de ser elegida de la población en estudio.

Muestreo no probabilístico: Corresponden a las muestras en las cuales no hay


forma de conocer la probabilidad de los elementos de la población y ser incluidos
como parte de la muestra.

Fortalezas y debilidades de los métodos de muestreo:


MUESTREO PROBABILÍSTICO
FORTALEZAS DEBILIDADES
 Es aceptado con facilidad  Requiere de costos, marcos de muestreo
 Asegura representatividad  Requiere de trabajos de campo costosos
 Asegura muestras insesgadas  Requiere de supervisión rigurosa
 Los resultados son generalizables
 Permite calcular el error de muestreo
 Permite hacer inferencias estadísticas
 Probabilidad conocida de elegir a la
unidad como parte de la muestra

MUESTREO NO PROBABILÍSTICO
FORTALEZAS DEBILIDADES
 Bajo costo y requiere menor tiempo  No permite calcular errores de muestreo
 Elige solo a las unidades queridas  Sus resultados no son generalizables
 Permite entrar información inesperada  Pueden ser rechazadas por los usuarios
 Diseño y cobertura flexible e informal  Puede haber sesgo en la selección
 No permite hacer inferencia estadística
 Requiere de personal muy especializado
 La supervisión es difícil de realizar
 Probabilidad no conocida de elegir a la
unidad como parte de la muestra.

14
Estadística Descriptiva
Selección de muestras bajo un enfoque cuantitativo.

Ante la necesidad de generar información cuantitativa representativa y confiable, el


método a seguir para la selección del subconjunto de unidades de análisis como muestra,
deberá asegurar la representatividad de los elementos elegidos a fin de permitir al
investigador efectuar inferencias, extrapolaciones y generalizaciones de los resultados
encontrados hacia toda la población objetivo; en este enfoque, se deberá asegurar que la
muestra será estadísticamente representativa con el fin de permitir:

 Calcular el error de muestreo que afectan a las estimaciones resultantes.


 Conocer el nivel de confianza con el cual se realizan las estimaciones resultantes.
 Generalizar los resultados observados en la muestra a toda la población.
 Utilizar pruebas estadísticas para verificar hipótesis planteadas en la investigación.

En caso que el investigador requiera de presentar resultados estadísticamente


representativos, deberá asegurar selecciones de muestras imparciales e insesgadas lo cual
se lograra eligiendo las unidades con base a las leyes de la probabilidad.

Diseños de Muestreo:

MUESTREO ALEATORIO SIMPLE.

Es el método de muestreo que asegura que cada una de las unidades de análisis tiene igual
probabilidad de ser incluida en la muestra, igualmente, cada una de las muestras posibles
tendrá la misma probabilidad de ser elegida; esta característica asegura la representatividad
e imparcialidad de la muestra elegida para el estudio.
Procedimiento:
 Elabore el marco de muestreo.
 Determine un tamaño de muestra “n”.
 Seleccione “n” números aleatorios “sin reemplazo” de la tabla de números aleatorios o
generados por un computador.
 Recopile la información de cada una de las unidades de análisis seleccionadas.
 Estimar: Promedios, totales o porcentajes y su error estándar respectivo.

Estimación del promedio

15
Estadística Descriptiva
Estimación del total poblacional

Estimación de la proporción de elementos que tienen un determinado atributo.

Donde “a” es total de elementos de la muestra que tienen el atributo.

Ejemplo.

Población de alumnos matriculados en 5to. Año de secundaria (N). N = 7 154 alumnos1.

Conociendo la población de alumnos matriculados en 5to. Año de secundaria.

La muestra inicial estaría dado por:

Muestra inicial:

𝑍2 ∗ 𝑝 ∗ 𝑞 ∗ 𝑁
𝑛0 =
𝑒 2 (𝑁 − 1) + 𝑍 2 ∗ 𝑝 ∗ 𝑞

Donde:

N = tamaño de la población. Entonces: N = 7 154

Z = Valor tabular de una distribución normal estandarizado con probabilidad (1 – 𝛼). Para
95% de confianza Z = 1.96

Como se desconoce la probabilidad de éxito esperada, se tendría que utilizar el


criterio conservador (p = q = 0.5), lo cual maximiza el tamaño de muestra.

1
[Fuente: MINISTERIO DE EDUCACIÓN - Censo Escolar./ http://escale.minedu.gob.pe/magnitudes]

16
Estadística Descriptiva
p = probabilidad de éxito. p = 0.5

q = probabilidad de fracaso. (1 – p) = (1 – 0.5) = 0.5

e = precisión (Error máximo admisible) = 5%

Reemplazando:

1.962 ∗ 0.5 ∗ 0.5 ∗ 7 154


𝑛0 = = 365 𝐴𝑙𝑢𝑚𝑛𝑜𝑠
0.052 (7 154 − 1) + 1.962 ∗ 0.5 ∗ 0.5

Muestra final corregida a encuestar:


𝑛0
𝑛= 𝑛0
1+ 𝑁

365
𝑛= 365 = 347 𝐴𝑙𝑢𝑚𝑛𝑜𝑠.
1+ 7154

Se requeriría encuestar a no menos de 347 estudiantes del 5to año de secundaria para poder
tener una seguridad del 95%.

8. DISEÑO O ELABORACIÓN DE FORMULARIOS.

En toda actividad de carácter científico, lo que se hace en última instancia, es dar repuestas
a ciertas preguntas. De acuerdo con esto, necesitamos un documento donde plantear
preguntas y registrar sus respuestas, resultando así que una de las primeras y realmente
más decisiva etapa en cualquier investigación es la confección de formularios.
Antes de elaborar un formulario debe considerarse:

1. El propósito para el cual será utilizado.


2. Circunstancias bajo las cuales se recogerán la información.

Lo primero tiene importancia para decidir sobre los datos que se recogerán y lo segundo
para la determinación del tamaño de muestra y del material más conveniente.

9. PRINCIPIOS BÁSICOS QUE SE DEBEN TENER EN CUENTA EN LA


CONFECCIÓN DE FORMULARIOS.

En todo formulario se debe recoger sólo los datos útiles y adecuados al estudio.
Formularios muy extensos conspiran contar la exacta recolección de los datos. Es pues,
entonces conveniente:
a. Hacer una lista de todos los datos que sean necesario recoger de acuerdo a la
finalidad del estudio.
b. Considerar cuales datos son factibles de recoger y exacta.
c. Limitar a aquellos datos prácticos a recoger y que se usará.

DECIDIR SOBRE EL ORDEN QUE SE ACEPTARAN LOS DATOS. Las preguntas


deben hacerse de manera lógica y ordenada. Por ejemplo, preguntas sobre ocupación,

17
Estadística Descriptiva
educación, vivienda, y otras referentes a condiciones económicas y sociales no deben estar
separadas.

CONSIDERAR COMO SE HARÁN LAS PREGUNTAS.

a. Considerar si hay alguna ambigüedad en la pregunta como consecuencia de la


respuesta recibida.
b. Toda pregunta debe tener respuesta.
c. Debe usarse un leguaje claro y poco técnico.
d. Evitar respuestas inducidas. Por ejemplo, ¿Ud., nunca ha padecido de tuberculosis?
con esta pregunta estamos induciendo a la persona a que su respuesta sea negativa.

PLANEAR COMO SE ANOTARAN LAS RESPUESTAS.

El espacio que se deja debe ser adecuado para las respuestas que se esperan y siempre que
sea posible se adoptará el sistema que exige el menor esfuerzo.
Ejemplo.
a. Sexo:……………………; b.Sexo:………..Femenino
………..Masculino.
En el inciso (a), se pone nombre y en el (b), se marca con una cruz, este último es de
menor esfuerzo.

Puede usarse otro método que sea la utilización de un código, por ejemplo, ¿Debe existir
una revisión periódica de salario mínimo?
1 Si
2 No
0 No sabe o no opina.

ELECCIÓN DE VARIAS RESPUESTAS.

Debe procurarse que se puede elegir varias respuestas, evitando la ambigüedad u omisión
de datos.
Ejemplo.
¿Enfermedades que Ud. Ha padecido?
Sarampión___________________
Bronquitis___________________
Asma ___________________

REALIZAR ESTUDIO PILOTO.

Debe realizarse un estudio piloto antes que el formulario sea impreso de manera definitiva,
con el fin de probarlo y ver la operatividad del formulario y para darse cuenta de las fallas
que pueda tener y hacer las correcciones necesarias.

Se debe redactar las instrucciones de como anotar las respuestas.

Ver la validez y confiabilidad del instrumento de medición (Encuesta).

18
Estadística Descriptiva
CASO PRÁCTICO DE DISEÑO DE ENCUESTA

“Proyecto Gimnasio Sport Time”

Un grupo de inversionistas ha formado una mediana empresa llamada Sport Time, cuyo
negocio es el servicio de preparación y mantenimiento físico de las personas. De acuerdo
con sus experiencias empresariales, este gimnasio será dirigido a los integrantes del nivel
socio económico A y B de la ciudad de Tingo María, teniendo como área de influencia a la
ciudad. Sin embargo les gustaría poder contar con mayor información del mercado con la
finalidad de crear y ofrecer un centro deportivo de calidad, incorporando los gustos y
preferencia del futuro cliente.
Frente a esta necesidad, uno de los socios propuso realizar una investigación de mercado,
propuesta que fue aceptada por todos para tal efecto se procedió a determinar los
parámetros que definen correctivamente las características de la población que conforma
su mercado:

1.- El segmento estará compuesto por hombres y mujeres con edades entre 18 y 60 años.
2.- El gimnasio estará orientado al segmento A y B de la ciudad de Tingo María.

Una vez determinado estos parámetros se considero que los más convenientes para realizar
esta investigación era aplicar una encuesta cuyo proceso de elaboración implica seguir los
siguientes pasos:

A.- Definir el propósito y los objetivos específicos.


B.- Diseñar la encuesta.

19
Estadística Descriptiva
Solución

A.- Propósito y Objetivos específicos de la encuesta.

Propósito: Sera evaluar las actitudes y preferencias de las personas respecto a los
gimnasios.

Objetivo Específico: Se desea obtener información sobre características del consumidor


que permitan tipificarlo, determinar sus expectativas en cuanto al servicio:
Además identificar la competencia y los niveles de precio vigente en el mercado.

OBJETIVOS ESPECIFICOS PREGUNTAS DE INVESTIGACIÓN


CONSUMIDOR PREGUNTAS DE INVESTIGACIÓN
 ¿Acudes al gimnasio?
 ¿Por qué acudes al gimnasio?
 ¿Con que frecuencia vas al gimnasio?
 Identificación de hábitos  ¿Qué instalaciones utilizas con más
frecuencia en el gimnasio?
 ¿A qué gimnasio acudes?
 ¿Desde cuándo acude al gimnasio?
 ¿Asistirías a un gimnasio ubicado en
 Intención de compra
el centro de la ciudad?

SERVICIO PREGUNTAS DE INVESTIGACIÓN


 ¿Qué servicio te gustaría encontrar
en el gimnasio?
 Características del servicio
 ¿Qué tipo de decoración te
gustaría encontrar?

COMPETENCIA PREGUNTAS DE INVESTIGACIÓN


 Identificación de competidores  ¿Qué gimnasios conoces?

PRECIO PREGUNTAS DE INVESTIGACIÓN


 ¿Cuánto estaría dispuesto a pagar
 Precio máximo y mínimo
mensualmente por el servicio?

20
Estadística Descriptiva
B). Diseño de Encuesta.

1. ¿Asiste Ud. a gimnasios? 9. ¿A qué hora prefieres asistir?


a. Si (pasar a la pregunta 3)
b. No (pasar a la pregunta 2) a. 6 : 00 am a 8 : 00 am
b. 8 : 00 am a 10 : 00 am
2. ¿Le gustaría asistir a un gimnasio? c. 10 : 00 am a 12 : 00 am
a. Si (pasar a la pregunta 3) d. 12 : 00 am a 2 : 00m
b. No (fin de la encuesta) e. 12 : 00 m a 4 : 00 pm
3. ¿Con que frecuencia asiste y/o le f. 4 : 00 pm a 6 : 00 pm
gustaría asistir gimnasio? g. 6 : 00 pm a 8 : 00 pm
a. Diariamente. h. 8 : 00 pm a 10 : 00 pm.
b. Una vez por semana.
c. Dos veces por semana. 10. ¿Cuánto estaría dispuesto a pagar
d. Tres veces por semana. mensualmente por el servicio?
4. ¿Qué tipo de servicios prefieres a. Menos de S/. 30.00
utilizar en el gimnasio? b. Entre S/. 30.00 y S/. 39.00
a. Aeróbicos. c. Entre S/. 40.00 y S/. 49.00
b. Pesas. d. Mas de S/. 50.00.
c. Baile.
d. Masajes. DATOS DE CONTROL
e. Otros. (Especifique)………….
5. ¿Con quien acude al gimnasio? 11. Sexo: Femenino……..
a. Solo. Masculino…….
b. Amigo(a).
c. Pareja. 12. Edad.
d. Familia. a. 18 a 25 años.
e. Otros (Especifique)…………. b. 26 a 33 años.
6. ¿A qué gimnasio asiste? c. 34 a 41 años.
………….………………… d. 42 a 49 años.
7. ¿Qué gimnasio conoce? e. 50 a 60 años.
a. Benavides f.
b. Universal Gym 13. Ingreso promedio mensual familiar
c. Shape spa a. Menos de S/. 700.00.
d. Alan Wong Spa b. Entre S/. 701.00 y S/. 1000.00
f. Otros (Especifique)…………. c. Entre S/. 1001.00 y S/. 1300.00
d. Mas de S/. 1301.
8. Si contara con un gimnasio
ubicado en la ciudad de tingo DATOS DE IDENTIFICACIÓN DEL
maría, el cual le ofreciera los ENTREVISTADO
servicios que usted desea:
a. Definitivamente asistiría. Nombre:………………………………
b. Probablemente asistiría.
c. Indeciso. Dirección:…………………………….
d. Probablemente no asistiría.
e. No asistiría. Teléfono:……………………………..

21
Estadística Descriptiva
VALIDEZ Y CONFIABILIDAD DE LOS INSTRUMENTOS DE MEDICIÓN
(ENCUESTAS):

Estos procesos se aplican en el desarrollo de una investigación, con la finalidad de evaluar


la consistencia del diseño de la estructura de los instrumentos de recolección que se usaran
para el acopio y recolección de la información necesaria para la ejecución de una
investigación.

II.- CONFIABLIDAD DE LOS INSTRUMENTOS (Encuestas):

La confiabilidad de un instrumento de medición, se refiere al grado en que su


aplicación repetida al mismo sujeto u objeto produce resultados iguales.
La confiabilidad de un instrumento se refiere a la constitución interna de las personas, a la
mayor o menor acescencia de errores de medida. Un instrumento confiable significa que si
lo aplicamos por más de una vez a un mismo elemento entonces obtendríamos
iguales resultados.

METODOS PARA CALCULAR LA CONFIABILIDAD DE UN INSTRUMENTO


DE MEDICIÓN:

Hay diversos métodos para determinar la confiabilidad de un instrumento de medición.


Todos utilizan fórmulas que producen coeficientes de confiabilidad estos coeficientes
pueden oscilar entre 0 y 1, donde un coeficiente de o significa nulo confiabilidad y 1
representa un máximo de confiabilidad (confiabilidad total).

CONFIABILIDAD

Muy Baja Baja Regular Aceptada Elevada


0 1
0% 100%

Confiabilidad del instrumento debe ser: Mayor al 50 %


2.1.- METODO DE LA MEDIDA DE ESTABILIDAD: METODO DE TEST – RETEST.

Consiste en la aplicación de dos veces o más veces un mismo instrumento de medición a un mismo
grupo de personas, después de cierto período. Si la correlación entre los resultados de las
diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. Se
determinará mediante el cálculo de Coeficiente de Correlación de Pearson (r).

𝑛 ∗ ∑𝑛𝑖=1 𝑋𝑖𝑌𝑖 − (∑𝑛𝑖=1 𝑋𝑖 )(∑𝑛𝑖=1 𝑋𝑖 )


𝑟=
2 2
√[𝑛 ∑𝑛𝑖=1 𝑋𝑖2 – (∑𝑛𝑖=1 𝑋𝑖 ) ] [𝑛 ∑𝑛𝑖=1 𝑌𝑖2 – (∑𝑛𝑖=1 𝑌𝑖 ) ]

Donde:

n = Número de parejas.
Xi : valores obtenidos en el momento 1
Yi : valores obtenidos en el momento 2

22
Estadística Descriptiva
2.2.- METODO DE DIVIDIR EN MITADES (Ver Ejemplo en el presente módulo)

Consiste en calcular el coeficiente de correlación de Pearson entre las dos mitades de cada
factor (pares o impares) de los elementos y luego corregir los resultados según la fórmula
de Sperman – Brown, que es una fórmula de corrección, que da como resultado un
estímulo corregido de confiabilidad. Este método requiere solo una aplicación de la
medición. Específicamente el conjunto total de ítems (o componentes) se divide en
dos mitades y se comparan las puntuaciones o los resultados de ambas. Si el
instrumento es confiable, las puntuaciones de ambas mitades deben estas muy
correlacionadas.

Procedimiento de dos mitades (divisón de items en pares e impares)


Primero : Se calcula el Índice de Correlación (Pearson)

𝑛 ∗ ∑𝑛𝑖=1 𝑋𝑖𝑌𝑖 − (∑𝑛𝑖=1 𝑋𝑖 )(∑𝑛𝑖=1 𝑋𝑖 )


𝑟=
2 2
√[𝑛 ∑𝑛𝑖=1 𝑋𝑖2 – (∑𝑛𝑖=1 𝑋𝑖 ) ] [𝑛 ∑𝑛𝑖=1 𝑌𝑖2 – (∑𝑛𝑖=1 𝑌𝑖 ) ]

Items Impar Par


Alumnos
I II III Xi Yi Xi*Yi Xi2 Yi2
Campos (1) 3 5 5 8 5 40 64 25
Gómez (2) 5 4 5 10 4 40 100 16
Linares (3) 4 4 5 9 4 36 81 16
Rodas (4) 4 5 3 7 5 35 49 25
Saavedra (5) 1 2 2 3 2 6 9 4
Tafur (6) 4 3 3 7 3 21 49 9
 = 44 23 178 352 95

Reemplazando:

6 ∗ 178 − (44 ∗ 23)


𝑟= = 0.66
√[6 ∗ 352 − (44)2 ] [6 ∗ 95 − (23)2 ]

Indice de correlación de Pearson ( r ) = 0.66.

Segundo: Corrección de r con la ecuación de Spearman – Brown ( R ) :


2r
R
1 r
Coeficiente de fiabilidad 𝑟𝑥𝑥 = 0.79

2.3.- MÉTODO COEFICIENTE ALFA DE CRONBACH:

Requiere de una sola administración del instrumento de medición y se basa en la medición


de la respuesta del sujeto con respecto a los ítems del instrumento.
Su ventaja reside en que no es necesario dividir en dos mitades a los ítems del instrumento
de medición; simplemente se aplica la medición y se calcula el coeficiente.

23
Estadística Descriptiva
CÁLCULO DEL COEFICIENTE:

𝐾 ∑ 𝑆𝑖 2
𝛼= [1 − ]
𝐾−1 𝑆𝑇 2
Donde:
K : Es el número de ítems.
∑ 𝑆𝑖 2 : Sumatoria de varianzas de los ítems.
𝑆𝑇 2 : Varianza de la suma de los ítems.
𝛼 : Coeficiente de Alfa de cronbach.

EJEMPLO:
Se tienen los resultados referidos a la opinión de 06 alumnos respecto a los ítems
formulados en un cuestionario

Items
Alumnos
I II III
Campos (1) 3 5 5
Gómez (2) 5 4 5
Linares (3) 4 4 5
Rodas (4) 4 5 3
Saavedra (5) 1 2 2
Tafur (6) 4 3 3

PROCEDIMIENTO:

Paso 1: Calcular las varianzas de cada uno de los ítems; en el cuadro de cálculo.

Items
Alumnos Suma de Items
I II III
Campos (1) 3 5 5 13
Gómez (2) 5 4 5 14
Linares (3) 4 4 5 13
Rodas (4) 4 5 3 12
Saavedra (5) 1 2 2 5
Tafur (6) 4 3 3 10
VAR. (𝑆𝑖 2 ) 1.90 1.37 1.77 𝟐
𝑺𝑻 = 10.97

Paso 2: Calcular la sumatoria de varianzas de los ítems.

∑ 𝑆𝑖 2 = 5.03

Paso 3: Calcular la varianza de la suma de los ítems.


𝑺𝑻 𝟐 = 10.97
Paso 4: Calcular el coeficiente de Alfa de Cronbach. α = 0.81

Paso 5: Interpretación de la significancia de α = 0.81; lo que significa que los resultados de


opinión de los 06 alumnos respeto a los ítems considerados se encuentran correlacionado
de manera altamente confiable y muy aceptable.

24
Estadística Descriptiva
Ejercicio 1. Con el fin de medir los niveles de actitud adversa hacia la fauna silvestre en
una comunidad rural, se propone aplicar la escala de medición siguiente:

Asignando los puntajes de medición a cada ítem de ponderaciones iguales y partiendo de 1


tenemos:
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 = Siempre
(S)]

Solución: Para probar la escala se entrevista a 10 agricultores y se obtienen las respuestas:

Cuadro Nº 01: Distribución de Agricultores entrevistados según los niveles de actitud2


adversa hacia la fauna silvestre en una comunidad rural – Junio de 2012.

Encuesta I1 I2 I3 I4 I5 I6 Total
E1 2 1 1 1 2 1 8
E2 1 1 1 1 2 1 7
E3 1 2 2 1 2 2 10
E4 2 2 2 1 2 3 12
E5 3 3 3 3 3 3 18
E6 2 3 3 3 3 4 18
E7 4 4 4 3 5 4 24
E8 4 4 4 3 5 4 24
E9 5 5 4 5 5 5 29
E10 5 5 5 5 5 4 29
Variancia 2.322 2.222 1.878 2.489 2.044 1.878
𝟐 ∑ 𝑺𝒋 𝟐 = 70.54
𝑺𝒙 = 12.833
Fuente: Elaboración propia.

 Determinación del Coeficiente Alfa de Cronbach (𝜶):

𝒏 ∑ 𝑺𝒋 𝟐 6 12.833
𝜶 = 𝒏−𝟏 (𝟏 − 𝟐 ) 𝛼 = 6−1 (1 − ) = 0.982
𝑺𝒙 70.54

Donde:
n: Es el número items incluidos en la escala de medición =6
S2j: Variancia del j-ésimo item de la escala =12.833
S2x: Variancia del puntaje total obtenido a través de la escala de medición = 70.54

Comentario:
De 10 agricultores entrevistados la fiabilidad de las respuestas de los 6 items según el
coeficiente alfa de Cronbach (𝛼 = 0.982), indica que las respuestas o resultados de los
individuos entrevistados son muy consistentes, es decir presenta una confiabilidad
aceptable.

2
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 = Siempre (S)]

25
Estadística Descriptiva
Salida de SPSS vs 20.0:

Estadísticos de fiabilidad
Alfa de Cronbach basada en
Alfa de Cronbach N de elementos
los elementos tipificados
,982 ,982 6

Matriz de correlaciones inter-elementos


I1 I2 I3 I4 I5 I6
I1 1,000 ,929 ,899 ,906 ,938 ,803
I2 ,929 1,000 ,979 ,945 ,938 ,925
I3 ,899 ,979 1,000 ,905 ,930 ,893
I4 ,906 ,945 ,905 1,000 ,867 ,843
I5 ,938 ,938 ,930 ,867 1,000 ,828
I6 ,803 ,925 ,893 ,843 ,828 1,000

Estadísticos de resumen de los elementos


Media Mínimo Máximo Rango Máximo/mínimo Varianza N de
elementos
Varianzas de los
2,139 1,878 2,489 ,611 1,325 ,062 6
elementos

Ejercicio 2. Estime el índice de fiabilidad del cuestionario con base en la correlación par
impar.

El coeficiente de fiabilidad par impar se calcula con base en la correlación entre los
puntajes totales obtenidos con los ítems pares e impares utilizando la función EXCEL:

Suma de puntos de Items


Impares Pares
5 3
4 3
5 5
6 6
9 9
8 10
13 11
13 11
14 15
15 14
rPI = 0.949

COEF.DE.CORREL (Impares; Pares) = rPI = 0.949

2𝑟 2(0.949)
Coeficiente de fiabilidad: 𝑟𝑥𝑥 = 1− 𝑟𝑃𝐼 = = 0.974
𝑃𝐼 1+ 0.949
Comentario: se registra un alto índice de fiabilidad para la alta consistencia interna que se
registra entre los ítems pares e impares del instrumento.

26
Estadística Descriptiva
Ejercicio 3. Encuentre los índices de homogeneidad corregidos para cada ítem.

Cuadro Nº 02: Distribución de Agricultores entrevistados según los niveles de actitud


adversa hacia la fauna silvestre en una comunidad rural – Junio de 2012.
Encuesta I1 I2 I3 I4 I5 I6
E1 6 7 7 7 6 7
E2 6 6 6 6 5 6
E3 9 8 8 9 8 8
E4 10 10 10 11 10 9
E5 15 15 15 15 15 15
E6 16 15 15 15 15 14
E7 20 20 20 21 19 20
E8 20 20 20 21 19 20
E9 24 24 25 24 24 24
E10 24 24 24 24 24 25
Índices de homogeneidad
0.932 0.991 0.963 0.929 0.938 0.885
corregidos para cada ítem
Fuente: Elaboración propia.

Interpretación: El ítem 6 es el menos relacionado con la prueba general.

Ejercicio 4. Un índice de validez del cuestionario previsto.

En base la valoración global efectuada por los entrevistados, estime:

Puntaje Calificativo
Entrevista
Total Global
1 8 5
2 7 7
3 10 7
4 12 7
5 18 14
6 18 14
7 24 17
8 24 17
9 29 20
10 29 20

Correlación entre puntajes


COEF.DE.CORREL (total; global) = rxx = 0.984

Interpretación: Este coeficiente alto indica una aceptable validez de constructo

5. Calcule el coeficiente de fiabilidad de pruebas paralelas.

27
Estadística Descriptiva
Cuestionario A Cuestionario B
Encuesta I1 I2 I3 I4 I5 I6 Total Encuesta I1 I2 I3 I4 I5 I6 I7 I8 Total
E1 2 1 1 1 2 1 8 E1 2 1 2 2 3 1 1 3 15
E2 1 1 1 1 2 1 7 E2 4 5 5 3 4 3 1 2 27
E3 1 2 2 1 2 2 10 E3 4 3 4 4 3 4 3 3 28
E4 2 2 2 1 2 3 12 E4 4 4 4 4 4 4 5 4 33
E5 3 3 3 3 3 3 18 E5 1 1 2 2 3 2 2 1 14
E6 2 3 3 3 3 4 18 E6 3 3 4 4 4 5 5 4 32
E7 4 4 4 3 5 4 24 E7 2 2 2 2 1 1 1 1 12
E8 4 4 4 3 5 4 24 E8 4 4 5 4 3 5 3 1 29
E9 5 5 4 5 5 5 29 E9 4 3 1 3 3 3 2 1 20
E10 5 5 5 5 5 4 29 E10 4 5 4 5 4 4 3 2 31

Coeficiente de Fiabilidad = COEF.DE.CORREL (A; B) = -0.062

Interpretación: El Coeficiente de Fiabilidad es bajo por lo tanto no indica una aceptable


validez de constructo.

28
Estadística Descriptiva
II. ORGANIZACIÓN DE DATOS

1. DISTRIBUCIÓN DE FRECUENCIAS

Después de recoger toda la información correspondiente a la investigación, es decir, al


agotar todo el trabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras
desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco
sobre la población estudiada; es, entonces, tarea del investigador “hacer hablar las cifras”,
comenzando por la clasificación y ordenación, consignando la información en tablas
inteligibles que denominamos distribuciones de frecuencias.

ORDENACIÓN DE DATOS

 CARACTERES CUALITATIVOS

Consideremos una muestra de tamaño “n” sacada de una población estadística de la que
observamos un carácter cualitativo A que presenta las modalidades siguientes: a1, a2, a3,...,
ak, llamamos

De la modalidad ai, es el número de veces que aparece


repetida dicha modalidad en el conjunto de las observaciones
FRECUENCIA realizadas.
ABSOLUTA fi 𝑘
SIMPLE
∑ 𝑓𝑖 = 𝑛 ; 0 ≤ 𝑓𝑖 ≤ 𝑛 ; 𝑖 = 1, 2, 3, ….
𝑖=1
De la modalidad ai al cociente entre la frecuencia absoluta y
FRECUENCIA el número de datos (= tamaño de la muestra “n”).
𝑘
RELATIVA hi 𝑓𝑖
SIMPLE ℎ𝑖 = ; ∑ ℎ𝑖 = 1 ; 0 ≤ ℎ𝑖 ≤ 1 ; 𝑖 = 1, 2, 3, ….
𝑛
𝑖=1

Los datos de las observaciones se Modalidades de carácter A fi hi


pueden recoger en la siguiente tabla
a1 f1 h1
de distribución :
a2 f2 h2
……..

……..

……..

ak fk hk
Total. ∑ 𝑓𝑖 = 𝑛 ∑ ℎ𝑖 = 1

29
Estadística Descriptiva
 CARACTERES CUANTITATIVOS

Consideramos una variable estadística X que, en una muestra de tamaño “n” extraída de
una población estadística, toma los valores x1<x2<x3< ...<xk , definimos los siguientes
conceptos :

Llamamos tamaño muestral al número de observaciones


realizadas, es decir, al número total de datos.
Tamaño de la 𝑘
muestra n
∑ 𝑓𝑖 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘 = 𝑛
𝑖=1
Llamamos frecuencia absoluta de un valor xi de la variable
estadística X al número de veces que aparece repetido dicho
Frecuencia valor en el conjunto de las observaciones realizadas.
Absoluta fi 𝑘

∑ 𝑓𝑖 = 𝑛 ; 0 ≤ 𝑓𝑖 ≤ 𝑛 ; 𝑖 = 1, 2, 3, ….
𝑖=1
Llamamos frecuencia absoluta acumulada en el valor xi a la
suma de las frecuencias absolutas de los valores inferiores o
Frecuencia iguales a él.
Absoluta Fi Evidentemente, los valores xi han de estar ordenados de
Acumulada forma creciente, como ya se ha indicado, y la frecuencia
absoluta acumulada del último valor será igual a “n”.
𝐹𝑘 = 𝑛
Llamamos frecuencia relativa de un valor xi de la variable
estadística X al cociente entre la frecuencia absoluta simple y
Frecuencia el número de observaciones realizadas.
hi 𝑘
Relativa 𝑓𝑖
ℎ𝑖 = ; ∑ ℎ𝑖 = 1 ; 0 ≤ ℎ𝑖 ≤ 1.
𝑛
𝑖=1
Llamamos frecuencia relativa acumulada en el punto xi al
Frecuencia cociente entre la frecuencia absoluta acumulada y el número
Relativa Hi de observaciones realizadas.
Acumulada 𝐹𝑖
𝐻𝑖 = ; 𝐻𝑘 = 1
𝑛

En las observaciones realizadas en una muestra o población, puede ocurrir:

1. Que la variable estadística tome pocos valores diferentes (ya sea grande o pequeño
el tamaño de la muestra).
2. Que, en una muestra de gran tamaño, la variable estadística tome muchos valores
diferentes, ya se trate de variable estadística discreta como de variable estadística
continua (este último caso es el más habitual).

30
Estadística Descriptiva
En este primer caso (Si la variable Xi fi hi Fi Hi
es cuantitativa Discreta), no es
x1 f1 h1 F1 H1
necesario agrupar los datos, y la
tabla de distribución presenta el x2 f2 h2 F2 H2

……..

……..

……..

……..

……..
siguiente aspecto (ordenando los
datos de menor a mayor):
xk Fk hk Fk=n Hk=1
Total. ∑ 𝑓𝑖 = 𝑛 ∑ ℎ𝑖 = 1

En el segundo caso por tratarse de variable continua o discreta, con un número de datos
muy grande, es aconsejable AGRUPAR LOS DATOS EN CLASES.

Rango (R).
𝑅 = 𝑉𝑎𝑙𝑜𝑟 𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑀𝑖𝑛𝑖𝑚𝑜

Número de clases (m).


Determinamos a través de la regla de sturges.
𝑚 = 1 + 3.322 ∗ Log(𝑛)

Amplitud de clases (C).


𝑅
𝐶=
𝑚

Tabla de frecuencias de Marcas


Intervalos
una variable estadística de clase fi hi Fi Hi
de clase
agrupada en intervalos. Xi
[a0 – a1) x1 f1 h1 F1 H1
[a1 – a2) x2 f2 h2 F2 H2
……..

……..

……..

……..

……..

……..
[ak– ak+1] xk fk hk Fk=n Hk=1
Total. ∑ 𝑓𝑖 = 𝑛 ∑ ℎ𝑖 = 1

31
Estadística Descriptiva
MEDIDAS DE TENDENCIA CENTRAL.

Son estadígrafos de posición que son interpretados como valores que permiten a un
conjunto de datos dispersos, podría asumirse que estas medidas equivalen a un centro de
gravedad que adoptan un valor representativo para todo un conjunto de datos
predeterminados.

Estas medidas son:

1. Promedio Aritmético (Media Aritmética).


2. Mediana.
3. Moda.
4. Promedio Geométrico.
5. Promedio Total.
6. Media armónica
7. Media global.
8. Media ponderada.

MEDIDAS DE POSICIÓN

Percentiles.
Cuartiles
Deciles

MEDIDAS DE VARIABILIDAD (dispersión)

Son estadígrafos de dispersión que permiten evaluar el grado de homogeneidad,


dispersión o variabilidad de un conjunto de datos. Estas medidas son:

1. Amplitud o rango.
2. Varianza.
3. Desviación estándar.
4. Coeficiente de variabilidad.

MEDIDAS DE FORMA

Evalúa la forma que adopta la distribución de frecuencias respecto al grado de


distorsión (inclinación) que registra respecto al valor promedio tomado como
centro de gravedad, el grado de apuntamiento (elevamiento) de la distribución de
frecuencias. A mayor elevamiento de la distribución de frecuencia significará
mayor concentración de los datos en torno al promedio, por tanto, una menor
dispersión de los datos. Estas medidas son:

1. Asimetría o sesgo.
2. Curtosis.

32
Estadística Descriptiva
1. LA MEDIA ARITMÉTICA.

 Para Datos no Agrupados.


El promedio aritmético de un conjunto de valores (X1, X2, X3,….., Xn) es:

∑𝑛𝑖=1 𝑋𝑖 𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑛
𝑋̅ = =
n 𝑛
Ejemplo:
Durante los últimos 32 días el valor de las compras (soles) en periódicos fue:

5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 8.2
6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 6.4 10.1 9.1
9.0 7.8 8.2 5.3 6.2 8.6 7.0 7.7 8.3 7.5
El promedio aritmético del valor de las compras en periódicos es:
∑𝑛𝑖=1 𝑋𝑖 250.2
𝑋̅ = = = 7.82
n 32
 Para Datos Agrupados.

Rango (R).
𝑅 = 𝑉𝑎𝑙𝑜𝑟 𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑀𝑖𝑛𝑖𝑚𝑜 = 10.2 − 5.2 = 5
Número de clases (m).
Determinamos atreves de la regla de sturges.
𝑚 = 1 + 3.3 ∗ Log(𝑛) = 1 + 3.3 ∗ 𝐿𝑜𝑔(32) = 5.97 ≅ 6

Amplitud de clases (C).


𝑅 5
𝐶 = = = 0.83
𝑚 6

∑𝑛𝑖=1 𝑋𝑖 ∗ 𝑓𝑖
𝑋̅ =
𝑛
Donde: fi = frecuencia en la clase K –ésima.
Xi = marca de clase en el intervalo K – éimo.

Ejemplo.

Para los gastos diarios en periódicos del hotel agrupados en una tabla de frecuencia:

Intervalo Xi fi hi Fi Hi 10
fi

[5.2 - 6.0) 5.62 3 0.09 3 0.09 8


[6.0 - 6.9) 6.45 5 0.16 8 0.25 6
[6.9 - 7.7) 7.28 6 0.19 14 0.44 4
2
[7.7 - 8.5) 8.12 8 0.25 22 0.69
0
[8.5 - 9.4) 8.95 5 0.16 27 0.84 5.62 6.45 7.28 8.12 8.95 9.78 Xi
[9.4 - 10.2] 9.78 5 0.16 32 1.00
Total 32 1
El promedio aritmético es:

∑𝑛𝑖=1 𝑋𝑖 ∗ 𝑓𝑖 5.62 ∗ 3 + 6.45 ∗ 5 + ⋯ + 9.78 ∗ 5 251.40


𝑋̅ = = = = 𝟕. 𝟖𝟔
𝑛 32 32

Durante los 32 días el hotel tuvo un gasto promedio en periódicos de 7.86 soles

33
Estadística Descriptiva
2. LA MEDIANA.

Es al valor que ocupa la posición central de un conjunto de observaciones ordenadas. El


50% de las observaciones son mayores que este valor y el otro 50% son menores.

 Para Datos no Agrupados.

La ubicación de la mediana de n datos ordenados se determina por: (n+1)/2.


Ejemplos.

En los 7 datos ordenados: {4, 5, 5, 6, 7, 8, 9}.


(7+1)
La ubicación de la mediana es: 2 = 4, Luego el valor de la mediana: Me = 6.
En los 8 datos ordenados: {3, 4, 5, 5, 6, 7, 8, 9}.
(8+1)
La mediana se ubica en el lugar 2 = 4.5, Luego el valor de la mediana es: 𝑀𝑒 =
(5+6)
= 5.5
2

 Para Datos Agrupados.


𝑛
( 2 − 𝐹𝑖−1 )
𝑀𝑒 = 𝐿𝑖 + ∗ 𝐶𝑖
𝑓𝑘

Li : Límite inferior del intervalo que contiene a la mediana.


Fi-1 : Frecuencia acumulada en la clase anterior i – ésima.
Fi : Frecuencia en la clase que contiene a la mediana.
Hi-1 : Frecuencia relativa acumulada en la clase anteriori – ésima.
hi : Frecuencia relativa en la clase que contiene a la mediana.
Ci : Amplitud del intervalo de clase

Ejemplo. Para los gastos diarios en periódicos del hotel en una tabla de frecuencias.

Marca Frecuencia Frecuencia Frec. Acum. Frec. Acum.


Intervalo
de clase Absoluta Relativa Absoluta Relativa
De clase
Xi fi hi Fi Hi
[5.2 - 6.0) 5.62 3 0.09 3 0.09
[6.0 - 6.9) 6.45 5 0.16 8 0.25
[6.9 - 7.7) 7.28 6 0.19 14 0.44
[7.7 - 8.5) 8.12 8 0.25 22 0.69
[8.5 - 9.4) 8.95 5 0.16 27 0.84
[9.4 - 10.2] 9.78 5 0.16 32 1.00
L Total 32 1
32
( −14)
2
a mediana es: 𝑀𝑒 = 7.7 + ∗ 0.83 = 7.9
8

El 50% de los días el hotel gastó menos de 7.9 soles en la compra de periódicos.

34
Estadística Descriptiva
3. LA MODA.

Es el valor; clase o categoría que ocurre con mayor frecuencia y sus características son:

 Puede no existir o existir más de una moda.


 Su valor no se ve afectado por los valores extremos en los datos.
 Se utiliza para analizar tanto la información cualitativa como la cuantitativa.
 Es una medida inestable cuando en número de datos es reducido.

 Para Datos no Agrupados.

Por ejemplo, Durante los últimos 32 días el valor de las compras en periódicos fue:
5.2 10.2 7 7.1 10.2 8.3 9.4 9.2
6.6 7.8 6.8 7.1 8.4 9.6 7.1 5.7
Moda =Mo= 7.1; es el valor más frecuente, ocurre tres veces.

Ejemplo: 2, 2, 5, 5, 7, 7, 7, 7, 9, 9, 9, 10; Mo = 7 y 9 Serie bimodal


Ejemplo: 6, 5, 6, 6, 3, 4, 6, 6, 7 Mo = 6 Serie Unimodal
Ejemplo: 13, 15, 12, 11, 20, 22 No tiene Moda o se dice que
cada dato es una moda

 Para Datos Agrupados.


𝑑1
𝑀𝑜 = 𝐿𝑖 + [ ] ∗ 𝐶𝑖
𝑑1 + 𝑑2
Donde: 𝑑1 = (𝑓𝑖 − 𝑓𝑖−1 )
𝑑2 = (𝑓𝑖 − 𝑓𝑖+1 )
fi= valor de mayor frecuencia.
Ejemplo.
El gasto diario en periódicos del hotel “***” agrupados en una tabla de frecuencias.

Intervalo Xi fi hi Fi Hi
[5.2 - 6.0) 5.62 3 0.09 3 0.09
[6.0 - 6.9) 6.45 5 0.16 8 0.25
[6.9 - 7.7) 7.28 6 0.19 14 0.44
[7.7 - 8.5) 8.12 8 0.25 22 0.69
[8.5 - 9.4) 8.95 5 0.16 27 0.84
[9.4 - 10.2] 9.78 5 0.16 32 1.00
Total 32 1

2
𝑀𝑜 = 7.7 + [ ] ∗ 0.83 = 8.03
2+3
Donde:
𝐿𝑖 = 7.7
𝑑1 = (8 − 6) = 2
𝑑2 = (8 − 5) = 3

El gasto diario en periódicos más frecuente es 8.03soles.

35
Estadística Descriptiva
4. MEDIA GEOMÉTRICA.

La media geométrica simple 𝑋̅𝐺 de n observaciones X1, X2, X3,…..,Xn positivos, está dado
por la raíz enésima del producto de los n valores observados. El promedio geométrico de
los valores: (X1, X2, X3,…..,Xn) es :

 Para Datos no Agrupados.


̅ 𝑮 = 𝒏√𝒙𝟏 𝒙𝟐…………. 𝒙𝒏
𝑿

Ejemplo.
Hallar la media geométrica de los números 3, 5, 8, 3, 5, 2.

Solución.
En este caso n = 6, entonces la media geométrica es:

̅ 𝑮 = 𝟔√𝟑 𝒙 𝟓 𝒙 𝟖 𝒙 𝟑 𝒙𝟓 𝒙 𝟐 = 3.915
𝑿

 Para Datos Agrupados.

Si los datos están agrupados en clases, la media geométrica ponderada, es la raíz


enésima del producto de las marcas de clases elevadas a sus respectivas
frecuencias, es decir.

̅ 𝑮 = 𝑛√(𝑋1) 𝑓1 (𝑋2 ) 𝑓2 … … … (𝑋𝑚 ) 𝑓𝑚


𝑿

Donde: 𝑛 = ∑𝑚𝑖=1 𝑓𝑖 , Xi = Marca de clase, fi = Frecuencia absoluta simple,


m = número de clases.
Aplicando logaritmo a ambos lados miembros de la ecuación anterior se tiene:

𝟏
̅𝑮 =
Log 𝑿 [𝑓 𝑥 𝑙𝑜𝑔𝑋1 + 𝑓2 𝑥 𝑙𝑜𝑔𝑋2 +, … , + 𝑓𝑛 𝑥 𝑙𝑜𝑔𝑋𝑛 ]
𝒏 1
1
= 𝑛 ∑𝑛𝑖=1 𝑓𝑖 𝑙𝑜𝑔𝑋𝑖 ; Luego.
∑𝑚
𝑖=1 𝑓𝑖 𝑙𝑜𝑔𝑋𝑖
̅ 𝑮 = 𝒂𝒏𝒕𝒊 𝒍𝒐𝒈 [
𝑿 ]
𝒏
Ejemplo.

Intervalo Xi fi log (Xi) fi * log(Xi)


[5.2 - 6.0) 5.62 3 0.749 2.248
[6.0 - 6.9) 6.45 5 0.81 4.048
[6.9 - 7.7) 7.28 6 0.862 5.174
[7.7 - 8.5) 8.12 8 0.909 7.275
[8.5 - 9.4) 8.95 5 0.952 4.759
[9.4 - 10.2] 9.78 5 0.99 4.952
Total ( ∑ ): 32 28.46

̅ 𝑮 = 𝒂𝒏𝒕𝒊 𝒍𝒐𝒈 [28.46]= 7.749


𝑿
32

36
Estadística Descriptiva
Desventajas de la media geométrica.

 Está limitado para valores positivos para que pueda ser interpretado.
 Si algún valor de la variable es cero, la media geométrica será cero.
 Si aparece algún valor negativo, el estadígrafo toma un valor imaginario.

5. PROMEDIO PONDERADO

Cuando se desea encontrar el promedio de valores (X1, X2, X3,…..,Xn) que ocurren con
frecuencias (f1,f2,….fn)diferentes se deberán ponderar los valores observados con pesos
diferentes:
𝒏
̅ = ∑ 𝑾𝒊 ∗ 𝑿𝒊
𝑿
𝒊=𝟏

Donde Wi = fi/n se denominan “ponderaciones o pesos”.

Ejemplo.

En una agencia de viajes se han vendido 200 pasajes a los precios siguientes:

Precio de venta (soles) Numero de pasajes Ponderación


Xi*Wi
Xi fi Wi
12 60 0.30 3.60
14 100 0.50 7.00
16 40 0.20 3.20
Total 200 1 ∑ = 13.8

El precio promedio de venta de los 200 pasajes es de 13.8 soles

6. PROMEDIO TOTAL

Corresponde al valor promedio representativo de grupos de observaciones separadas o


diferentes y que podrían estar consolidadas en tablas de frecuencia independientes, por
tanto:

̅𝟏 + 𝒏 𝟐 𝒙
𝒏𝟏 𝒙 ̅𝟐…… 𝒏𝑲 𝒙
̅𝒌
̅𝑻 =
𝑿
𝒏𝟏 + 𝒏𝟐 + ⋯ . +𝒏𝒌

ni: Numero de observaciones en el grupo i-ésimo.


̅ 𝒊 : Promedio correspondiente el grupo i-ésimo
𝑿

37
Estadística Descriptiva
Ejemplo.

GUPO A GUPO B
Nota Xi fi Nota Xi fi
5 – 10 7.5 4 0 – 5 2.5 8
10 – 15 12.5 16 5 – 10 2.5 10
15 – 20 17.5 5 10 – 15 12.5 16
Total 25 15 – 20 17.5 6
Total 40
Promedio del grupo A: Promedio del grupo B:

4(7.5) + 16(12.5) + 5(17.5) 8(2.5) + 10(7.5) + 16(12.5) + 6(17.5)


̅
XA = = 12.7 𝑦 ̅
XB = = 10
25 40

Grupo ̅
Xi fi
Promedio A 12.7 25 25(12.7) + 40(10)
̅T =
X = 11.04
Total B 10 40 65
Total 65

7. MEDIA ARMÓNICA.

̅ H ” de n términos no nulos X1, X2, X3,…..,Xn, es el reciproco de


La media armónica “Mh” o “ X
la media aritmética de los recíprocos de esos términos. Es decir.

 Para Datos no Agrupados.

n
̅
XH = 1 1 1
+ x + ⋯………….+x
x1 2 n
Ejemplo. Calcular el rendimiento promedio para el caso de tres automóviles que
recorrieron 500 kilómetros y cada auto tuvo el rendimiento siguiente:

Auto A B C
Rendimiento(Km/galón) 50 62.4 77.6

3 3 Km
̅
XH = = = 61.334
1 1 1 0.0489121 galón
+ 62.4 + 77.6
50
Verificación.

Auto Km Rendimiento Total de galones


A 500 50 10
1500
B 500 62.4 8.0128 ̅H =
X = 61.334
C 500 77.6 6.4433 24.4561
Total 1500 24.4561

 Para Datos Agrupados. La media armónica para datos tabulados (media armónica
ponderada) se define por:
n
̅
XH = Mh = fi
∑mi=1 Xi
Donde:
m = número de clases, Xi = marca de clase, fi = frecuencia absoluta de cada clase.

38
Estadística Descriptiva
MEDIDAS DE POSICIÓN.

Las medidas de posición equivalen a los valores que puede tomar una variable
caracterizados por agrupar a cierto porcentaje de observaciones en la muestra o población.
Las medidas de posición son ideales para obtener información adicional a partir de datos
resumidos, es decir, que presentan perdida de información por agrupamiento en intervalos
de clase.

PERCENTILES.

Son 99 valores que dividen a un conjunto de datos en 100 partes iguales.

 Para Datos Agrupados.


𝐾𝑛
[ − 𝐹𝑖−1 ]
100
𝑃𝑘 = 𝐿𝑖 + ∗𝐶
𝑓𝑖
𝐿𝑖 = Límite inferior del intervalo que contiene al percentil
𝐹𝑖−1 = Frecuencia acumulada en la clase anterior K-ésima
𝑓𝑖 = Frecuencia en la clase que contiene al percentil
C =Amplitud del intervalo de clase
k = 1%, 2%, 3%,……..,97%, 98%, 99% Percentiles.

Marca Frecuencia Frecuencia Frec. Acum. Frec. Acum.


Intervalo
de clase Absoluta Relativa Absoluta Relativa
De clase
Xi fi hi Fi Hi
[5.2 - 6.0) 5.62 3 0.09 3 0.09
[6.0 - 6.9) 6.45 5 0.16 8 0.25
[6.9 - 7.7) 7.28 6 0.19 14 0.44
[7.7 - 8.5) 8.12 8 0.25 22 0.69
[8.5 - 9.4) 8.95 5 0.16 27 0.84
[9.4 - 10.2] 9.78 5 0.16 32 1.00
Total 32 1

Ejemplo.

El percentil 80% de los gastos diarios en periódicos es.

1. Se determina 80*n/100.

2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 80*n/100 = 25.6 es F5 =


27, luego F5-1 = 22. Por tanto en intervalo de clase que contienen a𝑃80% es [8.5 – 9.4)
80𝑛
− 𝐹𝑖−1 (𝟐𝟓. 𝟔 − 22)
𝑃80% = 𝐿𝑖 + (100 ) ∗ 𝐶 = 8.5 + ∗ 0.83 = 9.09
𝑓𝑖 5

El 80% de los datos analizados serán menores de 9.09 y el 20% restante serán superiores.

39
Estadística Descriptiva
CUARTILES.

Son tres valores Q1, Q2, Q3 que dividen a los datos en cuatro partes iguales.

25% Q1 25% Q2 25% Q3 25%

𝑛 3𝑛
4
− 𝐹𝑖−1 − 𝐹𝑖−1
𝑄1 = 𝐿𝑖 + ( ) ∗ 𝐶 ; 𝑄2 = 𝑀𝑒 ; 𝑄3 = 𝐿𝑖 + ( 4 )∗𝐶
𝑓𝑖 𝑓𝑖
Ejemplo.
Calcular el tercer cuartil (Percentil 75%) de los gastos diarios en periódicos de la tabla
anterior.

Solución.

1. Se determina n/4.

2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 3n/4 = 24 es F5 = 27,


luego F5-1 = 22. Por tanto en intervalo de clase que contienen a𝑄3 es [8.5 – 9.4)
3𝑛
− 𝐹𝑖−1 (𝟐𝟒 − 22)
𝑄3 = 𝐿𝑖 + ( 4 ) ∗ 𝐶 = 8.5 + ∗ 0.83 = 8.8
𝑓𝑖 5

El 75% de los datos analizados serán menores a 8.8 y el 25% restante serán superiores.

DECILES.

Son nueve valores D1, D2, D3, D4, D5, D6, D7, D8, y D9, que dividen a un conjunto de datos
en 10 partes iguales.

1. Se construye la tabla de frecuencias absolutas acumuladas.


2. Se determina k*n/10.
3. Se identifica a la clase que contiene a Dk, identificado a la frecuencia absoluta
acumulada Fi inmediatamente superior a k*n/10.

Ejemplo.

Calcular el decil siete (Percentil 70%) de los gastos diarios en periódicos de la tabla de
frecuencia anterior.

𝑖𝑛
− 𝐹𝑖−1 (𝟐𝟐. 𝟒 − 17)
10
𝐷𝑖 = 𝐿𝑖 + ( ) ∗ 𝐶 = 8.5 + ∗ 0.83 = 9.396
𝑓𝑖 5

70% de los datos serán menores a 9.396 y el 30% restante serán superiores a 9.396.

40
Estadística Descriptiva
Para Datos no Agrupados.

El lugar o posición donde se encuentran los cuartiles para n datos ordenados es:

Cuartil Q1 = P25% Q2 = P50% Q3 = P75%


25(n + 1) 50(n + 1) 75(n + 1)
Posición
100 100 100

Ejemplo.

Supóngase que los siguientes datos representan los salarios por día de 12 trabajadores de
una compañía muy grande seleccionados aleatoriamente (en soles)

9 10 12 3 5 7 15 10 9 11 13 11

Determinar el primer cuartil de la muestra.

Solución.

1. Los datos ordenados en forma ascendente son:

3 5 7 9 9 10 10 11 11 12 13 15
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12

𝑛+1 12+1
2. Como n = 12, 4 = 4 = 3.25. Esto significa que el valor de Q1 es el tercer dato
más 25% de la diferencia entre los valores de las observaciones tercero y cuarto.
Así, el valor de la tercera observación es 7 y el del cuarto es 9, entonces

Q1 = 7 + (9-7)*0.25 =7.5 soles.

Ejemplo:

Determine los cuartiles y decil 8 de los 13 datos ordenados siguientes:

10 11 11 12 12 13 13 13 14 15 17 18 20
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13

Percentil Posición Incremento % Valor del cuartil


Q1 = P25 0.25(13+1) = 3.5 50% Q1 = 11+(12-11)*0.50 =11.5
Q2 = P50 0.50(13+1) = 7 0% Q2 = 13
Q3 = P75 0.75(13+1) = 10.5 50% Q3 = 15+(17-15)*0.50 = 16
Q8 = P80 0.80(13+1) = 11.2 20% P80 = 17+(18-17)* 0.20 = 17.2

41
Estadística Descriptiva
MEDIDAS DE VARIABILIDAD.

1. AMPLITUD O RANGO
Sean los valores:x1, x2, x3,…..,xnla amplitudo rango de estos datos es
R = (Xmax - Xmin).

2. VARIANZA Y DESVIACIÓN TÍPICA.


Estas medidas son las más utilizadas en el estudio de la dispersión. La varianza
mide la dispersión de los datos con respecto a su media aritmética y la desviación
típica o desviación estándar es simplemente la raíz cuadrada positiva de la varianza.

 Para Datos no Agrupados.

Definición de de varianza poblacional. La varianza poblacional finita de N


elementos X1, X2, X3,…..,Xn, se define como la media aritmética del cuadrado de
las desviaciones de las observaciones con respecto a su media µ, y se denota por 𝜎 2
es decir.
n

(x i  )2
2  i 1

Definición de de varianza de una muestra. La varianza de una muestra, x1, x2,


x3,…..,xn, de una variable o una característica x (que abreviadamente escribimos
“V(x)”), se define como la media del cuadrado de las desviaciones de las
observaciones con respecto de la media aritmética de esos datos. Si denotamos por
“S2”.
n _

 ( xi  X ) 2
s2  i 1

n
n n

 ( xi  x) 2  xi2  n x
2
Es fácil verificar que:
i 1 i 1
Por lo tanto,
n

x 2
i
2
s2  i 1
x
n
2 2
∑𝑛 (𝑥 −𝑥̅ ) ∑𝑛 (𝑥 −𝑥̅ )
La diferencia entre 𝑖=1 𝑛 𝑖 𝑦 𝑖=1𝑛−1𝑖 es grande para muestras pequeñas, y es
mínima para muestras grande, prácticamente son iguales. Entonces, para muestras
grandes 𝑛 ≥ 60, puede usarse cualquiera de las formulas. Para muestras pequeñas
2
∑𝑛 (𝑥 −𝑥̅ )
se usa 𝑖=1𝑛−1𝑖 , lo cual es llamada varianza muestral o también varianza
corregida, y se acostumbra denotar por 𝑆 2 . Es decir la varianza muestral estará
definida por:
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 2
∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑋̅ 2
𝑆 = ó 𝑆 =
𝑛−1 𝑛−1

42
Estadística Descriptiva
Ejemplo.
Calcular la varianza de los cuatro datos siguientes: (Xi: 3, 4, 6 y 7)

∑𝑛𝑖=1 𝑋𝑖 3 + 4 + 6 + 7 20
𝑋̅ = = = =5
n 4 4

∑𝑛𝑖=1 𝑥𝑖 2 − 𝑛𝑋̅ 2 32 + 42 + 62 + 72 10
= = = 3.333
𝑛−1 4−1 3

 Para datos Agrupados.


n

 (x i  X )2 * fi
s2  i 1

n
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖 ∑𝑛
𝑖=1 𝑓𝑖 ∗ 𝑥𝑖 − 𝑛𝑋̅ 2
𝑆2 = 2
ó 𝑆 =
𝑛−1 𝑛−1
Ejemplo.

Los gastos diarios en periódicos del hotel agrupados en la tabla de frecuencias.

Marca Frecuencia
Intervalo
de clase Absoluta Xi*fi ( Xi -𝑋̅)2*fi
De clase
Xi fi
[5.2 - 6.0) 5.62 3 16.85 15.10
[6.0 - 6.9) 6.45 5 32.25 9.94
[6.9 - 7.7) 7.28 6 43.70 2.00
[7.7 - 8.5) 8.12 8 64.93 0.53
[8.5 - 9.4) 8.95 5 44.75 5.94
[9.4 - 10.2] 9.78 5 48.92 18.50
Total ∑= 32 ∑ = 251.40 ∑ = 52.00
𝒙̅ = 𝟕. 𝟖𝟔

∑𝑛𝑖=1(𝑥𝑖 2 − 𝑥̅ )2 ∗ 𝑓𝑖 52
𝑆2 = = = 1.68
𝑛−1 31

3. DESVIACIÓN ESTÁNDAR.
Es una medida de variabilidad que corresponde a la raíz cuadrada de la varianza.
Este indicador tiene la misma unidad de medida en la que se expresa el promedio.

∑𝑛 (𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
𝑆 = √𝑆 2 = √ 𝑖=1
𝑛−1
Entonces, 𝑆 = √1.68 = 1.3 soles.

Propiedades dela varianza.

 La varianza de un conjunto de observaciones x1, x2, x3,…..,xn, siempre


es un número no negativo. Esto es

43
Estadística Descriptiva
𝑉 (𝑥 ) ≥ 0
 La varianza de una constante es cero.
𝑉 (𝑘 ) = 0
 Si a cada observación x1, x2, x3,…..,xn, se adiciona o resta una constante
k>0, la varianza del nuevo conjunto de valores y1, y2, y3,…..,yn, donde
yi=xi ± K, i=1, 2,….,n, coincide con la varianza del conjunto original. Es
decir
 𝑉(𝑘 ∗ 𝑥) = 𝑘 2 𝑉 (𝑥 ).
1
 𝑉 (𝑦) = 𝑉 (𝑎𝑥 ± 𝑏) = 𝑎2 𝑉(𝑥 ) ó 𝑉(𝑥 ) = 𝑎2 𝑉(𝑦), donde a y b son
constantes.

4. COEFICIENTE DE VARIACIÓN.

Es una medida de variabilidad de los datos que se expresa en porcentaje, igual a la


desviación estándar dividida entre la media aritmética. Debido a que se trata de un número
sin dimensiones, es útil para comparar la dispersión de poblaciones con medias
significativamente diferentes.

𝑺
𝑪. 𝑽. = ( ) 𝒙𝟏𝟎𝟎
𝐱̅

Grado de variabilidad de los datos Coeficiente de variabilidad


Con variabilidad baja Menos de 10%
Con variabilidad moderada De 10% a 30%
Con variabilidad alta Más de 30%

En el ejemplo anterior el coeficiente de variabilidad es:

𝟏. 𝟑
𝑪. 𝑽. = ( ) 𝒙𝟏𝟎𝟎 = 𝟏𝟔. 𝟓𝟑𝟗%
𝟕. 𝟖𝟔

Por ejemplo, Usted es el inspector de control de calidad de una planta embotelladora de


leche, la cual embotella el producto en recipientes pequeños y grandes. Usted toma una
muestra de cada producto y observa que el volumen medio de los recipientes pequeños es
de una 1 taza, con una desviación estándar de 0.08 tazas, y el volumen medio de los
recipientes grandes es de 1 galón (16 tazas) con una desviación estándar de 0.4 tazas.
Aunque la desviación estándar del recipiente de un galón es cinco veces mayor que la
desviación estándar del recipiente pequeño, sus coeficientes de variación apoyan una
conclusión diferente:

Recipiente grande Recipiente pequeño


CV% = 100 * 0.4 tazas / 16 tazas = 2.5 CV %= 100 * 0.08 tazas / 1 taza = 8

El coeficiente de variación del recipiente pequeño es más de tres veces mayor que el
coeficiente de variación del recipiente grande. En otras palabras, aunque el recipiente
grande presenta una mayor desviación estándar, el recipiente pequeño presenta una
variabilidad mucho mayor con respecto a su media.

44
Estadística Descriptiva
MEDIDAS DE FORMA.

1. ASIMETRÍA O SEGO.
Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos
respecto a su valor promedio tomando como centro de gravedad. El coeficiente de
asimetría de pearson es:
3(𝑋̅ − 𝑀𝑒 )
𝐴𝑘 =
𝑆
Grado de asimetría Valor del sesgo
Simetría perfecta Cero: El promedio es igual a la mediana
Sesgo positivo Positivo: Promedio mayor que la mediana
Sesgo negativo Negativo: Promedio menor que la mediana

Asimetría Positiva Simétrica Asimetría Negativa


(Promedio > Mediana) Promedio = Mediana Promedio < Mediana

En el ejemplo anterior los gastos diarios en periódicos el promedio es 7.8, la


mediana es 7.90 y la desviación estándar 1.3, por lo tanto es sesgo es ligeramente
negativo -0.23.

CURTOSIS.

Evalúa el grado de apuntamiento de la distribución, el coeficiente es:


𝑷𝟕𝟓 − 𝑷𝟐𝟓
𝑲𝒖 =
𝟐(𝑷𝟗𝟎 − 𝑷𝟏𝟎 )

Grado de Apuntamiento Valor de Curtosis


Mesocúrtica (distribución normal) 0.263
Leptocúrtica (Elevada) Mayor a 0.263 ó se aproxima a 0.5
Platicúrtica (Aplanada) Menor a 0.263 ó se aproxima a 0.

Ku =0.263 Ku > 0.263 Ku < 0.263


Mesocurtica Leptocúrtica Platicúrtica
(Normal)

45
Estadística Descriptiva

REPRESENTACIÓN GRÁFICA.

GRÁFICOS DE CAJAS.
Existe una gran variedad de graficas estadísticas para extraer información acerca de las
propiedades de un conjunto de datos.
Una grafica útil para reflejar propiedades de los datos es la grafica de caja (“box plots”)
que se basa en la medida(o en la media), los cuartiles y valores extremos. La caja
representa el rango intercuartil que encierra el 50% de los valores y tiene la mediana (Me)
dibujada dentro. El rango intercuartil tiene como extremos el percentil 75, P75 (cuartil
superior) y el percentil 25, P25 (cuartil inferior).
Además de la caja se incluya la extensión de los datos mediante segmentos que se
extienden de la caja hacia el valor máximo (U) y hacia el valor mínimo (L) de los datos. Es
te recuadro se dibuja con el eje de la variable en forma horizontal o vertical como se indica
en la figura que sigue.

De un grafico de caja, se obtiene información de los datos acerca de:


La centralización (observado la ubicación de la mediana)
La dispersión o variabilidad (mediante en rango intercuartil: RI=P75-P25)
La asimetría (comparado: Me - P25con P75 - Me)
Las colas (por la longitud de los segmentos que salen de los lados de la caja)

Los datos atípicos o discordantes o raros llamados “outliers” (aislados) son aquellos
que se ubican fuera del intervalo.

46
Estadística Descriptiva
Diagrama de Causa-Efecto

1.- El espesor de recubrimiento de un material de acero es evaluado en una sesión de tormenta


de ideas. El problema de variación del espesor (la cual es del 10%) que se señala es por una
serie de causas, que fueron clasificadas en: equipos sin calibración, personal sin
entrenamiento, especificaciones mal estructuradas, mal diseño de la maquina, variación del
material, antigüedad de la maquina, personal mal seleccionado, sin procedimientos, velocidad
sin control, alta temperatura, ambiente de trabajo contaminado, material defectuoso,
personal sin experiencia, sin instrumentos de control.

Las causas fueron clasificadas según se muestra en el cuadro 1:

CUADRO 1
Material Variación del material
Material defectuoso Materia prima de mala calidad
Proveedores no adecuados
Maquinaria Antigüedad de la maquinaria
Mal diseño de la maquina
Equipos sin calibración
Método Sin procedimientos
Especificaciones mal estructuradas
Medio Ambiente Alta temperatura
Ambiente de trabajo contaminado
Mano de Obra Personal sin entrenamiento
Personal sin experiencia
Personal mal seleccionado
Medición Sin instrumentos de control
Velocidad sin control

diagrama de causa efecto


Mediciones Material Personal

Personal sin entrenamiento


Variación del
Sin instrumentos de material
M

control
at
er

Pr
ia

ov

Personal sin experiencia


ee
pr

d
im

or
a

es
de

Velocidad sin control


no
m
al

ad

Personal mal seleccionado


a

e
ca

cu
l

a
id

do

Variacion del
a

Material defectuoso
s
d

espesor en
10%
Equipos sin calibración
Ambiente de trabajo Especificaciones mal
contaminado estructuradas

Mal diseño de la maquina

Alta temperatura Sin procedimientos


Antigüedad de la maquinaria

Entorno Métodos Máquinas

47
Estadística Descriptiva
Diagrama de Pareto

1.- En la empresa Las Malvinas el ensamblaje de mangueras ha sido criticado debido a que
presenta muchos defectos. De 14993 ensamblajes inspeccionados en un año, un total de 1509,
el 10.1% estaban defectuosos. El reporte de inspección se muestra en el cuadro 2:

CUADRO 2

Defectos Turno 1 Turno 2 Turno 3 Total


Muy corto 30 35 26 91
Muy largo 44 44 44 132
Sin roscas 70 69 70 209
Fugas 330 321 347 998
Dañadas 8 11 5 24
Retrabajado 22 20 13 55
Total 504 500 505 1509

La gerencia expresó su preocupación por que los tres turnos no cuentan con igual supervisión, lo
que puede contribuir al problema. Desarrolle un Diagrama de Pareto para el total de defectos en
los tres turnos y un Diagrama de Pareto para cada turno.

Diagrama de Pareto para el total de defectos en los tres turnos.

Diagrama de Pareto de Defectos


1600
100
1400

1200 80

1000
60 Porcentaje
Total

800

600 40

400
20
200

0 0
Defectos Fugas Sin roscas Muy largo Muy corto Retrabajado Otro
Total 998 209 132 91 55 24
Porcentaje 66.1 13.9 8.7 6.0 3.6 1.6
% acumulado 66.1 80.0 88.7 94.8 98.4 100.0

48
Estadística Descriptiva
Diagrama de Pareto para cada turno.

Diagrama de Pareto de Defectos

500 100

400 80

Porcentaje
300 60
Turno 1

200 40

100 20

0 0
Defectos Fugas Sin roscas Muy largo Muy corto Retrabajado Otro
Turno 1 330 70 44 30 22 8
Porcentaje 65.5 13.9 8.7 6.0 4.4 1.6
% acumulado 65.5 79.4 88.1 94.0 98.4 100.0

Diagrama de Dispersión

1.- En un equipo de mejora se obtienen los siguientes datos, que recogen el número de
defectos por lote e conjuntos de 10 000 piezas en función del tiempo de tratamiento al
que se someten:

Obs # Tiempo Materia Obs # Tiempo Materia


Defectos (Seg) Prima Defectos (seg) Prima
1 48 809 B 26 47 837 A
2 52 834 B 27 53 840 A
3 54 838 B 28 58 850 B
4 50 854 A 29 54 843 A
5 48 822 A 30 43 819 A
6 51 842 A 31 54 856 A
7 52 851 A 32 52 862 A
8 59 868 B 33 56 835 B
9 54 841 B 34 55 844 B
10 54 844 B 35 55 852 A
11 44 811 A 36 58 858 B
12 54 819 B 37 57 843 B
13 48 830 A 38 52 825 B
14 47 836 A 39 58 867 B
15 58 850 B 40 57 851 B
16 57 857 B 41 51 812 B
17 54 863 A 42 51 821 B

49
Estadística Descriptiva
18 49 811 B 43 50 831 B
19 49 820 A 44 56 841 B
20 48 826 A 45 50 843 A
21 52 832 B 46 49 850 A
22 50 837 A 47 52 841 B
23 49 839 A 48 50 855 A
24 54 839 B 49 46 829 A
25 56 842 B 50 49 838 A

Diagrama de dispersión.

a) Realice un diagrama de dispersión entre la variable número de defectos por lote y la


variable tiempo de tratamiento al que se someten. Que comentarios puede hacer al
respecto.
60 y = 0.164x - 85.576
58 R² = 0.3991
56
54
52
50
48
46
44
42
40
800 810 820 830 840 850 860 870 880

2.- Fiber Borrad fabrica forros interiores de techo para la industria automotriz. La gerente
de manufactura está preocupada por la calidad de este producto. Sospecha que un
defecto en particular, las rasgaduras de la tela, está relacionado con el tamaño de las
actuales partidas de producción. Un asistente ha recopilado los datos que se
encuentran en la tabla, basándose en los registros de producción:

Partida Tamaño Defecto (%) Partida Tamaño Defecto (%)


1 1000 3.5 1 6500 1.5
2 4100 3.8 2 1000 5.5
3 2000 5.5 3 7000 1.0
4 6000 1.9 4 3000 4.5
5 6800 2.0 5 2200 4.2
6 3000 3.2 6 1800 6.0
7 2000 3.8 7 5400 2.0
8 1200 4.2 8 5800 2.0
9 5000 3.8 9 1000 6.2
10 3800 3.0 10 1500 7.0

a) Dibuje un diagrama de dispersión para estos datos

50
Estadística Descriptiva
b) ¿Existe alguna relación entre el tamaño de la partida y el porcentaje de defectos? ¿Qué
consecuencias tiene esto para los negocios de Fiber Borrad?

Gráfica de dispersión de Defecto (%) vs. Tamaño

5
Defecto (%)

1000 2000 3000 4000 5000 6000 7000


Tamaño

GRÁFICO DE BARRAS

Cuadro N° 01: Distribución de plántulas de tornillo según su altura (en milímetros).


Brunas-UNAS/Tingo María. Mayo 2011
Marca de Clase Frecuencia
mi Li Ls Grupos (Fi) (hi) (Hi) (hi%) (Hi%)
(Xi) (fi)
1 14 18.0 16 17.0 29 29 0.121 0.121 12.1% 12.1%
2 18.0 22.0 20 21.0 24 53 0.100 0.221 10.0% 22.1%
3 22.0 26.0 24 25.0 27 80 0.113 0.333 11.3% 33.3%
4 26.0 30.0 28 29.0 30 110 0.125 0.458 12.5% 45.8%
5 30.0 34.0 32 33.0 34 144 0.142 0.600 14.2% 60.0%
6 34.0 38.0 36 37.0 24 168 0.100 0.700 10.0% 70.0%
7 38.0 42.0 40 41.0 24 192 0.100 0.800 10.0% 80.0%
8 42.0 46.0 44 45.0 26 218 0.108 0.908 10.8% 90.8%
9 46.0 50.0 48 50.0 22 240 0.092 1.000 9.2% 100.0%
Total 240 1.000 100%
Fuente: Facultad de Recursos de la UNAS.
Del cuadro anterior realice el grafico de barras.

51
Estadística Descriptiva
Gráfico N° 01. Distribución porcentual de plántulas de tornillo según su altura (en
milímetros). Brunas-UNAS/Tingo María. Mayo 2011

16.0% 14.2%
14.0% 12.1% 12.5%
11.3% 10.8%
12.0% 10.0% 10.0% 10.0%
9.2%
10.0%
8.0%
6.0%
4.0%
2.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]

Fuente: Facultad de Recursos de la UNAS.

GRÁFICO DE SECTORES.

1. Se ha llevado a cabo una encuesta a personas elegidas al azar de la ciudad de


Tingo María en Julio – Agosto del 2012 para analizar su opinión sobre la calidad de
una nueva conserva que se desea introducir en el mercado. Los resultados
observados fueron los siguientes:

Bueno Regular Malo Malo Bueno Regular Malo Bueno Regular Malo Bueno Regular
Regular Excelente Excelente Regular Regular Excelente Excelente Regular Excelente Excelente Regular Excelente
Malo Bueno Bueno Malo Malo Bueno Bueno Malo Bueno Bueno Malo Bueno
Excelente Malo Regular Excelente Excelente Malo Regular Excelente Malo Regular Excelente Malo
Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo
Excelente Malo Excelente Excelente Excelente Malo Excelente Excelente Malo Excelente Excelente Malo
Malo Excelente Bueno Regular Malo Excelente Bueno Regular Malo Excelente Malo Excelente

Solución

Cuadro N° 02: Distribución de personas según su opinión sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo María. Julio – Agosto del 2012.
Opinión sobre la conserva fi Fi hi Hi hi% Hi%
Bueno 13 13 0.15 0.15 15% 15%
Regular 14 27 0.17 0.32 17% 32%
Malo 33 60 0.39 0.71 39% 71%
Excelente 24 84 0.29 1.00 29% 100%
Total 84 1.00 100%
Fuente: Elaboración Propia

52
Estadística Descriptiva
Gráfico N° 02: Distribución de personas según su opinión sobre la calidad de una nueva
conserva que se desea introducir en el mercado. Tingo María. Julio – Agosto del 2012.

Excelente Bueno
29% 15%

Regular
17%

Malo
39%

Fuente: Elaboración Propia

HISTOGRAMA.

1. La Biomasa de los recursos hidrobiológicos del Perú en los años de 2004 a 2009 se
da en la siguiente tabla:
Recurso 2004 2005 2006 2007 2008 2009
Jurel 5300 5000 4330 7000 2800 4303
Caballa 1511 450 1700 1900 1300 1052
Sardina 4200 2500 2700 1750 4500 3680
Anchoveta 1500 6500 6000 4500 5900 3060
a) Construya su grafico correspondiente para los recursos hidrobiológicos del Perú en
los años 2005, 2008 y 2009 e interprete. (2 pts)

Grafico N° 03. Biomasa de los recursos hidrobiológicos: 2005 – 2009.

7000
6000
5000
4000
3000
2000
1000
0
2005 2008 2009

JUREL ANCHOVETA SARDINA CABALLA


Fuente: INSTITUTO DEL MAR PERUANO (IMARPE)

GRÁFICO DE LINEAS.

53
Estadística Descriptiva

PROBLEMAS RESUELTOS.

1. Los siguientes datos corresponden a un muestra aleatoria de la altura en milímetros


(mm) de plantulas de tornillo (cedrelingacatenaeformis) perteneciente a la familia de las
Fabaceae en una parcela de 50x10 mts2, realizada en el Brunas-UNAS de la ciudad de
Tingo María en mayo 2011.
32 26 26 44 32 15 48 22 22 39 15 26 21 45 16 23
46 26 44 42 36 43 19 29 35 42 37 44 32 41 33 21
17 29 32 29 50 14 24 14 49 35 17 32 33 26 30 16
32 32 26 35 32 41 20 32 47 18 28 17 29 50 26 28
21 28 44 14 39 27 17 15 28 14 37 32 34 27 40 32
17 45 28 31 17 33 41 18 36 26 17 31 38 31 44 36
22 26 33 39 19 49 50 33 22 33 50 31 42 27 21 23
38 48 34 22 48 36 29 23 33 41 32 17 20 18 24 25
43 15 17 31 27 22 39 28 31 19 23 37 32 19 39 43
33 40 22 44 23 15 14 44 23 25 14 35 41 50 21 20
35 41 38 30 29 40 22 39 41 18 42 37 34 46 39 30
50 46 35 44 42 27 18 15 37 39 16 50 20 50 34 29
41 20 36 25 42 19 36 39 21 17 43 44 36 23 30 23
41 23 45 15 37 27 18 23 14 22 35 33 15 30 49 49
33 45 45 22 15 46 49 45 29 24 19 25 45 27 49 21
La información fue obtenida de la Facultad de Recursos de la UNAS.

a) Construya un cuadro de distribución de frecuencias adecuado. (3pts)


b) Determine las medidas de tendencia central e interprete. (6pts)
c) Determine las medidas de dispersión e interprete. (4pts)
d) Construya su gráfico correspondiente e interprete. (3pts)

Solución

Del
PASOS PARA AGRUPAR DATOS Función en Excel Ejemplo
Tamaño de muestra: ( n ) = CONTAR(Seleccionar BD3) 240
Valor Máximo = MAX() 50
Valor Mínimo = MIN() 14
Rango (R)= Valor Máximo - Valor Mínimo 36
Aplicando la regla de STURGES:
N° de intervalos (m) = 1+3.3*log (n) 8.855
m redondeado = REDONDEAR() 9
Amplitud (C ) = R/[m = redondeado] 4

3
BD: base de datos.

54
Estadística Descriptiva
Cuadro N° 01: Distribución de plántulas de tornillo según su altura (en milímetros).
Brunas-UNAS/Tingo María. Mayo 2011
Marca de Clase Frecuencia
mi Li Ls Grupos (Fi) (hi) (Hi) (hi%) (Hi%)
(Xi) (fi)
1 14 18.0 16 17.0 29 29 0.121 0.121 12.1% 12.1%
2 18.0 22.0 20 21.0 24 53 0.100 0.221 10.0% 22.1%
3 22.0 26.0 24 25.0 27 80 0.113 0.333 11.3% 33.3%
4 26.0 30.0 28 29.0 30 110 0.125 0.458 12.5% 45.8%
5 30.0 34.0 32 33.0 34 144 0.142 0.600 14.2% 60.0%
6 34.0 38.0 36 37.0 24 168 0.100 0.700 10.0% 70.0%
7 38.0 42.0 40 41.0 24 192 0.100 0.800 10.0% 80.0%
8 42.0 46.0 44 45.0 26 218 0.108 0.908 10.8% 90.8%
9 46.0 50.0 48 50.0 22 240 0.092 1.000 9.2% 100.0%
Total 240 1.000 100%
Fuente: Facultad de Recursos de la UNAS.

Marca de Clase (Xi) Frecuencia (fi) Xi*fi ̅).


~ Promedio muestral (X
𝑛
∑𝑖=1(𝑋𝑖 ∗ 𝑓𝑖)
16 29 464 𝑋̅ =
20 24 480 𝑛
Promedio muestral = 31.4333333
24 27 648
28 30 840
32 34 1088
Mediana muestral (Me).
𝑛
36 24 864 ( 2 − 𝐹𝑖−1 )
40 24 960 𝑀𝑒 = 𝐿𝑖 + ∗ 𝐶𝑖
𝑓𝑘
44 26 1144 Mediana muestral = 31.1764706
48 22 1056 Moda muestral (Mo).
∑𝟗𝟏(𝑿𝒊 ∗ 𝒇𝒊) = 7544 𝑑1
𝑀𝑜 = 𝐿𝑖 + [ ] ∗ 𝐶𝑖
𝑑1 + 𝑑2
Donde: 𝑑1 = (𝑓𝑖 − 𝑓𝑖−1 )
𝑑2 = (𝑓𝑖 − 𝑓𝑖+1 )
Moda muestral = 31.1428571
(𝑿𝒊 − 𝑿̅ )𝟐 ∗ 𝒇𝒊
Varianza muestral (𝑆 2 )
6907.446
3137.307 ∑𝑛 2
𝑖=1(𝑥𝑖 −𝑥̅ ) ∗𝑓𝑖
1491.870 𝑆2 =
𝑛−1
353.633
Varianza muestral = 101.70265
10.918
Desviación estándar.
500.507
1761.307 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
√ 2
𝑆= 𝑆 = √
4105.949 𝑛−1
6037.998
̅ )𝟐 ∗ 𝒇𝒊 = 24306.933
∑91(𝑿𝒊 − 𝑿 Desviación estándar muestral =10.0847732

55
Estadística Descriptiva
Coeficiente de Variación muestral porcentual:

𝑺
𝑪. 𝑽. = ( ) 𝒙𝟏𝟎𝟎
̅
𝒙

Coeficiente de Variación muestral = 32.083%

Gráfico N° 01. Distribución porcentual de plántulas de tornillo según su altura (en


milímetros). Brunas-UNAS/Tingo María. Mayo 201.
14.2%
15.0% 12.5%
12.1%
11.3% 10.8%
10.0% 10.0% 10.0%
9.2%
10.0%

5.0%

0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]

Fuente: Facultad de Recursos de la UNAS.

2. Construcción de cuadros de frecuencias PARA DATOS AGRUPADOS

Ejemplo 02:
Los siguientes datos corresponden a una muestra aleatoria de los gastos semanales en
dólares de turistas que se alojaron en el hotel “Sheraton” la ciudad de Lima en julio del
2013.
17 18 9 8 18 14 18 31 32 9 21 33 34 31 33 19 18 20
27 26 15 38 20 32 14 14 17 15 19 36 33 39 31 27 26 17
40 14 25 27 33 20 17 10 33 18 12 25 18 24 19 30 26 14
25 29 40 8 11 23 35 11 39 37 25 28 36 37 10 18 14 10
26 16 36 8 37 31 40 17 10 15 19 31 38 30 37 32 29 34
20 26 21 29 34 28 37 29 8 12 16 20 21 13 30 19 20 18
La información fue obtenida de los registros de clientes de dicho hotel.
Solución:

Del
PASOS PARA AGRUPAR DATOS Función en Excel 2007 Ejemplo
Tamaño de muestra: ( n ) = CONTAR(Seleccionar BD) 108
Valor Máximo = MAX() 40
Valor Mínimo = MIN() 8
Rango (R)= Valor Máximo - Valor Mínimo 32
Aplicando la regla de STURGES:
Nº de intervalos (m) = 1+3.3*log (n) 7.71029
m redondeado = REDONDEAR() 8
Amplitud (C ) = R/[m = redondeado] 4

56
Estadística Descriptiva
Cuadro N° 02: Distribución de turistas, según sus gastos semanales (dólares).
“hotel Sheraton – Lima“. Julio de 2013.
Nº clases
[ Li - Ls > Xi fi Fi hi Hi hi% Hi%
o intervalos
1 [8 - 12> 10 12 12 0.11 0.11 11% 11%
2 [12 - 16> 14 12 24 0.11 0.22 11% 22%
3 [16 - 20> 18 20 44 0.19 0.41 19% 41%
4 [20 - 24> 22 10 54 0.09 0.50 9% 50%
5 [24 - 28> 26 13 67 0.12 0.62 12% 62%
6 [28 - 32> 30 14 81 0.13 0.75 13% 75%
7 [32 - 36> 34 12 93 0.11 0.86 11% 86%
8 [36 - 40] 38 15 108 0.14 1.00 14% 100%
Total 108 1.00 100%
Fuente: Registros de clientes - “hotel Sheraton – Lima”.

Determinación de las frecuencias absolutas simples en cada intervalo de clase.

El conteo de la base de datos se realiza


dentro de los intervalos cerrados

Nº de Nº de
[ Li - Ls > [ Li - Ls ]
intervalos intervalos
1 [8 - 12> 1 [8 - 11]
2 [12 - 16> 2 [12 - 15]
3 [16 - 20> 3 [16 - 19]
4 [20 - 24> 4 [20 - 23]
5 [24 - 28> 5 [24 - 27]
6 [28 - 32> 6 [28 - 31]
7 [32 - 36> 7 [32 - 35]
8 [36 - 40] 8 [36 - 40]

57
Estadística Descriptiva
Gráfico N° 02: Distribución de turistas, según sus gastos semanales (dólares).
“hotel Sheraton – Lima“. Julio de 2013.

25

20
20

15
15 14
13
12 12 12
10
10

0
[ 8 - 12>[12 - 16>[16 - 20>[20 - 24>[24 - 28>[28 - 32>[32 - 36>[36 - 40]

Fuente: Registros de clientes - “hotel Sheraton – Lima”.


Interpretación:
Del gráfico se puede observar que existen 20 turistas que gastan de 16 dólares a más y a
menos de 20 dólares semanales y 10 turistas que gastan de 20 dólares a más y a menos de
24 dólares semanales en hospedaje en la ciudad de Lima.
La tendencia de los gastos semanales de los turistas en es inestable.

58
Estadística Descriptiva
MEDIDAS DE TENDENCIA CENTRAL
PARA DATOS AGRUPADOS PARA DATOS SIN AGRUPAR
1) Media aritmética Muestral (𝑋):̅
1) Media aritmética Muestral (𝑋̅):
𝑋̅ = 24.11
𝑋̅ = 23.68
Interpretación:
Interpretación:
El gasto promedio semanal de los
El gasto promedio semanal de los
turistas que se alojaron en hotel
turistas que se alojaron en hotel
“Sheraton” – Lima es de 24.11
“Sheraton” – Lima es de 23.68
dólares
dólares
2) Mediana muestral (Me):
2) Mediana muestral (Me):
Me = 24
Me = 23.5
Interpretación:
Interpretación:
El 50% de los turistas gastaron como
El 50% de los turistas gastaron como
máximo 24 dólares semanales en
máximo 23.5 dólares semanales en
hotel “Sheraton” – Lima y el otro
hotel “Sheraton” – Lima y el otro
50% superaron dicho monto.
50% superaron dicho monto.
3) Moda muestral (Mo):
3) Moda muestral (Mo):
Mo = 17.78
Mo = 18.0
Interpretación:
Interpretación:
El gasto más frecuente semanal de
El gasto más frecuente semanal de
los turistas es de 17.78 dólares
los turistas es de 18 dólares
semanales.
semanales.
̅̅̅̅
4) Media geométrica muestral (𝑋 𝐺 ): ̅̅̅̅
4) Media geométrica muestral (𝑋 𝐺 ):
̅̅̅̅
𝑋𝐺 = 22.21 ̅̅̅̅
𝑋𝐺 = 21.68
Interpretación:
Interpretación:
El gasto promedio geométrico
El gasto promedio geométrico
semanal de los turistas es de 22.21
semanal de los turistas es de
dólares.
21.68dólares.
5) Media armónica muestral (Mh):
5) Media armonica muestral (Mh):
Mh = 20.24
Mh = 19.55
Interpretación:
Interpretación:
El gasto promedio armónico
El gasto promedio armónico semanal
semanal de los turistas es de 20.24
de los turistas es de 19.55 dólares.
dólares.

59
Estadística Descriptiva
MEDIDAS DE DISPERSIÓN
PARA DATOS AGRUPADOS PARA DATOS SIN AGRUPAR
1) Varianza muestral (𝑺𝟐 ): 1) Varianza muestral (𝑺𝟐 ):
𝑺𝟐 = 𝟖𝟒. 𝟏𝟕 dólares2 𝑺𝟐 = 𝟖𝟓. 𝟖𝟕

Interpretación:
Interpretación:
La variabilidad promedio de los
La variabilidad promedio de los
gastos es de 85.87dólares2.
gastos es de 84.17 dólares2.
2) Desviación estándar (S):
2) Desviación estándar (S):
S = 9.27
S = 9.17 dólares.
Interpretación:
Interpretación:
Los gastos semanales de los turistas
Los gastos semanales de los turistas
varían con respecto a su valor central
varían con respecto a su valor
en 9.27 dólares.
central en 9.17 dólares.

3) Coeficiente de variación
3) Coeficiente de variación
porcentual (C.V%):
porcentual (C.V%): CV% = 39.14%
C.V.% = 38.05
Interpretación: Interpretación:
Los datos de la muestra de gastos Los datos de la muestra de gastos
semanales de los turistas son semanales de los turistas son
heterogéneos, por lo tanto presentan heterogéneos, por lo tanto presentan
un alto grado de variabilidad. un alto grado de variabilidad.

ACTIVIDAD DE APRENDIZAJE I

1. Identifique las siguientes variables según su clasificación, ya sea cuantitativa (discreta o


continua) y cualitativa (nominal u ordinal).
a) Tipos de crédito: Cualitativa Ordinal
b) Número de días no laborados: Cuantitativa Discreta
c) Nivel de acuerdo: Cualitativa Nominal
d) Ganancias en dólares: Cuantitativa Continua

2. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco
de crédito del Perú según sus retenciones al sistema privado de pensiones en febrero del
2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institución.
Se pide:
a) Identificar la unidad de análisis y la variable en estudio.
b) Construya una distribución de frecuencias absolutas
c) Construya un cuadro de distribución de frecuencias ampliada. Utilice la regla
de Sturges.
d) Interprete f3, h3%, F3 y H3%.
e) Determinar qué porcentaje de trabajadores tienen una retención de 140 soles o
más, pero menos de 180 soles.
f) Determinar cuántos trabajadores tienen una retención de 160 a 200 soles.
g) Construir un histograma de frecuencias porcentuales y comente.

60
Estadística Descriptiva
Solución.
a)
 Unidad de observación: El trabajador del BCP.
 Variable en estudio: Retenciones al Sistema Privado de Pensiones (SPP).
b)
Retenciones al SPP.(Xi) N° de trabajadores (fi)
100 1
115 1
120 1
130 1
135 1
139 1
140 1
144 1
145 1
150 2
155 1
158 1
160 1
170 1
175 1
Total: 20

c) Procedimiento para la construcción de cuadros de frecuencia, cuando la variable


Cuantitativa Continua.
Paso 1: Determinamos el Rango.
Rango (R) = Valor Máximo – Valor Mínimo R = 200 – 100 = 100
Paso 2: Determinamos el Número de intervalos (m), Aplicando la regla de Sturges:
N° de intervalos (m) = 1 + 3.322*log(n) m = 1+ 3.322*log(20) = 5.293 ≈ 5
Paso 3: Determinamos la Amplitud (C).
Amplitud (C) = R/m C = 100/5 = 20

Cuadro N° 01: Distribución de los trabajadores según sus Retenciones al Sistema Privado
de Pensiones (SPP). Banco de Crédito del Perú. Febrero de 2006.
[Li – Ls> Xi fi Fi hi Hi hi% Hi%
[100 – 120> 110 2 2 0.10 0.10 10% 10%
[120 – 140> 130 4 6 0.20 0.30 20% 30%
[140 – 160> 150 7 13 0.35 0.65 35% 65%
[160 – 180> 170 4 17 0.20 0.85 20% 85%
[180 – 200] 190 3 20 0.15 1.0 15% 100%
Total: 20 1.0 100%
Fuente: Departamento de personal del BCP.

d) Interpretación:
f3 = 7: Existen 7 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 140 soles a más y a menos de 160 nuevos soles.
h3% = 35%: Existe un 35% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 140 soles a más y a menos de 160 soles.

61
Estadística Descriptiva
F3 = 13: Existen 13 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a más y a menos de 160 soles.
H3% = 65%: Existe un 65% de los trabajadores que sus retenciones al Sistema Privado de
Pensiones se encuentra de 100 soles a más y a menos de 160 soles.

e) [ 140 – 180>: Entonces el porcentaje de trabajadores = 35% + 20% = 55%.


f) [ 160 – 200]: Entonces el N° de trabajadores = 4 + 3 = 7 Trabajadores.
g) Histograma.
Grafico N° 01: Distribución porcentual de los trabajadores según sus Retenciones al
Sistema Privado de Pensiones (SPP). Banco de Crédito del Perú. Febrero de 2006.

35%
40%

30% 20% 20%


15%
20% 10%

10%

0%
[100 – 120> [120 – 140> [140 – 160> [160 – 180> [180 – 200]

Fuente: Departamento de personal del BCP.

Comentario:
Del gráfico se puede observar que existe un 35% de los trabajadores que sus retenciones al
Sistema Privado de Pensiones se encuentra de 140 soles a más y a menos de 160 soles y
existe un 10% de los trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a más y a menos de 120 soles.

3. Dado el siguiente cuadro:


Evolución del comercio electrónico de empresas turísticas por ventas al consumidor final
en millones de pesetas. España: 1997 – 2001.
Año 1997 1998 1999 2000 2001
Ventas en millones de pesetas 5 10 12 30 30
Fuente: Asociación española del comercio electrónico. @ECE.
Se pide:
Construir un gráfico lineal y comentar.

62
Estadística Descriptiva
Gráfico N°02: Evolución del comercio electrónico de empresas turísticas por ventas al
consumidor final en millones de pesetas. España: 1997 – 2001.
40

30
Ventas

20

10

0
1997 1998 1999 2000 2001
Años

Fuente: Asociación española del comercio electrónico. @ECE.

Comentario:
Del gráfico se puede observar que existe una tendencia ascendente del comercio
electrónico de empresas turísticas por ventas al consumidor final en los años 1997 a 1999,
y a partir del año 2000 al 2001 el comercio electrónico de empresas turísticas por ventas al
consumidor final permanece constante.

4. Los siguientes datos pertenecen a una muestra aleatoria de 30 cibernautas de la ciudad


de Chimbote, según modo de conexión al chat a través de internet mediante una
encuesta realizada por la comunidad virtual Profesional de Marketing en enero del
2007.
C C T T T C C Cl O Cl
T T O Cl Cl Cl C Cl O Cl
C C Cl T O O Cl Cl Cl Cl

Donde:
C: “Casa” T: “Trabajo” Cl: “Cibercafé” O: Otros
a) Identificar la unidad de observación y la variable en estudio.
b) Construir una distribución de frecuencias absolutas y porcentuales.
c) Interpretar f3 y h4%
d) Construir un gráfico de barras simples para frecuencias absolutas.
e) Construir un gráfico de sectores y comentar.
Solución:
a)
 Unidad de observación: El cibernauta.
 Variable en estudio: modo de conexión al al chat a través de internet
b)
Distribución de cibernautas según el modo de conexión al chat a través de internet. Ciudad
de Chimbote. Enero de 2007.
Modo de conexión N° de cibernautas
hi hi%
(Xi) fi
Casa (C) 7 0.23 23%
Trabajo (T) 6 0.20 20%
Cibercafé (Cl) 12 0.40 40%
Otros (O) 5 0.17 17%
Total: 30 1.0 100%
Fuente: Encuesta – Comunidad Virtual Profesional de Marketing

63
Estadística Descriptiva
c) Interpretación:
f3 = 12: Existen 12 de cibernautas de la ciudad de Chimbote que acceden al internet por el
modo de conexión a través de un Cibercafé.
h4% = 17%: Existe un 17% de los cibernautas de la ciudad de Chimbote que acceden al
internet por el modo de conexión a través de otras modalidades.

d)
Grafico N°03: Distribución de cibernautas según el modo de conexión al chat a través de
internet. Ciudad de Chimbote. Enero de 2007.
14
12
12
10
8 7
6
6 5
4
2
0
Casa (C) Trabajo (T) Cibercafé (Cl) Otros (O)
Fuente: Encuesta – Comunidad Virtual Profesional de Marketing.

e)
Grafico N°04: Distribución de cibernautas según el modo de conexión al chat a través de
internet. Ciudad de Chimbote. Enero de 2007.
Otros (O) Casa (C)
17% 23%

Cibercafé Trabajo
(Cl) (T)
40% 20%
Fuente: Encuesta – Comunidad Virtual Profesional de Marketing.
Comentario:
Del gráfico se puede observar que existe un 40% de los cibernautas que acceden por el
modo de conexión al chat a través de internet desde un cibercafé y un 17% a través de
Otros medios en la Ciudad de Chimbote.

ACTIVIDAD DE APRENDIZAJE II

1. Los siguientes datos corresponden a 10 cibernautas según el tiempo en minutos que


pasan navegando en internet:
Xi: 35, 45, 50, 55, 35, 40, 55, 60, 42, 45.
Calcular e interpretar:
a) La media
b) La mediana

64
Estadística Descriptiva
c) La moda
d) La desviación estándar
e) El coeficiente de variación.
f) El coeficiente de asimetría.
Solución:
a) Media = media aritmética = promedio, (muestral).

∑𝑛𝑖=1 𝑋𝑖 35 + 45 + 50 + 55 + 35 + 40 + 55 + 60 + 42 + 45 462
𝑋̅ = = = = 46.2
n 10 10
Interpretación:
El tiempo promedio que pasan navegando en internet los cibernautas es de 46 minutos
aproximadamente.
b) Mediana muestral (cuando n es par).
La ubicación de la mediana de n datos ordenados en forma ascendente, se determina por:
(n+1)/2 = (10+1)/2 =5.5
Xi: 35 35 40 42 45 45 50 55 55 60
Luego la mediana se encuentra en el 5to y 6ta lugar de los datos ordenados, entonces:
Mediana = (45+45)/2 = 45.
Interpretación:
El 50% de los cibernautas pasan navegando en internet como máximo 45 minutos,
mientras que el otro 50% supera dicho tiempo.

c) La Moda.
Observamos el valor que se repite con mayor frecuencia, que son 35, 45, 55.
Por lo tanto existen tres modas (trimodal). Entonces:
Md1 = 35, Md2 = 45, Md3 = 55
Interpretación:
El mayor tiempo de cibernautas pasan navegando en internet so de 35, 45 y 55 minutos.

d) Desviación estándar.
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2
𝑆 =
𝑛−1

(35−46.2)2+ (45−46.2)2 +(50−46.2)2+(55−46.2)2 +(35−46.2)2+(40−46.2)2 +(55−46.2)2+(60−46.2)2 +


⌊ ⌋
(42−46.2)2 +(45−46.2)2
= 9
669
𝑆2 = = 74.4
9

Entonces la desviación estandar es:

𝑆 = √𝑆 2 = √74.4 = 8.625 𝑚𝑖𝑛𝑢𝑡𝑜𝑠


Interpretación:

El tiempo en minutos que pasan navegando en internet los cibernautas se dispersan en


promedio de su valor central en 8.6 minutos aproximadamente.

65
Estadística Descriptiva
e) Coeficiente de variación:
𝑺 𝟖. 𝟔
𝑪. 𝑽. = ( ) = ( ) = 𝟎. 𝟏𝟖𝟔
𝐱̅ 𝟒𝟔. 𝟐

f) Coeficiente de asimetría.
3(𝑋̅ − 𝑀𝑑 ) 3(46.2 − 45)
𝐴𝑠 = = = 0.42
𝑆 8.6
Interpretación:
Este valor indica que la distribución es asimétrica positiva.

2. Los siguientes datos corresponden a las ventas mensuales en dólares realizadas en el


año 2006 por una empresa de productos hidrobiológicos:

Xi: 2000, 2500, 2500, 4000, 2700, 3000, 4200, 2500, 5000, 2800, 2500.
a) Calcular la venta mensual máxima en el 50% de los meses.
b) Calcular la venta mensual promedio.
c) Calcular la venta mensual del mayor número de los meses.
Solución.
Xi: 2000 2500 2500 2500 2500 2700 2800 3000 4000 4200 5000
a) Mediana = 2700 dólares.
En el 50% de los meses, la venta mensual máxima por una empresa de productos
hidrobiológicos es de 2700 dólares.

b) Promedio = 3063.636 dólares.


La venta mensual promedio por una empresa de productos hidrobiológicos es de 3063.636
dólares.
c) Moda = 2500 dólares.
La venta mensual del mayor número de los meses es de 2500 dólares.

3. En dos empresas de telecomunicaciones se dan los siguientes gastos mensuales en soles


(de los últimos 6 meses) en material y mantenimiento informático:

MESES Octubre Noviembre Diciembre Enero Febrero Marzo


EMP. A 500 550 600 700 650 600
EMP. B 450 480 500 460 420 400
Se pide:

a) Calcular la desviación estándar para la zona A.


b) Calcular la desviación estándar para la zona B.
c) Calcular el coeficiente de variación para la zona A.
d) Calcular el coeficiente de variación para la zona B.
e) ¿En qué empresa los gastos presentan baja variabilidad?

66
Estadística Descriptiva
Solución.
a) SA = 70.71 soles.
b) SB = 37.10 soles.
𝑆 70.71
c) CVA = 𝑋̅𝐴 = = 0.1179.
𝐴 600
𝑆𝐵 37.1024
d) CVB = = 451.667 = 0.0821.
𝑋̅𝐵
e) En empresa B los gastos presentan baja variabilidad de un 8.21%
4. La siguiente tabla corresponde a 300 trabajadores de una empresa “X” según su tiempo
de servicio en años:
tiempo de servicio
(en años) N° de trabajadores
[Li – Ls>
[5 – 10> 40
[10 – 15> 60
[15 – 20> 100
[20 – 25> 92
[25 – 30] 8
Total: 300
Se pide:

a) Calcular el promedio e interpretar.


b) Calcular la mediana e interpretar.
c) Calcular la moda e interpretar.
Solución:
a)
tiempo de servicio (en años) N° de trabajadores
Xi Xi*fi
[Li – Ls> fi
[5 – 10> 40 7.5 300
[10 – 15> 60 12.5 750
[15 – 20> 100 17.5 1750
[20 – 25> 92 22.5 2070
[25 – 30] 8 27.5 220
Suma : 300 5090
 Promedio:
∑𝑛𝑖=1(𝑋𝑖 ∗ 𝑓𝑖) 5090
̅
𝑋= = = 16.967
n 300
Interpretación:
El Tiempo de servicio promedio de los trabajadores de una empresa “X” es de 16.967
años.

67
Estadística Descriptiva
b)
Determinamos la Mediana (Me).
Como la variable es continua y los datos están agrupados en intervalos, la fórmula a
utilizar será:
𝑛
( − 𝐹𝑖−1 )
𝑀𝑒 = 𝐿𝑖 + 2 ∗ 𝐶𝑖
𝑓𝑖

Procedimiento.
 Determinamos las frecuencias absolutas acumuladas Fi.
 Luego buscamos en que intervalo se encuentra ubicado la mediana a través de
n/2.

(i = subíndice y es la ubicación del intervalo).

Como n = 300, entonces: n/2 = 300/2 = 150, luego buscamos en la frecuencia absoluta
acumulada (Fi) el dato 150, como no se encuentra, buscamos el valor superior a este dato.
(Observamos que se encuentra comprendido entre 100 y 200 de Fi). Por lo tanto el valor
superior a 150 es 200, luego el intervalo donde se encuentra la mediana es [15 – 20> que es
el tercer intervalo, es decir i = 3.

tiempo de servicio Frecuencia


N° de trabajadores
(en años) absoluta
fi
[Li – Ls> acumulada. Fi
[5 – 10> 40 40
[10 – 15> 60 100
[15 – 20> 100 200
[20 – 25> 92 292
[25 – 30] 8 300
Total: 300
 Reemplazando en la Formula:

300
( − 100)
2
𝑀𝑒 = 15 + ∗ 5 = 17.5 𝑎ñ𝑜𝑠.
100
Interpretación:

El 50% de los trabajadores de la empresa “X” tiene un tiempo de servicio máximo de 17.5
años, mientras que el otro 50% de los trabajadores de la empresa “X” supera dichos años
de tiempo de servicio.

c) Moda
Como la variable es continua y los datos están agrupados en intervalos, la fórmula a
utilizar será:
𝑑1
𝑀𝑜 = 𝐿𝑖 + [ ] ∗ 𝐶𝑖
𝑑1 + 𝑑2

Donde: 𝑑1 = (𝑓𝑖 − 𝑓𝑖−1 )


𝑑2 = (𝑓𝑖 − 𝑓𝑖+1 )

68
Estadística Descriptiva
Procedimiento.

 Determinamos las frecuencias absolutas simples fi.


 Posteriormente buscamos el valor más frecuente en fi, que es 100, entonces el
intervalos que contiene a la moda es [15 – 20>, es el tercer intervalo, es decir i
= 3.
 Reemplazamos en la Formula.

40
𝑀𝑜 = 15 + ∗ 5 = 19.167 𝑎ñ𝑜𝑠
(40 + 8)
𝑑1 = 100 − 60 = 40
𝑑2 = 100 − 92 = 8

Interpretación:
El tiempo de servicio más frecuente de los trabajadores de la empresa “X” es de 19.167
años.

5. El dueño de una fábrica considera que si la producción de una máquina que tiene
muchos años de vida tiene una producción heterogénea por lo que en estos últimos 5
días tendrá que darle de baja. Los resultados se muestran a continuación, en número de
unidades.

Xi: 140, 127, 125, 148, 146.


¿Qué decisión tomará el dueño?

Solución.
Desviación estándar: S = 10.663 unidades.

Promedio: 𝑋̅ = 137.2 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠

𝑺 𝟏𝟎.𝟔𝟔𝟕
Coeficiente de variación: 𝑪. 𝑽. = ( 𝐱̅) = ( 𝟏𝟑𝟕.𝟐 ) = 𝟎. 𝟎𝟕𝟕𝟕 ≈ 𝟕. 𝟕𝟕%

El coeficiente de variación es bajo de un 7.77%, por lo que se puede afirmar que la


producción de la máquina es homogéneo mas no heterogéneo. Es decir no existe una
variabilidad alta. Por lo tanto la máquina no se debe dar de baja.

69
Estadística Descriptiva
Problemas Propuestos
1. Identifique las siguientes variables según su clasificación, ya sea cuantitativa (discreta o
continua) y cualitativa (nominal u ordinal).

a) Ficha de productos que elabora una fábrica:


 Nombre del producto: ...............................................................................................
 Tipo de envase: .................................... ....................................................................
 Peso por unidad: ................................... ....................................................................
 Tiempo de procesamiento: ................... ....................................................................
 Costo por unidad: ................................. ....................................................................
 Precio de venta por unidad: ................... ..................................................................

b) Ficha del personal que entra a trabajar en una empresa:


 Nombre y Apellido: .................................... .............................................................
 Edad (en años): .......................................... ...............................................................
 Estado Civil: ............................................... ..............................................................
 Estudios: ................................................... ................................................................
 Sección en la que ingresa: .......................... ..............................................................
 Sueldo básico: ............................................ ..............................................................
 Estatura: ................................................... .................................................................
 Peso: .......................................................... ...............................................................

2. El tiempo diario (en horas) de permanencia en la Universidad Nacional Agraria de la Selva


de la ciudad de Tingo María de 200 estudiantes matriculados en el semestre académico en
estudio.
Identifique:
a. Población, muestra, parámetro, estimador, unidad de análisis, variable, tipo de variable.

3. En cada uno de los siguientes enunciados identifique la unidad de análisis, la variable y su


tipo.

a) Desde hace dos años las compañías gastan en protección de la información. Estos
gastos incluyen los costos de personal, hardware, software, servicios externos y
seguridad física. Se eligieron dos empresas transnacionales y se registraron sus gatos
mensuales, en miles de dólares, correspondientes a la protección de la información de
los últimos seis meses.

b) La oficina de gestión de calidad de la UNAS está realizando un estudio para conocer,


según el criterio de los profesores, que tan importante es la aplicación de un modelo de
planeamiento de largo plazo en la mejora de la calidad en las instituciones de
educación superior. De los 200 profesores consultados, el 30% lo consideró poco
importante, el 50% importante y el 20% muy importante.

4. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco de
crédito del Perú según sus retenciones al sistema privado de pensiones en febrero del 2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institución.
70
Estadística Descriptiva
Se pide:
a. Identificar la unidad de análisis y la variable en estudio.
b. Construya un cuadro de distribución de frecuencias en intervalos de clase o
datos agrupados. Utilice la regla de Sturges.
c. Interprete f3, h3%, F3 y H3%.
d. Determinar qué porcentaje de trabajadores tienen una retención de 140 soles o
más, pero menos de 180 soles.
e. Determinar cuántos trabajadores tienen una retención de 160 a 200 soles.
f. Construir un histograma de frecuencias porcentuales y comente.

5. La siguiente tabla muestra la cantidad de clientes que entran en el horario de 14 a 15 horas


en 60 importantes locales de ventas de automóviles de cierta ciudad:

0 2 5 0 1 4 1 0 2 1 5 0 1 3 0 0 2 1 3 1
1 4 0 2 4 1 2 4 0 4 3 5 0 1 3 6 4 2 0 2
0 2 3 0 4 2 5 1 1 2 2 1 6 5 0 3 3 0 0 4

a) Determinar la variable a analizar e indicar cuál es su tipo.


b) Construir una distribución de frecuencias absolutas y representarla mediante un
diagrama de líneas.
c) Construir una distribución de frecuencias relativas y relativas porcentuales e
interpretar el significado de la cuarta frecuencia.
d) Construir una distribución de frecuencias acumuladas crecientes y
decrecientes, representarlas gráficamente e interpretar el significado de la
segunda y quinta frecuencia.
e) Si en el 80% o más de los locales entran como máximo 4 personas, se decidirá
no atender al público en ese horario (de 14 a 15 horas) y comenzar a atender a
partir de las 15 horas. En base a los datos, ¿qué decisión se tomará? Justificar.

6. A fin de decidir cuántos mostradores de servicio se necesitarán en tiendas que serán


construidas en el futuro, una cadena de supermercados quiso obtener información acerca
del tiempo (en minutos) requerido para atender a los clientes. Se registró la duración de 60
casos:
3,6 1,9 2,1 0,3 0,8 0,2 1,0 1,4 1,8 1,6 0,6 2,8 2,5 1,1 0,4 1,2 0,4 1,3 0,8 1,3
1,1 1,8 0,3 1,1 0,5 1,2 0,6 1,1 0,8 1,7 1,1 1,2 0,8 1,0 0,9 0,7 3,1 1,7 1,1 2,2
1,4 0,2 1,3 3,1 0,4 2,3 1,8 4,5 0,9 0,7 1,6 1,9 5,2 0,5 1,8 0,3 1,1 0,6 0,7 0,6

a) ¿Cuál es la variable a analizar? ¿Es cuantitativa o cualitativa?


b) Elaborar un diagrama de tallos y hojas con esos datos.
c) Organizarlos de la manera que le resulte más conveniente (de forma simple o
en intervalos) y justificar la organización elegida.
d) Construir una distribución de frecuencias absolutas y relativas.
e) Representar gráficamente las frecuencias anteriores mediante un histograma y
un polígono de frecuencias.
f) Construir las frecuencias acumuladas crecientes y decrecientes y graficarlas
mediante una ojiva.
g) Interpretar en cada caso el significado de la cuarta frecuencia.
h) ¿Qué proporción de los tiempos de servicio es menor a un minuto?

7. Una empresa consultora ha entrevistado un grupo de 50 personas a las cuales les han
preguntado la edad. Se obtuvieron los siguientes datos:

71
Estadística Descriptiva
23 34 21 41 42 35 32 36 27 20
19 31 39 38 41 26 24 27 30 33
23 32 40 34 25 28 29 30 22 24
26 36 38 21 39 22 33 35 32 28
27 26 24 32 37 39 32 24 35 26

Se ha decidido organizar los datos en intervalos de clase.

a) Construir una distribución de frecuencias absolutas, porcentuales y


acumuladas.
b) Representar gráficamente las frecuencias porcentuales y las acumuladas.
c) Obtener conclusiones.
8. Un ingeniero agrónomo visita 25 cooperativas agrarias de naranjas en la ciudad de Tingo
María y en cada uno anotó el número de plantas atacadas por cierto hongo de la cual
resultaron los siguientes datos:
15 20 25 15 16 18 18 18 16 19 17 17 18
19 18 15 18 17 20 18 19 17 16 17 19
a. Identifique la variable en estudio y el tipo de variable.
b. Construya un cuadro de distribución de frecuencia adecuada a este conjunto de
datos.
c. ¿Cuántas cooperativas agrarias tiene a lo más 20 plantas atacadas por hongos?
d. ¿Cuántas cooperativas agrarias tienen por lo menos 17 plantas atacadas por
hongos?
e. ¿Qué proporción de cooperativas bajo estudio tienen 18 plantas atacadas por
hongos?
f. ¿Qué proporción de cooperativas tienen 18 o menos plantas atacadas por
hongos?
g. ¿Qué porcentaje de cooperativas tienen 18 o menos plantas atacadas por
hongos?
9. El ministerio de educación realizó un estudio para determinar los indicadores sobre las
condiciones en las que operan los institutos dedicados a la enseñanza de carreras
profesionales en computación. El estudio se realizó en todo el país con la selección al azar
de 40 de estos institutos. Los directores o promotores de los institutos seleccionados fueron
entrevistados, encontrándose la siguiente información:
 El número promedio de computadoras para la enseñanza es 40.
 En promedio, el pago mensual por enseñanza es de 120 nuevos soles.
 El 60% de los institutos utiliza el software “pirata”.
Utilice esta información para identificar: población, muestra, unidad de
análisis, variables y tipos de variables.

10. El consumo mensual de agua de 150 hogares, se tabularon en una distribución de


frecuencias simétrica de 6 intervalos, siendo las frecuencias: f2 = 25, F3 = 75, F5 = 130. Si
el límite inferior del sexto intervalo igual a 60, y si el 75% de los consumos son mayores
de 43.5m3, completar la distribución de frecuencias.

11. En una investigación agrícola en Tulumayo- Tingo María, en Julio de 2011, se determinó
la producción total (en kilogramos) de un cierto cultivo, el cual fue sembrado en parcelas
experimentales. Los datos se tabularon en una distribución de frecuencias simétrica de
cinco intervalos de igual amplitud, siendo las frecuencias: f4 – f5 = 10, f4 – f3 – f1 = 0, el
límite superior en el cuarto intervalo por f4 es igual a 975, el límite inferior en el primer
intervalo es igual a 12.5 y n = 110.
a. Reconstruir el cuadro de frecuencias.
b. Calcular e interpretar la mediana (Me), moda (Mo).

72
Estadística Descriptiva
12. Las notas de 50 alumnos de la UNAS – Tingo María, se clasifican en una tabla de
distribución de frecuencias con cuatro intervalos de clase de igual amplitud. Sabiendo
además que: X2 = 50, f1 =4, F2 = 20, f3 = 25, 𝑥̅ = 62.4.
a. Calcular e interpretar la mediana (Me).
b. Determine la proporción de estudiantes cuyos puntajes se encuentran por lo menos de
35 puntos pero a lo más 65 puntos.

13. Sabiendo que la siguiente tabla de frecuencias, es simétrica, completar con los datos,
dados. Si además se sabe que la mediana es igual a 27.5. Reconstruir la tabla de
frecuencias y calcular la media aritmética.
[Li Ls> Xi fi Fi hi Hi

0.2
0.65

50 0.95

Total 60

14. En base a la siguiente información que corresponde a la visita de cooperativas agrarias en


la ciudad de Tingo María en mayo de 2010 y en cada una de ellas se anotó el número de
árboles atacadas por cierto hongo.
X2 = 550; X5 = 850; h6 = 2/50 = H1; m = 6; h2 = 0.14; H4 = 0.76; h5 = 0.20; H3
– h2 = 0.26 y C = constante.
a) Reconstruir la tabla de frecuencias e intérprete los puntos más importantes.
b) Calcule e interprete la desviación estándar, mediana y moda.
15. Al agrupar 400 datos en intervalos, la mediana resulta 58.833 y el límite inferior del
intervalo que la contiene es 50.5. Si el intervalo tiene por encima al 47.5% de los datos y
por debajo al 37.5% de los datos.
a) ¿Qué amplitud tienen los intervalos de la distribución sabiendo que esta es constante?
b) ¿Cuál es límite superior del intervalo que contiene a la mediana?

16. Los intervalos y las frecuencias absolutas de los salarios quincenales de 45 empleados
desarrollan en el cuadro siguiente:
Intervalos Frecuencias
de salarios ($) Absolutas Relativas Porcentual
[Li - Ls> fi hi Hi%
[26 - 34> 1 0.022 2.2%
[34 - 42> 2 0.044 4.4%
[42 - 50> 4 0.089 8.9%
[50 - 58> 10 0.222 22.2%
[58 - 66> 16 0.356 35.6%
[66 - 74> 8 0.178 17.8%
[74 - 82] 4 0.089 8.9%
Total: 45 1.000 100.0%
a. Calcule el porcentaje de empleados que tienen salarios entre $52 y $75.
b. Obtenga el salario que divide en dos partes iguales.

73
Estadística Descriptiva
17. La altura de diámetro de pecho de capirona se organizaron en una distribución de
frecuencia, cuyos resultados incompletos se dan en la siguiente tabla:
Marca de clase Frecuencia relativa simple Frecuencia relativa
[Li Ls>
Xi Hi acumulada Hi
0.15
6 0.45
0.70
13.5
0.10
Total

18. Los siguientes datos corresponden a la inversión real anual en miles de dólares de un grupo
de pequeñas empresas. Completar la siguiente tabla de distribución de frecuencia.
[ Li - Ls > Xi fi Fi hi Hi
[20 - 24 > 0.10
[24 - 28 > 0.25
[ - 32 > 11 0.55
[32 - > 0.85
[ - 40] 1
Total
a) Identificar la unidad de análisis y la variable en estudio.
b) Interpretar el f4 y el h4%.
19. En una tabla de distribución simétrica con siete intervalos de clase de igual longitud, se
conocen los datos siguientes: C =10, f1=8 y X3 *f3=1260; f2 + f5 = 62; h3=0.21, H6 =
0.96.
Reconstruir la tabla de frecuencias y determinar la media geométrica.
20. En base a la siguiente información que corresponden a la inversión real anual en miles de
dólares de un grupo de pequeñas empresas. Construir la tabla de distribución de
frecuencia.
X2=550; X5=850; h6 =2/50 = H1; m=6; h2=0.14; H4 = 0.76; h5=0.20; H3-h2 =0.26 y c =
constante
a) Interpretar el f4 y el h4%.

21. De las edades de cuatro personas, se sabe que la media es igual a 24 años, la mediana es
23, y la moda es 22. Encuentre las edades de las cuatro personas.
22. La inversión real en miles de dólares anual de un grupo de pequeñas empresas en el banco
de Crédito de la ciudad de Tingo María fueron:
807 811 620 650 817 732 747
900 753 1050 918 857 867 675
500 872 869 841 847 833 829
766 787 923 792 803 933 947
1056 1076 958 970 776 828 831
La información fue obtenida por el Instituto nacional de Estadística e Informática
en mayo de 2010.
Se pide:
a) Construir una tabla de distribución de frecuencias, con intervalos (datos agrupados) y
hacer gráfico correspondiente e interpretar.
b) Calcular e interpretar: La media, desviación estándar, mediana y la moda.

74
Estadística Descriptiva
TRABAJO PRÁCTICO: ESTADÍSTICA DESCRIPTIVA
(trabajo práctico a entregar de manera individual para ser calificado)

Ejercicio 23: (Se recomienda el uso del Software Estadístico Minitab 16 o SPSS 20.0)

“Estudio sobre nutrición en el comedor de una Empresa”


Fuente: “Estadística básica en Administración. Conceptos y Aplicaciones”. Sexta Edición.
Berenson, Mark L., Levine, David M. Prentice Hall Hispanoamericana, S. A. Páginas 166 -
168.

La vicepresidenta de los servicios al personal obrero de una empresa en las afueras


de la ciudad, sostuvo una reunión con la recién nombrada directora de los servicios de
comida, y con la profesora de nutrición, sobre una serie de quejas de los empleados
relacionadas con el menú ofrecido en la cafetería de la empresa. Puesto que los obreros
transcurrían la mayor parte del día dentro de la empresa, se veían obligados a comprar el
menú que allí se servía y que no siempre ofrecía una comida barata, rápida y saludable.
Cuando la vicepresidenta pidió una respuesta sobre estos comentarios, la directora
de los servicios de comida aseveró que sólo llevaba 3 semanas en la empresa y que había
seguido preferentemente el menú establecido por su predecesor, al mismo tiempo que
experimentaba con una selección de comida gastronómica cada día. Estableció, además,
que a partir del llamado de atención respecto a estas inquietudes, seguiría otra pauta.
Considerando el hecho de que la empresa está situada en un área rural y que, en particular,
se requiere el almacenamiento de productos alimenticios enlatados para los meses de
invierno en que las provisiones de la ciudad más cercana pueden retrasarse, estudiaría el
contenido nutricional de la sopa enlatada porque podría disponerse fácilmente de este
artículo en todos los almuerzos, e incluso podría proporcionar los nutrientes de la comida
saludable, barata y rápida que se solicita.
La profesora de nutrición estuvo de acuerdo en que tal estudio sería de utilidad y
proporcionaría la información necesaria para tomar una decisión respecto a la
instrumentación.

Los datos obtenidos fueron los siguientes:

MARC PRODUCT CALORÍA CALORÍAS SODI


TIPO COSTO GRASA
A O S DE GRASA O
1 CN CC 0,35 60 2 30 880
2 CN CR 0,66 75 2 24 730
3 CN CC 0,18 60 2 30 870
4 CN DI 0,33 170 8 42 970
5 CN CR 0,77 80 2 23 460
6 CN DC 0,21 80 2 23 700
7 CN DC 0,09 190 8 38 970
8 CN DC 0,11 200 9 41 960
9 CN DC 0,26 100 2 18 700
10 CN CC 0,17 60 2 30 840
11 CN CC 0,19 60 2 30 840
12 CN DC 0,09 190 9 43 780
13 CN CC 0,19 60 2 30 840
14 CN CR 0,76 60 1 15 790
15 CN DC 0,54 110 2 16 800
16 CN CR 0,74 105 3 26 860
17 CN CR 0,96 110 4 33 800

75
Estadística Descriptiva
18 CN DC 0,12 70 2 26 900
19 CN DI 0,48 105 3 26 1190
20 CN DI 0,36 65 1 14 890
21 CN CR 0,74 120 4 30 810
22 CN CR 0,70 80 2 23 470
23 CN CR 0,97 80 1 11 180
24 CN CR 0,80 125 4 29 65
25 CN CR 0,78 95 2 19 580
26 V CR 0,53 125 3 22 670
27 V CR 0,83 110 2 16 680
28 V CR 0,73 120 3 23 800
29 V CR 0,51 105 1 9 600
30 V CR 0,46 75 2 24 940
31 V CR 0,44 75 1 12 680
32 V CR 0,73 140 3 19 540
33 V CC 0,34 60 2 30 880
34 V CR 0,53 110 1 8 640
35 V CC 0,23 90 2 20 830
36 V CR 0,92 55 1 6 280
37 V CR 0,55 90 1 10 480
38 V CR 0,94 90 1 10 160
39 T CC 0,15 90 2 20 670
40 T CC 0,20 90 2 20 410
41 T CC 0,13 100 1 9 710
42 T CC 0,14 100 1 9 630
43 T CC 0,16 80 0 0 700
44 T CC 0,15 100 1 9 630
45 T CC 0,18 100 1 9 710
46 T CR 0,87 75 1 12 300
47 T CC 0,28 90 0 0 740

Donde:
Producto: CN = Pollo. - V = Vegetales. - T = Tomate.
Tipo: CC = enlatada / condensada. - CR = enlatada / lista para servirse. –
DC = deshidratada / cocinada. - DI = deshidratada / instantánea.
Costo en centavos.
Calorías por ración de 8 onzas.
Grasa en gramos por ración de 8 onzas.
Calorías de grasa como porcentaje de grasa por ración de 8 onzas.
Nivel de sodio en miligramos por ración de 8 onzas.

Se pide:

1.- En base a los datos de la tabla, indicar cuáles fueron las variables relevadas. Para cada
una de ellas indicar si es cualitativa o cuantitativa y especificar las categorías o valores.
2.- Realizar una tabla de distribución de frecuencias (absolutas, relativas y porcentuales)
para las variables Producto y Tipo. Representar gráficamente las frecuencias porcentuales
y obtener conclusiones.

76
Estadística Descriptiva
3.- Realizar una tabla de distribución de frecuencias (absolutas, relativas y acumuladas)
para las variables Costo y Sodio - en cada caso, decidir si es conveniente organizar los
datos de forma simple o en intervalos.

4.- Construir todos los gráficos posibles para las distribuciones del ítem anterior.

5.- Realizar un análisis exploratorio para Calorías. ¿Qué puede decirse de la distribución?
¿Se observan outliers?

24. Acontinuación se muestra una tabla con los datos acerca de la distribución de
exportaciones e importaciones de diferentes países (en millones de euros).
País Exportaciones Importaciones
EEUU 512 690
Alemania 425 380
Japón 390 275
Francia 235 230
Reino Unido 205 220
Italia 190 170
Canadá 160 150
Holanda 155 140
Hong Kong 150 165
Bélgica-Luxem 140 130
China 120 115
Singapur 95 100
Corea Sur 95 105
Taiwán 90 85
España 75 90

a) ¿Cuáles son las variables que intervienen en este análisis? ¿Cuál es el tipo de las
mismas?
b) Realizar un diagrama de dispersión considerando las exportaciones como variable
dependiente. ¿Puede observarse algún tipo de relación entre ambas variables? En tal
caso, ¿qué tipo de relación se observa?

Ejercicio 25:
Objetivos:
1. Identificar la naturaleza de las variables contenidas en una base de datos.
2. Elaborar cuadros de resumen sobre la información de una base de datos.
3. Analizar la información de un cuadro de información.

Con el fin de evaluar las características de las unidades agropecuarias (UA) de un valle
donde existen 2000 unidades agropecuarias, se entrevistó a una muestra aleatoria de 20
unidades solicitándoles la información siguiente:
Edad del N° parcelas N° de cultivos Área de la Nivel tecnológico
Unidad Zona
productor de la UA de la UA UA (has) de la UA
1 Norte 25 1 De 1 a 2 2.01 Baja
2 Norte 27 1 De 1 a 2 2.51 Baja
3 Norte 29 1 De 1 a 2 3.88 Baja
4 Norte 35 1 De 1 a 2 4.01 Baja
5 Norte 36 2 De 5 a 6 4.17 Baja

77
Estadística Descriptiva
6 Norte 39 2 De 5 a 6 4.84 Media
7 Norte 38 2 De 5 a 6 4.59 Media
8 Norte 45 2 De 5 a 6 4.84 Media
9 Norte 56 2 De 5 a 6 5.18 Media
10 Norte 68 3 De 5 a 6 6.7 Media
11 Este 25 2 De 1 a 2 2.8 Baja
12 Este 24 2 De 1 a 2 3.05 Baja
13 Este 30 2 De 7 a 8 7.49 Media
14 Este 35 2 De 7 a 8 6.79 Alta
15 Este 38 2 De 7 a 8 6.95 Alta
16 Sur 25 3 De 7 a 8 7.5 Alta
17 Sur 30 3 De 5 a 6 5.8 Media
18 Oeste 32 3 De 7 a 8 8.75 Alta
19 Oeste 40 3 De 7 a 8 9.48 Alta
20 Oeste 45 3 De 7 a 8 7.8 Alta

1. ¿Cuál es la unidad de análisis, la población y la muestra en la investigación?


2. ¿Cuál es la naturaleza y tipo de las variables investigadas?
3. Elabore un cuadro que muestre al número de unidades agropecuarias según zona, por
el nivel tecnológico de las unidades entrevistadas.
4. Elabore un cuadro que muestre al número de unidades agropecuarias según zona de
ubicación de las unidades entrevistadas.
5. Construya una tabla de frecuencias y el histograma respectivo para describir el número
de parcelas de las unidades entrevistadas.
6. Construya una tabla de frecuencias utilizando 4 intervalos de clase para describir el
área de las unidades agropecuarias entrevistadas.
7. Utilizando la tabla de frecuencia construida en la pregunta 6 estime el porcentaje de
unidades que tienen áreas entre 6 y menos de 8 hectáreas.
8. Encuentre la mediana del área de las unidades entrevistadas.
9. Encuentre las medidas estadísticas descriptivas sobre el área de las unidades
agropecuarias entrevistadas.

Ejercicio 26: Para conocer el universo de beneficiarios de los proyectos de desarrollo


rural realizados en el valle Cauday durante el año 2012, usted recibe el cuadro siguiente:

Cuadro N° 01
Número de hogares beneficiarios de los proyectos de desarrollo según finalidad del
proyecto por sexo del jefe del hogar beneficiario
Finalidad del Numero de Sexo del jefe del hogar
Proyecto de agricultores Masculino Femenino
desarrollo Numero % Numero % Numero %
Agrícola 6000 50.0 3000 47.6 3000 52.6
Pecuaria 3000 25.0 2000 31.8 1000 17.6
Vivienda 1200 10.0 700 11.1 500 8.8
Educación 1800 15.0 600 9.5 1200 21.0
Total 12000 100.0 6300 100.0 5700 100.0
Notas: (1) Incluye a hogares con proyectos en ejecución

78
Estadística Descriptiva
Cuál es su opinión sobre la conformidad o no de cada componente del cuadro

Componente del cuadro Opinión


1. Número de cuadro
2. Título
3. Encabezamiento
4. Cuerpo del cuadro
5. Notas de pie
6. Fuente
7. Responsable
8. Fecha

Ejercicio 27. Para cada uno de los escenarios referidos a una encuesta de evaluación sobre
el universo de proyectos realizados en el valle, entre una investigación cuantitativa ó
cualitativa, elija la investigación con que está más relacionado

Escenario Cuantitativa Cualitativa


1. Se requieren verificar 20 hipótesis sobre los cambios
ocurridos en la producción de maíz
2. Se requiere describir al sistema de producción de y la
cadena productiva del maíz
3. Se dispone de un cuestionario estructurado de
50 preguntas para la encuesta
4. Se requiere conocer en qué oportunidades y bajo qué
condiciones los hogares precisan de recurrir a
préstamos informales en la zona
5. Se debe evaluar los cambios registrados en la
producción de maíz
6. Se deben lograr mediciones objetivas sobre los
rendimientos obtenidos con el maíz
7. Se requieren conocer todos los problemas que se
ocasionarán al prohibir el cultivo de tomate en el
valle

Ejercicio 28. Si el número de agricultores entrevistados en la encuesta de evaluación


realizada según la superficie de su finca es:
Superficie (Has) Número fi Fi hi Hi Xi Xi*fi
De 2 a menos de 4 50
De 4 a menos de 6 70
De 6 a menos de 8 60
De 8 a 10 20
Total 200

1. ¿A partir de qué superficie de finca se encuentra el 25% de los


entrevistados que tienen fincas con las superficies menores?
2. ¿A partir de qué superficie de finca se encuentra el 25% de los
entrevistados que tienen fincas con las superficies mayores?
3. ¿A partir de qué superficie de finca se encuentra la mitad de los
agricultores con las fincas de mayor superficie?
4. ¿Cuál es la superficie promedio de las fincas en los agricultores
entrevistados?

79
Estadística Descriptiva
CASO 1

Caso: Banco Pacífico.

Banco Pacífico es una entidad financiera que ha ingresado con fuerza al sistema financiero
peruano. Debido a su rápido crecimiento el Gerente de Operaciones desea hacer un estudio
descriptivo e Inferencial entre los clientes que cuentan con tarjeta de crédito. Para cumplir
con su objetivo se seleccionaron al azar muestras aleatorias e independientes de tres tipos
de clientes según el tipo de tarjeta de crédito otorgada. Las variables de interés analizadas
fueron las siguientes:
 Tipo de Tarjeta de Crédito: Clásica, Platino y Dorada.
 Género del cliente: Masculino, Femenino.
 Monto de crédito adeudado (en miles de soles) en enero del 2009.
 Monto de crédito adeudado (en miles de soles) en mayo del 2009.
 Número de retiros por cajero el día del cierre de cobro del mes de mayo.
 Número de pagos en establecimientos comerciales el día del cierre de cobro
del mes de mayo.
 Categoría del cliente: A1 y A2.
 Edad del cliente (en años)
 Ingreso mensual del cliente (en soles)
 Número de hijos
 Principal uso de crédito: vivienda, auto, otros.

80
Estadística Descriptiva
Formulario:

Medidas de tendencia central muestral:


Para datos sin agrupar: Para datos agrupados:
 Promedio aritmético o media.  Promedio aritmético o media.
n n

 Xi   Xi  fi 
X i 1
X i 1
n n
 Mediana (Me).  Mediana (Me).
Es el valor central de un conjunto de n 
datos ordenados de menor a mayor.   Fi 1 
Me  Li    C
2
La ubicación de la mediana de n datos
fi
ordenados en forma ascendente, se
determina por: (n)/2
 Moda (Mo).  Moda (Mo).
Es valor más frecuente en el conjunto  d1 
de datos. Mo  Li   C
 d1  d 2 
donde :
d1   fi  f i 1 
d 2   fi  f i 1 
 Media armónica ( X h ):  Media armónica ( X h ):
n n n
Xh  Xh   m
  ....  m   f i 
1 1 1 f1 f 2 f
  .... 
x1 x2 xn x1 x2 xm  
i 1  xi 

 Media geométrica ( X G ):  Media geométrica ( X G ):


̅ 𝑮 de n
La media geométrica simple 𝑿 X G  n x1  1  x2  2  ....  xm  m
f f f

observaciones X1, X2, X3,…..,Xn positivos,


está dado por la raíz enésima del ó
∑𝑚 𝑓 𝑙𝑜𝑔𝑋𝑖
producto de los n valores observados. El ̅ 𝑮 = 𝒂𝒏𝒕𝒊 𝒍𝒐𝒈 [ 𝑖=1 𝑖
𝑿 ]
promedio geométrico de los valores: (X1, 𝒏
X2, X3,…..,Xn) es : Donde:
X G  n x1  x2  ....  xn n = tamaño de muestra.
Xi = marca de clase.
fi = frecuencia absoluta simple.
m = número de intervalos.

81
Estadística Descriptiva
Medidas de variabilidad o de dispersión muestral:
Para datos sin agrupar: Para datos agrupados:
 Varianza ( S 2 ).  Varianza ( S 2 ).

 X  X
n

 X  X   fi
n
2 2
i i
S2  i 1
S2  i 1

n 1 n 1
 Desviación estándar (S):  Desviación estándar (S):
S  S2 S  S2
 Coeficiente de variación porcentual  Coeficiente de variación porcentual
(CV%): (CV%):
S S
CV %  *100 CV %  *100
X X

Distribuciones bidimensionales

Supongamos que en una población, y para un conjunto de n individuos, se miden dos


caracteres X e Y:
( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )

En este caso tenemos una variable estadística bidimensional o distribución bidimensional


de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran
cantidad de datos, un modo de presentar la distribución bidimensional es a través de una
tabla de doble entrada de la forma:

Tabla de doble entrada

X/Y y1 y2 . . . yj ... yk Total


x1 n11 n12 . . . n1 j ... n1k n1
x2 n21 n22 . . . n2 j ... n2k n2
. . . . . .
. . . . . .
. . . . . .
xi ni 1 ni 2 . . . nij ... nik ni 
. . . . . .
. . . . . .
. . . . . .
xl nl 1 nl 2 . . . nlj ... nlk nl 
Total n1 n2 . . . n j ... n k n

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe el
nombre de tabla de contingencia.

La representación gráfica más utilizada en el caso bidimensional es la nube de puntos o


diagrama de dispersión. Consiste en representar cada pareja de datos como un punto sobre
unos ejes cartesianos.

82
Estadística Descriptiva
Distribuciones marginales y condicionales.
Dada una variable estadística bidimensional, las distribuciones marginales permiten
estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble
entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias
de la tabla por filas y por columnas.

Distribuciones marginales de X e Y.
X ni  Y n j
x1 n1 y1 n1
x2 y2 n2
. n2 . .
. . . .
. . . .
xl . n k
yk
nl 
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las
variables cuando la otra permanece constante. Vienen dadas por:

Distribuciones condicionadas de X e Y.
X/Y= y j ni / j Y/X= xi n j /i
x1 n1 j y1 ni1
x2 n2 j y2 ni 2
. . . .
. . . .
. . . .
xl nlj yk nik
Ejemplo:
Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un país. En la
tabla de doble entrada adjunta se presentan los resultados de un estudio de 100
explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se
proporcionan las frecuencias conjuntas del número de cabezas (en miles) de cabras (X) y
ovejas (Y) que poseen las explotaciones.
X\Y 0 1 2 3 4
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
a) Hallar las medias, varianzas y desviaciones típicas marginales.
b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000
ovejas.
c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que
no tienen cabras.

Solución:

Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.

83
Estadística Descriptiva
X\Y 0 1 2 3 4 ni 
0 4 6 9 4 1 24
1 5 10 7 4 2 28
2 7 8 5 3 1 24
3 5 5 3 2 1 16
4 2 3 2 1 0 8
n j 23 32 26 14 5 100

a) La media de X es:

0*24  1*28  2*24  3*16  4*8


X = 156/100= 1.56
100

La varianza de X es:

(0  1.56)2 *24  (1  1.56)2 *28  (2  1.56)2 *24  (3  1.56)2 *16  (4  1.56)2 *8


S 2
X  = 1.5264
100

La desviación típica (Estándar) es la raíz cuadrada positiva de la varianza, es decir:

S X  S X 2 =1.2355

Observe que la media muestral es un buen representante de los datos, ya que la desviación
estándar no es demasiado alta.

Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la
variable Y.

b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se


obtiene manteniendo fija la columna donde la variable Y es igual a 2. Esto es:

 X / Y  2  0*9  1*7  2*5


26
 3*3  4*2
= 1.3077

c) De forma análoga al literal b) (la media de Y es 1.46)

Ejemplo. Dada la siguiente distribución de frecuencias conjunta:

Xi Yi nij Construir una tabla de correlación (doble entrada) y obtener:


1 2 1
1 6 1  Distribuciones marginales de X e Y.
2 2 2  Distribución de Y condicionado a X=3
3 2 1  Covarianza
3 4 1
4 2 1
4 4 2
4 6 1

84
Estadística Descriptiva
Solución.

La tabla de correlación pedida y sus distribuciones marginales están dadas en la siguiente


tabla:
Y/X 1 2 3 4 n. j
2 1 2 1 1 5 La distribución de Y/X=3
4 0 0 1 2 3 Y/X=3 2 4 6
6 1 0 0 1 2 n j / i 3 1 1 0
ni. 2 2 2 4 10=N

Hay que introducir el concepto de covarianza:


Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es
determinar si existe o no algún tipo de variación conjunta o covariación entre ellas. La
covarianza, ayuda a cuantificar la covariación entre dos variables; así:
 Si la Cov(X,Y)>0, existe una tendencia a que mayores observaciones de una de las
variables se correspondan con mayores observaciones de la otra variable.
 Si Cov(X,Y)<0, existirá una tendencia a que mayores observaciones de una
variable se correspondan con menores observaciones de la otra variable.
 Si Cov(X,Y)=0, no se puede concluir que no exista relación entra ambas variables.
Pero se puede decir que no existe relación lineal entre las variables.
Matemáticamente la covarianza se define como:

  x  y 
l k

i X j  Y nij
i 1
Cov( X , Y )  S XY 
j

85

You might also like