Actividad de Estadistica 3

FACULTA DE INFORMATICA Y CIENCIAS APLICADAS
CATEDRA DE ESTADISTICAS
METODOS DESCRIPTIVOS E INFERENCIALES
Asignatura: estadística y probabilidades

Catedrático: Ing. Pedro Alfredo Rodríguez Ozuna
Estudiantes: Carnet
Saúl Armando Jiménez Arévalo 4644972016
Luis Alonso Gómez hércules 46-2582-2012
Ciclo: 01-2018
San Salvador, 18 de abril de 2018

Estadística Descriptiva
Conjunto de métodos y procedimientos gráficos y numéricos que organizan,
resumen y presentan datos.
Es usada para transformar datos en información:
 Recolectar Datos
 Instrumentos, Encuestas
 Presentar Datos
 Tablas y Gráficos
 Resumir Datos
 Media muestral
Aplicaciones de la estadística descriptiva

La estadística descriptiva es aplicable en casi todas las áreas donde se recopilan
datos cuantitativos. Puede brindar información acerca de productos, procesos o
diversos aspectos del sistema de gestión de la calidad, como también en el ámbito
de la dirección y organización de personas, la logística, etc. Algunos ejemplos de
dichas aplicaciones son los siguientes:
 Resumen de las mediciones principales de las características de un

producto.
 Describir el comportamiento de algún parámetro del proceso, como puede
ser la temperatura de un horno.
 Caracterizar el tiempo de entrega o el tiempo de respuesta en el sector de
los servicios.
 Procesar datos relacionados con muestras a clientes, tales como la
satisfacción o insatisfacción del cliente.
 Ilustrar la medición de los datos, tales como los datos de calibración del
equipo.
 Visualizar el resultado del desempeño de un producto en un periodo
mediante un gráfico de tendencia.
Ejemplo de cálculo de estadística descriptiva
El gerente calcula los siguientes estadísticos descriptivos numéricos:

Estadístico Valor de la muestra
Media 6.2 minutos
Desviación estándar 1.5 minutos
Rango 3 a 10 minutos
N (tamaño de la muestra) 50
El gerente examina las siguientes gráficas para visualizar los tiempos de espera:
Histograma de tiempos de espera Gráfica de caja de tiempos de espera
RECOPILACION DE DATOS
Es el momento en el cual el investigador se pone en contacto con los objetos o
elementos sometidos a estudio, con el propósito de obtener datos o respuestas de
las variables consideradas; a partir de estos datos o respuestas se calculan los
Estadígrafos o indicadores estadísticos.
FUENTES DE DATOS
La fuente de datos, es el lugar, la institución, las personas o elementos donde están
o que poseen los datos que se necesitan para cada uno de las variables o aspectos
de la investigación o estudio.
En general, se puede disponer de cinco tipos de fuentes de datos:
1. Las Oficinas de Estadística.- Como instituciones responsables de recopilar,

procesar y publicar las estadísticas sociales o nacionales.
2. Archivos o Registros Administrativos.- Como el Registro Civil, Electoral,

Escalafón o Personal, Padrón de Contribuyentes, etc.. Estos registros no tienen
fines Estadísticos, su función es de tipo legal y administrativo, sin embargo
pueden utilizarse como fuentes de datos estadísticos.
3. Documentos.- Boletines, e informes estadísticos que son las publicaciones o

estudios que preparan los organismos especializados.
4. Encuestas y Censos.- Son fuentes directas y especiales, que se construyen en

un momento determinado, recopilando datos de una parte o de la totalidad de
una población.
5. Los Elementos o Sujetos.- Son aquellos que están sometidos a un estudio,

pueden ser personas, instituciones, animales u objetos.
TECNICAS DE RECOPILACION O RECOLECCION DE DATOS

Es el conjunto de métodos y procedimientos que se llevan a cabo para recolectar
los datos.
Las más frecuentes técnicas utilizadas son:
1. La Observación.- Es la acción de mirar de mirar en forma sistemática y profunda,

con el interés de descubrir la importancia de aquello que se observa.
2. La Técnica Documental.- Es aquella que busca datos a través de documentos,

fuentes escritas o gráficas de todo tipo. Ejm.: Libros, Informes, Autobiografías,
fotografías, planos, videos, etc.
3. La Entrevista.- Es la interrelación o diálogo entre personas, donde una de ellas
se llama Entrevistador o Encuestador quien solicita a otra persona llamada
Entrevistado o Encuestado le proporcione algunos datos o información.
4. El Cuestionario.- Es un instrumento constituido por un conjunto de preguntas

sistemáticamente elaboradas, que se formulan al Entrevistado o Encuestado,
con el propósito de obtener los datos de las variables consideradas en el estudio.
El Cuestionario se desarrolla en el Formulario o Cédula, en donde las preguntas
están debidamente organizadas.
5. La Encuesta.- Es la técnica por la cual se obtiene la información tal como se
necesita, preparada exprofesamente y con objetivo estadístico. Permite
observar y registrar características en las unidades de análisis de una
determinada población o muestra, delimitada en el tiempo y en el espacio. El
Entrevistado da respuesta a las preguntas en el formulario o Cédula.
Estadística inferencial
Es el proceso por el cual se deducen (infieren) propiedades o características de

una población a partir de una muestra significativa.
Conjunto de métodos utilizados para saber “algo” acerca de una población
basándose en una muestra.
Es usada para transformar información en conocimiento.
LAS VARIABLES ESTADISTICAS
LA VARIABLE:
Es la representación simbólica de los datos.
Ejemplo:
Sea X: altura de 5 alumnos de WIENER Donde: Xi, i= 1 a 5
X1= 1.65 mts., X4 = 1.63 mts.
Las variables se clasifican en:

I. Variable Cualitativa: Es aquella variable que representa a datos que
indican cualidades, características, propiedades, etc., no son numéricas (no
medibles).
Ejemplos:
X= Control de calidad de productos de una industria. Bueno, Malo, Regular,

Muy Bueno.
Y= Estado Civil de una muestra de 200 personas. Soltero, Casado, Viudo,

Divorciado.
II. Variable Cuantitativa: Es aquella variable que representa a datos que

indican valores numéricos (son medibles), y se clasifican en:
Variable Discreta: Es aquella que representa a datos numéricos que no se

pueden fraccionar, sirven para contar o enumerar (pertenecen a los reales).
Variable Continua: Es aquella variable que representa a datos que pueden

ser fraccionados (pertenecen a los reales).
Ejemplo: El Peso (Kg.) de 6 personas.

65, 56, 59, 70, 63.
La variable continua es la que más utilizamos, especialmente para los estudios
correspondientes en Ingeniería (Volumen, Temperatura, Pesos, Mediciones,
etc.).
LA ORGANIZACIÓN DE LOS DATOS

Distribución o Tablas de Frecuencias: Es la condensación, simplificación,
ordenación, del conjunto de observaciones que forman la muestra; la característica
principal es no perder ningún dato de la muestra.
También se puede decir que la Distribución de Frecuencia es la representación
estructurada, en forma de tabla, de toda la información que se ha recogido sobre
la variable que se estudia.
Categorías o Clases.- Son los datos que están agrupados por sus características
comunes.
Frecuencia de Clases.- Es el número o cantidad de datos que componen una

Categoría o Clase. Las Frecuencias se clasifican en :
1. Frecuencia Absoluta (Simple).- Representa a la cantidad de datos de cada
Clase.
2. Frecuencia Absoluta Acumulada.- Representa a la suma en forma acumulativa
de Clase en Clase de sus respectivas Frecuencias Absolutas.
3. Frecuencia Relativa (Simple) .- Es el % que representa a la cantidad de datos
de una Clase con respecto al total de datos.
4. Frecuencia Relativa Acumulada.- Representa a la suma en forma acumulativa
de Clase en Clase de sus respectivas Frecuencias Relativas.
Veamos un ejemplo (4.1) :
Medimos la altura de los niños de una clase y obtenemos los siguientes resultados
(cm):
Alumno Estatura Alumno Estatura Alumno Estatura

x x X x x x
Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21
Si presentamos esta información estructurada obtendríamos la siguiente Tabla de

Frecuencias:
Variable Frecuencias Absolutas Frecuencias Relativas

(Valor) Simple Acumulada Simple Acumulada
X X X X x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite
muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra
manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco
valor a efectos de síntesis.
Según los tipos de variables y formas de la tabla de frecuencias, tendremos las

siguientes Tablas de frecuencias
1ER. CASO: Tablas de Frecuencias para la variable Cualitativa:

En este caso como la variable cualitativa indica cualidades, propiedades, etc., y no
son medibles; entonces se agrupa de acuerdo a cada categoría que se diferencia
en la variable cualitativa. (Sin un orden establecido).
Ejemplo: (4.2).
Se tiene la siguiente información que representa el Estado Civil de 50 personas

encuestadas (edad; 20-30 años).
Estado Civil No. de personas %
Soltero 25 50%
Casado 10 20%
Viudo 1 2%
Divorciado 6 12%
Conviviente 8 16%
Los gráficos que se presentan en este caso son los siguientes:

1). Diagrama de barra:
N° DE PERSONAS 30
25
20
15
10
5
0
Soltero
Conviviente
Divorciado
Casado
Viudo
ESTADO CIVIL
2. Gráfico por Sectores Circulares.
PORCENTAJES
Soltero
Conviviente
Divorciado
Viudo Casado
2DO. CASO: Tabla de frecuencia para la variable discreta y n < 30 :
En este caso la variable es discreta y la muestra pequeña, además hay que

considerar que no haya muchos datos diferentes. La Tabla de frecuencias es por
CLASES, donde cada clase representa el valor numérico de la variable.
La tdf es de la sgte. forma general:
Clase Xi Fi Fi hi Hi
x1 f1 F1 h1 H1
x2 f2 F2 h2 H2
. . . . .
. . . . .
. . . . .
Xm Fm Fm=n hm .Hm=1
Donde:
n = numero de clases o intervalos de clase.
fi = frecuencia absoluta: es el número de observaciones que hay en cada clase o

intervalo de clase. Además:
fi+f2+f3+. ...+ fm =n
 fi = n
i=1
Fi = frecuencia absoluta acumulada: es el numero de observaciones acumuladas

hasta la clase i, es decir:
F1=f1
F2=f1+f2
.
.
Fm=f1+f2+f3...+fm =
hi = frecuencia relativa: representa la relación que existe entre la frecuencia absoluta

y el número total de observaciones:
fi
hi 
n
Generalmente la frecuencia relativa se expresa en forma porcentual: hi % = 100%.
Hi = frecuencia relativa acumulada: frecuencias relativas acumuladas hasta la clase

i.
Hi=h1
H2=h1+h2
.
.
Hm=h1+h2+....hm=1
También :
Fi
Hi 
n
Se expresa en forma porcentual. Hi x 100%

Ejemplo:
Los siguientes datos representan el numero de defectos en 15 diskettes: 5, 10, 5,

11,6,6,3,3,3,5,5,5,10,6,3.
Agrupar en tabla de frecuencias:
Solución:
Como la muestra es pequeña y la variable representa a datos discretos, entonces

agrupamos en clases:
No de No. diskettes Fi hi% Hi%

Defectos
fi
Xi
3 4 4 26.7 23.7
5 5 9 33.3 60.0
6 3 12 20.0 80.0
10 2 14 13.3 93.3
11 1 15 6.7
100.0
Los gráficos que se presentan en este 2do. Caso son:
1. Histograma de frecuencias: En el sistema de coordenadas rectangulares

comparamos Xi vs. fi (o hi%).
HISTOGRAMA
6
N° DE DISKETTES
5
4
3
2
1
0
3´ 5´ 6´ 10´ 11´
DEFECTOS
3ER. CASO: Tabla de frecuencias por intervalos de clase:

En este caso generalmente la variable es continua, también puede ser usado para
la variable discreta siendo la muestra grande (generalmente n >= 30).
La tdf tiene la siguiente forma:
Intervalos Xi Fi Fi hi Hi
(Li - Ls)
[X’o - X’1> X1 f1 F1 h1 H1
[X’1 - X’2> X2 f2 F2 h2 H2
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
[X’m-1- X’m] Xm Fm Fm hm Hm
Donde:
X i= marca de clase o punto medio de cada intervalo de clase, se obtiene mediante
la semisuma de los limites de cada intervalo.
X i = Ls + Li
2
fi , Fi, hi, Hi ; representan las frecuencias definidas en el caso anterior.
Procedimiento para construir una tdf por intervalos de clase:
1er. Paso:
Calcular el número de intervalos de clase (K):
Para calcular el valor de K, tenemos dos criterios:
a) Criterio personal; de acuerdo a la experiencia del investigador se puede asumir

un valor de m para un tamaño de muestra determinado.
b) Mediante la Regla de Sturges:
K =1 +3.3 log. n
2do. Paso:
Calcular la amplitud o tamaño del intervalo de clase:(A)
Para calcular la amplitud del intervalo (A) nos basaremos en la siguiente

expresión:
A = Rango de la muestra
K
donde: Rango de la muestra = Valor Mayor – Valor Menor
Con este procedimiento calculamos una amplitud que será constante para cada
intervalo, y lo mismo ocurrirá entre cada marca de clase.
Los intervalos serán de la forma: [Li Ls], pudiendo ser considerado cerrado en el
último intervalo.
La amplitud A es preferible que sea redondeada considerando la misma cantidad

de decimales que tengan los dato de la muestra.
3er. Paso: Tabulaciones
Tabular y presentar los datos agrupados en la tdf.,
Ejemplos: (2.3)
Los siguientes datos representan el peso (gr.) de 35 sobrecitos de unas sustancias:

68, 73, 61, 46, 49, 96, 68, 90, 97, 53, 75, 93, 72, 60, 71, 75, 74, 75, 71, 77, 83, 68,
85, 76, 88, 59, 78, 62, 55, 48, 43, 47, 60, 84, 80. Agrupar en tdf.
Solución:
1) Calculamos K = 1 +3,3 Log 35 = 6.095 = 6

2) Calcula la amplitud del intervalo A:
97  43
A 9
6
A =9
3) Tabular en tdf:
Peso (grs) Xi fi Fi hi% Hi%
[43 – 52> 47.5 5 5 14.3 14.3

[52 – 61> 56.5 5 10 14.3 28.6
[61 – 70> 65.5 5 15 14.3 42.9
[70 – 79> 74.5 11 26 31.4 74.3
[79 – 88> 83.5 4 30 11.4 85.7
[88 – 97] 92.5 5 35 14.3 100.0
Se observa por ejemplo que: 11 sobrecitos tienen un peso comprendido en el

intervalo [70-79> grs. y representan el 31.4% del total.
También vemos que 15 sobrecitos pesan menos de 70 grs. y representan el 42.9%
del total.
PRESENTACION DE DATOS
LOS GRAFICOS
Los gráficos son representaciones en forma de figuras geométricas, de superficie
o volumen con el objeto de ilustrar los cambios o dimensión de una variable, para
comparar visualmente dos o más variables similares o relacionadas. Para una
rápida comprensión de situaciones o variaciones en cantidades, es muy útil traducir
los números en gráficos o imágenes. Por su naturaleza, un gráfico no toma en
cuenta los detalles y no tiene la misma precisión que una tabla estadística.
Veamos algunos tipos de Gráficos :
1. Histograma de frecuencias: Representa un conjunto de rectángulos

levantados desde cada intervalo de clase hasta la frecuencia correspondiente
(absoluta ó relativa).
2. Polígono de frecuencias: Consiste en unir los puntos medios ó marcas de clase

levantadas hasta cada frecuencia correspondientes, generalmente para su
construcción nos podemos basar del Histograma de frecuencias.
Propiedad: Area del Histograma = Area del Polígono de frecuencia.
3. Ojiva: Se construye basándose en un diagrama escalonado, es decir

considerando las frecuencias acumuladas (absoluta ó relativa), y uniendo los límites
de cada intervalo.
HISTOGRAMA Y POLIGONO DE FRECUENCIAS
HISTOGRAMA DE FRECUENCIAS
15.00
10.00
fi
5.00
0.00
.47.5 .56.5 .65.5 .74.5 .83.5 .92.5
Xi
SESION # 7
LOS ESTADIGRAFOS DE TENDENCIA CENTRAL
Se llaman así, porque tienden a ubicar el centro de las observaciones; Estos

estadígrafos de posición son: media, mediana, moda, media geométrica, media
armónica, etc. Estudiaremos los más importantes:
X 
1. La Media Aritmética
Llamada también promedio, es el estadigrafo de posición más simple y fácil
de calcular, por eso es el más común.
Se calcula teniendo en cuenta los siguientes casos:
1er. Caso: Datos no agrupados en tablas de frecuencias:

Sean X1, X2............, Xn variables que representan los n datos de una muestra, la
media aritmética se calcula:
n
Xi
X 
i 1 n
2do. Caso: Datos Agrupados en tabla de frecuencias:
En este caso se calcula mediante la siguiente fórmula:
X 
 Xi * fi fi = frec. Absoluta
n
hi = frec. Relativa
O también:
X   Xi * hi
hi = frec. Relativa
PROPIEDADES DE LA MEDIA ARITMETICA
1. La media de los datos todos iguales a una misma constante es igual a la

constante:
X  X (K )  K
Sea K = cte. y cada Xi = k -----------------
2. Si a cada dato e le suma o resta una constante k, la media queda sumada o

restada por dicha constante:
Si Xi = Xi + K -------------------- X(Y) = X(X+k) = X (X) + k
3. Si a cada dato se le multiplica o divide por una constante k, la media queda

multiplicada o dividida por dicha constante.
4. Sí Yi = Xi* k ------------------------- X(Y) = X(X* k) = X (X) * k
NOTA. Todas las propiedades cumplen para datos agrupados y no

agrupados
 ( Xi  X )  0 Datos no agrupados
 ( Xi  X ) * fi  0
5. La suma de las desviaciones respecto a la media es igual a cero.

Datos agrupados
ESTADIGRAFOS DE TENDENCIA CENTRAL
2. Media Geométrica: se eleva cada valor al número de veces que se ha repetido.

Se multiplican todo estos resultados y al producto final se le calcula la raíz "n"
(siendo "n" el total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés

anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicador
sobre el de los años anteriores. En todo caso, la media aritmética es la medida de
posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la

serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media

aritmética como geométrica) se puede ver muy influido por valores extremos, que
se aparten en exceso del resto de la serie. Estos valores anómalos podrían
condicionar en gran medida el valor de la media, perdiendo ésta representatividad.
3. La Mediana (Me) :
Es aquel estadígrafo de posición que divide en dos partes iguales al conjunto

de observaciones; es decir la mediana representa el valor central de una
distribución de datos ordenados en forma creciente o decreciente.
1er. Caso: Datos No agrupados en TDF:

Primero se ordena los datos en forma creciente o decreciente y luego se
tiene en cuenta sí:
a) n es impar. La mediana es el valor central.
Es el elemento que ocupa la

 n 1
Me  X   posición (n+1) /2
 2 
Ejemplo: Calcular la Me de los siguientes valores:

32, 34, 31, 42, 36, 41, 32, 45, 37, n=9
Ordenando: 31, 32, 32, 34, 34, 36, 37, 41, 42, 45.
Observamos el valor central:
Me=36 (representa el 5to. dato)
c) n es par.La mediana es igual al promedio o la semisuma de los valores

centrales.
Ejemplo: la Me de 12,21,16,18,20,19,16,15,16,17.
Ordenando: 12,15,16,16,16,17,18,19,20,21,
16  17
Me   16.5
2
2do. Caso: Datos Agrupados en TD:
En este caso la Se me calcula mediante la siguiente fórmula:
Me  Li 

Ame * n  Fme1
2

f me
Donde:
Li = limite inferior de la clase mediana.

Ame := tamaño del intervalo de la clase mediana.
Fme-1 = Frec. Abs. Acumulada anterior a la clase mediana.
fme = Frecuencia absoluta de la clase mediana.
Clase Mediana: Es aquel intervalo que contiene el valor que ocupa la
posición media, es decir contiene a la mediana. Se calcula mediante:
El primer valor Fi mayor o igual que n/2
4. LA MODA (Mo)
Representa al valor que más se repite en un conjunto de observaciones:
- Si la distribución de frecuencias tiene un solo valor máximo, entonces:

UNIMODAL.
- Si la distribución presenta más de un valor máximo: , entonces:
POLIMODAL.
- Si no hay algún valor que se repita con más frecuencia:
DISTRIBUCION UNIFORME
1er. Caso: Datos no agrupadas
Señalar el valor que más se repite.

Ej. 4,5,6,7,4,5,4,6,5,5,4,5,5 Mo = 5 UNIMODAL
Ej. 7,7,6,8,8,6,8,7,7,9,12,11,10,8 Mo = 8 BIMODAL
2do. Caso: Datos Agrupados en Tablas de Frecuencias_
 D1 
M o  Li  Amo *  
 D1  D 2 
Donde:
Li = limite inferior de la clase modal.

Amo = Amplitud de la clase modal.
D1 = Diferencia ente la Frec. Absoluta de la clase
modal menos la frecuencia absoluta anterior.
D2 = Diferencia ente la Frec. Absoluta de
la clase modal menos la siguiente.
Clase Modal: Representa el intervalo con la mayor frecuencia absoluta.
Ejemplos. (3.1)
Calcular la Media Aritmética, Mediana y Moda de la Tabla de frecuencias del ejemplo (2.3).
47.5 * 5  56.5 * 5  ....  92.5 * 5 gramos

X   70.336
35
Para calcular la mediana, la clase mediana es el 4to. intervalo:
 35  15 
Me  70  9 *  2   72.05 gramos
 11 
 
Para calcular la Moda, la clase modal es el 4to. intervalo, por que presenta
la mayor frecuencia absoluta.
D1=11 - 5 = 6
D2=11 – 4 =7
 6  Gramos
M o  70  9 *    74.15
67
Nota: La media =mediana = moda, si la distribución es simétrica.
SESION # 9
ESTADIGRAFOS DE TENDENCIA NO CENTRAL
Las medidas de Posición o de Tendencia no centrales permiten conocer otros

puntos característicos de la distribución que no son los valores centrales. Entre
otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en
tramos iguales:
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada

de forma creciente o decreciente, en cuatro tramos iguales, en los
que cada uno de ellos concentra el 25% de los resultados.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada

de forma creciente o decreciente, en diez tramos iguales, en los que
cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos,

ordenada de forma creciente o decreciente, en cien tramos iguales,
en los que cada uno de ellos concentra el 1% de los resultados.
Ejemplo: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura

de un grupo de alumnos). Los deciles y percentiles se calculan de igual manera,
aunque haría falta distribuciones con mayor número de datos.
Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada
X x x x X
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
1º cuartil: es el valor 1,22 cm, ya que por debajo suya se situa el

25% de la frecuencia (tal como se puede ver en la columna de la
frecuencia relativa acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil

se situa otro 25% de la frecuencia.
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil

se sitúa otro 25% de la frecuencia. Además, por encima suya queda
el restante 25% de la frecuencia.
Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez
(como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central
sería realmente una de las repeticiones
Fórmulas para calcular los Cuartiles
Para calcular el Primer Cuartil
n 
  F1i
Q1  Li   
4
F2
Para calcular el Segundo Cuartil
n 
  F1i
Q 2  Li   
2
F2
Para calcular el Tercer Cuartil
 3n 
  F1i
Q3  Li   
4
F2
DONDE:
Q1 = Primer Cuartil
Q2 = Segundo Cuartil
Q3 = Tercer Cuartil
Li = Límite Real inferior de la Clase que contiene el Cuartil
n = Número de datos
F1 = Frec. Acumulada de la clase anterior a la clase del Cuartil
F2 = Frecuencia absoluta de la Clase del Cuartil
i = Intervalo de Clase
Ejemplo: Calcular el Primer Cuartil de la siguiente distribución de frecuencias,

referente al consumo de energía eléctrica de un grupo de usuarios
Consumo Número de Frecuencia Límites

Kw Hora Consumido Acumulada Reales
r
05 - 24 4 4 4.5 -
24.5
25 - 44 6 10 24.5 -
44.5
45 - 64 14 24 44.5 -
64.5
65 - 84 22 46 64.5 -
84.5
85 - 104 14 60 84.5 -
104.5
105 - 124 5 65 104.5 -
124.5
125 - 144 7 72 124.5 -
144.5
145 - 164 3 75 144.5 -
164.5
75
 75 
  10  20
Q1  44.5   
4
 57 KwHora
14
Como cada Cuartil representa el 25%, entonces el Primer Percerntil será el 25%.
Respuesta.- El 25% de los usuarios consume 57 KW Hora.
Fórmula para calcular los Deciles
D = El Decil
Li = Límite Real inferior de la Clase que contiene el Decil
D # = El número de Decil que se quiere hallar
F1 = Frec. Acumulada de la clase anterior a la clase del Cuartil
F2 = Frecuencia absoluta de la Clase del Cuartil
Utilizando el ejemplo: Calcular el Cuarto Decil de la distribución de frecuencias,

referente al consumo de energía eléctrica del grupo de usuarios
Como cada Decil representa el 10%, entonces el Cuarto Decil será el 40%..
Respuesta.- El 40% de los usuarios consume 69.95 KW Hora.
Fórmula para calcular los Percentiles
P = El Percentil
Li = Límite Real inferior de la Clase que contiene el Percentil
P # = El número de Percentil que se quiere hallar
F1 = Frec. Acumulada de la clase anterior a la clase del Percentil
F2 = Frecuencia absoluta de la Clase del Percentil
Utilizando el ejemplo: Calcular el Percentil 79 de la distribución de frecuencias,

referente al consumo de energía eléctrica del grupo de usuarios
Como cada Percentil representa el 1%, entonces el Percerntil 79 será el 79%..

Respuesta.- El 79% de los usuarios consume 103.43 KW Hora.
SESION # 10
EXAMEN PARCIAL
SESION # 11
ESTADIGRAFOS DE DISPERSION O VARIABILIDAD
Son aquellos números que miden o cuantifican la variabilidad de las

observaciones, con respecto a un estadígrafo posición (generalmente la media
aritmética). Los principales estadígrafos de dispersión son los siguientes:
1. LA VARIANZA: V (X)
Se define como el promedio del cuadrado de las desviaciones con respecto a la

media.
Cuando la varianza es muestral, entonces V(x) se puede denotar como
y si la varianza es poblacional, entonces V(x) se denota como
.En este capítulo estudiaremos la varianza muestral.
La varianza se calcula, teniendo en cuenta los siguientes casos:
1er. Caso: Datos no agrupados en tablas de frecuencia:

Desarrollando esta sumatoria, obtenemos una forma más simple para
calcular la varianza:
2do. Caso: Datos agrupados en tablas de frecuencias:
O también:
Desarrollando esta sumatoria, obtenemos:
O también:
Donde:
Xi = marca de clases.
fi = frecuencia absoluta
hi = frecuencia relativa
Propiedades de la Varianza:
1. V(X) >= 0 (siempre la varianza es positiva ó

igual a cero).
2, V(K) = 0 Esto es si cada Xi = k (constante).
3. V(X+/- K) = V(X) si a cada Xi se le suma (o resta), una constante K
entonces la varianza no varia.
4. si a cada dato se multiplica (o por una constante

K, entonces la constante sale elevada cuadrado).
5. Siendo a y b constantes, X e
Y variables independientes
2. DESVIACION STANDART O TIPICA : S(X)
Se define como la raíz cuadrada positiva de la varianza, y como la varianza

esta expresada en unidades cuadradas, la desviación standart (que esta
expresada en las mismas unidades de los datos), representa mejor la
variabilidad de las observaciones.
3. COEFICIENTE DE VARIACION: C.V.
Representa la relación que existe entre la desviación standart y el promedio

de un conjunto de observaciones. El C.V. como no tiene unidades se debe
expresar en porcentaje y sirve como medios de comparación con otras
distribuciones de cualquier tipo de unidad.
Se calcula:
Donde:
S(x) = desviación típica
X = promedio aritmético ó
Ejemplos:
1. Los siguiente datos son temperaturas en grados Fahrenheit
415,500,480,490,476,500,432,479,489,497,496,478,453.
Sin ordenar en tablas de frecuencias:

a) Calcular la varianza.
b) Si a cada dato se le divide entre 5 y luego se suma 10. Hallar la nueva
varianza.
Solución:
a) Primero tenemos que calcular el promedio para datos no agrupados:

°F
Entonces, calculamos la varianza:

b) Es decir:
Esto se resuelve usando

propiedades:
2. Dada la siguiente tabla de frecuencias, que representa el peso (grs), de 34

sobres de cartas:
Intervalos Xi fi Fi
[ 7 – 8> 7.5 1 1
[ 8 – 9> 8.5 2 3
[ 9 – 10> 9.5 8 11
[10 – 11> 10.5 11 22
[11 – 12> 11.5 6 28
[12 – 13] 12.5 6 34
a) Calcular el peso promedio y la mediana.

b) Calcular el Coeficiente de Variación (C.V.)
Solución:
a) Calculando el promedio:
Gramos
Calculando la mediana:
Gramos
b) Para calcular el C.V. debemos primero calcular la varianza
Calculamos la desviación standart: S(X)=-1.2708 grs. Entonces:
3. Se tiene dos muestras:
En qué muestra cree Ud. Que halla menos variabilidad?
Solución:
Primero hay que tener en cuenta que no se puede comparar las desviaciones
standares de cada nuestra, porque están expresadas en diferente unidades,
pero si podemos compararlas con sus C.V. respectivos:
Entonces, comprando ambos coeficientes nos damos cuenta que existe

menor dispersión en los datos de la primera muestra.
NOTA: Un C.V. ideal debe estar:
SESION # 12
CAPITULO V: DISTRIBUCION BIDIMENSIONAL
ANALISIS DE REGRESION Y CORRELACION LINEAL SIMPLE
Los métodos estadísticos presentados lo hemos referido hasta Ahora a una

sola variable, muchos de los problemas de trabajo estadístico, sin embargo
involucran 2 ó más variables. En algunos casos las variables se estudian
Simultáneamente, para ver la forma en que se encuentran interrelacionadas,
también si se desea estudiar una variable de interés particular. Estos dos
casos de problemas se conocen por lo general con los nombres de
correlación y regresión.
Antes de definir estos casos hablaremos sobre aspectos importantes que

involucran 2 variables: Distribución Bidimensional.
5.1. Cálculo de la Covarianza: S (XY)

La varianza, es la medida que estudia la dispersión de dos variables, se
calcula teniendo en cuenta:
1er. Caso: Datos no agrupados en tablas de frecuencia: En este caso,

las variables X é Y se toman en forma simultánea; es decir se considera no
agrupados porque se toman los valores como puntos cartesianos (pares de
valores). (X1,Y2), (X2,Y2)..........(Xm,Ym). Esto es:
X X1 X2 X3 ........ XN
..
Y Y1 Y2 Y3 ........ YN
..
N: número de observaciones ó total de pares de valores.

De cada observación se analiza dos variables Simultáneamente.
Las Covarianza; S (XY) se define:
............................. ( I
)
desarrollando la sumatoria y simplificando:
.........................( II)
Para calcular la covarianza S(XY), es preferible utilizar la ec. (II). Los
promedios de X y de Y, así como las desviaciones standares S(X) Y S(Y),
se calculan como en los capítulos 3 y 4.
2do. Caso: Datos Agrupados en tablas de frecuencias:
En este caso cada variable X e Y, están agrupados en tablas de frecuencias

presentándose lo que se llama: Distribución Bidimensional o Tabla de Doble
Entrada.
En forma tabular:
X : agrupado en K intervalos (y = 1... k)

Y : agrupado en m intervalos (j = 1.. m).
Donde:
Xi : marca de clase (variable X)

Yj : marca de clase (variable Y)
fij : frecuencia absoluta conjunta, corresponde al número de
observaciones que existe en el I-ésimo intervalo de X con el
j-ésimo intervalo de Y.
Observaciones:
(1) Según la definición de la covarianza (tanto para datos agrupados

como no agrupados), la covarianza puede ser negativa.
(2) La covarianza presenta unidades de cada una de las variables
involucradas.
(3) La covarianza S(XY), también se denota: Cov (X,Y)
Ejemplos:
(5.1) Dada la siguiente tabla, que representa la medida (X) en cm. De 8

barretas de metal y el peso (Y) en libras de cada una de ellas, calcular:
a) S(X) b) S(Y) c) S(XY)

X 1 3 4 6 8 9 11 14
Y 1 2 4 4 5 7 8 9
Solución:
Este ejemplo, corresponde a datos no agrupados en tabla de frecuencias.
a) S2 S (X) = 4.06 (X) =

cm.
b) S2 (Y)
S (Y) = 2.65
lbs
S (XY) = 10.5 cm. lbs

(5.2) Dada la siguiente tabla en el cual se estudia las alturas (pulg) y los pesos
(libras) de 300 estudiantes hombres en una Universidad:
X : altura (pulgadas).
Y : peso (libras).
58-62 62-66 66-70 70-74 74- Total

Y 78 fy
X
90-110 2 1 3
100-120 7 8 4 2 21
130-140 5 15 22 7 1 50
50-160 2 12 63 19 5 101
170-180 7 28 32 12 79
190-200 2 10 20 7 39
210-220 1 4 2 7
Total
Fx 16 45 128 84 27 300
Calcular:
S (X) , S(Y) , S (XY)
Solución:
Como la tabla es Bidimensional, podemos formar tablas de frecuencias para

cada una de las variables por separado, a este proceso se le conoce como
TABLAS MARGINALES.
Tabla marginal para x::
Intervalos Xi Fi
58 – 62 60 16
62 – 66 64 45
66 – 70 68 128
70 – 74 72 84
74 – 78 76 27
300
Tabla Marginal para Yi:

Intervalos Yj f.j.
90 – 110 100 3
110 – 130 120 21
130 – 150 140 50
150 – 170 160 101
170 – 190 180 79
190 – 210 200 39
210 – 230 220 7
300
La variable X presenta 5 intervalos ( i = 1 .....5)

La variable Y presenta 7 intervalos ( j = 1 .....7)
Calculando:
S (X) = 3.929 pulgadas
S (Y) = 24.202 Lbs.
Calculando la Covarianza:
S(XY) =51.370 pulg/lib.

PROBLEMAS RESUELTOS
a) tablas de frecuencia y Estadigrafos de posición:
1) La siguiente distribución muestra el peso en gramos de 30 paquetes de

un determinado producto:
Gramos [10 14.5> [14.5 [19.5 [24.5 [29.5 35>

19.5> 24.5> 29.5>
hi M/2 0.17 2M M 0.13
Se pide completar la tabla:
Solución
Si la sumatoria de las hi = 1
Sabemos que : M/2 + 0.17 +2M +M +0.13 = 1
M/2 +3M = 1-0.30
M/2 +3M = 0.7
7M = 1.4
fi
M = 0.2 sabemos que hi 
n
Por lo tanto fi = hi * n
Remplazando valores de hi
hi hi
M/2 0.10
0.17 0.17
2M 0.40
M 0.20
0.13 0.13
Completando el cuadro:
Intervalos Xi fi Fi hi Hi
[10.5 14.5> 12.25 3 3 0.10 0.10
[14.5 19.5> 17 5 5 0.17 0.17
[19.5 24.5> 22 12 12 0.40 0.67
[24.5 29.5> 27 6 6 0.20 0.87
[29.5 35> 32.25 4 4 0.13 1.00
30 1.00
2)Los siguientes datos son los puntajes obtenidos por 50 estudiantes en un examen
de Estadística I:
33, 35, 35, 39, 41, 41, 42, 45, 47, 48,
50, 52, 53, 54, 55, 55, 57, 59, 60, 60,
61, 64, 65, 65, 65, 66, 66, 66, 67, 68,
69, 71, 73, 73, 74, 74, 76, 77, 77, 78,
80, 81, 84, 85, 85, 88, 89, 91, 94, 97.
Clasificar estos datos convenientemente en intervalos de clase de igual amplitud y

construir los gráficos respectivos.
Solución
I) Rango = 97-33 = 64
II) K = 1+3.32 * log (10) = 1+ 3.22 (1.699) = 6.47
Redondeando al entero inmediato superior K = 7 (siete intervalos)
III) La amplitud de Clase A = 64 / 7 = 9.14, aproximando al entero mayor

(recuerda que la amplitud debe tener la característica de los datos)
A = 10
Para facilitar el conteo de las frecuencias, tomaremos como límite inferior de la

primera clase 30.
clases xi fi Fi hI HI
[30, 40> 35 4 4 0.08 0.08
[40, 50> 45 6 10 0.12 0.20
[50, 60> 55 8 18 0.16 0.36
[60, 70 > 65 13 31 0.26 0.62
[70, 80> 75 9 40 0.18 0.80
[80, 90> 85 7 47 0.14 0.94
[90, 100> 95 3 50 0.06 1.00
TOTAL 50 1.00
Nótese que en el ultimo intervalo el límite superior puede ser abierto ya que
sobrepasa al valor más alto de los datos.
GRAFICOS
HISTOGRAMA Y
POLIGONO DE
20
FRECUENCIA
FRECUENCIAS
0
35 45 55 65 75 85 95
MARCAS DE CLASE
LA OJIVA
50
Fi
0
35455565758595
MARCAS DE CLASE…
Regresión lineal
1) La tabla muestra alturas con aproximación de pulgadas y los pesos con

aproximación de libras de una muestra seleccionada al azar:
altur 70 63 72 60 66 70 74 65 62 67 65 68
a
pes 15 150 180 135 156 168 178 160 132 145 139 152
o 5
a) Hallar la ecuación de la recta de ajuste usando mínimos cuadrados.

b) Estimar el peso de un estudiante cuya altura es de 61 pulgadas.
c) Estimar la altura de un estudiante cuyo peso es de 170 libras.
Solución:
X Y X*Y
70 155 4900 10850
63 150 3969 9450
72 180 5184 12960
60 135 3600 8100
66 156 4356 10296
70 168 4900 11760
74 178 5476 13172
65 160 4225 10400
62 132 3844 8184
67 145 4489 9715
65 139 4225 9035
68 152 4624 10336
X = 802 Y=1850  = 53792 X*Y =
124258
Calculando a y b:
a = -60.75
Y = -60.75 + 3.22 X
b = 3.22
a)
b)Y = -60.75 + 3.22(61) = 135.67 libras. Redondeando Y =136 libras.
b) 170 = -60.75 + 3.22 X
Pulgadas, redondeando X = 72 pulgadas
2) La producción de acero en Estados Unidos en millones de toneladas cortas (una

tonelada corta = 2000 libras), durante los años 1946 – 1956 aparecen en la
siguiente tabla:
Años Producción en
Ton. cortas
1946 66.6
1947 84.9
1948 88.6
1949 78.0
1950 96.8
1951 105.2
1952 93.2
1953 111.6
1954 88.3
1955 117.0
1956 115.2
a) Halla la ecuación de ajuste (recta de mínimos cuadrados).

b) Estima la producción de acero durante los años 1957 y 1958.
c) Estima la producción de acero durante los años 1945 y 1944.
Solución:
Para poder trabajar con los años se debe colocar una escala paralela que inicie en
cero (pues las fechas no sirven para estos cálculos).
Años X Y X*Y
1946 0 66.6 0 0
1947 1 84.9 1 84.9
1948 2 88.6 4 177.2
1949 3 78.0 9 234.0
1950 4 96.8 16 387.2
1951 5 105.2 25 526.0
1952 6 93.2 36 559.2
1953 7 111.6 49 781.2
1954 8 88.3 64 706.4
1955 9 117.0 81 1053
1956 10 115.2 100 1152
 TOTALES 55 1045.4 385 5661.1
a) Hallando la recta de ajuste
a = 75.30
Y = 75.30 + 3.95 X
b = 3.95
b y c) Estimando la producción:
Años X Producción
1944 -2 67.40
1945 -1 71.35
1957 11 118.75
1958 12 122.70

Actividad de Estadistica 3

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Actividad de Estadistica 3

Uploaded by

Copyright:

Available Formats

FACULTA DE INFORMATICA Y CIENCIAS APLICADAS

Asignatura: estadística y probabilidades

San Salvador, 18 de abril de 2018

Aplicaciones de la estadística descriptiva

 Resumen de las mediciones principales de las características de un

Ejemplo de cálculo de estadística descriptiva

El gerente calcula los siguientes estadísticos descriptivos numéricos:

Media 6.2 minutos

Desviación estándar 1.5 minutos

Histograma de tiempos de espera Gráfica de caja de tiempos de espera

En general, se puede disponer de cinco tipos de fuentes de datos:

1. Las Oficinas de Estadística.- Como instituciones responsables de recopilar,

2. Archivos o Registros Administrativos.- Como el Registro Civil, Electoral,

3. Documentos.- Boletines, e informes estadísticos que son las publicaciones o

4. Encuestas y Censos.- Son fuentes directas y especiales, que se construyen en

5. Los Elementos o Sujetos.- Son aquellos que están sometidos a un estudio,

TECNICAS DE RECOPILACION O RECOLECCION DE DATOS

1. La Observación.- Es la acción de mirar de mirar en forma sistemática y profunda,

2. La Técnica Documental.- Es aquella que busca datos a través de documentos,

4. El Cuestionario.- Es un instrumento constituido por un conjunto de preguntas

Es el proceso por el cual se deducen (infieren) propiedades o características de

LAS VARIABLES ESTADISTICAS

Las variables se clasifican en:

X= Control de calidad de productos de una industria. Bueno, Malo, Regular,

Y= Estado Civil de una muestra de 200 personas. Soltero, Casado, Viudo,

II. Variable Cuantitativa: Es aquella variable que representa a datos que

Variable Discreta: Es aquella que representa a datos numéricos que no se

Variable Continua: Es aquella variable que representa a datos que pueden

Ejemplo: El Peso (Kg.) de 6 personas.

LA ORGANIZACIÓN DE LOS DATOS

Frecuencia de Clases.- Es el número o cantidad de datos que componen una

Veamos un ejemplo (4.1) :

Alumno Estatura Alumno Estatura Alumno Estatura

Si presentamos esta información estructurada obtendríamos la siguiente Tabla de

Variable Frecuencias Absolutas Frecuencias Relativas

Según los tipos de variables y formas de la tabla de frecuencias, tendremos las

1ER. CASO: Tablas de Frecuencias para la variable Cualitativa:

Se tiene la siguiente información que representa el Estado Civil de 50 personas

Estado Civil No. de personas %

Los gráficos que se presentan en este caso son los siguientes:

2. Gráfico por Sectores Circulares.

2DO. CASO: Tabla de frecuencia para la variable discreta y n < 30 :

En este caso la variable es discreta y la muestra pequeña, además hay que

n = numero de clases o intervalos de clase.

fi = frecuencia absoluta: es el número de observaciones que hay en cada clase o

Fi = frecuencia absoluta acumulada: es el numero de observaciones acumuladas

hi = frecuencia relativa: representa la relación que existe entre la frecuencia absoluta

Generalmente la frecuencia relativa se expresa en forma porcentual: hi % = 100%.

Hi = frecuencia relativa acumulada: frecuencias relativas acumuladas hasta la clase

Se expresa en forma porcentual. Hi x 100%

Los siguientes datos representan el numero de defectos en 15 diskettes: 5, 10, 5,

Como la muestra es pequeña y la variable representa a datos discretos, entonces

No de No. diskettes Fi hi% Hi%

Los gráficos que se presentan en este 2do. Caso son:

1. Histograma de frecuencias: En el sistema de coordenadas rectangulares

3ER. CASO: Tabla de frecuencias por intervalos de clase:

La tdf tiene la siguiente forma:

fi , Fi, hi, Hi ; representan las frecuencias definidas en el caso anterior.

Procedimiento para construir una tdf por intervalos de clase:

Calcular el número de intervalos de clase (K):

Para calcular el valor de K, tenemos dos criterios:

a) Criterio personal; de acuerdo a la experiencia del investigador se puede asumir

b) Mediante la Regla de Sturges:

Calcular la amplitud o tamaño del intervalo de clase:(A)