PYE115

Introducción
El origen de la estadística se pierde en la más lejana antigüedad. Se tienen

noticias históricas de censos chinos del siglo XXIII A. J. C. Tampoco ninguna duda
cabe de que los egipcios tabulaban sus riquezas y potencial humano, antes del
éxodo de los hebreos. Tácito, el historiador, narra la orden del César Augusto
referente a censar sus tropas, marina y habitantes de sus dominios.
La palabra “estadística” deriva parece de la latina status, que en el latín de la
edad media tenía el sentido de “estado político”. “estadística”, significaba el
conjunto de métodos de recolección de datos y documentación útil en la
administración del estado.
Paralelamente a esta línea, se desarrolla la otra: los juegos de azar. Se pone de
moda el juego durante los siglos XVII y XVIII, en las cortes europeas –
principalmente en Francia – y matemáticos grandes, como Pascal y Fermat, en
París, o De Moivre, al servicio de la nobleza, dan un gran impulso a la estadística y
al cálculo de probabilidades, al intentar resolver los problemas de los juegos de azar
que sus clientes acaudalados les planteaban.
El enfoque de la probabilidad comienza a cambiar en el S. XIX con el enfoque
probabilístico del movimiento de las partículas en un líquido (movimiento
browniano). El movimiento browniano y la llegada del teléfono al final del S. XIX y
principios del S. XX, despertaron el interés en la probabilidad. Se cree que entre
1932 y 1934 la probabilidad adquiere una estructura rigurosa matemática.
La ciencia estadística ha comenzado avanzar en terrenos como: en la producción
en masa, economía, física e ingeniería, etc.
La computadora se ha convertido en una herramienta importante en la
presentación y el análisis de datos. Para las técnicas estadísticas que estudiaremos
bastará una calculadora de mano. Entre los paquetes de software estadísticos
disponibles están el SAS, Minitab, Statgraphics y el SPSS.
PARTE I: ESTADISTICA DESCRIPTIVA
Unidad I: ESTADISTICA DESCRIPTIVA
1.1 ¿Qué es estadística?

¿Qué es estadística? ¿Cómo se aplica y de qué manera puede servir en la
solución de algunos problemas en la ingeniería? No se intenta definirla, en su lugar
se plantean tres problemas que se resuelven a través de ella:
1. Supóngase que un ingeniero en carreteras desea estudiar el flujo de vehículos

en un cruce determinado. Podría observar el flujo de vehículos a determinadas
horas y días representativos, para elaborar una estimación del número promedio
de vehículos que pasan por el cruce por hora.
1
2. La producción de una fábrica se ve afectada, tanto en volumen como en calidad,
por muchos factores a lo largo del proceso de producción. Al tener registros que
muestren los valores de estos factores en el pasado, así como los de la producción
actual, se puede intentar establecer una ecuación predictiva que relacione a la
producción con los factores.
3. De un conjunto representativo de clientes, cada uno de ellos es entrevistado para
conocer su opinión con respecto a determinado producto nuevo. De la información
obtenida, el analista de mercados deberá decidir si existe demanda suficiente para
el producto.
Los problemas mencionados ilustran brevemente el hecho de que la estadística
en la ingeniería requiere del uso de información muestral para estimar, predecir y,
en última instancia, para decidir.
En los ejemplos anteriores, el centro de nuestro interés, el gran conjunto de datos
se llama población, y el subconjunto seleccionado de ahí, representa una
muestra.
Se ve pues, que el objetivo de la estadística es el de hacer inferencias (predecir,
decidir) sobre algunas características de una población tomando como base la
información contenida en una muestra.
Cuando se desea conocer alguna característica de una población se lleva a cabo
un censo y para conocer una característica de una muestra se hace uso
generalmente de una encuesta.
1.2 Términos básicos.

La característica de interés sobre cada elemento individual de una población o
muestra se llama variable. La edad de un estudiante que ingresa a la universidad,
el departamento de procedencia, su estatura y su peso son cuatro variables.
El valor de la variable que corresponde a un elemento de una población o
muestra se llama dato. Este valor puede ser un número, una palabra o un símbolo.
Por ejemplo, Manuel Petronilo Osegueda ingresó a la universidad a la edad de “18”
años, procede del departamento de La Libertad, mide “1.70 m.” y pesa “83 kg.”.
Estas cuatro partes de datos son los valores de las cuatro variables aplicadas a
Manuel Petronilo Osegueda.
El conjunto de valores recolectados para la variable de cada uno de los
elementos que pertenecen a la muestra se llaman datos. Por ejemplo, el conjunto
de 25 estaturas recolectadas de 25 estudiantes.
Un experimento es una actividad planeada cuyos resultados proporcionan un
conjunto de datos. El experimento incluye las actividades para seleccionar los
elementos y obtener los valores de los datos.
El valor numérico que resume todos los datos de una población completa se
llama parámetro. La “proporción” de estudiantes que tenían más de 20 años de
edad cuando ingresaron a la universidad es un ejemplo de parámetro. Un parámetro
es un valor que describe a la población. A menudo es utilizada una letra griega para
denotar a un parámetro, por ejemplo: μ y σ la media y varianza poblacional
2
respectivamente.
Para todo parámetro existe un estadístico muestral asociado. El estadístico
describe a la muestra de la misma forma como el parámetro describe la población.
El estadístico es el valor numérico que resume los datos de la muestra. La
estatura “promedio” encontrada al utilizar el conjunto de 25 estaturas es un ejemplo
2
de un estadístico. Casi todos los estadísticos se determinan con ayuda de fórmulas
_
y suelen simbolizarse usando letras del alfabeto español: x y s2 la media y
varianza muestral respectivamente.
Ejemplo 1.1. Un estudiante de estadística está interesado en determinar algo

sobre el valor promedio de los libros de texto para los estudiantes de la facultad de
ingeniería de una universidad. Cada uno de los términos recientemente descritos
puede identificarse en esta situación.
1. La población es la colección de todos los libros que pertenecen a todos los

estudiantes de la facultad.
2. Una muestra es cualquier subconjunto de una población. Por ejemplo, una
muestra serían los libros textos que pertenecen a los estudiantes de la escuela de
ingeniería civil.
3. La variable es el “valor en dólares” de cada libro texto individual.
4. Un dato podría ser el valor en dólares de un libro texto en particular. El libro del
Br. Rogelio Bernal, por ejemplo, está valorado en $ 20.
5. Los datos serían el conjunto de valores que corresponden a la muestra obtenida
(20; 37.50; 10.25;…).
6. El experimento serían los métodos aplicados para seleccionar los libros que
integren la muestra y determinar el valor de cada libro de la muestra. Podría
efectuarse preguntando a cada estudiante de la escuela de ingeniería civil, o de
otras formas.
7. El parámetro sobre el que se está buscando información es el valor “promedio”
de todos los libros de la población.
8. El estadístico que se encuentra es el valor “promedio” de todos los libros textos
de la muestra.
Atendiendo a su naturaleza, las variables bajo estudio pueden clasificarse según

los siguientes tipos:
 Nominal
Cualitativa 
 Jerarquizada
Variable 
Cuantitativa Discreta
 
 Continua
Las variables cualitativas se refieren a características o cualidades que no

pueden ser medidas con números. Podemos distinguir dos tipos:
1). Las variables cualitativas nominales, presentan modalidades no numéricas
que no admiten un criterio de orden. Por ejemplo, el estado civil: soltero, casado,
separado, divorciado y viudo.
2). Las variables cualitativas ordinales o jerarquizadas, presentan modalidades
no numéricas, en las que existe un orden. Por ejemplo, puestos en una prueba
deportiva: 1º, 2º y 3º.
Una variable cuantitativa es la que se expresa mediante un número, por tanto
se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:
3
1). Una variable discreta es la que asume solo valores aislados, es decir no admite
valores intermedios entre dos valores específicos. Por ejemplo, el número de goles
x en un partido de fútbol.
2). Las variables continuas son aquellas que pueden asumir virtualmente cualquier
valor en un determinado intervalo real, como el peso w o la altura h de un estudiante.
La misma población puede dar origen a diferentes tipos de datos, como en la
población de alumnos de la carrera de Ingeniería Civil de la UES.
Continuo Discreto Nominal Jerarquizado

Edad
Peso (años) Sexo Ciclo
1.3 Ramas de la estadística

Conviene establecer claramente las ramas de la estadística, bien distintas en sus
objetivos e instrumentos de cálculo.
La estadística descriptiva trata con la organización, el resumen y la
presentación de datos. Utiliza métodos gráficos y numéricos para describir un
conjunto de datos. Organiza, resume y simplifica en términos generales información
que a menudo es bastante compleja. Se ocupa de los métodos para organizar y
resumir datos.
En la probabilidad, las propiedades de la población en estudio se suponen
conocidas, y se formulan y responden preguntas en relación con una muestra
tomada de la población.
En la estadística inferencial, las características de una muestra están
disponibles para el experimentador, y esta información lo capacita para sacar
conclusiones respecto de la población.
La relación entre las dos últimas disciplinas se puede resumir al decir que la
probabilidad razona desde la población hacia la muestra (razonamiento deductivo),
mientras que la estadística inferencial razona desde la muestra hacia la población
(razonamiento inductivo).
La estadística inferencial o simplemente estadística, consiste entonces en el
análisis e interpretación de una muestra de datos. La idea básica del muestreo es
4
medir una pequeña porción, pero típica de alguna “población”, y posteriormente
utilizar dicha información para inferir que característica tiene la población total. Los
tres tipos más importantes de técnicas inferenciales que estudiaremos son la
estimación puntual, la estimación del intervalo de confianza, y la prueba de
hipótesis.
Así pues, en probabilidad se supone que la población es conocida y se calcula

la probabilidad de observar una muestra particular. En estadística inferencial, se
supone que la muestra es conocida y, con la ayuda de la probabilidad, se trata de
describir la distribución de frecuencias de la población que es desconocida.
1.4 El asistente para gráficos de Excel

Desde la pasada década se ha ido intensificando notablemente la aplicación de
la Informática en las diferentes esferas del quehacer económico–social, lo que ha
estado influenciado por el marcado desarrollo de la computación y de las nuevas
tecnologías de la información.
Se ha planteado en varias ocasiones la siguiente controversia: utilizar software
estadístico o planilla electrónica. La experiencia ha mostrado que ambos son
necesarios, dado que enfatizan diferentes aspectos. Las planillas electrónicas (en
su utilización más sencilla) han sido caracterizadas como una combinación de un
papel cuadriculado con una calculadora. Ellas nos permiten enseñar los
procedimientos de cálculo en forma rápida, pero destacando una forma procedural
(vamos indicando el procedimiento de cómo hacerlo). Por ejemplo, ordenar los
datos, ubicar el punto medio, determinar la mediana y copiar un resultado en otra
celda, entre otros. En cambio los paquetes estadísticos actúan en forma no
procedural, (indicamos sólo lo qué queremos).
Un papel relevante en ese sentido le ha correspondido al perfeccionamiento de
los programas asistentes matemáticos, entre los que el EXCEL ocupa un lugar
importante. Con el desarrollo actual de los asistentes matemáticos es aconsejable
darle un enfoque de aplicación práctica para hacer más efectiva la enseñanza de
las diferentes herramientas estadísticas. Excel como asistente matemático,
presenta potencialidades, tanto para la enseñanza como para la práctica de la
Estadística.
En lo que sigue, en el Asistente para gráficos de Excel, encontraremos
numerosas opciones que pueden seleccionarse según el tipo de comportamiento
que se esté explorando en los datos en cuestión.
Pasos:
El asistente aparecerá al pulsar el botón
1. En el primer paso debemos elegir el tipo de gráfico más conveniente:
barras, columnas, circular, etc.
2. Lo siguiente es elegir los datos de origen: primero si los datos están en filas
o en columnas y dónde están. Ahora debemos elegir las series que queremos
representar en este gráfico y dónde se encuentran los rótulos.
5
3. Opciones de gráfico, donde debemos elegir el aspecto de ejes, leyenda,
rótulos, títulos, etc.
4. Finalmente debemos elegir la ubicación del gráfico.
Muchos de los elementos que hemos ido eligiendo en los pasos anteriores
pueden ser cambiados utilizando la barra de herramientas gráfico.
1.5 Datos cualitativos. Gráficos.

Cuando un gran número de datos se presenta, la presentación con la palabra
escrita se vuelve ineficiente y pesada. En este caso conviene usar cuadros y
gráficas.
Cuando los datos estadísticos se presentan en forma de cuadros o tablas, los
datos son arreglados sistemáticamente en columnas.
El número de veces que aparece repetido un determinado valor de la variable se

denomina frecuencia absoluta, f, o simplemente frecuencia.
Una tabla de distribución de frecuencias, es un cuadro que contiene

información resumida.
Un cuadro estadístico en el que se presentan datos cualitativos con su

respectiva frecuencia de ocurrencia, se llama tabla de atributos.
Las partes principales de una tabla de atributos son: 1) título, 2) encabezado, 3)

conceptos, 4) cuerpo, y 5) fuente de datos. Estas partes son básicas y deben ser
incluidas en cualquier tabla.
Ejemplo 1.2. Condición de tenencia de la vivienda, en el Departamento de San

Salvador, V Censo de Población y Vivienda 2007.
6
Un diagrama estadístico o gráfica es un medio plástico para presentar datos
estadísticos.
Una gráfica se construye usualmente de acuerdo con la información

proporcionada en una tabla. Una gran variedad de gráficos ha sido usada en
estudios estadísticos para presentar datos o para mostrar las relaciones entre varios
grupos de datos. Hay una gran variedad de gráficos usados para presentar datos
estadísticos. Los tipos más comunes de gráficos son: gráfico de línea, gráfico de
barras, gráfico de partes componentes y pictogramas.
La gráfica de línea consiste de líneas o segmentos de líneas rectas, también

llamadas curvas o poligonales.
Las graficas de línea que son principalmente usadas para mostrar datos
clasificados sobre las bases de intervalos de tiempo, son referidas como series de
tiempo.
Ejemplo 1.3. En la siguiente tabla se presenta la Deuda Externa Total de 2003 a

2007 en millones de US $. Describa esta información mediante un gráfico de línea.
7
DEUDA EXTERNA TOTAL DE 2003 A 2007
(En millones de US $)
Año Remesa
2003 7916.7
2004 8210.5
2005 8761.4
2006 9584.3
2007 9059.7
Fuente: CEPAL
La deuda externa total en 2007, totalizó US $ 9059.7, mostrando una disminución

de a - 5.5% con relación al año anterior. ¿Qué podemos decir con respecto a
los años anteriores?
La gráfica de barras tiene un número de barras rectangulares.
La gráfica de barras se utiliza para representar tanto datos cualitativos como

cuantitativos, referidos siempre a variables discretas. La anchura de cada barra es
usualmente igual a la de las otras. La longitud de cada barra muestra los datos
representados. Las barras en una gráfica de barras pueden ser arregladas de
manera vertical u horizontal, dependiendo de la preferencia. En general, las barras
verticales son usadas para presentar datos clasificados cronológica o
cuantitativamente, mientras que las barras horizontales son preferidas para
presentar datos clasificados geográfica o cualitativamente.
Ejemplo 1.4. Describa la información del ejemplo precedente, mediante un gráfico

de barras vertical.
8
En el período 2004 a 2006 se experimenta un aumento en la deuda externa, ¿cuál
es el promedio porcentual de aumento?
Una gráfica de partes componentes muestra las relaciones entre la partes

individuales lo mismo que el total o totales de las partes de una o varias series de
datos.
Los tipos más comunes de gráficas de partes componentes son: gráfica de

partes componentes de línea o de barras, gráfica de pastel y gráfico polar.
Ejemplo 1.5. En la siguiente tabla se presentan las remesas familiares de Enero

a Octubre de los años 2008 a 2009. Describa esta información mediante un grafico
de partes componentes de línea.
INGRESOS POR REMESAS FAMILIARES ENERO-OCTUBRE AÑOS 2008 Y

2009
Años
2008 2009
Meses
Enero 275.5 252.4
Febrero 298.3 275.1
Marzo 338.4 315.8
Abril 338.5 292.5
Mayo 353.4 308.2
Junio 334.4 295.7
9
Julio 332.1 286.1
Agosto 305.7 287.4
Septiembre 304.7 270.9
Octubre 304.3 281.7
TOTAL 3185.30 2865.80

FUENTE: BCR
INGRESOS POR REMESAS FAMILIARES ENERO-

OCTUBRE AÑO 2008 Y 2009
400
En millones de US $
350
300
250 Año 2008
200
Año 2009
150
100
50
0
En Feb Mar Abr May Jun Jul Ago Sep Oct
El ingreso por concepto de remesas familiares acumulado de enero a octubre de

2009, totalizó US $ 2,865.8, mostrando una disminución de -10% con relación al
mismo período del año anterior.
La disminución acumulada significó que las familias dejaron de percibir en

conjunto US $ 319.5 respecto a lo observado el año anterior.
¿Qué podemos decir del promedio?
En la gráfica de partes componentes de barras dobles sobrepuestas, la

altura de cada parte de una barra es hecha de acuerdo con el número de
unidades de cada parte componente.
Los gráficos de partes componentes de barras dobles sobrepuestas, pueden ser

verticales u horizontales.
Ejemplo 1.6. La siguiente tabla presenta las exportaciones e importaciones totales

durante el período Enero-Octubre año 2008 y 2009 en millones de US $. Describa
10
esta información mediante un gráfico de partes componentes de barras dobles
sobrepuestas verticales.
EXPORTACIONES E IMPORTACIONES ENERO-OCTUBRE AÑO 2008 Y 2009

Año Exportaciones Importaciones
2008 3907.3 8389
2009 3219 6018.2

Fuente: BCR
EXPORTACIONES E IMPORTACIONES ENERO-

OCTUBRE AÑO 2008 Y 2009
(Millones de US $)
14000
Millones de US $
12000
10000
8000 8389 Importaciones
6000 6018.2 Exportaciones
4000
2000 3907.3 3219
0
2008 2009
Años
El flujo acumulado de exportaciones de enero a octubre de 2009, totalizó US $

3219, mostrando una disminución de -17.6% con relación al mismo período del año
anterior. La disminución acumulada significó que se dejó de percibir en conjunto US
$ 688.30. ¿Qué podemos decir de las importaciones? ¿Qué podemos decir de la
balanza comercial?
En el gráfico de pastel o circular, un círculo de radio arbitrario se divide en

sectores proporcionales de acuerdo con el número de unidades de cada parte
componente.
En los gráficos de pastel, cada sector se rotula con su nombre y se le coloca el

porcentaje respectivo. El porcentaje se obtiene de igual manera que los sectores.
Ejemplo 1.7. La siguiente tabla muestra los principales países productores de

petróleo en 2006. Describa esta información mediante un gráfico de pastel.
11
PRINCIPALES PAISES PRODUCTORES DE PETROLEO EN 2006
(Millones de barriles diarios (mb/d))
CANTIDAD
PAIS DE
BARRILES
Arabia Saudí 10.72
Rusia 9.67
Estados Unidos 8.36
Irán 4.15
China 3.84
México 3.71
Canadá 3.29
Emiratos Árabes 2.94
Unidos
Venezuela 2.80
Noruega 2.78
Kuwait 2.67
Nigeria 2.44
Brasil 2.16
Argelia 2.12
Irak 2.00
FUENTE: Agencia de Información Energética (AIE) de EUA
CANTIDAD
PAIS DE BARRILES GRADOS PORCENTAJE (%)
Arabia Saudí 10.72 60.63 16.84
Rusia 9.67 54.69 15.19
Estados Unidos 8.36 47.28 13.13
Irán 4.15 23.47 6.52
China 3.84 21.72 6.03
México 3.71 20.98 5.83
Canadá 3.29 18.61 5.17
Emiratos Árabes Unidos 2.94 16.63 4.62
Venezuela 2.80 15.84 4.40
Noruega 2.78 15.72 4.37
Kuwait 2.67 15.10 4.19
Nigeria 2.44 13.80 3.83
Brasil 2.16 12.22 3.39
Argelia 2.12 11.99 3.33
Irak 2.00 11.31 3.14
TOTAL 63.65 360.00 100%
Aquí, se utiliza una regla de tres simple directa, por ejemplo, para Arabia Saudí,
12
63.65 barriles………. 3600
10.72 barriles……….... x
(10.72)(360)
de donde x = = 60.630 , y de igual manera se obtienen los restantes
63.65
sectores.
El porcentaje se obtiene de manera semejante a los sectores.
PRINCIPALES PAISES PRODUCTORES DE PETROLEO 2006

(Millones de barriles diarios (mb/d))
Argelia, 2.12, 3% Arabia Saudi,

Irak, 2, 3% 10.72, 17%
Brasil, 2.16, 3%
Nigeria, 2.44, 4%
Kuwait, 2.67, 4% Rusia, 9.67, 15%

Noruega, 2.78,
4%
Venezuela, 2.8,
5%
Emiratos; 2,94; Estados Unidos;
5% 8,36; 13%
Canadá, 3.29,
5%
¿Con qué
México, gráfica,
3.71, 6% con el diagrama de pastel o con una gráfica de barras, se
obtiene una mejor representación de la información? Irán, 4.15, 7%
China, 3.84, 6%
Al elaborar una gráfica de barras o de pastel, ¿cuál método gráfico refleja mejor los
datos? ¿Por qué?
Si en las tablas, las columnas correspondientes a los atributos corresponden a los

meses del año, entonces una forma de representarlos es por medio del gráfico
polar, el cual consiste en un círculo cuyo radio es equivalente a la frecuencia
promedio de los meses.
En el gráfico polar, el círculo se divide en 12 sectores iguales, las líneas de

separación de estos sectores representan los periodos de tiempo y se prolongan de
manera proporcional a la frecuencia respectiva.
Ejemplo 1.8. Inyección Neta Mensual Eléctrica por mes durante el año 2008.
Describa esta información mediante un gráfico polar.
13
INYECCION NETA MENSUAL ELECTRICA DURANTE EL AÑO 2008
(GWh)
INYECCION
MES NETA MENSUAL
Enero 455.5
Febrero 439.9
Marzo 458.9
Abril 477.1
Mayo 485.5
Junio 460.5
Julio 407.4
Agosto 472.3
Septiembre 463.1
Octubre 471,3
Noviembre 442.4
Diciembre 457.3
TOTAL 5,566.1
Fuente: SIGET
_
El promedio mensual de la inyección neta , x , es
_
inyección neta anual 5,566.1
x= = = 463.8 GWh
número de meses 12
Se asigna a este promedio un radio arbitrario, por ejemplo 5 cm. y luego se calcula
los radios para cada mes, a través de una regla de tres simple directa. Por ejemplo,
para el mes de Enero,
463.8----------------5
455.5-----------------x
(455.5)(5)
de donde, x = = 4.9
463.8
INYECCION
MES NETA MENSUAL RADIO
Enero 455.5 4.9
Febrero 439.9 4.7
Marzo 458.9 4.9
Abril 477.1 5.1
Mayo 485.5 5.2
Junio 460.5 5.0
Julio 407.4 4.4
Agosto 472.3 5.1
Septiembre 463.1 5.0
Octubre 471.3 5.1
Noviembre 442.4 4.8
Diciembre 457.3 4.9
TOTAL 5,566.1
14
A continuación se presenta el gráfico a escala:
Durante el mes de Mayo ocurre la más alta de las inyecciones eléctricas, 485.5
GWh, y la más baja , 407.4 GWh, en el mes de Julio.
Los pictogramas son gráficos con dibujos alusivos al carácter que se está
estudiando y cuyo tamaño es proporcional a las frecuencias que representan.
Generalmente se emplean para representar variables cualitativas.
Ejemplo 1.9. La siguiente tabla muestra los ingresos anuales en concepto de

remesas familiares 2002-2008 en millones de US dólares. Describa esta
información mediante un pictograma.
REMESAS FAMILIARES DE 2002-2008

AÑO CANTIDAD
2002 1,935.2
2003 2,105.3
2004 2,547.6
2005 2,830.2
2006 3,315.7
2007 3,695.3
2008 3,787.7
Fuente: BCR
15
Solución:
Una imagen alusiva será la figura de un paquete de billetes de US $, cuyo tamaño
estará relacionado con la cantidad de dinero remesado en cada año. El pictograma
correspondiente es el que sigue:
El ingreso por concepto de remesas familiares en el período 2002-2008,

experimentó una variación positiva. En el período 2007-2008, se observa una
desaceleración en la variación positiva. ¿Qué comentario le merece este evento?
¡Observe, las representaciones visuales nos pueden engañar!
1.6 Datos cuantitativos. Gráficos.

Variables discretas.
En las tablas de distribución de frecuencias para una variable discreta, la columna
de los datos cualitativos de la tabla de atributos es sustituida, con los valores
numéricos que toma la variable. La representación más adecuada para este caso
es un diagrama de Pareto, gráficas de puntos y diagrama de tallo y hojas.
El diagrama de Pareto es una gráfica de barras con estas dispuestas de la

categoría más numerosa a la menos numerosa. Incluye una gráfica hecha a base
de rectas que muestra los porcentajes acumulados y la cantidad de datos
representada por cada barra. El diagrama de Pareto es una herramienta
estadística que permitir organizar por orden de relevancia los problemas o las
causas que los generan. La viabilidad del diagrama de Pareto está respaldada por
el llamado Principio de Pareto, conocido como “Ley 80-20” o “ Pocos Vitales,
muchos triviales”, el cual separa los pocos elementos (20 %) que generan la mayor
parte del efecto (80%).
La Utilización del diagrama de Pareto permite que cuando se quiera mejorar un
proceso o atender sus problemas se establezcan prioridades y se enfoquen los
esfuerzos donde puedan tener mayor impacto.
Según este concepto, si se tiene un problema con muchas causas, podemos
decir que el 20% de las causas resuelven el 80 % del problema y el 80 % de las
causas solo resuelven el 20 % del problema.
Ejemplo 1.10. Un inspector de camisas clasificó los 500 últimos defectos en una
fábrica de ropa como:
Falta de botón 67 Talla incorrecta 258
Costura defectuosa 153 Desperfecto en la tela 22
16
a. Elabore un diagrama de Pareto para esta información.
b. Según el principio de Pareto que defectos requieren especial atención.
Solución:
a.
b. Talla incorrecta y costura defectuosa. ¿Por qué?

Si la tabla contiene la categoría Otros o Miscelánea, la barra de esta categoría
debe poderse colocar a la derecha de las demás barras.
Un diagrama de puntos es un resumen atractivo para datos numéricos cuando

el conjunto de datos es razonablemente pequeño, o hay relativamente pocos
valores distintos de los datos. Cada observación se representa por un punto arriba
del lugar correspondiente en una escala de medición horizontal. Cuando un valor se
presenta más de una vez, se pone un punto para cada ocurrencia, y esos puntos se
apilan verticalmente. Un diagrama de puntos muestra información acerca de
ubicación, dispersión, valores extremos y huecos.
Ejemplo 1.11. De un grupo se extrajo una muestra de 19 calificaciones de un

examen:
76 74 82 96 66 76 78 72 52 68
86 84 62 76 78 92 82 74 88
Muestre mediante un diagrama de puntos las calificaciones.
17
Observe cómo los datos están “acumulados” cerca del centro y “más dispersos” en
los extremos.
Actualmente se ha vuelto muy popular una técnica conocida como diagrama de

tallo y hojas para resumir datos numéricos. Se trata de una combinación de dos
técnicas: una para graficar y otra para clasificar.
En el diagrama de tallo y hojas, se presentan los datos utilizando los dígitos
que forman los valores de los datos. Cada dato se divide en dos partes: el (los)
dígito (s) principal (es) se convierte (n) en el tallo, y el (los) dígito (s) posterior (es)
se convierte (n) en la hoja. Los tallos se escriben a lo largo del eje principal, y por
cada porción de datos se escribe una hoja para mostrar la distribución de los datos.
Ejemplo 1.12. De un grupo grande se extrajo aleatoriamente una muestra de 19

calificaciones de un examen:
76 74 82 96 66 76 78 72 52 68
86 84 62 76 78 92 82 74 88
elabore un diagrama de tallo y hojas.
Solución:
Se observan puntajes en las decenas: 50, 60, 70, 80 y 90. Como tallo se utiliza el
primer dígito y como hoja, el segundo dígito. Generalmente, la representación se
realiza en posición vertical. Se traza una recta vertical y se escriben los tallos, en
orden, a la izquierda de la recta.
Luego, se coloca cada hoja en su tallo. Esto se hace escribiendo el último

dígito a la derecha de la recta vertical, enfrente de su dígito principal
correspondiente
18
19 puntos de examen
5 2
6 6 8 2
7 6 4 6 8 2 6 8 4
8 2 6 4 2 8 Tallo: decenas
9 6 2 Hoja: unidades
En algunos casos se prefiere proporcionar más clases o tallos. Una forma de

hacer esto es modificar los tallos originales de la manera siguiente: se divide el tallo
5 (por ejemplo) en los nuevos tallos, 5L y 5U. El tallo 5L tiene las hojas 5, 6, 7, 8 y
9. Esto duplica el número de tallos originales. Puede cuadriplicarse el número de
tallos originales se definen cinco tallos nuevos: 5z con las hojas 0 y 1, 5t con las
hojas 2 y 3, 5f con las hojas 4 y 5, 5s con la hojas 6 y 7, y 5e con las hojas 8 y 9.
Ejemplo 1.13. Para 25 observaciones del rendimiento por lote de un proceso
químico, se ha ilustrado por un diagrama de tallo y hojas utilizando los números 6,
7, 8 y 9 como tallos.
Tallo: decenas
Hoja: unidades
25 observaciones del rendimiento
por lote de un proceso químico
6 1 3 4 5 5 6
7 0 1 1 3 5 7 8 8 9
8 1 3 4 4 7 8 8
9 2 3 5
El diagrama parece indicar que hay un valor característico o representativo en el

renglón del tallo 7. Las observaciones no están muy concentradas cerca de este
valor característico. El esquema crece hasta un solo pico al ir bajando, y después
declina; no hay huecos en él. La forma del esquema no es del todo simétrica. Por
último, no hay observaciones que estén muy alejadas del grueso de los datos.
Obsérvese que este diagrama produce muy pocos tallos, con lo que el diagrama no
proporciona mucha información sobre los tallos.
Elabore un diagrama de tallo y hoja dividiendo cada tallo en dos partes.
Solución:
25 observaciones del rendimiento

por lote de un proceso químico
6L 1 3 4
6U 5 5 6
7L 0 1 1 3
7U 5 7 8 8 9
8L 1 3 4 4
8U 7 8 8
9L 2 3 Tallo: decenas
9U 5 Hoja: unidades
19
Aquí se obtiene una presentación más adecuada de los datos.
En general un diagrama de tallo y hojas puede presentar información acerca de

los siguientes aspectos de los datos:
 Identificación de un valor característico o representativo

 Grado de dispersión respecto al valor característico
 Presencia de huecos en los datos
 Grado de simetría en la distribución de los valores
 Cantidad y ubicación de picos
 Presencia de cualquier valor alejado o atípico
Variables Continuas
El caso más frecuente, y también más interesante, es cuando la variable es
continua en estos casos existen dos modos de construir las tablas de distribución
de frecuencias:
1. Método simple
2. Método de las frecuencias agrupadas
1. Método simple
Es en todo similar al tratamiento que se ha dado a las variables discretas, su
tabla es idéntica a la de estas. En cuanto a sus representaciones gráficas, junto a
las gráficas de ordenadas y gráficas de puntos, ya expuestas, resulta interesante,
en este caso, la construcción del llamado diagrama acumulativo. Se dibuja a partir
20
del diagrama de puntos, acumulando a cada ordenada todas las frecuencias
anteriores.
Ejemplo 1.14. El departamento de verificación de una fábrica de aparatos eléctricos

toma, para control de calidad, 75 piezas de un determinado diseño y mide su
espesor en milímetros, habiendo resultado los siguientes datos:
1.3 1.0 1.1 1.2 1.3 1.4 1.6 1.7 1.5 1.8 1.8 1.8 1.0
1.4 1.2 1.4 1.3 1.5 1.1 1.5 1.3 1.4 1.7 1.7 1.2 1.7
1.8 1.8 1.8 1.8 1.8 1.8 1.1 1.5 1.4 1.4 1.5 1.5 1.6
1.8 1.3 1.6 1.6 1.7 1.7 1.6 1.5 1.2 1.5 1.4 1.5 1.7
1.2 1.3 1.5 1.4 1.6 1.5 1.6 1.2 1.3 1.4 1.4 1.5 1.6
1.1 1.2 1.3 1.5 1.6 1.7 1.6 1.7 1.4 1.5
Variable Frecuencia Frecuencia

acumulada
1.0 2 2
1.1 4 6
1.2 7 13
1.3 8 21
1.4 11 32
1.5 14 46
1.6 10 56
1.7 9 65
1.8 10 75
TOTAL 75
21
El diagrama acumulativo se muestra a continuación:
2. Método de las frecuencias agrupadas

Cuando, como en el ejemplo 1.14, el número de valores que toma la variable es
elevado, se usa el método de las frecuencias agrupadas. Aquí los datos se
distribuyen en clases o categorías y luego se determina el número de datos
pertenecientes a cada clase, que es la frecuencia de clase, f. Un ordenamiento de
esta naturaleza se conoce como una distribución de frecuencias o tabla de
frecuencias. Un símbolo que define una clase, tal como 1.0 – 1.1, se conoce
como intervalo de clase. Los números extremos, 1.0 y 1.1, son los límites de
clase; el número 1.0 es el límite inferior de la clase, li y el mayor 1.1 es el límite
superior, ls. Los términos clase e intervalo de clase se utilizan a menudo
indistintamente. La técnica del método de frecuencias agrupadas se describe a
continuación, utilizando el ejemplo 1.14:
1. Se determina el intervalo total de variación, recorrido, rango o amplitud, R. Aquí,

R= Ls – Li, donde Ls y Li son el mayor y menor dato observado respectivamente.
Entonces,
R=Ls – Li =1.8 – 1.0=0.8
2. Decidir el número de clases, h, que se va a emplear. No existe número idóneo,

aunque conviene evitar los extremos: un número pequeño de clases “diluiría” las
diferencias y perdería “finura” la distribución, es decir, no se podrían observar
características importantes de los datos; optar por un número excesivamente
grande de clases, se proporcionan demasiados detalles, se desvirtuaría el método,
22
ya que con él se pretende una simplificación de cálculos. Puede aconsejarse un
número discreto entre 5 y 20 clases. Una regla empírica es calcular la raíz cuadrada
del número de datos, n, y ajustarla para adaptarla (si es necesario) a los límites 5 y
20. Otra forma es utilizar la fórmula empírica de Sturges:
h=1 + (3.32) log (n)
Aquí, mientras no se diga lo contrario, utilizaremos el método de la raíz cuadrada
del número de datos. En el caso nuestro 75  8.6, que para adaptarla al problema
se ajusta a 9 (aproximación al entero próximo mayor), ya que el número de clases
es un número entero.
Si se está imposibilitado para juzgar los efectos del agrupamiento, entonces bajo
condiciones ordinarias (una muestra que no es muy grande y se cuenta con facilidad
de cálculo) se debe considerar la posibilidad de usar los datos originales no
agrupados. En definitiva, el número de intervalos lo dictará cada circunstancia en
particular.
3. Dividir el rango R entre h, para obtener la amplitud o ancho de clase, c o i. Así
R
c =i= = (0.8)/9 = 0.088888
h
el cual redondeamos a 0.09, ya que expresamos el resultado con un decimal

más del que hay en la información original.
4. Es necesario delimitar muy claramente los extremos de cada una de las clases,
a fin de que no haya ninguna duda al asignar cada dato a su clase correspondiente.
23
Se forman los intervalos, agregando el ancho al límite inferior de cada clase,
iniciando por el menor de todos los datos. Así, por ejemplo, la primera clase es
1.0 - 1.09 ó 1.0  x < 1.09 ó [1.0, 1.09) y
la segunda clase es
1.09 - 1.18 ó 1.09  x < 1.18 ó [1.09, 1.18)
De manera similar se encuentran las restantes clases, para obtener finalmente
la tabla siguiente:
Intervalo
1.0 - 1.09
1.09 - 1.18
1.18 - 1.27
1.27 - 1.36
1.36 - 1.45
1.45 - 1.54
1.54 - 1.63
1.63 - 1.72
1.72 - 1.81
NOTA: Si Ls cae fuera de la última clase, agréguese al último dígito de c uno. Por
ejemplo, si con c=0.09, Ls hubiese caído fuera, entonces c=0.09 + 0.01=0.10.
5. Encontrar las frecuencias de clase, f, contando el número de datos que caen
en cada intervalo y este número anotarlo en la columna correspondiente a las
frecuencias. El total de esta columna debe ser igual a n (75), el número de datos.
Intervalo Frecuencia
f
1.0 - <1.09 2
1.09 - <1.18 4
1.18 - <1.27 7
1.27 - <1.36 8
1.36 - <1.45 11
1.45 - < 1.54 14
1.54 - < 1.63 10
1.63 - <1.72 9
1.72 - <1.81 10
Total 75
La tabla de distribución de frecuencias puede ser ampliada con una tercera

columna, en donde se indique la frecuencia relativa.
La frecuencia relativa de una clase, fr, es la frecuencia de la clase f, dividida

por el total de las frecuencias, n, y se expresa generalmente también como
porcentaje. Así,
fr= f/n • 100%
24
La suma de las frecuencias relativas de todas las clases es evidentemente 1 ó
100%.
Intervalo Frecuencia Frecuencia Frecuencia relativa porcentual

f relativa fr . 100%
fr
1.0 - <1.09 2 0.0266 2.66
1.09 -<1.18 4 0.0533 5.33
1.18 -<1.27 7 0.0933 9.33
1.27 -<1.36 8 0.1066 10.66
1.36 -<1.45 11 0.1466 14.66
1.45 -<1.54 14 0.1866 18.66
1.54 -<1.63 10 0.1333 13.33
1.63 -<1.72 9 0.1200 12.00
1.72 -<1.81 10 0.1333 13.33
Total 1.0000 100%
6. Una vez establecidas las clases, han de establecerse las marcas de clase de
cada una de ellas. La marca de clase, x, o Pm es el punto medio de la clase y se
25
obtiene sumando los límites inferior y superior de la clase y dividiendo por 2. Así, la
marca de clase del intervalo 1.0 - 1.09 es
(1.0 + 1.09) / 2 = 1.045
Para análisis matemáticos posteriores, todas las observaciones pertenecientes

a un intervalo de clase dado se suponen coincidentes con la marca de clase.
Marca de
Intervalo clase
x ó Pm
1.0 - < 1.09 1.545
1.09 - <1.18 1.135
1.18 - <1.27 1.225
1.27 - <1.36 1.315
1.36 - <1.45 1.405
1.45 - <1.54 1.495
1.54 - <1.63 1.585
1.63 - <1.72 1.675
1.72 - <1.81 1.765
Histograma y polígono de frecuencia son las representaciones gráficas de las

distribuciones de frecuencias.
1. Un histograma o histograma de frecuencias consiste en una serie de

rectángulos que tienen:
a. Sus bases sobre un eje horizontal (el eje x) con centro en las marcas de clase y
longitud igual al ancho de clase.
b. Superficies proporcionales a las frecuencias de clase.
26
Si los intervalos de clase tienen todos iguales tamaños, las alturas de los
rectángulos son proporcionales a las frecuencias de clase y se acostumbra en tal
caso a tomar las alturas numéricamente iguales a las frecuencias de clase.
2. Un polígono de frecuencias es un gráfico de línea trazado sobre las marcas

de clase. Puede obtenerse uniendo los puntos medios de los techos de los
rectángulos en el histograma.
Histograma con anchos de clase desiguales

Las clases de igual anchura podrían no ser lo mejor si un conjunto de datos
contiene algunos valores atípicos. Si se usa una cantidad pequeña de clases de
igual anchura, casi todas las observaciones caen sólo en algunas de las clases. Si
se usa una gran cantidad de clases de igual anchura, muchas tendrían frecuencia
cero. Una elección adecuada es usar unos cuantos intervalos más amplios cerca de
las observaciones extremas, e intervalos más angostos en la región de gran
concentración.
Si los anchos de clase son desiguales, después de determinar las frecuencias y
las frecuencias relativas, calculamos la altura de cada rectángulo con la fórmula
frecuencia relativa de la clase

altura del rectángulo =
ancho de la clase
Las alturas que resultan suelen llamarse densidades, y la escala vertical es la

escala de densidad. Esto también funciona cuando los anchos de clase son
iguales. Por lo tanto, si todos los intervalos de clase tienen el mismo ancho,
entonces el histograma tendrá la misma forma si las alturas representan las
densidades o las frecuencias. En este caso, hacer las alturas iguales a las
frecuencias no es engañoso. Sin embargo, cuando se desea hacer intervalos de
clase de anchos diferentes, es importante que las alturas de los rectángulos sean
iguales a las densidades y no a las frecuencias o las frecuencias relativas.
27
Ejemplo 1.15. Considere los siguientes datos sobre el tiempo activo de reparación
(horas) para una muestra de n=46 receptores de comunicaciones:
0.2 0.3 0.5 0.5 0.5 0.6 0.6 0.7 0.7 0.7 0.8 0.8
0.8 1.0 1.0 1.0 1.0 1.1 1.3 1.5 1.5 1.5 1.5 2.0
2.0 2.2 2.5 2.7 3.0 3.0 3.3 3.3 4.0 4.0 4.5 4.7
5.0 5.4 5.4 7.0 7.5 8.8 9.0 10.3 22.0 24.5
Construya un histograma basado en seis intervalos de clase con 0 como límite

inferior del primer intervalo y longitudes de intervalos de 2, 2, 2, 4, 10 y 10,
respectivamente.
Intervalo Frecuencia Frecuencia relativa Densidad

[0, 2) 23 0.500 0.250
[2, 4) 9 0.196 0.098
[4, 6) 7 0.152 0.076
[6, 10) 4 0.087 0.022
[10, 20) 1 0.022 0.002
[20,30) 2 0.043 0.004
Un histograma de densidades tiene una propiedad interesante. Al multiplicar

ambos lados de la fórmula de densidad por el ancho de clase se obtiene
frecuencia relativa=(ancho de clase)(densidad)

=(ancho del rectángulo)(altura del rectángulo)
=área del rectángulo
28
Esto es, el área de cada rectángulo es la frecuencia relativa de la clase
correspondiente. Además, como la suma de las frecuencias relativas debe ser 1.0
(salvo en los redondeos), el área total de todos los rectángulos en un histograma de
densidad es 1.
Histograma utilizando Excel
Pasos:
1. Rango de entrada: introducir la referencia de celda correspondiente al rango
de datos que desea analizar.
2. Rango de clases: introducir el rango de celdas que definen los extremos de
los intervalos de clase. Estos valores deberán estar en orden ascendente. Si
se omite el rango de clase, se creará un conjunto de clases distribuidas
igualmente entre los valores mínimo y máximo de los datos.
3. Rótulos: activar si la primera fila y la primera columna del rango de entrada
contiene rangos.
4. Opciones de salida: rango de salida, en una hoja nueva o en un libro nuevo.
5. Crear gráfico: genera un gráfico de histograma incrustado con la tabla de
resultados.
Tomando el ejemplo 1.14, se genera el siguiente histograma:
Clase Frecuencia
1,09 2
1,18 4
1,27 7
1,36 8
1,45 11
1,54 14
1,63 10
1,72 9
1,81 10
y mayor... 0
Espesor de 75 piezas (mm)

16
14
12
Frecuencia
10
8
6
4
2
0
Clase
Si las frecuencias absolutas se sustituyen por las correspondientes frecuencias

relativas, la tabla resultante se llama distribución de frecuencias relativas,
29
distribución porcentual o tabla de frecuencias relativas. Las representaciones
gráficas de distribuciones de frecuencia relativa pueden obtenerse del histograma o
polígono de frecuencias, sin más que cambiar la escala vertical de frecuencia o
frecuencia relativa, conservándose exactamente el mismo diagrama. Los gráficos
que resultan se llaman histogramas de frecuencias relativas o histogramas
porcentuales y polígonos de frecuencias relativas o polígonos porcentuales,
respectivamente.
Se denomina frecuencia acumulada ascendente, Fa, hasta un intervalo de

clase, a la suma de las frecuencias de los intervalos anteriores a él, hasta los de
ese intervalo.
La frecuencia acumulada ascendente señala cuántos datos son menores o

iguales a un determinado valor.
Se denomina frecuencia acumulada descendente, Fd, hasta un intervalo de

clase, a la suma de las frecuencias de los intervalos posteriores a él, hasta los
de ese intervalo.
La frecuencia acumulada descendente señala cuántos datos son mayores o

iguales a un valor determinado.
La columna correspondiente a la frecuencia acumulada ascendente se halla
sumando las cantidades de arriba hacia abajo, mientras que la frecuencia
acumulada descendente se halla sumando las cantidades de abajo hacia arriba.
Intervalo f Fa Fd
1.0 - < 1.09 2 2 75
1.09 - < 1.18 4 6 73
1.18 - < 1.27 7 13 69
1.27 - < 1.36 8 21 62
1.36 - < 1.45 11 32 54
1.45 - < 1.54 14 46 43
1.54 - < 1.63 10 56 29
1.63 - < 1.72 9 65 19
1.72 - < 1.81 10 75 10
La representación gráfica de la frecuencia acumulada recibe el nombre de

ojiva.
Pueden ser de dos clases las ojivas: ascendentes o descendentes.

La ojiva ascendente se construye de la manera siguiente:
1. Sobre el eje horizontal se colocan los intervalos.
30
2. Se colocan sobre el eje vertical las frecuencias acumuladas ascendentes.
3. El punto (ls, Fa) se forma con el extremo superior del intervalo y la frecuencia
acumulada ascendente respectiva.
4. Se le asigna cero al límite inferior del primer intervalo; con lo cual graficamos
un punto adicional, que es donde principia la ojiva ascendente.
5. Los puntos graficados se unen a través de segmentos de recta.
El procedimiento para la construcción de la ojiva descendente es semejante al

de la ojiva ascendente; la diferencia consiste en que se forma el punto (li, Fd) con el
extremo inferior del intervalo y la frecuencia acumulada descendente y asignando
cero al límite superior del último intervalo, con lo que se tiene un punto adicional,
que es donde finaliza la ojiva descendente.
P es el punto de intersección de las ojivas. Al trazar una recta perpendicular

desde P hacia el eje horizontal, esta corta a dicho eje en el valor, x , que se llama
mediana. La mediana es el valor que divide a los datos en dos partes iguales. Aquí,
x =1.49 mm , lo que significa que x es el valor que deja sobre si y bajo si el 50%
de los datos.
Si los intervalos tienen anchos diferentes, los ejes se construyen de la misma
manera.
Si la muestra es extraída de una población grande, es posible teóricamente (para
datos continuos) elegir los intervalos de clase muy pequeños. Así, el polígono de
31
frecuencias o el de frecuencias relativas puede estar formado por muchos pequeños
segmentos rectos que aproximan el conjunto a una curva, que suele llamarse curva
de frecuencia o curva de frecuencia relativa, respectivamente.
Tales curvas teóricas provienen de la suavización de los polígonos de
frecuencias de la muestra y la aproximación es tanto más exacta en la medida como
aumenta el tamaño de la muestra. Por esta razón una curva de frecuencias se llama
polígono de frecuencias suavizado o histograma suavizado.
Las curvas de frecuencias se clasifican de acuerdo a determinadas
características como se muestran a continuación:
Simétrica: Ambos lados de la distribución son idénticos. Un ejemplo importante es

la curva normal.
Uniforme o rectangular: Cada valor aparece con igual frecuencia.
Sesgada: Una cola es más larga que la otra. La dirección del sesgo es del lado de
la cola más larga. Si el sesgo es a la derecha, este responde a la variabilidad que
presentan ciertas variables que no siguen una ley normal, como los tiempos de vida.
En forma de J: No hay cola del lado de la clase con la frecuencia más alta.
32
Bimodal: Las dos clases más pobladas están separadas por una o más clases.
Esta situación a menudo implica que se están muestreando dos poblaciones. La
curva bimodal resulta cuando el conjunto de datos está formado por observaciones
de dos tipos distintos de individuos u objetos.
En forma de U: tienen máximos en ambos extremos.
1.7 Estadísticos
Los datos que caracterizan a una población se llaman parámetros y los que
caracterizan a una muestra se llaman estadísticos. Por ejemplo, el porcentaje
de mujeres en toda la república de El Salvador, es un parámetro; mientras que el
porcentaje de mujeres, de entre un total de 438 personas que se encuentran en una
reunión, es un estadístico.
Los estadísticos, permiten de una forma cuantitativa, al margen de todo
subjetivismo, la comparación entre distintas series estadísticas y la valorización, en
números, de sus diversas características.
Son de cinco clases estas medidas: los estadísticos de centralización que
suministran los valores centrales o promedios alrededor de los cuales se agrupan
los datos de la serie; los de Posición que describen la posición de datos con
respecto al resto; los de dispersión que miden la mayor o menor regularidad de
agrupamiento de la serie, sobre las medidas centrales; las medidas de asimetría
que cuantifican, como su nombre indica, la asimetría de la distribución; y
estadísticos de prominencia, que son capaces de comparar, a igualdad de
dispersión, la densidad de frecuencias centrales.
1.8 Promedios o medidas de centralización

Un promedio es un valor, que es típico, o representativo de un conjunto de datos.
Como tales valores tienden a situarse en el centro del conjunto de datos ordenados
según su magnitud, los promedios se conocen también como medidas de
centralización.
33
Se pueden definir varios tipos de medidas de centralización, las más comunes
son la media aritmética o brevemente media, la mediana, la moda, la media
geométrica, la media cuadrática y la media armónica. Cada una de ellas tiene
sus ventajas e inconvenientes, dependiendo la aplicación de una u otra de los
resultados que se pretenden sacar de los datos.
Media aritmética: x
DEFINICION.
La media aritmética o media de un conjunto de n números x1, x2, … xn se

representa por x y se define como
x1 + x 2 + ...+ xn
x=
n
n
Para representar la suma x1 + x2 + ... + xn se usa el símbolo  . Así, x
i=1
i
significa que debemos sumar los elementos x i , los que inician con x1 (cuando i=1)
y finalizan con x n (cuando i=n). Con esta notación, la media se escribe de la
manera siguiente:
n
x1 + x 2 + ...+ xn x
i=1
i
x= =
n n
La media aritmética de una población se denota por: .
Cuando se redondea una respuesta, se acordará mantener un sitio decimal

más en la respuesta del que hay en la información original. Para evitar la
acumulación de redondeo, éste sólo se hará en la respuesta final y no en los
pasos intermedios.
Ejemplo 1.16. Cinco piezas de una aleación de níquel, seleccionadas al azar,

tienen las siguientes cantidades de níquel (en porcentaje)
79.4, 79.0, 78.9, 79.2 y 78.9

La media aritmética es
_
79.4 + 79.0 + 78.9 + 79.2 + 78.9 395.4
x= = = 79.08 %
5 5
34
Otras de las grandes herramientas que existen en Excel son las funciones: fx.
Las funciones nos permiten realizar operaciones más complejas y de forma sencilla,
tanto con valores numéricos o valores de texto.
Todas las funciones tienen en común, el nombre de la función la cual la identifica

y una serie de argumentos, todos ellos separados por puntos y comas, todos ellos
dentro de paréntesis. Veremos que puede haber alguna función que no tenga
ningún tipo de argumento, pero siempre existirán los paréntesis después del nombre
de la función.
Tomando el ejemplo precedente, a manera de ilustración tenemos:
Función Sintaxis Descripción Ejemplo
=PROMEDIO(número1;número2;…) Calcular el =PROMEDIO(79,4;79,

promedio 0;78,9;79,2;78,9)
Número1, número2;… son entre 1 y (media
30 argumentos numéricos cuyo aritmética) de Excel devuelve 79,08.
PROMEDIO promedio se desea obtener. los
argumentos =PROMEDIO(A1:A5)
Excel devuelve el
promedio de los
números que estén en
el rango de celdas, es
decir, 79,08
DEFINICION.
Si los números x1, x2, . . . , xk se presentan f1, f2, . . . , fk veces, respectivamente

(es decir, se presentan con frecuencias f1, f2, . . . , fk), la media aritmética es
f1x1 + f2 x 2 + ... + fk xk  fi xi  fi xi
x= = = *
f1 + f2 + ... + fk  fi n
donde n=  fi es la frecuencia total es decir, el número total de casos.
Ejemplo 1.17. Si 4, 8, 9 y 6 se presentan con frecuencias 3, 5, 4 y 2

respectivamente, la media aritmética es
_
(3)(4)+(5)(8)+(4)(9)+(2)(6)
x= = 7.1
3+5+ 4+2
35
Media aritmética ponderada
DEFINICION
A veces se asocia a los números x1, x2,. . . , xk ciertos factores o pesos w1, w2, .
. . , wk que dependen de la significación o importancia de cada uno de los
números. En este caso
w1x1 + w 2 x 2 + ... + w k xk  w x
x= =
w1 + w 2 + ... + w k w
se llama media aritmética ponderada.
Nótese la similitud con (*), que puede considerarse como una media aritmética con
los pesos f1, f2,. . ., fk.
Ejemplo 1.18. Un estudiante de la asignatura de Probabilidad y Estadística obtuvo

en sus cinco evaluaciones: 6.0, 8.0, 5.4, 7.0 y 6.3. Hallar la nota final de ciclo si las
ponderaciones son: 0.25, 0.10, 0.30, 0.10 y 0.25 respectivamente.
_
(6.0)(0.25)+(8.0)(0.10)+(5.4)(0.30)+(7.0)(0.10)+(6.3)(0.25)
x=
0.25 +0.10 +0.30 +0.10 +0.25
_
x = 6.20
Propiedades de la media aritmética
DEFINICION
Definimos la desviación de una variable con respecto a su media como la

cantidad
di = xi - x.
Nótese que a la derecha de la media, la variable produce desviaciones positivas y

a la izquierda desviaciones negativas.
Las principales propiedades matemáticas que posee la media aritmética son:
1. “Es siempre igual a cero la suma de las desviaciones de la variable respecto de

la media aritmética”. Es decir,
d = 0i
Demostración:
  x - x  =  x -  x = n n -  x = n x- n x = 0
 _
 _ xi _ _ _
i i
2. “La media aritmética de una constante, es igual a la constante”. Es decir,
36
c =c
Demostración:
c=
 c = c + c +...+ c = nc = c
n n n
3. “La media aritmética del producto de una constante por una variable es igual al
producto de la constante por la media aritmética de la variable”. Es decir,
__
cx = cx
Demostración:
___
cx1 + cx 2 +...+ cxn c(x1 + x 2 +...+ xn ) c  xi _
cx =  cxi = = = =cx
n n n
4. “La media aritmética de la suma de una variable más una constante es igual a la
suma de la media aritmética de la variable más la constante”. Es decir,
_______
x +c = x +c
Demostración:
________
x +c = x
i + c  + (x 2 + c)+...+  x n + c 
1
x+c =
n n
x + x +...+ x n nc
= 1 2 +
n n
=
 xi + c
n
_
 x+ c
4. “Si f1 números tienen como media a x1 , f2 números tienen como media x 2 ,. . .,

fk números tienen como media x k , entonces la media de todos los números es
__
f1x1 + f2 x 2 +...+ fk xk
x= f1 + f2 +...+ fk
es decir, una media ponderada de todas las medias”.

Demostración:
Sea la suma de las f1, f2, .. . , fk números m1, m2,. . . , mk respectivamente. Entonces
por definición de media aritmética,
__
m1 __ m2 __
m __ __ __
x1 = , x2 = ,..., x k = k o m1 = f1 x 1, m2 = f2 x 2 ,...,mk = fk x k
f1 f2 fk
37
Puesto que todos los números (f 1+f2+…+fk) suman (m1+m2+…+mk) la media
aritmética de todos los números es
m1 +m2 +...+mk
x=
f1 + f2 +...+ fk
f1x1 + f2 x2 +...+ fk xk
=
f1 + f2 +...+ fk
Ejemplo 1.19. Los tiempos de reparación (manipulación y ajuste de las

herramientas) para cortar seis partes del motor en un torno son: 0.6, 1.2, 0.9, 1.0,
0.6 y 0.8 minutos. Encontrar la media aritmética y verificar que la suma de las
desviaciones con respecto a la media aritmética, es cero.
x=
 x = 0.6 +1.2 + 0.9 +1.0 + 0.6 + 0.8 = 0.85
n 6
xi x- x
0.6 -0.25
1.2 0.35
0.9 0.05
1.0 0.15
0.6 -0.25
0.8 -0.05
  x - x  = -0.25 +0.35 +0.05 +0.15 +(-0.25)+(-0.05) = 0

Ejemplo 1.20. El salario promedio en la empresa Textilera “EL Gusano” es de $
300 mensual. Si cada salario se incrementa en 10%, más $ 25 por gastos de
transporte, ¿Cuál es el nuevo salario promedio?
Sea x el salario actual y 0.10x su incremento, entonces el nuevo salario promedio

es
_______
(1x +0.10x)+ 25 =1.10x + 25 = 1.10x + 25 =1.10x + 25 =1.10(300)+ 25 = $ 355.0
Ejemplo 1.21. En una fábrica con 80 empleados, 60 ganan un promedio de $
1.0 por hora y 20 ganan un promedio de $ 2.0 por hora. Determinar la media del
salario por hora.
_
(60)(1.0)+(20)(2.0) 60 + 40 100
x= = = = $ 1.25
60 + 20 60 + 20 80
Media aritmética calculada a partir de datos agrupados

En un gran número de distribuciones de frecuencias, ya no es posible determinar
las observaciones individuales, sino sólo los intervalos de clase a los cuales
38
pertenecen. En tales casos, podemos aproximar la media. Esto requiere que se
suponga que las observaciones se concentran en el punto medio de la clase. La
fórmula (*) es válida para tales datos agrupados si se interpreta xi (ó Pm) como la
marca de clase y fi su correspondiente frecuencia de clase. Con esto
x=
x f i i
n
Ejemplo 1.22. Los siguientes datos son mediciones de 40 emisiones diarias (en
toneladas) de óxido de azufre de una planta industrial.
15.8 24.1 15.2 13.5 22.3
17.3 28.6 26.6 14.5 11.8
23.9 23.7 21.4 29.6 20.0
18.7 22.7 21.6 17.0 31.7
9.0 20.5 19.0 24.3 10.5
13.2 20.9 23.0 24.6 27.5
9.8 19.4 20.1 18.1 17.9
14.7 10.7 18.0 21.9 24.1
a) Construya una tabla de distribución de frecuencias.

Tómese aquí como h = n, entonces 40 =6.32 y donde h=7. Así,
R L -L 31.7 - 9.0
c= = s i = = 3.24 Tn.
h h 7
Como Ls cae fuera del último intervalo, entonces tomamos c=3.25. Con esto se
construye la tabla de distribución de frecuencias.
PESOS (Tn.) f xf
9.0 - < 12.25 5 53.125
12.25 - < 15.00 4 54.50
15.00 - < 18.75 8 135.00
18.75 - < 22.00 9 183.375
22.00 - < 25.25 9 212.625
25.25 - < 28.50 2 53.75
28.50 - < 31.75 3 90.375
Total 40 782.75
b) Halle x .
La media es
x=
 xf = 782.75 =19.57 toneladas
n 40
Ventajas y desventajas de la media
Ventajas:
1. Contiene toda la información de los datos de la distribución, lo que le confiere,
como promedio, un carácter muy representativo.
39
2. Siempre puede ser determinada, es fácil de calcular y admite todas las
operaciones aritméticas.
3. Es el estadístico más útil para análisis posteriores.
Desventajas:
1. Sensible al cambio de valores extremos por un lado, que no se compensen
por valores extremos en el lado contrario.
2. No se puede determinar si en una distribución de frecuencias hay intervalos
de clase abiertos.
3. No es recomendable emplearla en distribuciones muy asimétricas.
La Mediana: x ó Md
DEFINICION
La mediana de una colección de datos ordenados de menor a mayor es el valor

medio o la media aritmética de los dos valores medios.
Ejemplo 1.23. Hallar la mediana de los números: 8, 3, 8, 4, 6, 5, 8, 10, 4.

Ordenando los datos de acuerdo a su magnitud: 3, 4, 4, 5, 6, 8, 8, 8, 10, se tiene
que x = 6.
Solución alterna con Excel:
=MEDIANA(número1;número2;…) Calcular la =MEDIANA(8;3;8;4;6;5;8;10;4)

mediana de
Número1, número2;… son entre 1 los Excel devuelve 6.
y 30 argumentos numéricos cuya argumentos
MEDIANA mediana se desea obtener. =MEDIANA(A1:A9)
Excel devuelve la mediana de

los números que estén en el
rango de celdas, es decir, 6.
Ejemplo 1.24. Hallar la mediana de los números: 9, 2, 7, 11, 14, 6.
Ordenando de acuerdo a su magnitud: 2, 6, 7, 9, 11, 14, la mediana es el valor

medio entre 7 y 9, el cual es
7+9
x= = 8.0 .
2
En términos generales, la mediana ocupa la posición (n+1)/2, como se puede

comprobar para los ejemplos 1.24 y 1.25.
40
Si se ordenan las observaciones por orden de magnitud y si n es impar, la
mediana es la observación que aparece en el lugar (n+1)/2; si n es par, la mediana
es el promedio de las observaciones que están en los lugares n/2 y n/2 + 1. Así,
La media recortada: x rec

Suponga que los datos se acomodan en orden creciente, se elimina un
porcentaje T de las observaciones en cada extremo y luego se calcula la media
muestral con las observaciones que quedan. La cantidad resultante se conoce
como media recortada. Una media recortada es una medida entre x y x . ¿Por
qué?
Una media recortada al 10% (xrec(10) ) , por ejemplo, se calcularía eliminando 10%
de los valores más pequeños y el 10% de los valores más grandes de la muestra y
luego se promedia lo que queda.
Ejemplo 1.25. Se obtuvieron datos de resistencia a la flexión (MPa) de vigas de

concreto de cierto tipo:
6.1 5.8 7.8 7.1 7.2 9.2 6.6 8.3 7.0 8.3
7.8 8.1 7.4 8.5 8.9 9.8 9.7 14.1 12.6 11.2
Calcular xrec(10) .
La media de las 20 observaciones es x =8.58 MPa. La media recortada al 10%
se obtiene desechando las dos observaciones más pequeñas (5.8 y 6.1) y las dos
observaciones más grandes (12.6 y 14.1) y luego se promedian las restantes 16
observaciones para obtener xrec(10) = 8.31 MPa. El efecto de eliminar datos aquí es
obtener un “valor central” que está un poco arriba de la mediana y, todavía, bastante
debajo de la media.
En términos generales, al utilizar una media recortada con una proporción
moderada de datos eliminados se obtiene una medida que no es tan sensible a
valores inusuales como la media, ni tan insensible como la mediana. La media
recortada busca eliminar la distorsión de la media originada por los valores muy
extremos. Por este motivo, las medias recortadas llaman cada vez más la atención.
41
Mediana calculada a partir de datos agrupados
Supóngase que las observaciones en cada clase se “dispersan uniformemente” a
través del intervalo de clase, la mediana se obtiene por interpolación por medio de
la fórmula
 n / 2 - Fa 
x = li + c  
 f 
donde li: límite inferior de la clase mediana

c: ancho de la clase mediana
n: número de datos
Fa: frecuencia acumulada anterior a la clase mediana
f: frecuencia de la clase mediana
Demostración:
La deducción de la fórmula anterior es la sencilla aplicación de una semejanza de
triángulos que se producen al cortar por la mitad de la frecuencia total, n/2 el
polígono de frecuencia acumulado ascendente (ojiva ascendente)
___ ___ ___

Aquí, x = li + HI, pero HI = AE, entonces
___
x = li + AE
por semejanza de triángulos
___ ___ ___
AE PE AE n / 2 - Fa
___
= ___
ó = ,
AD BD c f
___
 n / 2 - Fa 
de donde AE = c  , entonces
 f 
 n / 2 - Fa 
x = li + c  
 f 
Si las observaciones en cada clase no se dispersan uniformemente, la fórmula
anterior se convierte en la fórmula
42
 (n +1) / 2 - Fa 
x = li + c  
 f 
Ejemplo 1.26. La edad de cada uno de los 50 visitantes que asistieron a una
exhibición científica viene dado por la siguiente tabla de frecuencias.
Edad Número
0 - < 10 6
10 - <20 18
20 - < 30 11
30 - < 40 3
40 - < 50 0
50 - < 60 8
60 - < 70 4
50
Halle x .
Completando la columna correspondiente a la frecuencia acumulada ascendente
se tiene
Edad f Fa
0 - <10 6 6
10 - < 20 18 24
20 - < 30 11 35
30 - < 40 3 38
40 - < 50 0 38
50 - <60 8 46
60 - <70 4 50
50
Aquí, n /2 = 25. La clase mediana es la 3ª clase, entonces

 n / 2 - Fa 
x = li + c  
 f 
 25 - 24 
x = 20 +10 
 11 
x = 20.9 años
Ventajas y desventajas de la mediana
Ventajas:
1. No es afectada por valores extremos tan grave como la media.
3. Es fácil de entender y se puede calcular a partir de cualquier tipo de datos,
incluso a partir de datos agrupados con clases de extremo abierto, a menos
que la mediana entre en una clase de extremo abierto.
4. Podemos encontrarla incluso cuando nuestros datos son descripciones
cualitativas.
Desventajas:
43
1. Ciertos procedimientos estadísticos son más complejos que aquellos que
utilizan la media.
2. Debido a que es una posición promedio, debemos ordenar los datos antes
de llevar a cabo cualquier cálculo.
La moda: x̂ ó Mo
DEFINICION
La moda de una serie de datos es aquel dato que se presenta con la mayor
frecuencia, es decir, es el valor más común.
La moda puede no existir, incluso si existe puede no ser única.
Ejemplo 1.27. Considérense los datos 9, 2, 7, 11, 14, 7, 2, 7. El valor 7 ocurre tres
veces, el 2 aparece dos veces y el resto ocurre una vez cada uno, luego, x̂ = 7 .
=MODA(número1;número2;…) Calcular la =MODA(9;2;7;11;14;7;2;7)

moda de los
Número1, número2;… son entre argumentos Excel devuelve 7.
1 y 30 argumentos numéricos
MODA cuya moda se desea obtener. =MODA(A1:A8)
Excel devuelve la moda de los

números que estén en el rango
de celdas, es decir, 7.
Ejemplo 1.28. Sean los datos 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7,

y se llama bimodal.
La moda no es una medida de tendencia central muy usual, pero sirve en los
negocios, por ejemplo para determinar que tamaño del producto es el de mayor
demanda. Por ejemplo, un fabricante de camisetas está interesado en la talla de
mayor demanda. Una distribución que tiene una sola moda se llama unimodal.
Moda calculada a partir de datos agrupados

En el caso de datos agrupados donde se ha construido una curva de frecuencias
para ajustar los datos, la moda será el valor (o valores) de x correspondientes al
máximo (o máximos) de la curva.
Dada una distribución de frecuencias o un histograma, la moda puede calcularse
por la fórmula
 Δ1 
xˆ = li + c  
 Δ1 + Δ2 
Donde li: límite inferior de la clase modal
c: ancho de la clase modal
44
1 =fi - fi – 1: exceso de la frecuencia modal sobre la frecuencia de la
clase
contigua inferior
 2 = fi - fi + 1: exceso de la frecuencia modal sobre la frecuencia de la
clase contigua superior
Demostración:
Considérese en el histograma del ejemplo 1.27 el rectángulo más alto y sus
rectángulos adyacentes. El rectángulo más alto corresponde a la clase modal.
Definamos la moda como la abscisa x̂ del punto de intersección P de las líneas

QS y RT.
Sea li y ls los limites inferior y superior de la clase modal, y 1 y  2 que
representan, respectivamente, el exceso de frecuencia de la clase modal sobre las
dos clases contiguas a ella.
De los triángulos semejantes PQR y PST,
EP PF xˆ - li ls - xˆ
= o =
RQ ST Δ1 Δ2
Entonces, Δ2 (xˆ - li ) = Δ1(ls - x)

ˆ
Δ2 xˆ - Δ2li = Δ1ls - Δ1xˆ
(Δ1 + Δ2 )xˆ = Δ1ls + Δ2li
Δ1ls + Δ2li
xˆ =
Δ1 + Δ2
pero, ls = li +c, entonces
45
Δ1(li + c)+ Δ2li
xˆ =
Δ1 + Δ2
(Δ1 + Δ2 )li + Δ1c

xˆ =
Δ1 + Δ2
 Δ1 
xˆ = li + c  
 Δ1 + Δ2 
Este resultado tiene la siguiente interpretación de interés: si se construye una

parábola de modo que pase por los puntos medios de las bases superiores de los
tres rectángulos, la abscisa del máximo de esta parábola será la moda obtenida
anteriormente.
Ejemplo 1.29. Determine la moda del ejemplo 1.26.

Aquí, li =10, Δ1 = fi - fi-1 =18 - 6 =12, Δ2 = fi - fi+1 =18 -11= 7
y c =10. Entonces
 Δ1 
xˆ = li + c  
 Δ1 + Δ2 
 12 
xˆ =10 +10 
12 + 7 
x̂ =16.3 años
Ventajas y desventajas de la moda
Ventajas:
1. Puede utilizarse como una posición central para datos tanto cualitativos como
cuantitativos.
2. No es afectada indebidamente por valores extremos.
3. Podemos utilizarla aun cuando los valores extremos sean muy altos o muy
bajos.
4. Podemos utilizarla aun cuando una o más clases sean de extremo abierto.
Desventajas:
1. Muchas veces no existe debido a que a que el conjunto de datos no contiene
valores que se presenten más de una vez.
2. En ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el
mismo número de veces.
3. Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil
interpretarlos y compararlos.
4. En distribuciones muy asimétricas suele ser un dato muy poco
representativo.
5. Carece de rigor matemático.
46
Relación empírica entre la media, mediana y moda
Para curvas de frecuencias unimodales que sean moderadamente sesgadas
(asimétricas), se tiene la relación empírica
x - xˆ = 3(x - x)
A continuación se muestran las posiciones relativas de la media, mediana y
moda para curvas de frecuencias que están sesgadas a la derecha y a la izquierda
respectivamente.
I. Distribución Simétrica.
Para curvas simétricas, la media, moda y media coinciden.
II. Distribución asimétrica hacia la derecha

Asimétrica hacia la derecha o sesgada hacia la derecha o asimétrica hacia
los valores más altos (una distribución positivamente asimétrica).
III. Distribución asimétrica hacia la izquierda

Asimetría hacia la izquierda o sesgada hacia la izquierda o asimetría hacia
los valores más bajos (una distribución negativamente asimétrica).
1.9 Medidas de posición

Las medidas de posición se usan para describir la posición de datos específicos con
respecto al resto de los datos.
47
Los cuartiles: Qk
DEFINICION
Sean x1, x2,… , xn un conjunto de n datos ordenados por orden de magnitud. El
primer cuartil, Q1, es aquel que deja a la izquierda ¼ (25%) de los datos y es
menor que ¾ (75%) de los datos. El segundo cuartil, Q2, es la mediana. El tercer
cuartil, Q3, sobrepasa ¾ (75%) de los datos y es menor que ¼ (25%) de ellos.
Los cuartiles para datos no agrupados
Existen diferentes formas de calcular cuartiles, pero todas dan aproximadamente

el mismo resultado. Un método cuando se calcula manualmente el k-ésimo cuartíl
es el siguiente:
1. Ordenar los datos del más pequeño al más grande
2. Calcular k(n/4)
Si se obtiene un entero w: Si se obtiene un

número mixto: w ab
3. La posición de Qk es: w + ½=w.5, 3. La posición de Qk es:
w+1
es decir, Qk está entre Xw y Xw+1
4. Qk= x w x w+1
+
4. Qk= x w+1
2
Ejemplo 1.30. Dados los valores 2, 5,10, 3, 7, 13, 20 y 18, hallar Q1, Q2 y Q3.
Q1: 1. Ordenando: 2, 3, 5, 7, 10, 13, 18, 20
2. Calcular k(n/4)=1(8/4)=2, de donde w=2
3. La posición de Q1 es: w+ ½=2.5. Q1 está entre x2 y x3
x 2 + x3 3 + 5
4. Q1 = = = 4.0 .
2 2
Q2: 1. 2, 3, 5, 7, 10, 13, 18, 20
3. La posición de Q2 es: w+½=4.5

x 4 + x5 7 +10
4. Q2 = = = 8.5
2 2
Q3: 1. 2, 3, 5, 7, 10, 13, 18, 20
48
3. La posición de Q3 es: w+½=6.5
Q = x 2x
+ 13 +18
4. 3
6 7
= = 31/ 2 = 15.5
2
Nota: Los valores calculados por este método difieren un poco a los calculados por
Excel.

CUARTIL =CUARTIL(matriz;cuartil) Devuelve el =CUARTIL(A1:A8;1)
UNO cuartil uno de Excel devuelve 4,5.
Matriz es la matriz o rango de un conjunto
celdas de valores numéricos cuyo de datos.
cuartil desea obtener.
CUARTIL Devuelve el =CUARTIL(A1:A8;2)
DOS cuartil dos de Excel devuelve 8,5.
un conjunto
de datos
CUARTIL Devuelve el =CUARTIL(A1:A8;3)

cuartil tres de
TRES Excel devuelve 14,25.
un conjunto
de datos
Los cuartiles se usan con frecuencia en los datos de ventas y encuestas para
dividir las poblaciones en grupos. Por ejemplo, se pueden utilizar para determinar el
25 por ciento de ingresos más altos en una población. ¿Cómo?
Ejemplo 1.31. Dados los valores 9, 7, 6, 5 y 1, hallar Q1, Q2 y Q3.

Q1: 1. Ordenando: 1, 5, 6, 7, 9
2. Calcular k(n/4)=1(5/4)=1.25, de donde w=1
3. La posición de Q1 es: w+1=2 (redondeo al entero próximo mayor de 1.25)
4. Q1 = x 2 = 5
Q2: 1. 1, 5, 6, 7, 9
3. La posición de Q2 es: w+1= 3
4. Q2 = 6
Q3: 1. 1, 5, 6, 7, 9
49
3. La posición de Q3 es: w+1=4
4. Q3 = 7
Los cuartiles para datos agrupados

Los cuartiles para datos agrupados pueden ser obtenidos mediante fórmulas que
se asemejan a la fórmula para calcular la mediana:
 k(n / 4) - Fa 
Qk = li + c   ; k=1, 2, 3
 f 
donde li: límite inferior de la clase cuartílica
c: ancho de la clase cuartílica
Fa: frecuencia acumulada anterior a la clase cuartílica
f: frecuencia de la clase cuartílica
Ejemplo 1.32. Encuentre Q1, Q2 y Q3 del tiempo de espera para consulta de los
pacientes de una clínica
Minutos f
0 - <5 220
5 - <10 82
10 - <15 27
15 - <20 15
20 - <25 5
25 - <30 1
Completando la tabla de distribución de frecuencias

Minutos f Fa
0 - <5 220 220
5 - <10 82 302
10 - <15 27 329
15 - < 20 15 344
20 - <25 5 349
25 - <30 1 350
Q1: Como k(n/4) = 1(350)/4 = 87.5, es claro que Q1 ha de buscarse en el primer

intervalo.
1(n / 4) - Fa 
Así, Q1 = li + c  
 f 
 87.5 - 0 
= 0+5
 220 
Q1 = 2.0 Min.
50
Q2: Como k(n/4) = 2(350)/4 = 175, es claro que Q2 ha de buscarse en el primer
intervalo.
 2(n / 4) - Fa 
Así, Q2 = li + c  
 f 
175 - 0 
= 0+5
 220 
Q2 = 4.0 Min. = x
Q3: Como 3(n/4) = 3(350)/4=262.5, es claro que Q3 ha de buscarse en el segundo

intervalo.
 3(n / 4) - Fa 
Así, Q3 = li + c  
 f 
 262.5 - 220 
= 5+5 
 82
Q3 = 7.6 Min.
Los centiles: Ck ó Pk
DEFINICION
Análogamente a los cuartiles, los valores que dividen al conjunto de datos en
100 partes iguales se llaman percentiles o centiles.
Por ejemplo C90 para un conjunto de datos es el valor que deja bajo si el 90% de
ellos y arriba de si el 10%.
Los centiles para datos no agrupados
El procedimiento es parecido al de los cuartiles.
Ejemplo 1.33. Encontrar C70 en los siete valores 6, 10, 13, 19, 18, 16, y 15.
1. Ordenando: 6, 10, 13, 15, 16, 18, 19.

3. La posición de P70 es: w+1=5
4. P70 =16
PERCENTIL =PERCENTIL(matriz;k) Devuelve el =PERCENTIL(A1:A7;70)

k-ésimo
Matriz, es la matriz o rango de percentil de Excel devuelve 16,4.
datos que define la posición los valores de
relativa.. un rango.
51
Esta función permite establecer un umbral de aceptación. Por ejemplo, podrá
examinar a los candidatos en un evento cuya calificación sea superior al
nonagésimo percentil. ¿Cómo?
Los percentiles para datos agrupados

Los centiles para datos agrupados se obtienen por medio de fórmulas que se
asemejan a la mediana:
 k(n / 100) -Fa 
Ck = li + c   ; k =1,2,...,99
 f 
Ejemplo 1.34. Encuentre C30 en la siguiente tabla de distribución de frecuencias:
Grado (0 f
C)
40 - < 50 5
50 - <60 18
60 - <70 27
70 - < 80 15
80 - < 90 6
71
Completando la tabla de distribución de frecuencias

Grado (o C) f Fa
40 - <50 5 5
50 - <60 18 23
60 - <70 27 50
70 - <80 15 65
80 - < 90 6 71
71
C30: k(n/100) = 30(71/100) = 21.3, y C30 se halla en la segunda clase:
 k(n/100) - Fa 
Ck = li + c  
 f 
 21.3 - 5 
C30 = 50 +10 
 18 
C30 = 59.10 C
1.10 Medidas de dispersión

El grado en que los datos numéricos tienden a extenderse alrededor de un valor
medio se le llama variación o dispersión de los datos.
52
Una medida de dispersión es importante por dos razones: primero, puede ser
usada para mostrar el grado de variación entre los valores en los datos dados; y
segundo, puede ser usada para suplementar un promedio para describir un grupo
de datos o para comparar un grupo de datos con otro.
Una medida de dispersión puede ser expresada ya sea en valor absoluto o en
valor relativo. Los tipos más comunes de dispersión expresados en valores
absolutos son: el recorrido, la desviación cuartílica, la desviación media, la
varianza y la desviación estándar.
El rango o recorrido o amplitud: R o A

DEFINICION
El recorrido de un conjunto de n datos x1, x2, …,xn se define como la diferencia
entre el mayor y el menor de los datos.
Ejemplo 1.35. Encontrar el recorrido de los valores 1, 4, 8, 10 y 10.
R=10-1=9
El recorrido resulta insatisfactorio como medida de variabilidad cuando se tienen

dos distribuciones de igual recorrido pero de distinta variabilidad.
Ventajas y desventajas del rango

Ventajas:
1. Es de fácil de calcular y es comúnmente usado como una medida burda,
pero eficaz de variabilidad.
2. Es comprensible para cualquier persona, aún cuando no conozca de
estadística.
Desventajas:
1. Refleja únicamente los valores extremos, ignorando la información
intermedia.
2. Difícil de interpretar, principalmente porque depende del número de
observaciones que sirvieron para computarlo.
3. Una de las desventajas del rango es que no proporciona información sobre
los datos están entre el dato mayor y el menor.
El recorrido intercuartílico: Q
DEFINICION
La diferencia entre el primer y tercer cuartil es llamado el recorrido

intercuartílico y se define como
Q=Q3 – Q1
53
Cuando esta diferencia es dividida entre 2, el cociente es el recorrido semi-
intercuartílico o desviación cuartílica (D. Q.):
Q3 - Q1
D. Q. =
2
Estas dos medidas son muy poco usadas y son de alguna utilidad cuando el
promedio utilizado es la mediana.
Ejemplo 1.36. Hallar el recorrido semi-intercuartílico a partir del ejemplo 1.32.
Q3 - Q1 7.6 - 2.0
D. Q. = = = 5.6 / 2 = 2.8 Min.
2 2
El recorrido y el recorrido semi-intercuartílico son medidas posicionales de

dispersión. Estas están basadas en las posiciones de ciertos elementos en una
distribución. La desviación media y la desviación estándar está basada en todos los
elementos y están diseñadas para medir la dispersión alrededor de un promedio.
La desviación media: D. M.
DEFINICION
La desviación media, de una serie de n datos x1, x2,…,xn viene definida por
 x -x
i=1
i
D. M. =
n
donde x es la media aritmética de los valores y xi - x es el valor absoluto de las

desviaciones de las diferentes xi de x .
Ejemplo 1.37. Hallar la desviación media de los valores 2, 3, 6, 8, 11.
2 + 3 + 6 + 8 +11
x= =6
5
Entonces,
54
2 - 6 + 3 - 6 + 6 - 6 + 8 - 6 + 11- 6 4 + 3 + 0 + 2 + 5
D. M. = = = 2.8
5 5
Solución con Excel:
Función Sintaxis Descripció Ejemplo
n
=DESVPROM(número1;número2; Devuelve el =DESVPROM(2;3;6;8;11

…) promedio de )
las
Número1, número2;… son entre 1 y desviaciones Excel devuelve 2,8.
DESVIACIO 30 argumentos cuyo promedio de absolutas de
N MEDIA las desviaciones absolutas desea la media de
=DESVPROM(A1:A5)
calcular. los punto de
datos.
Excel devuelve la
También puede utilizar una matriz desviación media de los
única o una referencia matricial en números que estén en el
lugar de argumentos separados con rango de celdas, es
punto y coma. decir, 2,8.
Una propiedad importante es que, la desviación media respecto de la

mediana es mínima.
Desviación media para datos agrupados

n
f
i=1
i xi - x
Aquí, D. M. = , donde xi es la marca de clase y fi la correspondiente
n
frecuencia de clase.
Ejemplo 1. 38. Hallar la D. M. a partir del ejemplo 1.22
PESOS (Tn.) f x fIx- x I

9.0 - < 12.25 5 10.625 44.725
12.25 - < 15.00 4 13.625 23.78
15.00 - < 18.75 8 16.875 21.56
18.75 - < 22.00 9 20.375 7.245
22.00 - < 25.25 9 23.625 36.495
25.25 - < 28.50 2 26.875 14.61
28.50 - < 31.75 3 30.125 31.665
Total 40 Total 180.08
D. M. =
f x - x =
180.08
= 4.50 Tn.
n 40
Ventajas y desventajas de la desviación media
Ventajas:
55
1. Es fácil de computar.
2. Su desviación alrededor de la mediana es un mínimo.
Desventajas:
1. Si de varios grupos se conocen las desviaciones medias respectivamente,
la desviación media no se puede hallar del grupo combinado, si se conocen
todas las observaciones.
2. Es de poca utilidad en inferencia estadística.
La varianza: s2
DEFINICION
Si x1, x2,…..,xn, es una muestra de n datos, entonces la varianza muestral es
s2 =
 (x - x) 2
n -1
Las unidades de medición de la varianza muestral son iguales al cuadrado de

las unidades con que se mide la variable. Una varianza grande indica bastante
variación de datos. La varianza poblacional se denota por: 2.
Si un conjunto de datos constituye una población, o bien, si el objeto de resumir
los datos es únicamente para describirlos, entonces se utiliza n. Si el propósito es
sacar inferencias respecto a una población, entonces se debe sustituir el
denominador, n - 1 por n. Al utilizar en la varianza muestral n-1 en lugar de n es
porque así representa un mejor estimador del parámetro 2, como se verá más
adelante en la unidad VI. Para valores grandes de n (n≥30), prácticamente no hay
diferencia entre utilizar n-1 ó n.
Puede obtenerse una fórmula más eficiente para el cálculo de la varianza
muestral de la siguiente manera:
 x - x
2
2
s =
n -1
=
 (x 2 - 2xx + x 2 )
n -1
s2 =
 x - 2x  x + nx 2
2
n -1
Reemplazando x por  x / n y multiplicando el numerador y el denominador
por n, se obtiene la fórmula
n x 2 -   x 
2
s2 =
n(n -1)
 x -   x  / n
2 2
ó 2
s = 
n -1
56
Ejemplo 1.39. El espesor de tablillas de circuitos impreso es una característica
muy importante. Una muestra de ocho tablillas tiene los siguientes espesores (en
milésimas de pulg.): 63, 61, 65, 62, 61, 64, 60 y 66. Calcular la varianza de la
muestra.
n x 2 -   x 
2
2
s =
n(n -1)
x 2
= 31,532;  x = 502.
8(31,532) - (502)2 252,256 - 252,004 252
s2 = = = = 4.5 (milésimas de pulgadas2 )
8(7) 56 56

VARIANZA =VAR(número1;número2;…) Calcular la =VAR(63;61;65;62;61;64;60;66)
varianza de
Número1, número2;… son los Excel devuelve 4,5.
entre 1 y 30 argumentos argumentos
numéricos cuya varianza se =VAR(A1:A8)
desea obtener.
Excel devuelve el promedio de
los números que estén en el
rango de celdas, es decir, 4,5.
Varianza para datos agrupados

La varianza para datos agrupados se calcula utilizando las fórmulas
 x 2 f -   xf  / n
2
  
2
f x - x  
s2 = o s2 =
n -1 n -1
Si s se calcula sin fines inferenciales, o bien, si se calcula s2 de una población,
2
entonces se sustituye n-1 por n.
Ejemplo 1.40. Hallar la varianza de la siguiente distribución de frecuencias,

utilizando
 x f -   xf  / n
2 2
2
s = 
n -1
x f
0 - <10 5 2
10 -<20 15 1
20 -<30 25 5
30 -<40 35 8
40 -<50 45 4
20
20
x f xf x2f
0 - <10 5 2 10 50
57
10 -<20 15 1 15 225
20 -<30 25 5 125 3,125
30 -<40 35 8 280 9,800
40 -<50 45 4 180 8,100
20 610 21,300
 x2f -   xf  / n
2
2 
s =
n -1
21300 - ((610)2 / 20)

s2 =
19
s2 =141.8
Propiedades de la varianza
2
Propiedades. Sea s x la varianza de un conjunto de datos x1, x2,…,xn, k y b
constantes, entonces:
2 2 2
1. s x >0 4. Si y=x + k entonces s y = s x
2 2 2 2
2. Si y=k entonces s y =0 5. Si z=x + y entonces s z = s x + s y
2 2 2 2 2 2
3. Si y=kx entonces sy = k .sx 6. Si y=kx + b entonces sy = k .sx
Ejemplo 1.41. Considere los datos de espesor de las tablillas de circuito impreso
en el ejemplo 1.39.
a) Suponga que sumamos la constante 63 a cada número. ¿Cuál es el efecto en

la varianza?
2 2
Aquí y=x+63 entonces s y = s x =4.5 milpulg2 (Propiedad 4)
b) Suponga que multiplicamos cada dato por 100. ¿Cómo es afectada la varianza?
2 2 2
Aquí y=100x entonces sy = k .sx =1002 (4.5)=45 000 milpulg2 (Propiedad 3)
2
c) Si y=5x + 2, calcule s y .
Ventajas y desventajas de la varianza

Ventajas:
1. Es de las medidas de variación, la más utilizada.
2. Se pueden realizar cálculos algebraicos.
3. Se incluyen todos los datos en su cálculo.
Desventajas:
1. Las unidades de esta medida son las unidades de la variable al cuadrado.
58
2. No es fácil su interpretación debido a sus unidades.
3. Se debe acompañar de otras medidas de dispersión para su análisis.
La desviación estándar o típica: s = s2 .

DEFINICION
La desviación estándar es la raíz cuadrada positiva de la varianza, o sea
s = s2
Ejemplo 1.42. Halle la desviación típica en el ejemplo 1.39.
s2 = 4.5, s = s2 = 4.5 = 2.1 milésimas de pulg
Ejemplo 1.43. Halle la desviación típica en el ejemplo 1.40.
s2 =141.8, s = s2 = 141.8 =11.9

La desviación típica o estándar es una de las medidas de dispersión más
importante. Es la que mejor mide cuanto se dispersan los datos con respecto a su
media. Las unidades de la desviación estándar son las mismas que las de la medida.
Para distribuciones con forma acampanada resulta que:

a) El 68.27% de los casos están comprendidos entre x - s y x + s.
b) El 95.45% de los casos están comprendidos entre x - 2s y x + 2s
c) El 99.73% de los casos están comprendidos entre x - 3s y x +3s.
Para distribuciones moderadamente asimétricas, los porcentajes anteriores

pueden mantenerse aproximados. Las afirmaciones anteriores son afirmaciones no
sustentadas en ninguna prueba matemática.
Ejemplo 1.44. La desviación estándar muestral (0 F) de un conjunto de mediciones

de temperatura de un horno es 10.5. ¿Qué valor tiene la desviación estándar
muestral si la temperatura se expresa en 0 C? Fórmula: C=5/9(F – 32).
Aquí, SF =10.5, entonces
2 2
Sea C=5/9(F – 32) entonces SC =(5/9)2. SF =(25/81).(10.5)2=34.03
59
2 o
s c
= s c
= 34.03 = 5.83 C
Ventajas y desventaja de la desviación estándar

Ventajas:
1. Es, junto con la varianza, una de las medidas de variación más utilizadas.
2. Tiene las mismas unidades de la variable analizada.
3. Se pueden realizar cálculos algebraicos.
4. Se incluyen todos los datos en su cálculo.
Desventajas:
1. No es fácil calcularla como el rango
2. No puede calcularse en distribuciones de extremo abierto
3. Los valores extremos que se encuentren en el conjunto de datos distorsionan
su valor, aunque en menor grado que en el caso del rango.
4. Se debe acompañar de otras medidas de dispersión para su análisis.
5. Para su cálculo primero debe calcularse la varianza.
La varianza y la desviación estándar miden la dispersión “promedio” alrededor

de la media, es decir, cómo las observaciones mayores fluctúan por encima de ésta
y como las observaciones menores se distribuyen por debajo de ésta. Por ejemplo,
si la media y la desviación estándar de un conjunto de datos son 8.30 y 2.52
respectivamente, esto nos dice que la mayoría de datos se agrupan en 2.52
alrededor de la media 8.30, es decir, entre 5.78 y 10.82.
El coeficiente de variación: CV
En ocasiones es deseable expresar la variación como fracción de la media. Para
hacer esto se utiliza una medida adimensional de variación relativa, denominada
coeficiente de variación muestral.
DEFINICION
s
El coeficiente de variación muestral es CV = ó en forma porcentual
x
s
CV= .100
x
El coeficiente de variación es útil cuando se compara la variabilidad de dos o

más conjuntos de datos que difieren de modo considerable en la magnitud de las
observaciones. Por ejemplo, el coeficiente de variación puede ser de utilidad al
comparar la variabilidad del consumo de energía eléctrica por día en muestras
tomadas en distintos conjuntos residenciales durante un determinado mes del año.
Ejemplo 1.45. Con un micrómetro, se realizan mediciones del diámetro de un

balero, que tienen una media de 4.03 mm y una desviación estándar de 0.012 mm;
con otro micrómetro se toman mediciones de la longitud de un tornillo, que tienen
una media de 1.76 pulg y una desviación estándar de 0.0075 pulg. ¿Cuáles de las
medidas presenta una menor variabilidad?
El coeficiente de variación del balero y del tornillo es
60
0.012
CV = = 0.003
4.03
0.0075
y CV = = 0.004
1.76
respectivamente. Las medidas hechas con el primer micrómetro presentan una
variabilidad relativamente menor que las efectuadas con el otro micrómetro.
Si el CV para un conjunto de datos es menor que 0.1 ó 10%, entonces se dice
que este conjunto de datos es homogéneo, es decir, hay muy poca variabilidad
entre ellos y por lo tanto la media aritmética es altamente representativa de dichos
datos.
GRADO DE REPRESENTATIVIDAD DE LA MEDIA

Si el CV porcentual es: 0 o menos de 10%, la media es altamente representativa.
10 o menos de 20%, la media es bastante representativa.
20 o menos de 30%, la media es representativa.
30 o menos de 40%, la media tiene representatividad dudosa.
40% o más, la media carece de representatividad
Cabe ahora preguntar, ¿Cómo se calculan los estadísticos de centralización,
posición y de dispersión en tablas de distribución de frecuencias de anchos
diferentes? Todos se calculan de la misma forma, excepto la moda, cuya fórmula
se expresa así:
 di+1  fi
Mo = li-1 + c   ; di =
 di-1 + di+1  li - li-1
Donde, li-1: límite inferior de la clase de mayor densidad

c: ancho de la clase de mayor densidad
di: mayor densidad
y donde la densidad se expresa en términos de la frecuencia absoluta.

Observe la gran similitud que guarda con la fórmula anterior de la moda.
Por ejemplo sea la siguiente distribución de frecuencias:
f d
2-<4 1 0.5
4-<6 2 1
6-<10 8 2
10-<12 3 1.5
 di+1   1.5 
xˆ = li-1 + c   = 6+4 = 8.4 ¿Qué tipo de asimetría tenemos?
 di-1 + di+1  1+1.5 
Resumen de cinco puntos

61
Para describir un conjunto de datos es muy eficaz el resumen de cinco puntos.
El resumen de cinco puntos está integrado por:
1. Mín, el mínimo valor en el conjunto de datos.
2. Q1, el primer cuartil.
3. x , la mediana.
4. Q3, el tercer cuartil.
5. Máx, el máximo valor en el conjunto de datos.
La información resumida contenida en los cuartiles se pone de relieve en la

representación gráfica llamada diagrama de caja. Un diagrama de caja presenta
los tres cuartiles, el mínimo y el máximo de los datos en una caja rectangular,
alineada en forma horizontal o vertical. La caja encierra el intervalo intercuartil con
la línea izquierda en el primer cuartil y la línea derecha en el tercer cuartil. Se dibuja
una línea a través de la caja en el segundo cuartil (mediana). Una línea en cualquier
extremo se extiende hasta los valores extremos. Estas líneas, llamadas algunas
veces bigotes, pueden extenderse solo hasta los percentiles 10o. y 90o., o el 5o. y
el 95o. en grandes conjuntos de datos. Algunos autores se refieren al diagrama de
caja como el diagrama de caja y bigotes.
Ejemplo 1.46. Considere el siguiente conjunto de tiempos de ignición que fueron

registrados para una tela sintética.
30.1 30.1 30.2 30.5 31.0 31.1 31.2 31.3 31.3 31.4
31.5 31.6 31.6 32.0 32.4 32.5 33.0 33.0 33.0 33.5
34.0 34.5 34.5 35.0 35.0 35.6 36.0 36.5 36.9 37.0
37.5 37.5 37.6 38.0 39.5
Trace el diagrama de caja y bigotes.
Solución:
Aquí, Mín=30.1 y Máx=39.5. Además, Q1: k(n/4)=1(35/4)=8.75≈9, y Q1=31.3; Q2=
~
x : k(n/4)=2(35/4)=17.5, Q2= 33.0; y Q3: 3(n/4)=3(35/4)= 26.25≈27, Q3=36.0.
Ejemplo 1.47. En un experimento para investigar el efecto del flujo sobre la

uniformidad (%) del ataque en una oblea de silicio de las que se usan en la
62
fabricación de circuitos integrados, se consideran tres flujos (cm3 normales/minuto),
y se obtuvieron los siguientes datos:
Flujo:
125: 2.6 2.7 3.0 3.2 3.8 4.6
160: 3.6 4.2 4.2 4.6 4.9 5.0
200: 2.9 3.4 3.5 4.1 4.6 5.1
Compare las observaciones de uniformidad que resultan de estos tres diferentes

flujos.
Solución:
Flujo 125:
Mín=2.6 y Máx=4.6. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=2.7. Q2= x  (3.0  3.2) / 2  3.1 .
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=3.8.
Flujo 160:
Mín=3.6 y Máx=5.0. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=4.2. Q2= ~
x  (4.2  4.6) / 2  4.4 .
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=4.9.
Flujo 200:
Mín=2.9 y Máx=5.1. Q1: k(n/4)=1(6/4)=1.5≈2. Q1=3.4. Q2= ~
x  (3.5  4.1) / 2  3.8.
Q3: k(n/4)=3(6/4)=4.5≈5. Q3=4.6.
Con base a este diagrama de caja comparativo, parece que las tres muestras
difieren mucho respecto al centro. Hay un poco menos variabilidad para la razón de
flujo de 160 que para los otros dos flujos. Hay evidencia de asimetría positiva
moderada en el 50% intermedio de cada muestra.
63
Se puede embellecer un diagrama de caja que muestre la presencia de valores
atípicos (observaciones que estén muy alejados del grupo de los datos), en forma
explícita.
DEFINICION
Toda observación a más de 1.5 Q del cuartil más cercano es atípico leve o
inusual. Un valor inusual es extremo si está a más de 3Q del cuartil más cercano
y es moderado en cualquier otro caso. Sea x un valor, entonces
Si x<Q1 – 1.5Q, entonces x se llama atípico inferior.
Si x>Q3 + 1.5Q, entonces x llama atípico superior.
Si x<Q1 – 3Q, entonces x se llama extremo inferior, en caso contrario es
moderado inferior.
Si x>Q3 + 3Q, entonces x se llama extremo superior, en caso contrario es
moderado superior.
En el diagrama de caja y bigotes los extremos y moderados se representan por una

circunferencia y un círculo respectivamente.
Numerosos métodos de inferencia se basan en la hipótesis de que la muestra
proviene de una población normal. Hasta un solo valor extremo en la muestra
advierte que no deben usarse estos métodos, y la presencia de varios valores
moderados conlleva el mismo mensaje.
Ejemplo 1.48. En una experiencia se obtuvieron las siguientes resistencias en MA

(megaamperio)
1.1 5.6 5.7 5.8 5.9 5.9 6.2 6.7 6.9 7.2 7.8 9.8 9.9
Trace un diagrama de caja y comente sus características.
Solución:
n  13 
Aquí, Mín = 1.1 y Máx = 9.9. Además, Q1: k   = 1   = 3.25, Q1 = x4 = 5.8;
4 4
n  13  n  13 
Q2 = x : k   = 2   = 6.5, Q2 = x7 = 6.2; Q3: k   = 3   = 9.75,
4 4 4 4
Q3 = x10 = 7.2; y Q = Q3 - Q 1 = 1.4.
 Atípico inferior: x<Q1 – 1.5Q. x<5.8 – 1.5(1.4)=5.8 – 2.1= 3.7, luego, x=1.1<3.7,
entonces x=1.1 es atípico inferior.
 Extremo inferior: x<Q1 – 3Q. x <5.8 – 3(1.4)=5.8 – 4.2 = 1.6, luego x=1.1<1.6,
entonces x=1.1 es extremo inferior.
 Atípico superior: x>Q3 + 1.5Q. x>7.2 + 1.5(7.2)= 7.2 + 2.1 = 9.3, luego, x=9.8>9.3
y x=9.9>9.3, entonces x=9.8 y x=9.9 son atípicos superiores.
64
 Extremo superior: x>Q3 + 3Q. x > 7.2 +3(1.4)=7.2 + 4.2 = 11.4, luego, x=9.8>11.4
y x=9.9>11.4, entonces x=9.8 y x=9.9 no son extremos superiores, 9.8 y 9.9 son
moderados superiores.
Con base al diagrama se observa que existe asimetría positiva en el 50 % de

los datos y asimetría negativa en la muestra. Si omitimos valores atípicos, existe
asimetría positiva con respecto a la muestra.
1.11 Medidas de forma.
Los estadísticos de forma son aquellos que nos hablan de la forma de la

distribución de datos en cuanto a su asimetría y apuntamiento.
Momentos.
Momentos para datos no agrupados.

DEFINICION
Si x1, x2,…,xn son los n valores que toma la variable x, se define la cantidad
__ r
r x
x =
n
como el momento de orden r. El momento de primer orden r =1 es la media
__
aritmética x.
Ejemplo 1.49. Hallar los momentos de primero y segundo orden del conjunto de
datos: 2, 3, 7, 8 10.
Solución:
65
__
x =Σx/n =(2+3+7+8+10)/5=30/5=6 es el momento de primer orden o media
aritmética.
__
2
x = Σx2/n=(22+32+72+82+102)/5=226/5=45.2 es el momento de segundo orden.
DEFINICION
__
El momento de orden r con respecto a la media x es
n __
 (xi - x )r
mr = i=1
n
Si r=1, m1 =0. Si r=2, m2=s2, es la varianza.
Ejemplo 1.50. Hallar los momentos de primero y segundo orden con respecto a la
media para los datos del ejemplo 1.49.
Solución:
__
 (x - x ) (2 - 6)+(3 - 6)+(7 - 6)+(8 - 6)+(10 - 6) 0
m1 = = = = 0 . m1 es siempre igual a
n 5 5
cero.
__ 2
(2 - 6)2 +(3 - 6)2 +(7 - 6)2 +(8 - 6)2 +(10 - 6)2 46
 (x - x )
m2 = = = = 9.2 . Adviértase
n 5 5
que m2 es la varianza s2.
Momentos para datos agrupados

DEFINICION
Si x1, x2,…,xk se presentan con frecuencias f1, f2,…,fk respectivamente, los

momentos anteriores son dados por
k r
__ f x
r
x = i=1 , y
n
k __
 fi (xi - x )r
mr = i=1
n
k
donde n =  fi .
i=1
66
Momentos en forma adimensional
Para evitar unidades particulares se pueden definir los momentos adimensionales
respecto a la media
mr mr mr
ar = = =
 
r r r
s m2
m2 2
donde s = m2 es la desviación típica. Puesto que m1=0 y m2=s2, se tiene que

a1=0, a2=1.
Sesgo o asimetría
El sesgo es el grado de asimetría o falta de simetría de una distribución de
frecuencias. Si la curva de frecuencias (polígono de frecuencias suavizado) de una
distribución tiene una “cola” más larga a la derecha del máximo central que a la
izquierda, se dice de la distribución que está sesgada a la derecha o que tiene
sesgo positivo. Si es al contrario, se dice que está sesgada a la izquierda o que
tiene sesgo negativo.
Cuando realizamos un estudio descriptivo es altamente improbable que la

distribución de frecuencias sea totalmente simétrica. En la práctica diremos que la
distribución de frecuencias es simétrica si lo es de un modo aproximado. Por otro
lado, aún observando cuidadosamente la gráfica, podemos no ver claro de qué lado
están las frecuencias más altas. Conviene definir entonces unos estadísticos que
ayuden a interpretar la asimetría, a los que llamaremos índices de asimetría, y que
denotaremos mediante As. Vamos a definir a continuación algunos de los índices
de asimetría más usuales como son el índice basado en la distancia entre la moda
y la media o la media y la mediana, los tres cuartiles y el momento de tercer orden.
En distribuciones sesgadas, la media tiende a situarse con respecto a la moda

al mismo lado que la cola más larga. Así, una medida de la asimetría nos viene dada
por la diferencia (Media – Moda). Esta medida puede adimensionarse, dividiéndola
por una medida de dispersión, tal como la desviación típica, llegando a
__
x - ˆx
As =
s
Para evitar el empleo de la moda, se puede utilizar la fórmula empírica y se tiene
__
3( x
- x)
As =
s
Diremos que hay asimetría positiva si As>0 y negativa si As<0.
Las medidas anteriores se conocen como primero y segundo coeficiente de

sesgo de Pearson, respectivamente.
Una importante medida de este tipo emplea el momento de tercer orden con
respecto a la media expresado en forma adimensional y dada por
67
EL COEFIENTE DE ASIMETRIA DE FISHER
m3 m3
As = a3 = =
s3 m3/2
2
Si a3 >0, la distribución es sesgada a la derecha.
Si a3 <0, la distribución es sesgada a la izquierda.
Si a3 =0, la distribución es perfectamente simétrica.
Obsérvese que basta el signo de a3 para determinar el sesgo de la distribución.
Ejercicio 1.51. A continuación se muestra a través de la siguiente tabla las millas

recorridas por 20 estudiantes en sus vehículos al venir a una universidad desde sus
casas. Encontrar la asimetría relativa basada en el tercer momento.
Millas recorridas f
0-<2 2
2-<4 5
4-<6 4
6-<8 8
8 - < 10 1
20
Solución:
Millas recorridas f xf x2f

0-<2 2 2 2
2-<4 5 15 45
4-<6 4 20 100
6-<8 8 56 392
8 - < 10 1 9 81
20 102 620
__
x =Σxf/n=102/20=5.1 millas.
f -   xf  / n 620 - 102  / 20 
2 2 2
__ 2
x
s2 = m2 =
 f(x - x )
ó m2 =  =   = 99.8 / 20 = 4.99
n n 20
__ 3
 f(x - x ) 2(1- 5.1)3 + 5(3 - 5.1)3 + 4(5 - 5.1)3 + 8(7 - 5.1)3 +1(9 - 5.1)3
m3 = = = -3.498
n 20
68
m3 -3.498
As = a3 = = = -0.31381 .
m3/2
2 4.991.5
Puesto que el valor de a3 es negativo (porque m3 es negativo) indica la

asimetría hacia los valores más pequeños o hacia el lado izquierdo de la escala de
las x de la curva de distribución, es decir, la distribución es sesgada a la izquierda
o tiene asimetría negativa.
Curtosis
Es el grado de apuntamiento o prominencia de una distribución, normalmente se
toma en relación a la distribución normal. Una distribución que presenta un
apuntamiento relativo alto, se llama leptocúrtica, mientras que la curva que es más
achatada, se llama platicúrtica. La distribución normal, que ni es muy achatada, se
llama mesocúrtica.
Una medida de la curtosis emplea el momento de cuarto orden con respecto a

la media, expresado en forma adimensional y dada por
m4 m4
Coeficiente de curtosis = a4 = =
s4 m22
El Coeficiente de curtosis, también analiza el grado de concentración que

presentan los valores alrededor de la zona central de la distribución.
Para una distribución normal a4 = 3 . Por esta razón, a veces se define la

curtosis a través del coeficiente de aplastamiento de Fisher como:
m4
   3 , donde
m22
Leptocúrtica:   0 ó a4 >3 si la distribución es más apuntada que la normal.
Platicúrtica:   0 ó a4 < 3 si la distribución de frecuencias es menos apuntada
que la normal.
Mesocúrtica:   0 ó a4 = 3 cuando la distribución de frecuencias es tan apuntada
como la normal.
69
Ejemplo 1.52. Tomando el ejemplo precedente encontrar la curtosis basada en el
cuarto momento.
Solución:
__ 4
 f(x - x ) 2(1- 5.1)4 + 5(3 - 5.1)4 + 4(5 - 5.1)4 + 8(7 - 5.1)4 +1(9 - 5.1)4
m4 = = = 49.8997
n 20
m4 m 49.8997
a4 = 2 2
= 24 = = 2.004 .
(s ) m2 24.9001
Puesto que   0, la distribución de frecuencias es platicúrtica, menos aplastada
que la normal, achatada relativamente.
Las medidas de asimetría, sobre todo el coeficiente de asimetría de Fisher, junto

con las medidas de apuntamiento o curtosis se utilizan para contrastar si se puede
aceptar que una distribución estadística sigue la distribución normal. Esto es
necesario para realizar numerosos contrastes estadísticos en la teoría de inferencia
estadística.
En el EXCEL no es común tener activado “Análisis de datos...” dentro del Menú

Herramientas de la barra de Menús. Tal recurso debe estar presente cuando se va
a utilizar dicho software para aplicaciones de la Estadística. Precisamente saber
activar “Análisis de datos...” debe constituir una de las habilidades a dominar para
trabajar con el EXCEL con este propósito. Tal activación se logra desplegando
Herramientas de la barra de Menú; acceder a la opción "Complementos...", y en
el cuadro de dialogo que se presenta, activar la casilla de verificación Herramientas
para análisis.
Precisamente en "Análisis de datos..." está la opción Estadística descriptiva;

al utilizar esta última sólo hay que indicar la ubicación del conjunto de datos que se
está procesando y se obtiene de inmediato una tabla con los resultados de Media,
Error típico, Mediana, Moda, Desviación estándar, Varianza de la muestra,
Curtosis, Coeficiente de asimetría, Rango, Mínimo, Máximo, Suma y Cuenta.
Ejemplo 1.53. Dado el conjunto de datos, aplicar la opción estadística descriptiva.
1 3 8 7 6 5 5 7 5 6 6 8 7 7 8 8 9
Solución:
Empezamos por seleccionar el análisis del menú Herramientas. Aparecerá la lista

de opciones de Análisis de datos en donde seleccionaremos Estadística Descriptiva.
Seleccionando Aceptar aparece el cuadro de diálogo de Estadística Descriptiva.
Como hemos indicado lo único que es “obligatorio” suministrar son los datos a
analizar (Rango de entrada) y el lugar en donde se desea escribir los resultados
(Rango de salida). Se puede especificar ambos por el procedimiento de señalar con
el cursor pero debemos asegurarnos, antes de hacerlo, que el campo que vamos a
rellenar se halla seleccionado. Veámoslo con el ejemplo.
70
 Por defecto el cursor se encuentra situado en el campo “Rango de entrada”.
Para rellenarlo solamente debemos poner el ratón sobre la hoja que confine
los datos y seleccionar este rango. En nuestro ejemplo seleccionaremos la
primera fila desde la celda 1 hasta la 17, es decir el rango $A$1:$A$17.
 A continuación debemos activar la selección del rango de salida para lo cual:

1. Marcamos el botón “Rango de salida” en la zona “Opciones de salida”.
2. Haremos clic dentro del campo “Rango de salida” de forma que
aparezca el cursor en su interior.
3. Hecho lo anterior podemos indicar la zona en donde queremos que
aparezca el resultado seleccionado con el cursor una única celda que
se constituye en la celda superior izquierda del rango de salida.
 Si se desean seleccionar otras opciones se procederá a marcar los botones
u opciones de selección y una vez finalizado se pulsará “Aceptar” con el
ratón, lo que ejecutará el análisis escribiendo los resultados en la posición
escogida.
Luego el aspecto de salida es:

Columna1
Media 6.23529412
Error típico 0.48906733
Mediana 7
Moda 8
Desviación estándar 2.01647625
Varianza de la muestra 4.06617647
Curtosis 1.66573814
Coeficiente de asimetría -1.1934234
Rango 8
Mínimo 1
Máximo 9
Suma 106
Cuenta 17
71
4.5
4
3.5
Frecuencia
3
2.5
2
1.5
1
0.5
0
Clases
Al utilizar la opción histograma se obtiene un gráfico que tiene el aspecto anterior.
Una asimetría negativa o hacia los valores más pequeños ya que x  x  xˆ o por
que el coeficiente de asimetría es negativo. Puesto que la curtosis es positiva, la
distribución es Leptocúrtica, más apuntada que la normal.
PARTE II: TEORIA DE PROBABILIDADES
Unidad II: PROBABILIDAD
2.1 Espacios muestrales y eventos

La teoría de la probabilidad es la teoría matemática que modela los fenómenos o
experimentos aleatorios. Estos deben contraponerse a los fenómenos
determinísticos, en los cuales el resultado de un experimento, realizado bajo
condiciones determinadas, produce un resultado único o previsible.
Un experimento determinista es aquel el que se obtiene el mismo resultado

cuando se repite el experimento en las mismas condiciones. Por ejemplo, al quemar
gas propano en presencia del oxígeno, se produce gas carbónico más agua.
Un experimento aleatorio (o estocástico) es aquel en el que al repetir el

experimento en igualdad de condiciones los resultados varían, a pesar de mantener
constantes las condiciones con las que se realiza el experimento. Por ejemplo,
cuando se lanza un dado y se observa su resultado. En el experimento los posibles
resultados son 1, 2, 3, 4, 5 ó 6.
Así pues, los experimentos en los que sí podemos decir lo que va a ocurrir, se
les llama experimentos deterministas. A los experimentos en los cuales no sabemos
lo que va a ocurrir se les llama experimentos aleatorios.
ESPACIO MUESTRAL O ESPACIO MUESTRA
72
Al conjunto de todos los posibles resultados de un
experimento aleatorio se le llama espacio
muestral y se denota por S.
Cada resultado se llama elemento o miembro del espacio muestral o

simplemente, punto muestral.
Por ejemplo, si en el lanzamiento de un dado consideramos el número que aparece

en la cara superior, entonces S ={1, 2, 3, 4, 5, 6}
Tipos de espacios muestrales:

• Espacio muestral discreto, aquel que es finito o infinito contable. Por ejemplo,
en el lanzamiento de un dado S ={1, 2, 3, 4, 5, 6} o los resultados que se obtienen
cuando se lanza una moneda hasta que aparece una cara S ={H, TH, TTH, TTTH,
TTTTH, …}
 Espacio muestral continuo, aquel que es infinito no contable, que resulta de
una medición. Por ejemplo, el pH es una medida de acidez o alcalinidad de una
disolución acuosa. La escala de pH típicamente va de 0 a 14 en una disolución
acuosa, es un valor en el intervalo real [0, 14].
 Diagrama de árbol
Útil para listar los elementos de S en forma sistemática. Por ejemplo,
lanzamiento de una moneda dos veces.
S ={HH, HT, TH, TT}
Regla: Se utiliza para describir un espacio muestral S cuando él posee un número

grande o infinito de puntos. Por ejemplo, considérese el espacio muestral S, en
donde t es la vida útil en años de cierto microprocesador, entonces S ={t│t0}.
73
EVENTO
Un evento es cualquier subconjunto del espacio muestral S. Evento simple el

formado por un sólo resultado y compuesto si consta de más de un resultado.
S
A AS
“A es subconjunto de S”
Si S es el espacio muestral asociado a un experimento, entonces S mismo es

un evento conocido como evento seguro.
Un evento que no contiene elementos se denomina evento imposible o incierto
o vacío y se representa por Φ. Por ejemplo, sea B={x/x es un factor par de 5},
entonces B= Φ, puesto que los únicos factores posibles de 5 son 1 y 5.
Teoría de conjuntos
1. Unión de A y B, A U B, se lee “unión de A y B”, contiene todos los elementos

que pertenecen a A, a B, o a ambos.
2. Intersección de A y B, A∩B, se lee “intersección de A y B”, contiene

todos los elementos que pertenecen a ambos conjuntos A y B. Son los
elementos comunes a A y B.
74
S
3. Complemento de A, A´, A o Ac, se lee “complemento de A”, contiene todos

los elementos en S que no pertenecen a A.
4. Diferencia de A y B, A – B, se lee “diferencia de A y B”, contiene todos los
elementos que pertenecen a A pero no a B, con esto, A – B=A ∩ Bc.
=A ∩ BC
Observe que: “A o B” = A U B; “A y B”=A ∩ B; “no A”=AC; “A menos B” =A

– B= ”A y no B” =A ∩ BC.
Por ejemplo, sea A: componente usado y B: componente defectuoso. Considere los
eventos:
usado o defectuoso = A o B =A U B
usado y defectuoso= A y B = A ∩ B
no usado= no A=AC
usado y no defectuoso= A y no B= A ∩ BC = A - B
Eventos mutuamente excluyentes
75
Eventos mutuamente excluyentes, disyuntos o disjuntos si A ∩ B= Φ, es
decir, si A y B no tienen elementos en común, o si no pueden ocurrir
simultáneamente.
PROPIEDADES MAS IMPORTANTES DE EVENTOS
1. A∩ Φ= Φ
2. AU Φ=A
3. A∩A´= Φ
4. AUA´=S
5. S´= Φ
6. Φ´=S
7. (A´)´=A
8. (A∩B)´=A´ U B´
9. (AUB)´=A´ ∩ B´
Los resultados 8. y 9. constituyen la Ley de D´Morgan.
Ejemplo 2.1. Considérese el lanzamiento de un dado. Sea A=número par y B:

número primo.
a) A U B = {2, 4, 6} U {2, 3, 5} = {2, 3, 4, 5, 6}
b) A ∩ B = {2, 4, 6} ∩ {2, 3, 5} = {2}
c) AC = {1, 3, 5}
d) A – B = {2, 4, 6} - {2, 3, 5} = {4, 6}
e) A ∩ BC= {2, 4, 6} ∩ {1, 4, 6} = {4, 6}
Ejemplo 2.2. Sea el diagrama de Venn. ¿Qué evento representa la región 1?

¿Qué evento representa la región 4? ¿Cómo expresa con palabras la región 3?
Ejemplo 2.3. ¿Cómo expresa en términos de uniones e intersecciones de A, B y C

y de sus complementos “ocurre A y B, pero no C”? ¿Tan solo ocurre A?
76
2.2 Definición de probabilidad
La idea de probabilidad surge por la necesidad de medir la incertidumbre o
verosimilitud que posee cada suceso asociado a un experimento aleatorio.
Actualmente, la teoría de la probabilidad encuentra aplicación en las más variadas
ramas del conocimiento, como puede ser la física, la química, la biología, la
medicina, la psicología, la ciencia política, la educación, la economía, los negocios,
la investigación de operativa y todas las ramas de la ingeniería.
La probabilidad de que un evento ocurra se evalúa por medio de un conjunto de
números llamados probabilidades.
Antes de profundizar en la forma como se utilizan las probabilidades, es
necesario conocer de cierta manera de donde provienen. La definición clásica o a
priori de probabilidad proveniente de los juegos de azar o enfoque clásico de
Laplace, se emplea cuando los espacios muestrales son finitos y tienen resultados
igualmente probables; la definición frecuencial o empírica o a posteriori de
probabilidad, que se basa en la frecuencia relativa de ocurrencia de un evento con
respecto a un gran número de ensayos repetidos y por último la definición de
Kolmogorov o la definición axiomática de probabilidad. Seleccionar uno de las
tres definiciones dependerá de la naturaleza del problema.
Definición clásica o a priori o teórica

Se utiliza si los resultados son igualmente probables. Es la manera más antigua
de medir lo incierto, con origen en los juegos de azar.
Esta definición clásica de probabilidad fue una de las primeras que se dieron
(1900) y se atribuye a Laplace; también se conoce con el nombre de probabilidad
a priori pues, para calcularla, es necesario conocer, antes de realizar el experimento
aleatorio, el espacio muestral y el número de resultados o sucesos elementales que
entran a formar parte del suceso.
Nos interesa ahora la medida numérica de la posibilidad de que ocurra un suceso

A cuando se realiza el experimento aleatorio. A esta medida la llamaremos
probabilidad del suceso A y la representaremos por P(A).
DEFINICION CLASICA DE PROBABILIDAD O A PRIORI (1900)
Si A es el evento formado por h resultados del espacio

muestral y, el número de resultados posibles es n, entonces
h
P(A) =
n
número de casos favorables al suceso A
ó P(A) =
número de casos posibles
Pierre-Simón Laplace
Esta definición es de uso limitado puesto que descansa sobre la base de las
siguientes dos condiciones: 1. El espacio muestral de todos los resultados posibles
S es finito; y 2. Los resultados del espacio muestral deben ser igualmente
probables.
77
A partir de esta definición, se pueden deducir algunas propiedades importantes:
1. Cuando no existan casos favorables (suceso imposible), la probabilidad será
cero.
2. Si los casos favorables son todos los posibles (suceso seguro), la probabilidad
será 1.
Por consiguiente, la probabilidad siempre oscilará entre un valor mínimo (0) y un
valor máximo (1).
Por ejemplo, cuando dos dados se lanzan separadamente, hay n=36 resultados. Si
ambos dados no están cargados, los 36 resultados son igualmente probables, así
que para un evento Ai cualquiera, P(Ai)=1/36, con i=1,2,…,36. Entonces, el evento
E: suma de los números igual a 7, está formado por los seis resultados (1,6), (2,5),
(3,4), (4,3), (5,2) y (6,1), así que
P(E)=No. casos favorables / No. casos posibles=h/n=6/36
Baraja
La baraja inglesa es un conjunto de naipes o cartas, formado por 52 cartas
repartidas en cuatro palos (manjares).
La baraja está dividida en cuatro palos, dos de color rojo y dos de color negro:
 Picas/Espadas ♠, (negra)
 Corazones ♥, (roja)
 Diamantes ♦, (roja)
 Tréboles ♣. (negra)
Cada palo está formado por 13 cartas, de las cuales 9 cartas son numerales y 4
literales. Se ordenan de menor a mayor rango de la siguiente forma: 2, 3, 4, 5, 6, 7,
8, 9, 10, J (sota), Q (reina), K (rey) y A (as) (que vendría siendo el 1).
Ejemplo 2.4. Selecciónese una carta al azar de una baraja corriente de 52 cartas.
Sea el evento A: seleccionar una espada; B: seleccionar J, Q, ó K; y A ∩ B:
seleccionar espada y seleccionar J, Q, ó K. Entonces,
P(A)=h/n=13/52=1/4;
P(B)=h/n=12/52=3/13; y
P(A ∩ B)= h/n=3/52.
Definición empírica o frecuencial o a posteriori o de von Mises (1920)

La aplicación de la definición clásica de probabilidad puede presentar dificultades
de aplicación cuando el espacio muestral es infinito o cuando los posibles resultados
de un experimento no son equiprobables. Desafortunadamente, hay situaciones
prácticas que son de este tipo y la definición de Laplace no se puede aplicar. Por
ejemplo, si se pregunta por la probabilidad de que una determinada máquina
produzca artículos defectuosos, entonces no hay forma de introducir resultados
igualmente probables.
78
Por ello se necesita una definición más general de probabilidad. Una forma de
dar respuesta a esta pregunta es obtener algunos datos empíricos en un intento por
estimar las probabilidades.
Si se realiza n veces un experimento aleatorio y el suceso A se presenta nA

veces, su frecuencia relativa es fA=nA/n.
Como consecuencia de la propia definición, resultan las siguientes propiedades:
1. 0≤fA≤1.
2. fA=0 si A no ocurre y fA=1 si A ocurre en cada repetición.
3. A y B disjuntos, fAUB= fA+ fB
La definición empírica de probabilidad nos permite afirmar que la probabilidad de
obtener un determinado suceso A es el valor hacia el cual tiende la frecuencia
relativa, cuando el número de observaciones tiende a infinito.
Es imposible llegar a este límite, ya que no podemos repetir el experimento un

número infinito de veces, pero si podemos repetirlo muchas veces y observar como
las frecuencias relativas tienden a estabilizarse.
Esta definición frecuentista de la probabilidad se llama también probabilidad a

posteriori ya que sólo podemos dar la probabilidad de un suceso después de repetir
y observar un gran número de veces el experimento aleatorio correspondiente.
DEFINICION FRECUENCIAL O EMPIRICA
Sea A un evento contenido en el espacio muestral de un

experimento aleatorio, denotemos por nA al número de
veces que ocurre el evento A, luego de n repeticiones
nA
P(A) = lim f A = lim
n n n
Lanzamiento moneda, P(cara) ≈0.5
Desafortunadamente se tiene que para cada A fijo, fA no es constante pues su valor

depende de n; sin embargo se ha observado que cuando un experimento aleatorio
se realiza un número suficientemente grande de veces, bajo condiciones similares,
la frecuencia relativa fA se estabiliza alrededor de un valor específico entre 0 y 1. En
la práctica la probabilidad se aproxima por la frecuencia relativa al repetir el
experimento un número grande de veces; es decir: P(A) ≈ fA=nA/n.
La frecuencia relativa fA tiende a estabilizarse a medida que n se vuelve más

grande. Este efecto estabilizador, se llama ley de los grandes números o ley
fundamental del azar.
79
La estabilidad de fA, no es del todo una conclusión matemática, sino simplemente
una realidad empírica. Por esto, la definición anterior no es una definición correcta
de probabilidad, matemáticamente.
Ejemplo 2.5. Un ingeniero eléctrico estudia la demanda máxima en una planta

generadora de electricidad. Se observa que en 80 de 100 días seleccionados
aleatoriamente para estudio, de registros pasados, la demanda máxima ocurre entre
las 18:00 y 19:00 horas. Es natural suponer que la probabilidad de que ello ocurra
en cualquier otro día es:
P(A)≈ fA=nA/n=80/100=0.80
Esta cifra se basa en la experimentación y observación repetidas. Es una frecuencia

relativa.
Enfoque subjetivo
El uso de las creencias personales y de otra información indirecta para llegar a la
probabilidad se llama definición subjetiva de probabilidad.
DEFINICION SUBJETIVA DE PROBABILIDAD
La probabilidad subjetiva es una evaluación personal de la posibilidad de que

ocurra un evento.
Definición axiomática
La definición axiomática de la probabilidad es quizás la más simple de todas las
definiciones y la menos controvertida ya que está basada en un conjunto de axiomas
que establecen los requisitos mínimos para dar una definición de probabilidad.
La ventaja de esta definición es que permite un desarrollo riguroso y matemático
de la probabilidad. Fue introducida por A. N. Kolmogorov y aceptada por estadísticos
y matemáticos en general.
Definimos la probabilidad de A, P(A), como una función de conjuntos, donde el
dominio son eventos y el recorrido son el conjunto de los números reales.
DEFINICION AXIOMATICA
Sea S espacio muestral finito y C conjunto de eventos de S, se define la función
real P:
P: C ──────> R
A ~~~~~~>P(A), A S
tal que satisface los siguientes axiomas:
Axioma 1: Para cada evento A: 0≤P(A)≤1
80
Axioma 2: P(S)=1
Axioma 3: Si A ∩ B=Φ, entonces P(A U B)=P(A) + P(B)
Entonces P se denomina función de probabilidad y P(A) es denominada

probabilidad del evento A.
El Axioma 1, señala que P(A) es un número cuyo valor mínimo y máximo son 0
y 1 respectivamente. Axioma 2, la probabilidad máxima de 1 se asigna a S. Axioma
3, la función probabilidad es aditiva. Obsérvese que los axiomas no dicen como
asignar las probabilidades, ellos restringen únicamente la manera de como hacer la
asignación.
La asignación se basa en:

1. Estimaciones en base a observaciones previas (enfoque a priori).
2. Consideración analítica del experimento (enfoque a posteriori).
3. Suposiciones (enfoque subjetivo).
De los axiomas anteriores podemos demostrar varios teoremas sobre

probabilidad que son importantes en el estudio posterior.
2.3 Propiedades más importantes de la probabilidad
Teorema 1: Si Ac es el complemento de A entonces
P(A c ) =1-P(A)
AUAC=S ¿Por qué?
P(A)+P(AC)=P(S) ¿Por qué?
(AC)=1 – P(A)
Las probabilidades complementarias son muy útiles cuando se pregunta por

la probabilidad de “por lo menos”. En general, esto representa una combinación de
varios eventos, pero el evento complemento “ninguno” es un solo resultado.
Ejemplo 2.6. Se lanzan dos dados. ¿Cuál es la probabilidad de que la suma sea
por lo menos 3 (es decir, 3 o más)?
En vez de encontrar la probabilidad de cada una de las sumas cuyo resultado es 3

o más, es mucho más sencillo encontrar la probabilidad de que la suma sea 2
81
(menor que tres) y luego aplicar el teorema, dejando que “por lo menos” sea A. Así,
sean los eventos A: suma sea por lo menos 3 y Ac: suma sea 2
P(Ac)=1/36;
P(A)=1-P(Ac)=1-1/36=35/36.
Ejemplo 2.7. Según un artículo publicado en una revista (1991), una de cada nueve
personas a quienes se diagnosticará SIDA durante 1991 será una mujer. Con base
en esta información, encuentre la probabilidad de que una persona a la que se
diagnosticará SIDA en 1991 sea hombre.
P(mujer que se le diagnostica SIDA)+P(hombre que se le diagnostica SIDA)=1

P(hombre que se le diagnostica SIDA)=1- P(mujer que se le diagnostica SIDA)
=1- 1/9
=8/9.
Teorema 2: Si A y B son dos eventos cualesquiera, entonces

?
P(AUB) =P(A)+P(B)-P(A B) ¿Por qué se
resta
Esta propiedad se conoce como regla aditiva de la probabilidad. P(A∩B)?
Si A y B son excluyentes, A∩B=Ø, P(A∩B)=0, entonces P(AUB)=P(A) + P(B).
Ejemplo 2.8. Una tienda vende partes nuevas y usadas. 60% de las partes que hay
en existencia son usadas. El 61% son usadas o están defectuosas. Si 5% están
defectuosas, ¿Qué porcentaje de partes son usadas y están defectuosas?
Solución:
Sea A=partes usadas; B=partes defectuosas; y A ∩ B: partes usadas y
defectuosas.
P(A U B)=P(A)+P(B)-P(A ∩ B)
P(A ∩ B)=P(A)+P(B)-P(A U B)
=0.60+0.05 – 0.61
=0.0400.
Teorema 3: Para dos sucesos A y B
P(A) = P(A B)+P(A Bc )
82
A = (A ∩ B) U (A ∩ BC)
P(A)=P(A ∩ B) + P(A ∩ BC)
Ejemplo 2.9. En el ejemplo anterior, ¿cuál es el porcentaje de partes usadas sin

defectos (usadas y no defectuosas)?
Partes usadas sin defectos =partes usadas y que no tienen defectos = A ∩ BC
A = (A ∩ B) U (A ∩ BC)
P(A)=P(A ∩ B) + P(A ∩ BC)
P(A ∩ BC)=P(A) – P(A ∩ B)
=0.60 – 0.04
=0.56.
Asignación de probabilidades
Si un espacio muestra S consiste únicamente de los eventos simples A1, A2,…,An
entonces por la definición axiomática de probabilidad
P(A1 )+P(A 2 )+...+P(An ) =1
Se concluye que podemos escoger arbitrariamente cualquier número no
negativo para las probabilidades de estos sucesos elementales siempre que se
satisfaga la ecuación anterior. En particular, si suponemos probabilidades iguales
para todos los sucesos simple, entonces
1
P( A i) = , i =1,2,...,n
n
y si A es un suceso compuesto por h sucesos simples tenemos
1 h
P(A) = h * =
n n
Esto es, si los resultados son equiprobables, se cuenta el número n de resultados

en S, también el número h de resultados de A y se toma la relación entre h y n
como P(A).
Esto equivale a la definición o enfoque clásico de la probabilidad dado

anteriormente.
Podíamos lógicamente emplear otros procedimientos para asignar
probabilidades, como el de la frecuencia relativa.
83
La asignación de probabilidades provee un modelo matemático y su éxito debe
probarse experimentalmente en forma muy similar a como las teorías en física u
otras ciencias deben probarse experimentalmente.
Ejemplo 2.10.
1) Se lanza solo un dado. Sea el evento E: caiga un 2 ó 5, hallar P(E).
El espacio muestral es S ={1, 2, 3, 4, 5, 6 }, A1={1}, A2={2}, A3={3}, A4={4}, A5={5}
y A6={6}. Si asignamos probabilidades iguales a los puntos muestrales, es decir si
suponemos que el dado es legal, entonces,
P(A1)=P(A2)=…=P(A6)=1/6, con lo que P(Ai)≥0 y ∑P(Ai)=1. Así, E= A2 U A5 y

P(E)=P(A2 U A5)=P(A2) + P(A5)=1/6+1/6=2/6 por el Axioma 3.
2) Un troquel de extrusión (proceso utilizado para crear objetos con sección

transversal definida y fija) se utiliza para producir varillas de aluminio. Existen ciertas
especificaciones para la longitud y diámetro de las varillas. Para cada una de éstas,
la longitud puede ser demasiado corta, demasiado larga o estar bien y el diámetro
se puede clasificar en muy delgado, muy grueso o estar bien. En una población de
mil varillas, el número de ellas en cada clase es:
diámetro
longitud muy delgado está bien muy grueso
demasiado corta 10 3 5
está bien 38 900 4
demasiado larga 2 25 13
Se toma una varilla aleatoriamente a partir de esta población. ¿Cuál es la

probabilidad de que sea demasiado corta?
Se considera que cada una de las mil varillas representa un resultado en un
espacio muestral. Cada uno de los mil resultados tiene la misma probabilidad. Se
resolverá el problema contando el número de resultados que corresponde al evento.
Sea E: varilla seleccionada es demasiado corta. El número de varillas que son
demasiado cortas es 10+3+5=18. Dado que el número total de varillas es mil,
P(E)=h/n=18/1000
2.4 Técnicas de conteo

En muchos casos el número de puntos muestrales en un espacio muestral no es
muy grande y así la enumeración o cuenta directa de los puntos del muestreo
necesarios para obtener las probabilidades no es difícil. Sin embargo, surgen
problemas cuando la cuenta directa se convierte en una imposibilidad práctica. En
tales casos se emplean las técnicas de conteo, que podría llamarse una forma
sofistificada de contar.
TEOREMA. REGLA DEL PRODUCTO
84
Un evento ocurre de n1 formas y si por cada una de éstas formas un segundo
evento ocurre de n2 formas, entonces el número de formas en que ambos
ocurren es n1 * n2.
Este teorema se puede generalizar para más de dos eventos.
Ejemplo 2.11. Hallar el número posible de resultados en S al lanzar una moneda

y un dado.
Cae la moneda de n1=2 formas. Por cada una de estas formas, cae el dado de n 2 =
6 formas. La moneda y el dado caen de n1 * n2 =(2)(6)=12 formas posibles.
Ejemplo 2.12. Supongamos que una placa de automóvil en un país consta de dos
letras diferentes, seguidas de tres dígitos que se repiten, de los cuales el primero
no es cero. ¿Cuántas placas diferentes pueden grabarse?
La primera letra puede colocarse de 26 maneras diferentes (suponiendo el alfabeto

de 26 letras), la segunda letra de 25 maneras, para el primer dígito hay nueve
números o sea nueve maneras y para cada uno de los otros dos dígitos 10 maneras.
Por lo tanto pueden grabarse
26.25.9.10.10=585,000
placas diferentes.
TEOREMA. REGLA DE LA SUMA

Si dos eventos no pueden ocurrir simultáneamente, y uno de ellos ocurre de n 1
formas, mientras que el otro ocurre de n2 formas, entonces un evento o el otro
puede ocurrir de n1 + n2 formas.
Este teorema se puede generalizar para más de dos eventos eventos.
Ejemplo 2.13. Se lanza un dado y se observa el resultado. Cuál es la probabilidad

de que el resultado sea número primo o cuadrado perfecto. Sea el evento A: aparece
un número primo y B: aparece un cuadrado perfecto. n=6; h=n1+n2=3+2=5.
Entonces,
h 3+2
P(A ó B) = P(AUB) = = = 5/6
n 6
Ejemplo 2.14. En una caja de pernos se encuentran 8 gruesos, 5 medianos y 3

angostos. Una caja de tuercas contiene 6 que ajustan con los pernos gruesos, 4
que ajustan con los pernos medianos y 2 que ajustan con los pernos angostos. Se
elige aleatoriamente un perno y una tuerca, ¿cuál es la probabilidad de que la tuerca
ajuste con el perno?
Sea el evento A: perno grueso y tuerca gruesa; B: perno mediano y tuerca mediana;
C: perno angosto y tuerca angosta. n=16*12; h=8*6+5*4+3*2;
85
h 8 * 6 +5 * 4 +3 * 2
P(A ó B ó C) = P(AUBUC) = = = 74/192
n 16 *12
PERMUTACION
Una permutación de un cierto número de objetos es un ordenamiento en el que

participan todos o una parte de ellos en un orden definido.
Obsérvese que en las permutaciones si interesa el orden.
Ejemplo 2.15. Permutaciones de las letras a, b, c: abc, acb, bca, bac, cba, cab, 6
permutaciones o por la regla del producto: n1*n2*n3=(3)(2)(1)=6 permutaciones.
Permutaciones de n objetos: n!
n.(n-1).(n-2).....3.2.1
o con la notación n! que se lee “n factorial”, así
n!=n(n-1)(n-2)...3.2.1
Entonces, 2!=2.1, 3!=3.2.1=6, 4!=4.3.2.1=24, y así, sucesivamente. Por definición:

0!=1.
DEFINICION
El número de permutaciones de n objetos distintos es n!
En su calculadora puede utilizar la tecla n!

Ejemplo 2.16. Permutaciones de las letras a, b, c, d es 4!=24.
Ejemplo 2.17.
En una clase de teoría de la probabilidad hay 6 hombres y 4 mujeres. Se hace un
examen y se ordena a los estudiantes de acuerdo con su desempeño. Suponiendo
que no hay dos estudiantes con la misma calificación:
a) ¿De cuántas maneras distintas pueden quedar ordenados los estudiantes?
10 ! =3 628 800
b) Si se considera que todas las maneras posibles de ordenar a los estudiantes

son igualmente posibles, ¿cuál es la probabilidad de que las mujeres obtengan los
4 primeros lugares?
Sea el evento A: las mujeres obtengan los primeros cuatro lugares

P(A)=h/n = 4! • 6! / 10! = 1/210
86
Ejemplo 2.18. Sobre una estantería se tienen que colocar en primer lugar 6 libros
distintos de biología, en segundo lugar 5 de química y tercero 2 de física. Hallar el
número de formas en que se puede hacer. Sea n1=6, n2=5 y n3=2, entonces por la
regla del producto
6! • 5! •2!= 172 800 maneras.
Si se colocan sobre el estante los libros de las diferentes asignaturas, de manera

que los de cada asignatura estén juntos. Hallar el número de formas en que puede
hacerse esto.
3! • (6! • 5! •2!)= 1 036 800 maneras. ¿por qué?

Posiciones
1, 2, 3,…,r
Permutación de n objetos tomando una parte de ellos (r≤n)
Utilicemos casillas ______ ______ _______ . . . ______ _______
1 2 3 r -1 r
n (n-1) (n-2) (n-r+2) (n-r+1)

_____ ______ _______ . . . ______ _______
1 2 3 r -1 r
n. (n-1).(n-2). . . . (n-r+2).(n-r+1)
y con la notación nPr tenemos:
nPr= n. (n-1).(n-2). . . . (n-r+1)
Multipliquemos y dividamos por (n – r)!

n(n-1)...(n-r+1) • (n-r)! n(n-1)...(n-r+1) • (n-r)(n-r-1)...2.1
nPr=  (n-r)!
 (n-r)(n-r-1)...2.1
Pero, n(n-1)…(n-r+1).(n-r)(n-r-1)…2.1=n! y (n-r)(n-r-1)…2.1=(n-r)!, entonces
n!
nPr=
(n-r)!
TEOREMA
Número de permutaciones de n objetos tomando r a la vez es
n!
nPr=
(n-r)!
donde r≤n.
87
n! n!
Obsérvese que nPn = (n-n)! = 0! = n!1 = n! , como se esperaba.
En su calculadora puede utilizar la tecla n P r
Ejemplo 2.19. De cuantas maneras pueden formarse 5 personas.

nPn=5P5 = 5! /(5-5)! = 5!/0! = 5.4.3.2.1 / 1=120 maneras
Ejemplo 2.20. Una tarjeta de circuitos impresos tiene ocho sitios diferentes en los
que puede instalarse un componente. Si en la tarjeta deben instalarse cuatro
componentes diferentes, ¿cuántos diseños diferentes son posibles?
nPr=8P4=1 680
Ejemplo 2.21. Se tienen los dígitos 1, 2, 3, 4, 5, 6, 7, 8, 9.

a) Sea el evento A: Número de cinco cifras donde el primero y el último dígito son
mayores que 3, entonces,
h 6 * 7 P3 * 5 6 * 7 * 6 * 5 * 5
P(A) = = = = 30 / 72
n 9 P5 9*8*7*6*5
b) Sea A: Número par de cuatro cifras donde los dígitos se repiten, entonces
h 9 * 9 * 9 * 4 2916
P(A) = = =
n 9 * 9 * 9 * 9 6561
Permutaciones circulares:
TEOREMA
(n - 1)!
Ejemplo 2.22. De cuántas formas se pueden sembrar cuatro árboles distintos

alrededor de un círculo.
(4 – 1)!=3!=3.2.1=6 formas distintas.
Permutaciones con objetos repetidos o indistinguibles

TEOREMA
El número de permutaciones de n objetos con n1 iguales, n2 iguales,..., nr iguales,
es
r
n!
n Pn1, n2 ,...,nr = donde  ni = n
n1!n2!...nr! i=1
Ejemplo 2.23. Palabras código con 11 letras de la palabra MISSISSIPPI.
88
1 M, 4 I, 4 S y 2 P, entonces
11!
11P 1,4,4,2 = 1!4!4!2! = 34,650 palabras.
Ejemplo 2.24. Un código de barras se puede generar imprimiendo 4 líneas de

tamaño grueso, 3 líneas de tamaño medio y 2 líneas de tamaño fino. Si cada
ordenación de las nueve líneas representa un código de barras diferente, ¿cuántos
códigos de barras diferentes se pueden generar utilizando este esquema?
9!
9 P 4,3,2 = 4!3!2! =1260 códigos.
COMBINACION
Las combinaciones son agrupaciones de objetos en las que no importa su
orden.
n
NOTACION: Combinación de n objetos seleccionando r se denota por nCr ó  .
r 
Ejemplo 2.25. Combinación de las letras a, b, c tomando dos.
Combinación Permutación
ab ab, ba
ac ac, ca
bc bc, cb
P2
Luego, 3P2=3C2 • 2! y 3C2=
3
2!
= 3.2.1
2.1
= 3.
Este resultado plantea la siguiente relación entre nPr y nCr:
nPr= nCr * r!
TEOREMA
n!
P
n r (n-r)! n!
nCr= = = r!(n-r)!
r! r!
En su calculadora puede utilizar la tecla nCr
Ejemplo 2.26. Cuántos comités de 4 se forman con 5 personas en una colonia.

5C4=5P4/4! = 5.4.3.2/4.3.2.1=5 ó 5C4=5!/4!(5-4)! = 5!/4!1!=5.4!/4! = 5 comités
diferentes.
Ejemplo 2.27. Se tienen los dígitos 1, 2, 3, 4, 5, 6, 7, 8, 9.
89
Sea A: Número de tres cifras donde los dígitos son impares mayores que 1 y el
orden de formación no interesa, entonces
h 4 C3 4
P(A) = = =
n 9 C3 84
Ejemplo 2.28. En una fundidora, se identifica un lote de 20 bloques de motor, de
los cuales cinco contienen defectos internos. El comprador selecciona tres bloques
al azar y prueba su dureza. Se aceptará el lote si no se identifican defectos. ¿Cuál
es la probabilidad de que se acepte este lote?
Sea A: se acepta el lote, entonces
h 5 C0  15 C3 455
P(A) = = =
n 20 C3 1140
Ejemplo 2.29. Selección al azar de tres lámparas entre 15 de las cuales 5 son
defectuosas.
a. Probabilidad de que una por lo menos sea defectuosa.
b. Probabilidad de que ninguna sea defectuosa.
c. Probabilidad de que exactamente una sea defectuosa.
d. Probabilidad de que dos por lo menos sean defectuosas.
e. Probabilidad de que a lo sumo dos son defectuosas.
Solución:
a. A: una lámpara por lo menos sea defectuosa
n=15C3=15.14.13/3.2.1 =455; h=5C1.10C2 + 5C2.10C1 + 5C3.10C0 =225 + 100 + 10 =335,

P(A)=h/n=335/455
b. P(ninguna sea defectuosa)+P(por lo menos una defectuosa)=1 ¿por qué?
P(Ac) + P(A)=1
P(Ac) =1 – 335/455=24/91
c. C: una exactamente sea defectuosa
P(C)=h/n=5C1 . 10C2 /455=225/455
d. P(a lo sumo una sea defectuosa)+P(dos por lo menos sean defectuosas)=1
P(dos por lo menos sean defectuosas)=1- P(a lo sumo una sea defectuosa)
=1 – [P(ninguna sea defectuosa)+
P(una exactamente sea defectuosa)]
=1 – [24/91 + 225/455]
=1 – 69/91
=22/91
e. P(a lo sumo dos sean defectuosas)+P(tres exactamente sean defectuosas)=1
P(a lo sumo dos sean defectuosas)=1 - P(tres exactamente sean defectuosas)
=1 - 5C3 . 10C0 / 455
=1- 10/455
=445/455
90
Ejemplo 2.30. De una baraja de 52 cartas se sacan tres naipes. Determinar la
probabilidad de que:
a) Sean el as de tréboles, el de corazones y el de picas, en este orden.
Sea A= as de tréboles, el de corazones y el de picas, entonces
h 1
P(A) = = =1/ 132,600
n 52 P3
b) Sean todos del mismo palo.
Sea A: todos del mismo manjar, entonces
h 4 13 C3
P(A) = = =1144/22100
n C
52 3
Ejemplo 2.31. Un experimento consiste en transmitir, al azar, una sucesión de

señales binarias, 0 ó 1. ¿Cuál es la probabilidad de que 3 señales de las 6 sean
unos?
h 6 C3 C
P(A) = = = 6 63 = 20/64
n 2.2.2.2.2.2 2
2.5 Probabilidad condicional

Cada ejemplo que hemos estudiado hasta aquí en esta unidad ha involucrado la
probabilidad de un evento particular al tomar una muestra del espacio muestral
completo. Sin embargo, ¿cómo hallaríamos diversas probabilidades si ya se
conociera cierta información respecto a los eventos involucrados?
Cuando estamos calculando la probabilidad de un evento particular A, dada
información sobre la ocurrencia de otro evento B (espacio muestral reducido), esta
probabilidad se denomina probabilidad condicional, P(A│B). P(A│B) se lee:
probabilidad condicional de A dado B.
PROBABILIDAD CONDICIONAL
P(A B)
P(A│B) = , P(B) > 0
P(B)
Ejemplo 2.32. Si al seleccionar al azar una carta de una baraja, si se nos hubiera
dicho que dicha carta es negra, ¿cuál es la probabilidad que la carta fuera un as?
Deseamos encontrar P(as │ negra). Aquí se da la información que la carta es negra.
Por lo tanto, el espacio no consiste en las 52 cartas de la baraja; consiste sólo en
las cartas negras. De las 26 cartas, dos son ases. Por consiguiente, la probabilidad
de un as, dado que sabemos que la carta es negra, es
número de ases negros
P(as negra) =
número de cartas negras
2
=
26
Este resultado (2/26) también puede obtenerse usando la definición de la siguiente
manera:
91
Sí
P(A B)
P(A│B) = , P(B) > 0
P(B)
con evento A= as y evento B= negra
Entonces
2 / 52
P(as negra) =
26 / 52
2
=
26
Ejemplo 2.33. Se clasifican muestras de aluminio fundido con base en el acabado

de la superficie (µin) y las mediciones de la longitud. Los resultados de 266 piezas
se resumen a continuación.
longitud
acabado de
la superficie excelente buena
excelente 212 24
bueno 18 12
230 36
Sea el evento A: muestra tiene acabado de la superficie excelente y B: muestra
tenga una longitud excelente. Se toma una muestra al azar, encuentra utilizando la
tabla:
a) Probabilidad de que el acabado de la superficie sea excelente
b) P(B)
c) P(A U B)
d) P(A ∩ BC)
e) P(A│B)
f) P(B│A)
g) ¿Cuál es la probabilidad de que el acabado de la superficie de la muestra sea
excelente, dado que tiene buena longitud?
h) Si la muestra seleccionada tiene acabado de la superficie excelente, ¿cuál es la
probabilidad de que la longitud sea buena?
Solución:
a) P(A)=236/266
b) P(B)=230/266
c) P(A U B) = P(A) + P(B) –P(A∩B)= 236/266 + 230/266 – 212/266=254/266
92
d) P(A ∩ BC)=P(A) –P(A∩B)=236/266 – 212/266=24/266
e) P(A│B)=P(A∩B)/P(B)=212/230
Obsérvese que P(A) y P(A│B) son las probabilidades del mismo evento, pero se
calculan bajo condiciones de conocimiento diferentes, de manera similar, P(B) y
P(B│A).
2.6 Eventos independientes

Algunas veces el conocimiento de que un evento ha ocurrido no cambia la
probabilidad de que ocurra otro. En este caso las probabilidades condicional e
incondicional (probabilidad referida a S) son las mismas y se dice que los eventos
son independientes, es decir, al afirmar que A y B son eventos independientes
significa que la ocurrencia o no ocurrencia de uno de ellos no tiene relación con la
probabilidad de que ocurra el otro.
diámetro
longitud muy delgado está bien muy grueso
demasiado corta 10 3 5
está bien 38 900 4
demasiado larga 2 25 13
Ejemplo 2.34. Una varilla de aluminio se selecciona del espacio muestral que se
presenta en la tabla. Sean los eventos L1, L2 y L3 de que la varilla sea demasiado
corta, está bien y demasiado larga respectivamente; y los eventos D 1, D2 y D3 de
que el diámetro de la varilla sea muy delgado, está bien y muy grueso
respectivamente. Determine P(L3) y P(L3 │D1). ¿Estas probabilidades son
diferentes?
P(L3)=40/1000=4/100=2/50
2 /1000 2
P(L3 │D1)=P(L3∩D1)/P(D1)= 
50 /1000 50
La probabilidad condicional y la probabilidad incondicional son las mismas. La
información de que el diámetro de la varilla es muy delgado no cambia la
probabilidad de que la varilla sea demasiado larga.
El ejemplo muestra que el conocimiento de que un evento ocurra a veces no
cambia la probabilidad de que ocurra otro evento. En estos casos, se dice que los
dos eventos son independientes. El evento L3 y D1 son independientes.
INDEPENDENCIA
Dos eventos A y B son independientes si P(A│B)=P(A) y son dependientes en
cualquier otro caso.
P(A|B)=P(A) <====> P(B|A)=P(B)
Ejemplo 2.35. Considere los siguientes eventos en el lanzamiento de un dado:

A: observar un número impar
93
B: observar un número par
C: observar un 1 ó 2.
a) ¿A y B son independientes?
Para decidir si A y B son independientes, debemos ver si satisfacen las condiciones
de la definición. En este ejemplo, P(A)=3/6=1/2, P(B)=3/6=1/2 y P(C)=2/6=1/3.
Como A∩B=Φ, P(A|B)=P(A∩B)/P(B)=0 y es evidente que P(A|B)≠P(A). Los eventos
A y B no son independientes, son dependientes.
b) ¿A y C son independientes?
Observe que P(A|C)=P(A∩C)/P(C)=1/2 y, como antes, P(A)=1/2. Por tanto,
P(A|C)=P(A) y A y C son independientes.
P(A∩B) cuando los eventos son independientes

A y B independientes P(A|B)=P(A)=P(A∩B)/P(B) ==>P(A∩B)=P(A)P(B)
TEOREMA. INDEPENDENCIA DE EVENTOS
A y B son independientes si y sólo si

P(A∩B)=P(A)·P(B)
El teorema se puede generalizar para más de dos eventos.
Consecuencias:
Teorema 1: Si A y B son eventos independientes, entonces A y Bc son eventos
independientes.
Teorema 2: Si A y B son eventos independientes, entonces A c y Bc son eventos
independientes.
Teorema 3: Si A, B y C son eventos independientes, entonces A y B U C son
eventos independientes.
Ejemplo 2.36. Ana y Benito lanzan dardos a un blanco. La probabilidad de que Ana
dé en el blanco es 0.25 y la de Benito es 0.40. Si Ana y Benito lanzan los dardos,
¿cuál es la probabilidad de que peguen al blanco?
Sea los eventos A: Ana pegue en el blanco y B: Benito pegue en el blanco.

P(peguen al blanco)=
P(Ana dé en el blanco o Benito dé en el blanco o ambos den en el blanco)=
=P(AUB)
=P(A)+P(B) - P(A∩B)
pero P(A∩B)=P(A).P(B), ya que A y B son independientes, entonces
= P(A)+P(B) - P(A).P(B),
=0.25 + 0.40 –(0.25)·(0.40)
94
=0.5500.
Ejemplo 2.37. Se tiene una caja con 50 pernos: 14 de 2”, 24 de 3 1/2” y 12 de 4”.
Cuatro se extraen al azar con reemplazo. ¿Cuál es la probabilidad de que por lo
menos seleccionemos un perno de 3 1/2”?
P(por lo menos uno de 3 1/2”)+P(ninguno de 3 1/2”)=1

P(por lo menos uno de 3 1/2”)=1- P(ninguno de 3 1/2”)
26 26 26 26
=1- . . .
50 50 50 50
4
 26 
=1-  
 50 
Ejemplo 2.38. Suponga que la probabilidad de que los frenos de aire de los
camiones de una compañía fallen en un descenso particularmente largo es de
0.001. Suponga también que los frenos de emergencia de esos camiones pueden
detenerlos en el tipo de descenso mencionado con probabilidad de 0.8. Estos
sistemas de frenado funcionan independientemente uno respecto del otro. Calcule
la probabilidad de que:
a) los frenos de aire fallen y los de emergencia detengan el camión

b) los frenos de aire fallen y los de emergencia no puedan detener al camión
c) los frenos de emergencia no puedan detener al camión, dado que fallaron los
frenos de aire
Sean los eventos F: frenos de aire fallen en descenso particular del camión y E:
frenos de emergencia detengan al camión en el descenso particular.
a) P(F∩E)=P(F).P(E)=(0.001)(0.8)=0.0008
b) P(F∩Ec)=P(F).P(Ec)=(0.001)(0.2)=0.0002
c) P(Ec│F)= P(E∩Fc) /P(F)=(0.0002)/(0.001)=0.2
Ejemplo 2.39. De una caja que contiene 6 bolas negras y 4 bolas verdes se extraen
3 bolas en forma sucesiva y se reemplaza cada una de ellas antes de hacer la
siguiente extracción. Sean los eventos: Ni, i=1,2,3, de que la bola sea negra y Vi,
i=1,2,3, de que la bola sea verde. Cuál es la probabilidad de que las tres sean del
mismo color.
El evento pedido es N1 y N2 y N3 ó V1 y V2 y V3, es decir (N1∩N2∩N3) U(V1∩V2∩V3)
P[(N1∩N2∩N3) U (V1∩V2∩V3)]=P(N1).P(N2).P(N3)+P(V1).P(V2).P(V3)
=6/10 · 6/10 · 6/10 + 4/10 · 4/10 · 4/10
= 280/1000.
Aplicaciones
95
Sean los interruptores I1 y I2. Si los interruptores están en paralelo la corriente
pasa de un interruptor a otro si al menos uno de ellos está abierto: I1 U I2. Si los
interruptores están en serie la corriente pasa de un interruptor a otro si ambos están
abiertos: I1 ∩ I2.
Ejemplo 2.40. El circuito ilustrado abajo opera si hay una trayectoria de dispositivos
funcionales de izquierda a derecha. La probabilidad de que cada dispositivo
funcione se indica en la ilustración. Suponga que los dispositivos fallan
independientemente. ¿Cuál es la probabilidad de que el circuito opere?
Sea Ii: interruptor i-ésimo está cerrado, i=1, 2, 3. Sea E: la corriente pasa de a a b:
E=(I1U I2 ) ∩ I3 ¿por qué?
P(E)=P[(I1 U I2) ∩ I3)]
=P(I1 U I2) • P(I3) (Independencia de eventos)
={1 - P[(I1 U I2)c]} • P(I3) (Ley del complemento)
={1 - P[(I1c)∩(I2c)]} • P(I3) (Ley de D´Morgan)
={1 – P(I1c)•P(I2c)} • P(I3) (Independencia de eventos)
=(1 – 0.12)(0.95)
=0.9405
2.7 Regla multiplicativa

P(B A)
Si en la fórmula de la probabilidad condicional multiplicamos P(B│A) =
P(A)
por P(A), se obtiene el resultado
P(B│A).P(A) =P(B∩A)=P(A∩B)
96
que se conoce como regla multiplicativa.
TEOREMA. REGLA MULTIPLICATIVA.
P(A∩B)= P(A).P(B │ A)
Esta regla se puede generalizar para más de de dos eventos.
Ejemplo 2.41. Se tiene una caja con 10 tornillos con 4 defectuosos. Tres tornillos
se extraen al azar sin reemplazo, ¿cuál es la probabilidad de que los tres tornillos
estén defectuosos?
Sean los eventos A: primer tornillo defectuoso, B: segundo tornillo defectuoso, y C:

tercer tornillo defectuoso.
4 . 3 . 2 = 24 / 720
P(A y B y C)=P(A∩B∩C)= P(A).P(B│A).P(C│A∩B) = 10 9 8
2.8 Ley de la probabilidad total y Teorema de Bayes

Ley de la probabilidad total
PARTICION
Sean A1, A2, ... , Ak que cumplen:
1. Ai∩Aj=Φ, para toda i≠j.

2. A1UA2U...UAk= S
La colección {A1, A2,...,Ak} es una partición de S.
La definición anterior es equivalente a afirmar que los elementos de la colección

son mutuamente excluyentes dos a dos y la unión es S.
Ejemplo 2.42. Lanzamiento de un dado. S={1,2,3,4,5,6}. Los eventos A1={1,2},

A2={3,4,5} y A3={6} son una partición de S, mientras que C1={1,2,3,4} y C2={4,5,6}
no.
Si B es un evento de S y si {A1, A2,...,Ak} forman una partición de S, entonces B
puede descomponerse así:
B=( A1 ∩B)U(A2∩B)U...U(Ak ∩B)
97
TEOREMA. LEY DE LA PROBABILIDAD TOTAL
Sea A1, A2, A3,...,Ak una partición de S. Entonces para cualquier evento B de
S para el que P(B)>0,
k k
P(B) =  P(A i B) =  P(A i ).P(B A i )
i=1 i=1
Demostración:
B=( A1∩B) U (A2∩B) U (A3∩B) U...U (Ak ∩B) (Figura)

P(B)= P(A1∩B)+P(A2∩B)+P(A3∩B)+...+P(Ak ∩B) (Def. Axiomática)
P(B)= P(A1).P(B|A1) + P(A2).P(B|A2)+ P(A3).P(B|A3) +…+ P(Ak).P(B|Ak) (Regla
multiplicativa). Así,
k
P(B) =  P(A i ).P(B A i )
i=1
Ejemplo 2.43. Tres máquinas A, B y C producen respectivamente 50%, 30% y

20% del total de artículos de una fábrica. Los porcentajes de artículos defectuosos
son 3%, 4% y 5% respectivamente. Si se selecciona un artículo al azar, ¿cuál es la
probabilidad de que sea defectuoso?.
Sea D: artículo defectuoso. A, B y C forman una partición de S (producción total) y
D S .
P(D)= P(A).P(D|A) + P(B).P(D|B) + P(C).P(D|C)
=(0.50) (0.03)+ (0.30 )(0.04)+ (0.20) (0.05)
=0.0370
Solución alterna usando un diagrama de árbol probabilístico:
98
P(D)=(0.50) (0.03)+ (0.30 )(0.04)+ (0.20) (0.05)=0.0370
Teorema, ley o regla de Bayes
La regla es un método para calcular la probabilidad de una causa dado el efecto.
Se utiliza entonces para calcular las probabilidades a posteriori de los eventos Aj,
ajustados o modificados por B.
Cuando se habla de probabilidad condicional, se busca la probabilidad de un
cierto evento A dado que otro evento B ha ocurrido. Se piensa en general que A es
un evento final, de alguna manera un efecto, para el cual B es una causa posible y
que ambos se encuentran ordenados en el tiempo.
El teorema de Bayes también es aplicable cuando S subdivide en más de dos
eventos mutuamente excluyentes. A continuación, se define el teorema en este
contexto más general.
TEOREMA DE BAYES
Sea {A1, A2,...,Ak} una partición de S. Entonces para cualquier otro evento B para
el que P(B)>0,
P(A j B) P(A j ).P(B A j )
P(A j B) = = k para j =1,2,...,k
P(B)
 P(Ai ).P(B Ai )
i=1
A P(Ai) se le llama probabilidad a priori, es la probabilidad de Ai antes de

modificarse por la información que aporta B.
A P(B | Ai ) se le llama verosimilitudes, es la probabilidad de B en la hipótesis
A i.
P(Ai | B) son las probabilidades a posteriori, es la probabilidad de Ai una vez
que usamos la información que aporta B.
Ejemplo 2.44. En cierta planta de ensamble, tres máquinas 1, 2 y 3, ensamblan
30%, 45% y 25% de los productos respectivamente. Se sabe de la experiencia
pasada que 2%, 3% y 2% de los productos ensamblados por cada máquina,
respectivamente tienen defectos. Se selecciona aleatoriamente un producto
determinado.
99
a) ¿Cuál es la probabilidad de que esté defectuoso?
Sean los eventos A1, A2 y A3: el producto es ensamblado por la máquina 1, 2 y 3
respectivamente y B: producto defectuoso.
3
P(B) =  P(A i ).P(B A i ) = 0.30x0.02+0.45x0.03+0.25x0.02 = 0.0245
i=1
P(B)=(0.30)(0.02)+(0.45)(0.03)+(0.25)(0.02)=0.0245.
b) Si el producto es defectuoso, ¿cuál es la probabilidad de que haya sido

ensamblado por la máquina 3?
P(A 3 B) P(A 3 ).P(B A 3 ) Regla de la
Por el teorema de Bayes : P(A3 B) = = 3
P(B) probabilidad
 P(Ai ).P(B Ai ) total
i=1
0.25x0.02
= = 0.2041.
0.0245
Unidad III: DISTRIBUCIONES DE PROBABABILIDAD

DISCRETAS
3.1 Variable aleatoria

A menudo se desea resumir el resultado de un experimento aleatorio en un solo
número. En muchos casos la descripción de los resultados posibles es suficiente,
pero en otros es conveniente asociar un número a cada resultado del espacio
muestral. Sabemos que no se conoce de antemano el resultado particular del
experimento, entonces el valor de variable tampoco se conoce. Debido a esto, la
variable se llama variable aleatoria.
100
VARIABLE ALEATORIA.
Una variable aleatoria (VA) es una función denotada por X que asocia un
número real x a cada elemento s del espacio muestral S. Así,
X: S-----------> R
s~~~~~~~~>X(s)= x
Ejemplo 3.1. En el lanzamiento de dos monedas, S={HH, HT, TH, TT}. Interesa el
número de cruces que aparecen en cada punto, estos son: 0, 1, 2. Estos son valores
que toma alguna variable aleatoria X que representa el número de cruces que
aparecen en el lanzamiento.
En el caso anterior X(HH)=0, X(HT)=1, X(TH)=1 y X(TT)=2.
El conjunto de números posibles de una variable aleatoria X se llama recorrido

de X y se denota por RX. En el ejemplo precedente RX={0,1,2}.
El valor medido de la variable aleatoria se denota por una letra minúscula como por
ejemplo x=2.5 cm.
Tipos de variables aleatorias:

Si la medición se limita a puntos discretos sobre la recta real, se dice que la
variable aleatoria es una variable aleatoria discreta.
VARIABLE DISCRETA
A una variable aleatoria se le denomina variable aleatoria discreta (VAD) si sus

valores forman un conjunto finito o contablemente infinito.
Ejemplo 3.2. En el ejemplo precedente, la va discreta es finita, con RX={0,1,2}.

Ejemplo 3.3. Baterías que salen de una línea de producción hasta obtener una
defectuosa. Buena E, y no buena F (defectuosa). S={F, EF, EEF, EEEF, EEEEF,...}.
Sea X el número de baterías antes de terminar con el experimento. Entonces,
X(F)=1, X(EF)=2, X(EEF)=3,.... La variable aleatoria es discreta infinita contable con
RX={1, 2, 3,...}.
Ejemplo 3.4.
a) Número de rayaduras en una superficie.
b) Número de bits transmitidos recibidos con error.
VARIABLE ALEATORIA CONTINUA
101
Una variable aleatoria es continua si su conjunto posible de valores abarca
todo un intervalo en sea finito o infinito.
Ejemplo 3.5. El pH de un disolución acuosa, llamémosle X, es una VA continua

donde 0≤X≤14, de donde RX={x/0≤x≤14}= 0,14 .
Ejemplo 3.6. El volumen de gasolina que se evapora durante el llenado de un

tanque de combustible.
Ejemplo. La corriente en un circuito eléctrico.
3.2 Distribuciones de probabilidad para variables aleatorias

discretas
Muchas veces interesa la probabilidad de que una variable aleatoria tome un
valor particular.
Es común que los valores posibles de una variable aleatoria discreta sean un
conjunto de enteros. Para cualquier variable aleatoria discreta, si se especifica la
lista de sus valores posibles junto con la probabilidad que tiene cada variable
aleatoria, entonces se ha descrito completamente a la población a partir de la cual
se seleccionó a la variable aleatoria.
Esta descripción se conoce como función de masa de probabilidad.
FUNCION DE MASA DE PROBABILIDAD

La función de masa de probabilidad de una variable aleatoria discreta X es
la función p(x)=P(X=x). A veces a la función de masa de probabilidad se le
llama distribución de probabilidad.
Para cualquier distribución de probabilidad discreta (DPD), lo siguiente debe ser

verdadero:
1. 0≤p(x) ≤1, para toda x.
2. ∑p(x)=1, donde la sumatoria es para todos los valores de x con probabilidad
diferente de cero.
Nota: la función de masa de probabilidad suele también representarse por f(x).

Ejemplo 3.7. El número de fallas en un alambre de cobre de 1 pulgada, fabricado
en un proceso específico, varía de alambre en alambre. En conjunto, 48% de los
alambres producidos no tiene falla, 39% presenta una, 12% fue detectado con dos
y 1% tiene tres. Sea X el número de fallas en una pieza de alambre seleccionada
aleatoriamente. Entonces
P(X=0)=0.48 P(X=1)=0.39 P(x=2)=0.12 P(X=3)=0.01
La lista de valores posibles 0, 1, 2, 3, junto con las probabilidades para cada

uno, proporciona una descripción completa de la población de la que se tomó X.
102
Por lo tanto, para la variable aleatoria X que representa el número de fallas en una
longitud de alambre, p(0)=0.48, p(1)=0.39, p(2)=0.12, p(3)=0.01 y p(x)=0 para
cualquier x diferente de 0, 1, 2 ó 3, lo cual se puede expresar en forma tabular
x 0 1 2 3
p(x) 0.48 0.39 0.12 0.01
Ejemplo 3.8. La probabilidad de que sea posible conectarse en un momento dado

con una computadora desde una terminal remota es 0.7. Sea X el número de
intentos que deben hacerse para tener acceso a la computadora. Encuentre una
fórmula para la dpd de X.
Solución:
P(X=1)=p(1)=0.7, (acceso en el primer intento)
p(2)=(0.3)(0.7), (primero no y segundo sí)
p(3)=(0.3)(0.3)(0.7)=(0.3)2(0.7), (1º no, 2º no, y 3º si)
p(4)=(0.3)(0.3)(0.3)(0.7)=(0.3)3(0.7), (acceso hasta el cuarto)
...
p(x)=(0.3)x-1(0.7). (acceso hasta el x-ésimo intento)
Así,

(0.3)x-1(0.7), si x =1,2,3,...
p(x) = 

0, en otra parte.
Ejemplo 3.9. La producción de tarjetas de circuitos de dos líneas de fabricación,

ajustadas para producir tarjetas idénticas, se mezcla en una bandeja de recolección.
Cuando los inspectores examinan las tarjetas, es difícil determinar si una de ellas
proviene de la línea A o de la B. A veces puede ser útil una determinación
probabilística de esta pregunta. Supóngase que una bandeja de recolección
contiene 10 tarjetas de circuitos, de las cuales 6 provinieron de la línea A y 4 de la
B. Un inspector selecciona dos de esas tarjetas, que parecen idénticas, para
revisarlas. Se interesa en X, el número de tarjetas inspeccionadas que provienen
de la línea A. Calcular la distribución de probabilidad para X.
Solución:
10 tarjetas: 6 de la línea A y 4 de la línea B. Seleccionamos 2 tarjetas.
P(X = 0) =P(ninguna de A) =P(las dos son de B)
4 3
= P(B1 B2 ) = P(B1).P(B1 | B2 ) = . =12 / 90 ¿Qué regla se aplicó?
10 9
6 4 4 6
P(X =1) = P(uno de la línea A) = P((A1 B1) ó (B1 A1)) = . + . = 48 / 90
10 9 10 9
6 5
P(X = 2) = P(dos de la línea A) = . = 30 / 90
10 9
x 0 1 2
103
p(x) 12/90 48/90 30/90
¿Se obtienen los mismos resultados si la selección es con sustitución?
Solución alterna utilizando un diagrama de árbol probabilístico:
x 0 1 2
p(x) 12/90 48/90 30/90
Ejemplo 3.10. Entre 10 solicitantes para un puesto 6 son mujeres y 4 son hombres.
Supóngase que se seleccionan al azar 3 candidatos de entre todos ellos para
concederles las entrevistas finales. Determinar la función de probabilidad para X, el
número de candidatas entre los tres finalistas.
Solución:
10 solicitantes: 6 mujeres y 4 hombres. Se seleccionan 3. No interesa el orden en
que se seleccionen.
h C
P(X = 0) = P(ninguna mujer) = P(todos son hombres) = = 4 3  4 / 120.
n 10 C3
C. C 36 36
P(X =1) = P(una mujer) = 6 1 4 2 = = ;
C
10 3 120 120
C . C 60
P(X = 2) = 6 2 4 1 = ;
10 C3 120
C 20
P(X = 3) = 6 3 =
10 C3 120
x 0 1 2 3
p(x) 4/120 36/120 60/120 20/120
Cuando los posibles valores de un variable aleatoria discreta están espaciados
uniformemente, la función de masa de probabilidad se puede representar por medio
de un histograma, con rectángulos centrados en los posibles valores de la variable
104
aleatoria. El área de un rectángulo centrado en un valor x es igual a P(X=x)=p(x).
Este histograma se llama un histograma de probabilidad, ya que las áreas
representan probabilidades.
Ejemplo 3.11.La tabla siguiente representa la función de masa de probabilidad del

número de defectos X en un tablero de circuitos impresos elegido aleatoriamente.
x 0 1 2 3
p(x) 0.5 0.3 0.1 0.1
a) Dibuje un histograma de probabilidad.

b) Encuentre P(X>1) a partir del histograma.
Solución:
a)
b) Esta probabilidad está dada por el área bajo el histograma de probabilidad que
corresponde a rectángulos centrados en valores superiores a 1; sus áreas son
P(X=2)=0.1 y P(X=3)=0.1, entonces P(X>1)=P(X=2)+P(X=3)=0.1+0.1=0.2, como se
muestra en la figura.
3.3 Función de distribución acumulada

Se desea a veces que X sea menor o igual a x, lo que se escribe como P(X≤x)=F(x),
 xεR, y F(X) se llama función de distribución acumulada de X.
FUNCION DE DISTRIBUCION ACUMULADA
La función de distribución acumulada F(x) de una VAD X con dp p(x) se

define por
F(x) = P(X  x) =  p(t) =  P(X = t)
t x t x
Para cualquier xεR, donde F(x) es la probabilidad de que el valor observado de

X sea a lo sumo x.
105
Ejemplo 3.12. Una compañía de materiales químicos envía cierto disolvente en
tambores de diez galones. Sea X el número de tambores pedidos por un cliente
elegido aleatoriamente. Suponga que X tiene la siguiente función de masa de
probabilidad:
x 1 2 3 4 5
p(x) 0.4 0.2 0.2 0.1 0.1
a). Determine la función de distribución acumulada F(x).

b). p(a)
c). P(a≤x≤b)
d). P(2≤x<4)
e). P(X>3)
Solución
a). Primero se calcula F(x) para cada uno de los valores posibles de X, que son 1,
2, 3, 4 y 5.
F(1)=P(X≤1)=P(X=1)=p(1)=0.4
F(2)=P(X≤2)=p(1)+p(2)=0.4+0.2=0.6
F(3)=P(X≤3)=0.4+0.2+0.2=0.8
F(4)=P(X≤4)=0.4+0.2+0.2+0.1=0.9
F(5)=P(X≤5)=0.4+0.2+0.2+0.1+0.1=1
Para cualquier valor de x, se calcula a F(x) sumando las probabilidades de todos

los valores posibles de X que son menores o iguales a x.
0, x 1
0.4, 1  x  2

0.6, 2  x  3
F ( x)  
0.8, 3  x  4
0.9, 4  x  5

1, x5
x x<1 1≤x<2 2≤x<3 3≤x<4 4≤x<5 x≥5
F(x) 0 0.4 0.6 0.8 0.9 1
En la figura siguiente se muestra la gráfica de F(x)
106
b) p(a)=P(x≤a) – P(x≤ a─)=F(a) – F(a─), donde “a─" representa el valor máximo
posible de X que es estrictamente menor que a. Así, por ejemplo
p(2)=F(2) – F(2─)=F(2) – F(1)=0.6 – 0.4=0.2
c) P(a≤x≤b)= P(x≤b) – P(x≤a--)=F(b) – F(a--). Así, por ejemplo

P(2≤x≤4)=F(4) – F(2─)=F(4) – F(1)=0.9 – 0.4=0.5
d) P(2≤x<4)=P(2≤x≤3)=F(3) – F(1)=0.8 – 0.4=0.4
e) P(X>3)=1 – P(x≤3)=1 – 0.8= 0.2
3.4 Valor esperado y varianza de variable aleatoria discreta

Ejemplo. Lanzamiento de tres monedas 20 veces y observar lados que aparecen.
Si X es el número de caras que aparecen, entonces x=0, 1, 2 ó 3. Supóngase que
salen cero caras 4 veces, una cara 5 veces, dos caras 6 veces y tres caras 5 veces,
entonces el promedio es
(0)(4)+(1)(5)+(2)(6)+(3)(5)
20
=1.6
que se puede escribir como
(0)(4/20) + (1)(5/20)+(2)(6/20)+(3)(5/20)=1.6
donde 4/20, 5/20, 6/20 y 5/20 son las frecuencias relativas de x=0, x=1, x=2 y x=3
respectivamente. La media entonces, se puede calcular si se conocen los distintos
valores que intervienen y sus respectivas frecuencias relativas.
Este resultado sugiere la siguiente definición:
VALOR ESPERADO
Sea X una variable aleatoria discreta con distribución de probabilidad p(x). La

esperanza, o el valor esperado o la media de X es
107
E(X) = μ =  x.p(x)
x
VARIANZA Y DESVIACION ESTANDAR
Sea X con distribución de probabilidad p(x) y valor esperado μ. Entonces la

varianza de X es
V(X)= E[(X – μ)2]=  2 =  ( x   )2 p( x) , y

x
V(X)= E(X2) - [E(X)]2=  =  x p(x) - μ2 fórmula abreviada

2 2
x
La desviación estándar de X es
  
2
TEOREMA. PROPIEDADES DE LA MEDIA Y VARIANZA
Para cualquier variable aleatoria X y constantes a y b cualesquiera,
i) E(aX+b)=aE(X)+b
ii) V(aX+b)=a2V(X)
Ejemplo 3.13. El gerente de una bodega en una fábrica sabe, por haber estudiado
sus registros, que la demanda diaria (número de veces que se usa) de cierta
herramienta tiene la siguiente distribución de probabilidad:
Demanda 0 1 2
Probabilidad 0.1 0.5 0.4
Si X representa la demanda diaria, calcular E(X) y V(X).
Solución:
E(X)=Σxp(x)=0(0.1)+1(0.5)+2(0.4)=1.3
Se usa la herramienta un promedio de 1.3 veces diarias.
V(X)=Σx2p(x) – μ2
=02(0.1)+12(0.5)+22(0.4) – (1.3)2
=0.41
Ejemplo 3.14. Suponer que en el ejemplo precedente, a la fábrica le cuesta $ 10
cada vez que se usa la herramienta. Calcular el promedio y la varianza de los costos
diarios por uso de esta herramienta.
Solución:
Si X es la demanda diaria, el costo diario por usar la herramienta es por lo tanto
10X. El costo promedio es
108
E(10X)=10E(X)=10(1.3)= $ 13
La fábrica debe destinar (o presupuestar) $ 13 diarios para cubrir el costo por usar
la herramienta.
También, la varianza del costo es
V(10X)=102V(X)=100(0.41)=41$2
3.5 Distribución de probabilidad binomial

PARAMETRO
Sea p(x) una distribución de probabilidad. Un parámetro es una cantidad de
la cual depende p(x). El conjunto de distribuciones de probabilidad para
parámetros diferentes se llama familia de distribuciones de probabilidad.
Ejemplo 3.15. Si en La fórmula del ejemplo 3.8, p(x)=(0.3)x-1(0.7), x=1, 2,

…hacemos α=0.7, esta la podemos generalizar como p(x)=α(1-α)x-1, x=1,2,..., con
0<α<1. La DP depende de α y escribimos p(x; α) en lugar de p(x) y así:
 α(1- α)x-1, si x =1,2,...
p(x; α) = 
 0, en otra parte.
La cantidad α es un parámetro.
Considere los siguientes experimentos aleatorios y variables aleatorias:

1. Lanzamiento de una moneda 10 veces. Sea X=número de caras obtenidas.
2. Una máquina-herramienta desgastada produce 1% de piezas defectuosas. Sea
X=número de piezas defectuosas en las siguientes 25 piezas producidas.
3. De todos los bits transmitidos a través de un canal de transmisión digital, 10%
se reciben con error. Sea X=número de bits con error en los siguientes 5 bits
transmitidos.
Estos ejemplos ilustran que un modelo general de probabilidad que los incluya
como casos particulares sería muy conveniente.
Puede considerarse que cada uno de estos experimentos aleatorios consta de
una serie de ensayos aleatorios repetidos. El resultado de cada ensayo puede
resumirse como éxito o bien como fracaso, respectivamente. Los ensayos que
constituyen el experimento aleatorio son independientes. La probabilidad de un éxito
en cada ensayo es constante. Los experimentos de este tipo se conocen como
experimentos binomiales.
Ejemplo 3.16. La posibilidad de que un bit se reciba con error es 0.1. Suponga que
los ensayos son independientes. Sea X=número de bits con error en los siguientes
n bits transmitidos. Hallar P(X=x).
Solución:
Un posible resultado es
109
cuya probabilidad es (0.1)x(0.9)n – x. El total de resultados con esta probabilidad es
n  n!
 = , por lo tanto,
 x  x!(n - x)!
n 
P(X = x) =   (0.1)x (0.9)n-x
x
Ahora se puede definir la función de masa de probabilidad para una variable

aleatoria binomial.
DISTRIBUCION BINOMIAL
Un experimento aleatorio que consta de n ensayos repetidos tales que
1) los ensayos son independientes,
2) cada ensayo produce únicamente dos resultados posibles, “éxito” o
“fracaso”, y
3) la probabilidad de un éxito en cada ensayo, denotada como p, permanece
constante
se llama experimento binomial.
La variable aleatoria X que es igual al número de ensayos que producen un éxito

tiene una distribución binomial con parámetros p y n=1, 2,…
La función de masa de probabilidad de X es
n 
f(x) =   px (1- p)n-x , x = 0,1,...,n
x
Escribimos X ~ Bin(n,p) para indicar que X es una va binomial basada en n

ensayos con probabilidad p de éxito.
REGLA.
Si el muestreo es sin reemplazo de una población de tamaño N y si n es a lo
sumo 5% del tamaño de la población (n≤0.05N), el experimento se considera
entonces como binomial.
Ejemplo 3.17. De una caja de 200 tornillos se extrae una muestra sin reemplazo
de 10 tornillos. Aquí 10 es el 5% de 200, entonces el experimento es binomial.
TEOREMA. MEDIA Y VARIANZA

Si X ~ Bin(n,p), entonces E(X)= μ=np, V(X)=σ2=npq y σ = npq.
110
Ejemplo 3.18. Supongamos que el 20% de ciertos libros fallan a una prueba de
resistencia de encuadernación. Sea X el número de entre 15 ejemplares
seleccionados al azar que fallan a la prueba. Entonces X tiene una distribución
binomial con n=15 y p=0.2. ¿Por qué?
a) Calcular la probabilidad de que a lo sumo fallen 3.

b) Calcular la probabilidad de que exactamente 3 fallen.
c) Calcular la probabilidad de que al menos 3 fallen.
d) Calcule μ y σ2
Solución:
a) P(X  3) =F(3) = p(0)+p(1)+p(2)+p(3)
= 15 C0 (.2)0 (.8)15 +15 C1(.2)1(.8)14 + 15 C2 (.2)2 (.8)13 + 15 C3 (.2)3 (.8)12
=0.6482.
b) P(X = 3) = 15 C3 (0.2)3 (0.8)12 = 0.2501.
c) P(X  3) =1-P(X  2) =1- p(0)+p(1)+p(2)
=1-  15 C0 (.2)0 (.8)15 +15 C1(.2)1(.8)14 + 15 C2 (.2)2 (.8)13 
=0.6020.
d) μ=np=(15)(0.2)=3 y σ2=np(1-p)=(15)(0.2)(0.8)=2.4
3.6 Distribución hipergeométrica

Variable aleatoria hipergeométrica y su distribución
El muestreo de una población finita puede realizarse en una de dos formas. Es
posible seleccionar y examinar un objeto, y luego devolverlo a la población para su
posible reselección, o seleccionarlo, examinarlo y mantenerlo, lo que impide su
reselección en extracciones subsiguientes. La primera garantiza que las
extracciones sean independientes.
En el muestreo sin reemplazo, las extracciones no son independientes. Así pues,
si se usa el muestreo sin reemplazo, deja de ser binomial la variable aleatoria X, el
número de éxitos en n ensayos. Esta situación corresponde a la llamada distribución
hipergeométrica.
Ejemplo 3.19.
a) Extracción de 5 cartas de una baraja en donde cada carta no se repone. Sea
X=número de cartas rojas en la muestra.
b) Inspección de baterías de un lote para ser embarcado. Sea X=número de baterías
defectuosas en la muestra.
Los experimentos de este tipo se conocen como experimentos
hipergeométricos.
DISTRIBUCION HIPERGEOMETRICA
Un conjunto de N objetos contiene
o K objetos clasificados como éxitos y
o N – K objetos clasificados como fracasos
111
Se selecciona una muestra de tamaño n, al azar (sin reemplazo) de entre N
objetos, donde K≤N y n≤N.
Sea que la variable aleatoria X denote el número de éxitos en la muestra.
Entonces X tiene una distribución hipergeométrica y
 K  N - K 
  
f(x) =  
x n - x
; x = máx 0, n +K - N hasta mín {K, n}
N 
 
 n
Para deducir la función de masa de probabilidad, podemos utilizar la idea que se

ilustra en la figura.
Con el uso de la probabilidad clásica y la regla de multiplicación para el conteo, se

obtiene:
(x objetos entre K) y (n - x objetos entre N - K )
P(X = x) =
número de formas de seleccionar los n objetos
K  N - K 
  
=  x n - x 
N 
 
 n
Escribimos X ~ H(N, K, n) para indicar que X es una variable aleatoria
hipergeométrica con los parámetros N, K y n.
Si X : H(N, K, n), entonces E(X) =μ= n. K y V(X) =σ2 =

N  ·n· ·1- 
N-n
N-1
K
N
K
N
Ejemplo 3.20. De 50 edificios en un complejo industrial, 12 no cumplen el código

eléctrico. Si se seleccionan aleatoriamente diez edificios para inspeccionarlos, a)
¿Cuál es la probabilidad de que exactamente tres de los diez edificios no cumplan
el código?
b) Cuál es la media y la varianza
Solución:
a) Sea X el número de edificios seleccionados que violan el código. Entonces, X
~ H(50, 12, 10). ¿Por qué? Se debe determinar P(X=3):
112
 12  38 
  
P(X = 3) =    = 0.2703
3 7
 50 
 
 10 
b) μ=n.(K/N)=10(12/50)=2.4 y
σ2=((N-n)/(N-1)).n.(K/N).(1-(K/N))=(40/49)(10)(12/50)(1-(12/50))=1.49
Aproximación de probabilidad hipergeométrica

Si en la fórmula precedente, hacemos p=K/N, entonces p se interpreta como la
proporción de éxitos en el conjunto del que se elige la muestra. Obsérvese que para
una variable aleatoria hipergeométrica, E(X) es similar al resultado para una variable
aleatoria binomial.
Además, V(X) difiere del resultado para una variable aleatoria binomial tan sólo
N-n
por el término N-1 que se conoce como el factor de corrección para poblaciones
finitas.
Cuando el tamaño muestral n es pequeño en comparación con el tamaño de la
población N, la distribución binomial Bin(n, K/N) es una buena aproximación de la
distribución hipergeométrica H(N, K, n). Una regla general es que la aproximación
suele ser satisfactoria si n≤0.05N, es decir, n es a lo sumo el 5% del tamaño de la
población. Este resultado depende de la fórmula de Stirling, que se estudia en
cursos de cálculo avanzado.
La regla anterior significa que, cuando el tamaño muestral n es pequeño en

comparación con el tamaño de la población N (es decir, no mayor al 5%), la
diferencia entre el muestreo con o sin reemplazo es poca, y la distribución binomial
Bin(n, K/N) es una buena aproximación de la distribución hipergeométrica H(N, K,
n).
Ejemplo 3.21. En el curso de una hora, una máquina específica llena 1000 botellas
de jugo. En cada uno de sus intervalos, se selecciona aleatoriamente una muestra
de 20 botellas y se verifica el volumen del contenido en cada una. Sea X el número
de botellas seleccionadas con contenido insuficiente. Suponga que en una hora
específica se producen 100 botellas llenadas en forma deficiente. Calcule la
probabilidad aproximada de que al menos tres botellas con contenido deficiente se
incluyan en las muestreadas.
Puesto que n=20≤0.05N=0.05x1000=50, la regla general indica que esta

probabilidad puede aproximarse mediante la distribución binomial, con parámetros
n=20 y p=K/N=100/1000=0.1.
P(X≥3)≈1 – P(X<3)
=1- P(X≤2)
=1- 0.6769
=0.3231
113
3.7 Distribución binomial negativa
La distribución binomial negativa es una distribución que puede considerarse
como lo “inverso” de la distribución binomial. En el contexto binomial, la variable
aleatoria X representa el número de éxitos obtenidos en una serie de n ensayos
independientes e idénticos, número que es fijo, mientras que el de éxitos varía de
un experimento a otro. La variable aleatoria binomial negativa corresponde al
número de ensayos para obtener precisamente r éxitos, de modo que con ella el
número de éxitos es fijo y el número de ensayos cambia de un experimento a otro.
Los experimentos de esta clase se llaman experimentos binomiales negativos.
Ejemplo 3.22. En el problema de los bits con error, ¿cuál es la probabilidad de que
el décimo bits transmitido sea el cuarto con error?
Sea X=el número de bits hasta el cuarto con error. La probabilidad de obtener 3 bits
con error en los primeros nueve y que el décimo sea el cuarto con error es:
9 3 6 9 4 6
  (0.1) (0.9) g(0.1) =   (0.1) (0.9)
3 3
Este resultado sugiere una definición para la función de masa de probabilidad

para una variable aleatoria binomial negativa.
DISTRIBUCION BINOMIAL NEGATIVA
En una serie de ensayos independientes, con probabilidad constante p de éxito,

sea que la variable aleatoria X=denota el número de ensayos hasta que ocurren
r éxitos. Entonces X tiene una distribución binomial negativa con parámetros
p y r=1, 2, 3, …, y
 x -1 x-r r
P(X = x) = f(x) =   (1- p) p
 r -1 
para x=r, r+1, r+2,…
Escribimos X ~ Bn(r, p) para indicar que X es una variable aleatoria binomial

negativa con parámetros r y p.
Suponga que se lleva a cabo una secuencia de ensayos independientes, cada

uno con la misma probabilidad de éxito. Sea X el número de experimentos hasta
incluir el primer éxito. Por tanto, X es una variable aleatoria discreta, la cual tiene
una distribución geométrica con parámetro p. Se expresa como X~Geo(p).
Si X~Bn(r,p), entonces
r(1-p)
E(X) = μ = r y V(X) = σ 2 =
p p2
114
Ejemplo 3.23. El 10% de las máquinas producidas en una línea de montaje resultan
defectuosas, ¿cuál es la probabilidad de encontrar la tercer máquina defectuosa en
el quinto ensayo, si se seleccionan aleatoriamente máquinas, de una por una, para
probarlas?. Cuál es la media y la varianza.
Solución:
Aquí, X es el número de máquinas producidas en la línea de montaje en las que la

tercer máquina defectuosa se presenta en la última máquina producida, entonces X
~ Bn(3, 0.10). ¿Por qué?
 5 -1 2 3
P(X = 5) =   (0.90) ·(0.10) = 0.0049
 3 -1
μ=r/p=3/0.10=30 ¿Cómo se interpreta?. σ2=3(0.9)/(0.1)2=270
3.8 Distribución de probabilidad de Poisson o de los sucesos raros
Ejemplo 3.24. Considere las imperfecciones a lo largo de un alambre delgado de

cobre. Sea la variable aleatoria X igual al número de imperfecciones en una longitud
de L milímetros de alambre. Hagamos una partición del alambre de cobre en n
subintervalos de longitud pequeña, digamos, de 1 micrón (μm, la millonésima parte
del metro) cada uno. Cuando la probabilidad de que un subintervalo tenga una
imperfección es constante y la probabilidad de que un subintervalo contenga una
imperfección es independiente de otros subintervalos, X tiene una distribución
binomial. Sea p denote la probabilidad de que un subintervalo tenga una
imperfección. Entonces, E(x)=pn. Ahora bien, suponga que el número de
subintervalos aumenta y que la probabilidad de una imperfección disminuye justo lo
suficiente para que pn se mantenga igual a una constante, digamos λ. Es decir, n
se incrementa y p decrece consecuentemente, de tal modo que E(x) permanece
constante. Entonces,
n   n   λ  x  λ n-x
P(X = x) =   p x (1- p)n-x =    1- 
x  x n   n 
Ahora bien, se tiene
 n   λ  x  λ n-x
lím P(X = x) = lím  x  n  1- n 
n n      
n -x
λ x  λ  n(n -1)...(n - x +1)  λ 
= lím  1-   1- 
n x!  n  n x  n
n -x
λx  λ   λ   1  2   x -1
= lím  1-   1-   1-  1-  ...  1- 
x! n  n   n   n  n   n 
115
Se observa que
n
 λ -λ
lím  1- n  = e
n  
y que todos los demás términos en los que interviene n tienden a la unidad;
entonces, tenemos la distribución al límite
e-λ λ x
lím P(X = x) = x!
, x =1, 2,...
n
Además, debido a que el número de bits transmitidos tiende a infinito, el número

de errores puede ser igual a cualquier entero no negativo. Por lo tanto, el rango de
X son los enteros desde cero hasta infinito.
El ejemplo precedente puede generalizarse para incluir un amplio espectro de
experimentos aleatorios. El intervalo en el que se hizo la partición, era la longitud de
un alambre. Sin embargo, puede aplicarse el mismo razonamiento a cualquier
intervalo, incluyendo un intervalo de tiempo, un área o un volumen. Por ejemplo, se
ha establecido un modelo de éxito para el conteo de:
1) las imperfecciones en rollos de tela

2) las llamadas a una central telefónica
3) las interrupciones de la energía eléctrica
4) defectos por pie en un alambre
5) ratones de campo por hectárea
Los experimentos que producen valores numéricos de una variable aleatoria X, el
número de resultados que ocurren durante un intervalo de tiempo dado o en una
región específica, se llama con frecuencia experimento de Poisson.
DISTRIBUCIÓN DE POISSON
Dado un intervalo de números reales, suponga que ocurren conteos al azar a lo
largo del intervalo. Si puede hacerse la partición del intervalo en subintervalos con
una longitud suficientemente pequeña tal que
1) la probabilidad de más de un conteo en un subintervalo es cero,

2) la probabilidad de un conteo en un subintervalo es la misma para todos
los subintervalos y proporcional a la longitud del subintervalo, y
3) el conteo en cada subintervalo es independiente de los demás
subintervalos,
entonces el experimento aleatorio se denomina proceso de Poisson.
Si el número promedio de conteos en el intervalo es λ>0, la variable aleatoria X,

que es igual al número de conteos en el intervalo, tiene una distribución de
Poisson con parámetro λ, y la función de masa de probabilidad de X es
116
e-λ λ x
f(x) = , x = 0, 1, 2,...
x!
Escribimos X ~ Poisson(λ) para indicar que X es una variable aleatoria de

Poisson con parámetro λ.
Históricamente, el término proceso se ha utilizado para seguir la observación de
un sistema con el paso del tiempo. Una aplicación muy importante de la distribución
de Poisson se relaciona con el acontecimiento de eventos de un tipo particular sobre
el tiempo. Los procesos de Poisson incluyen la observación de eventos discretos
en un “intervalo” continuo de tiempo, longitud o espacio. Se usa el término “intervalo”
en la descripción del proceso de Poisson general, en el entendido de que no es un
intervalo en el sentido matemático usual. Por ejemplo, podría tratarse de observar
el número de árboles distribuidos en un bosque por acre. El evento discreto de
interés es dicha observación, mientras que el “intervalo” continuo es el acre. La
variable que interesa en un proceso de Poisson es X, el número de casos de un
evento en un intervalo de t unidades. Puede comprobarse con el uso de ecuaciones
diferenciales que X es una variable aleatoria de Poisson con parámetro λ=αt, el
valor esperado, donde α es una número positivo que caracteriza al proceso de
Poisson subyacente. Así, el número promedio de casos del evento en unidad de
tiempo, longitud área o espacio es αt/t=α. Dicho de otra manera, en el sentido físico
el parámetro α representa el número promedio de casos del evento en cuestión por
unidad de medición. Es decir, si en la distribución de Poisson el número esperado
por tiempo unitario es α, entonces el número esperado de resultados en un intervalo
de t unidades de tiempo específico es una variable aleatoria de Poisson con λ=αt.
Es importante usar unidades consistentes en el cálculo de probabilidades,

medias y varianzas cuando se trabaja con variables aleatorias de Poisson.
Si X~Poisson(λ), entonces
E(X)=V(X)=λ
Ejemplo 3.25. Para el caso del alambre de cobre delgado, suponga que el número
de imperfecciones sigue una distribución de Poisson con una media de 2.3
imperfecciones por milímetro.
a) Determine la probabilidad de 10 imperfecciones en 5 milímetros de alambre.
b) Determine la probabilidad de al menos una imperfección en 2 milímetros de
alambre.
Solución:
a) Sea que X denote el número de imperfecciones en 5 milímetros de alambre.
Entonces, X tiene una distribución de Poisson con E(X)=2.3 imperfecciones/mm x 5
mm =11.5 imperfecciones. Entonces X~Poison(11.5) y
117
e-11.511.510
P(X =10) = = 0.113
10!
b) Sea X denote el número de imperfecciones en 2 milímetros de alambre.
Entonces, X tiene una distribución de Poisson con E(X)= 2.3 imperfecciones/mm x
2 mm =4.6 imperfecciones. Entonces, X~Poisson(4.6) y
P(X  1) =1-P(X = 0)
e-4.6 4.60
=1-
0!
=1- e-4.6
Distribución de Poisson como forma límite

Cuando n es grande y p pequeña, la distribución de Poisson es una buena
aproximación de la distribución binomial, donde λ=np. Una regla general es que la
aproximación suele ser satisfactoria si n≥100, p≤0.01 y np≤20.
Ejemplo 3.26. Supóngase que 300 erratas están distribuidas a lo largo de un libro
de 500 páginas. Hallar la probabilidad de que una página contenga 2 erratas
exactamente.
Solución:
Sea X el número de erratas de entre 300 es una variable aleatoria binomial con
n=300, p=1/500=0.002 y np=0.6, así que se cumple la regla, entonces
e-0.6 (0.6)2
P(X = 2) = = 0.0988.
2!
Unidad IV: VARIABLE CONTINUA
Introducción
La distribución de probabilidad de una variable aleatoria discreta siempre se
puede obtener asignando una probabilidad positiva a cada uno de los posibles
valores que puede tomar la variable. Naturalmente, tenemos que estar seguros de
que la suma de las probabilidades asignadas sea siempre igual a 1.
Desafortunadamente, la distribución de probabilidad de una variable aleatoria
continua no puede establecerse de la misma manera. Es matemáticamente
imposible asignar probabilidades diferentes de cero a todos los puntos de un
intervalo real y al mismo tiempo satisfacer el requisito de que la suma de las
probabilidades de los distintos valores posibles tiene que ser 1.
4.1 Función de densidad

La función f(x), que modela el comportamiento de la frecuencia relativa de X, se
llama función de densidad de probabilidad y el cálculo de probabilidades implica
integrales, en vez de las sumatorias que se usan en el caso discreto.
118
FUNCION DE DENSIDAD (fd)
Para una variable aleatoria continua X, una función de densidad de

probabilidad es una función tal que
1) f(x)  0

2)  f(x)dx =1
-
b
3) P(a  X  b) =  f(x)dx = área bajo f(x) de a y b cualesquiera
a
Nótese que para una variable aleatoria continua X,

a
P(X = a) =  f(x)dx = 0
a
para cualquier valor específico de a.

Si X es una variable aleatoria continua, entonces para cualquier x1 y x2,
P(x1≤X≤x2)=P(x1<X≤x2)=P(x1≤X<x2)=P(x1<X<x2)
4.2 Función de distribución acumulada y usos

La función de distribución acumulativa de una variable aleatoria continua X es
F(x)=P(X≤x), al igual que para una variable aleatoria discreta. Para una variable
aleatoria continua, el valor de F(x) se obtiene al integrar la función de densidad de
probabilidad.
FUNCION DE DISTRIBUCION ACUMULADA (fda)

Sea X una variable aleatoria continua con función de densidad de probabilidad
f(x). La función de distribución acumulativa de X es la función
x
F(x) = P(X  x) = -  f(t)dt
para -∞<x<∞.
119
b a
Consecuencia: P(a<X<b)=  f(t)dt -  f(t)dt =F(b) -F(a), esto es, la acumulada
- -
evaluada en el límite superior menos la acumulada evaluada en el límite inferior.
Además, F´(x)=f(x), si  la derivada.
Percentiles
Sea p ε [0,1]. El (100p)mo percentil de la distribución de una vac X, se define

como
x
p = P(X < x) = F(x) =  f(t)dt
-
X deja a la izquierda un área de 100p % y a la derecha 100(1-p) %.
4.3 Valor esperado y varianza de variable aleatoria continua

Suponga que X es una variable aleatoria continua con función de densidad de
probabilidad f(x).
La media o valor esperado de X, denotada como μ E(X), es


μ = E(X) =  x f(x)dx
-
La varianza de X, denotada como V(X) o σ2, es

 
σ 2 = V(X) =  (x -μ)2 f(x)dx =  x 2f(x)dx - μ2
- -
La desviación estándar de X es σ=[V(X)] 1/2
Las reglas del valor esperado y la varianza del caso discreto son válidas también
para el caso continuo.
Ejemplo 4.1. Se especifica que el espesor de las hojas de aluminio para hacer latas
está entre 8 y 11 milésimas de pulgada. Sea X el espesor de una hoja de aluminio,
con una función de densidad
f(x) = kx, 6 < x <12
a) calcule la constante k para que la función sea una legítima función de densidad.
b) haga un bosquejo de la gráfica de f(x).
c) ¿cuál es el % de hojas que no cumplen las especificaciones?
d) calcule F(x) y haga un bosquejo de la gráfica.
e) calcule P(x<8) usando F(x).
f) calcule P(8<x<10) usando F(x).
g) calcule µ y σ2
h) calcule P50.
Solución:
120
 12
a) f(x) es una legítima función de densidad si - f(x)dx =6 kx dx =1
12
6 kx dx =1
12
k 6 x dx =1
12
(k/2)  x 2   1
6
(k/2)[122 - 62]=1
k=1/54
Entonces, f(x)=(1/54)x, 6<x<12
b)
12
Area   1
x dx =1
6 54
c) P(6<x<8)+P(11<x<12)=
8 12
  (1/54)x dx +  (1/54)x dx = 51/108 = 0.4722 ó 47.22%
6 11
d) Si x≤6, F(x)=0 ¿por qué?

x
6 541 t dt = 1081 x - 36 
2
Si 6<x<12, F(x)=
Si x≥12, F(x)=1, ¿por qué?
0, x  6
 1
F(x) =  108  x 2 - 36  , 6 < x <12
 

1, x  12
e) P(x<8)=F(8)=(1/108)(82 – 36)=28/108, ¿P(x>8)?

f) P(8<x<10)=F(10) – F(8)=(1/108)(102 – 36) – (1/108)(82 – 36)=36/108
121
 54 
1
 12 12
g) μ =  xf(x)dx =  x x
54 
dx = x 2dx = 9.33 milésima de pulg
- 6 6
2
 1 12 3  28 
σ 2 =  x2 f(x)dx -μ2 =
- 
54 6
x dx -   = 2.89 milésima de (pulg)2
 3 
x
h) p = F(x) = P(X  x) = -  f(t)dt
x
0.50 = F(x) = P(X  x) = 6 f(t)dt
0.50=(1/108)(x2 – 36)
x=P50=9.49 milésima de pulg
4.4 Distribución de probabilidad uniforme
DEFINICION.
Se dice que una va X continua tiene distribución uniforme en el intervalo [a, b]

si la fd de X es
 1
 , a xb
f(x; a, b) =  b - a
0, de otro modo
Si X es una variable aleatoria cuya distribución uniforme con parámetro a y b, se

expresa como X~U(a,b).
La gráfica de esta función de densidad está dada en la figura
TEOREMA.
Si X~U(a,b) entonces la media y la varianza de X son
a +b 1
y V(X) = b - a 
2
E(X) =
2 12
TEOREMA. FUNCION DE DISTRIBUCION ACUMULADA

122
Si X tiene una distribución Uniforme con parámetros a y b, entonces la función de
distribución acumulada de X es
x-a
F(x) = , a x b
b-a
Ejemplo 4.2. La distribución para el peso neto en libras de un herbicida químico

empacado es uniforme para 49.75<x<50.25 libras.
a) Hallar la probabilidad de que el peso sea a lo sumo 50.1 lb
b) Calcular µ y σ2
Solución:
50.1- 49.75
a) P(X  50.1) = F(50.1) = = 0.7.
50.25 - 49.75
b) μ =
 a +b  = 49.75 + 50.25 = 50 lb. ¿Se concluye lo mismo gráficamente?
2 2
1 1
σ2 = b - a 2 =  50.25 - 49.75 2 = 0.0208 (lb)2 .
12 12
4.5 Distribución normal (DN)

Es la distribución continua más importante en el campo de la estadística, cuya
gráfica se llama curva normal. En 1733, Abraham De Moivre desarrolló su
expresión matemática.
Si una vac X tiene una distribución en forma de campana, ésta se llama variable
aleatoria normal (VAN).
Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el

modelo de la normal son:
 caracteres morfológicos de individuos como la estatura;

 caracteres fisiológicos como el efecto de un fármaco;
 caracteres sociológicos como el consumo de cierto producto por un mismo
grupo de individuos;
 caracteres psicológicos como el cociente intelectual;
 nivel de ruido en telecomunicaciones;
 errores cometidos al medir ciertas magnitudes;
123
La ecuación de la función de densidad normal, depende de los parámetros μ
y σ, media y desviación estándar respectivamente.
DISTRIBUCION NORMAL
Una variable aleatoria X con función de densidad de probabilidad
1  x-μ 2
1 -  
f(x) = e 2 σ 
, x R
σ 2π
tiene una distribución normal con parámetros μ, donde -∞<μ<∞, y σ>0.
Además,
E(X)=μ y V(X)=σ2
Cuando X está normalmente distribuida con parámetros μ y σ 2, esta se abrevia

así, X~N(μ, σ2).
PROPIEDADES:
1. Moda x=μ.
2. Simetría con respecto a x=μ
3. Puntos de inflexión en: x=μ±σ; concavidad hacia abajo en μ-σ<X<μ+σ y
concavidad hacia arriba en caso contrario.
4. El eje horizontal es asíntota horizontal: y=0.
5. Área bajo la curva es 1.
4.6 Distribución normal estándar

El área bajo la curva limitada por a y b es
b
P(a  X  b) =  f(x)dx
a
1 2 x-μ
b
= 1 e- 2 ( σ ) dx
a σ 2π
representada por el área de la región sombreada
124
Ninguna de las técnicas de integración se puede utilizar para evaluar la integral
anterior, por lo que su evaluación solamente puede obtenerse utilizando métodos
numéricos dado que no puede calcularse directamente al no existir la primitiva de
f(x). En su lugar, para μ=0 y σ=1, dicha integral se ha evaluado y tabulado
numéricamente para determinados valores de a y b. La tabla también se utiliza para
calcular probabilidades con otros cualesquiera valores de μ y σ.
Si μ=0 y σ=1, se tiene la distribución normal estándar (DNE) y la variable de
ésta distribución se llama variable aleatoria normal estándar (VANE) y se denota
por Z.
DISTRIBUCION NORMAL ESTANDAR (DNE).
- 1 z2
f(z) = 1 e 2 , z R
2π
FUNCION DE DISTRIBUCION ACUMULADA.
La función de distribución de probabilidad acumulada de Z es

z
P(Z  z) = F(z) =  f(y)dy
-
La que se denota por Φ(z).
La gráfica de F(z) se muestra a continuación
125
Φ(z) es el área sombreada a la izquierda de z como se muestra en la figura cuyo
valor se encuentra desde z= - 3.49 a z=3.49 en las tablas utilizadas aquí. Fuera de
este intervalo Φ(z) es 0 para Z< - 3.49 y 1 para Z>3.49 respectivamente.
Ejemplo 4.3.
a) P(Z>1.35)=1 - P(Z≤1.35)=1- Φ(1.35)=1 - 0.9115=0.0885.
b) P(Z≤ - 1.35)=Φ(-1.35)=0.0885.
c) P( - 0.76≤Z≤1.35)=P(Z≤1.35)–P(Z≤ - 0.76)=Φ(1.35)–Φ( - 0.76)=
0.9115– 0.2236=0.6879.
d) P(Z≤ - 3.5)= Φ( - 3.5)=0.
e) P(Z≤3.5)= Φ(3.5)=1.
Percentiles de la distribución normal estándar

Si pε[0,1] las tablas se pueden utilizar para encontrar el (100p)mo percentil de la
DNE.
Ejemplo 4.4. Hallar P33.

Solución:
El P33, está identificado por el renglón y columna de la tabla donde está la entrada
p=0.3300, a la cual le corresponde z=-0.44, de donde P33=-0.44.
Si p no aparece, se utiliza el número más cercano al mismo, aunque la

interpolación daría la respuesta más precisa.
NOTACION zα: zα es el valor de Z que deja a su derecha un área α. zα: valor
crítico
Distribuciones normales no estándar
126
Si X es una variable aleatoria normal con E(X)=μ y V(X)=σ 2, entonces la variable
X-μ
Z=
σ
es una variable aleatoria normal con E(Z)=0 y V(Z)=1. Es decir, Z es una variable
aleatoria normal estándar.
A la creación de una nueva variable aleatoria por medio de esta transformación

se le llama estandarización. La variable aleatoria Z representa la distancia de X de
su media en términos de desviaciones estándar. Es el paso clave para calcular una
probabilidad con una variable aleatoria normal arbitraria.
Ejemplo 4.5. Dada una DN con μ=50 y σ=10, hallar:

a). P(45<X<62); b). P(X>20)
Solución:
a). P(45 < X < 62) =P( 45-50
10
< X-50
10
< 62-50
10
)
=P( 45-50
10
< Z < 62-50
10
)
= P( - 0.5<Z<1.2)
=Φ(1.2) – Φ( - 0.5)
=0.8849 – 0.3085
=0.5764.
b). P(X > 20) = P(Z > 20-50

10
) = P(Z > -3.0) = 1- Φ(-3.0) =1- 0.0013 = 0.9987.
Ejemplo 4.6. Considere los valores del coeficiente intelectual (C. I.) de las
personas. Estos valores están distribuidos normalmente con una media de 100 y
una desviación estándar de 16. Si se elige una persona al azar
a) ¿cuál es la probabilidad de que su C. I. esté entre 100 y 115?
b) ¿cuál es la probabilidad de que una persona elegida al azar tenga un C. I.
superior a 90?
Solución:
a) P(100 < X <115) =P( 100-100
16
< X-100
16
< 115-100
16
)
=P(0 < Z < 0.94)
=Φ(0.94) – Φ(0)
=0.8264 – 0.5
127
=0.3264
b) P(X > 90) = P(Z > 90-100

16
) = P(Z > -0.63) = 1- Φ(-0.63) =1- 0.2643 = 0.7357.
Ejemplo 4.7. Si una va tiene una distribución normal, ¿cuál es la probabilidad de

que adopte un valor dentro de 1 DE (1 desviación estándar) de la media?
P(|X-μ|≤1σ)=P(-σ≤X-μ≤σ)
=P(μ-σ≤X≤μ+σ)
= P( μ-σ-μ
σ
 Z  μ+σ-μ
σ
)
=P(-1.00≤Z≤1.00)
=Φ(1.00)-Φ(-1.00)
=0.8413 - 0.1587
=0.6826.
REGLA EMPIRICA
Si una va es normal o aproximadamente normal entonces:
1. Alrededor de 68% de los valores están a menos de 1 DE de μ.
2. Alrededor de 95% de los valores están a menos de 2 DE de μ.
3. Alrededor de 99.7% de los valores están a menos de 3 DE de μ.
Percentiles de una distribución normal

El P45 en el ejemplo 4.6 se obtendría así:
P(X≤x)=0.45=P(Z≤z)
de donde z=-0.13, y -0.13 = x-50
10
, con lo que x=50+10(-0.13)=48.7=P45.
128
De este ejemplo se deduce que x = μ + σz.
Aproximación normal a la distribución binomial

La distribución normal suele servir también para aproximar distribuciones de vad.
Frecuentemente esto produce resultados satisfactorios, siempre que utilicemos la
corrección por continuidad.
La aproximación normal a la distribución binomial es buena si el histograma
de probabilidad no está demasiado sesgado.
TEOREMA
 área bajo la curva normal 

P(X  x)    = P(X < x + 0.5) = P(Z <
 a la izquierda de x + 0.5 
(x + 0.5) - np
npq
)=Φ  (x+0.5)-np
npq 
La aproximación es aceptable si np≥10 y nq≥10.
Ejemplo 4.8. Suponga que el 50% de todas las familias en una colonia tienen
cable. Calcular la probabilidad aproximada de que a lo sumo 10 tenga cable entre
20. La aproximación es aceptable ya que np=20(0.5)≥10 y nq=20(0.5)≥10.
Sea X el número de familias en una muestra de 20 que tienen cable. Entonces

X~Bin(20, 0.50), y µ=np=(20)(0.5)=10, σ2=np(1-p)=(20)(0.5)(0.5)=5, de donde la
aproximación normal es X~N(10, 5).
Así,
P(X  10)  Φ  (10+0.5)-10

2.24  = Φ(.22) = .5871.
129
4.7 Gráficas de cuantiles y gráficas de probabilidad normal
El objetivo principal de éstas es proporcionar una verificación diagnóstica sobre la
suposición de que los datos provienen de una distribución normal.
Una gráfica cuantilar normal es una herramienta que nos ayuda a determinar si
aparentemente se satisfacen los requisitos de una distribución normal.
PROCEDIMIENTO:
Si se tiene un conjunto pequeño de datos, identifique datos distantes. Rechace la
normalidad si hay más de un dato distante presente. (La presencia de un solo dato
distante podría ser un error o el resultado de la variación por el azar, pero tenga
cuidado porque incluso un solo dato distante llega a producir un efecto importante
en los resultados).
Los siguientes pasos describen la construcción de una gráfica cuantilar normal:
a. Primero ordene los datos del más bajo al más alto.
b. Con una muestra de tamaño n, cada valor representa una proporción de 1/n de
la muestra. Utilizando el tamaño muestral n que se conoce, identifique las áreas
de 21n , 23n , 25n , 27n , etc. Estas son las áreas acumulativas a la izquierda de los
valores muestrales correspondientes.
c. Utilice la distribución normal estándar para calcular las puntuaciones z

correspondientes a las áreas izquierdas acumulativas que se obtuvieron en el
paso b.
d. Una los valores originales de los datos ordenados con sus puntuaciones z
correspondientes, que se calcularon en el paso c, después grafique los puntos
(x,y), donde cada x es un valor muestral original, en tanto y es la puntuación z
correspondiente.
e. Examine la gráfica cuantilar normal con los siguientes criterios: si los puntos no
se acercan a una línea recta o si exhiben algún patrón sistemático diferente al
de una línea recta, entonces parece que los datos provienen de una población
que no tiene una distribución normal. Si el patrón de puntos se acerca
razonablemente a una línea recta, entonces los datos pueden provenir de una
población normal.
Ejemplo 4.9.
Se extrae una muestra aleatoria de edades de tamaño 5: 62, 46, 68, 64, 57.
Construya una gráfica cuantilar normal para los datos y determine si parecen
provenir de una población que se distribuye normalmente.
Solución:
Los siguientes pasos corresponden a los listados en el procedimiento anterior para
la construcción de una gráfica cuantilar normal.
a. Primero hay que ordenar los datos: 46, 57, 62, 64, 68.
130
b. Con una muestra de tamaño n=5, cada valor representa una proporción de 1/5
de la muestra, por lo que procedemos e identificar las áreas acumulativas a la
izquierda de los valores muestrales correspondientes. Estas áreas izquierdas
acumulativas, que se expresan en general como 21n , 23n , 25n , 27n , etc., se
convierten en áreas específicas para el presente ejemplo, con n=5: 1/10, 3/10,
5/10, 7/10 y 9/10. Tales áreas izquierdas acumulativas, que se expresan en
forma decimal, son: 0.1, 0.3, 0.5, 0.7 y 0.9.
c. Ahora buscamos las áreas izquierdas acumulativas de 0.1000, 0.3000, 0,5000,

0.7000 y 0.9000. Encontramos estas puntuaciones z correspondientes: -1.28, -
0.52, 0, 0.52 y 1.28.
d. Ahora unimos los datos ordenados con sus puntuaciones z correspondientes;
obtenemos las siguientes coordenadas (x, y), que están graficadas en la
siguiente figura: (46, -1.28), (57, -0.52), (62, 0), (64, 0.52) y (68, 1.28).
131
e. INTERPRETACION: examinamos la gráfica cuantilar normal de la figura. Como
los puntos parecen estar razonablemente cerca de una línea recta, concluimos
que las edades dadas parecen provenir de una población que se distribuye
normalmente.
Podemos obtener una estimación de la media y de la desviación estándar

directamente de la gráfica de la probabilidad normal. La media se estima como el
500 percentil de la muestra, ó x  59.5 , y la desviación estándar se estima como la
diferencia entre los percentiles 840 y 500 ó s  67.9  59.5  8.4 .
Los gráficos de probabilidad normal constituyen otra importante herramienta
gráfica para comprobar si un conjunto de datos puede considerarse o no procedente
de una distribución normal. La idea básica consiste en enfrentar, en un mismo
gráfico, los datos que han sido observados frente a los datos teóricos que se
obtendrían de una distribución gaussiana. Si la distribución de la variable coincide
con la normal, los puntos se concentrarán en torno a una línea recta, aunque
conviene tener en cuenta que siempre tenderá a observarse mayor variabilidad en
los extremos.
Se acostumbra hacer la graficación de probabilidades en un papel gráfico
especial, conocido como papel de probabilidad normal, que se ha diseñado para la
distribución normal.
Una representación de un conjunto de datos en papel probabilística normal hace
corresponder a cada observación un punto en el plano. La abscisa del punto no es
más que el valor observado, mientras que la ordenada corresponde al porcentaje
de valores en la muestra que son menores o iguales que el considerado. En general
se aplica una corrección de continuidad, de forma que en una muestra de tamaño n
a la observación i-ésima, una vez ordenadas de menor a mayor, le corresponde
como ordenada 100(j-0.5)/n.
La idea básica para la utilización del papel probabilístico normal es la siguiente:
cuando los datos procedentes de una distribución normal se representan en este
papel, los puntos correspondientes se sitúan aproximadamente a lo largo de una
recta.
132
Como se aprecia los datos de distribuciones asimétricas positivas presentan
claramente una curvatura negativa cuando se representan en papel probabilístico
normal. Además, las distribuciones asimétricas negativas presentan una curvatura
positiva en el papel de probabilidad normal. La mezcla de dos poblaciones con
diferentes medias se detecta por la existencia de dos tramos de crecimiento rápido
separados por uno de crecimiento lento. Por último los valores anormalmente altos
o bajos se representan por puntos que se separan de la recta en la zona superior
derecha e inferior izquierda respectivamente.
Para usar la graficación de probabilidades para investigar la supuesta

normalidad, las observaciones ordenadas x(j) se grafican contra sus frecuencias
acumuladas observadas (j-0.5)/n en el papel probabilidad apropiado. Si la
distribución hipotetizada describe adecuadamente los datos, los puntos graficados
estarán aproximadamente en una recta; si los puntos graficados se apartan
significativamente de una recta, entonces el modelo hipotetizado no es el apropiado.
Ejemplo. 4.10 Tomando el ejemplo precedente, se hipotetiza que los datos se

modelan adecuadamente con una distribución normal.
Solución:
Para usar la graficación de probabilidades para investigar esta hipótesis, primero se

ordenan las observaciones en orden ascendente y se calculan sus frecuencias
acumuladas (j-0.5)/5 como sigue:
j x(j) (j-0.5)/5
1 46 0.1
2 57 0.3
3 62 0.5
4 64 0.7
5 68 0.9
133
Después se grafican en papel probabilidad normal los pares de valores x(j) y (j-
0.5)/5. La mayoría de los papeles probabilidad normal grafican 100(j-0.5)/n en la
escala vertical derecha y 100[1-(j-0.5)/n] en la escala vertical izquierda, mientras
que en la escala horizontal se grafica el valor de la variable.
134
Los puntos de la muestra se aproximan a una línea recta, por lo que es factible que
provengan de una población normal.
La media se estima como el 500 percentil de la muestra, es decir x  59.5 , y la
desviación estándar se estima como la diferencia entre los percentiles 840 y 500 es
decir s  68  59.5  8.5 .
La construcción manual de estas gráficas es difícil con conjuntos grandes de datos.

Se puede utilizar para esto por ejemplo, un programa de cómputo como
STATGRAPHICS.
4.8 Distribución exponencial

La distribución exponencial es una distribución continua que algunas veces se
utiliza para modelar el tiempo que transcurre antes de que ocurra un evento. A
menudo, a aquél se le llama tiempo de espera. En algunas ocasiones la
distribución exponencial se utiliza para modelar el tiempo de vida de un
componente.
DEFINICION
La función de densidad de probabilidad de la distribución exponencial con

parámetro λ>0 es
f(x) = λe-λx , x > 0
Si X es una variable aleatoria cuya distribución exponencial con parámetro λ, se

expresa X~Exp(λ).
La figura presenta la función de densidad de probabilidad de la distribución

exponencial para algunos valores de λ.
135
Es fácil calcular la función de distribución de probabilidad acumulativa de la
distribución exponencial. Para x≤0, F(x)=P(X≤0)=0. Para x>0, la función de
distribución acumulativa es
x
F(x) = P(X  x) =  λe-λt dt =1- e-λx
0
TEOREMA.
Si X~Exp(λ), la función de distribución acumulada de X es
x
F(x) = P(X  x) =  λe-λt dt =1- e-λx
0
La media y la varianza de una variable aleatoria exponencial se puede calcular

mediante la integración por partes.
TEOREMA.
Si X~Exp(λ), entonces
1 1
μX = y σ 2X = 2
λ λ
Ejemplo 4.11. Suponga que el tiempo de respuesta X en cierta terminal de

computadora en línea (el tiempo transcurrido entre el fin de la consulta del usuario
y el principio de la respuesta del sistema a esa consulta) tiene una distribución
exponencial con tiempo esperado igual a 5 segundos.
a) Cuál es la probabilidad de que el tiempo de respuesta se a lo sumo 10
segundos.
b) Cuál es la probabilidad de que el tiempo de respuesta esté entre 5 y 10
segundos.
c) Encuentre la mediana de X.
Solución:
a) Sabemos que E(X)=1/λ=5, de donde λ=0.2. Entonces
P(X  10) =1- e-(0.2)(10) =1- e-2 = 0.8647
b) P(5  X  10) = (1- e-2 ) - (1- e-1) = 0.2325
c) Sea x la mediana de X. Entonces
P(X≤ x )=0.5
F(X) =1- e-0.2x = 0.50
x=3.47 seg
Relación entre la distribución exponencial y el proceso de Poisson
En el desarrollo de la distribución de Poisson, fijamos el tiempo en algún valor t,
y desarrollamos la distribución del número de ocurrencias en el intervalo [0, t].
Indicamos esta variable como X, y la distribución como
e-λ λ x
P(X = x) = , x = 0, 1, 2,...
x!
136
Consideremos ahora P(X=0), que es la probabilidad de ninguna ocurrencia en
[0, t]. Esta está dada por
P(X = 0) = e-λt
Recuerde que en principio fijamos el tiempo en t. Otra interpretación de
P(X = 0) = e-λt es que ésta es la probabilidad de que el tiempo para la primera
ocurrencia sea mayor que t. Al considerar este tiempo como una variable aleatoria
T, notamos que
P(X = 0) = P(T > t) = e-λt , t  0
Esta expresión determina la relación que existe entre la distribución de Poisson y la

exponencial.
Por consiguiente, si dejamos ahora que el tiempo varíe y consideramos la variable

aleatoria T como el tiempo para la ocurrencia, entonces
F(t) = P(T < t) =1- e-λt , t  0

Y, puesto que f(t)=F´(t), vemos que la densidad es
f(t) = λe-λt , t  0
que nos da la función de masa de probabilidad del tiempo requerido hasta que se
detecta la primer ocurrencia, ésta es la función de densidad exponencial. En
consecuencia, la relación entre la distribución exponencial y de Poisson puede
establecerse como sigue: si el número de ocurrencias tiene una distribución
Poisson, entonces el tiempo (longitud, área, etc.) entre ocurrencias tiene una
distribución exponencial. Por ejemplo, si el número de pedidos para un cierto
artículo recibidos a la semana tiene una distribución de Poisson, el tiempo entre
pedidos tendría una distribución exponencial. Una variable es discreta (el conteo) y
la otra (el tiempo) es continua.
Ejemplo 4.12. El tiempo entre llamadas telefónicas a una ferretería tiene una
distribución exponencial con tiempo promedio entre llamadas de 15 min.
a) ¿Cuál es la probabilidad de que no haya llamadas en un intervalo de 30 min?
b) ¿Cuál es la probabilidad de que haya al menos una llamada en un intervalo de
10 min?
c) ¿Cuál es la probabilidad de que el tiempo hasta la siguiente llamada esté entre
5 y 10 min?
d) Determine el intervalo de tiempo tal que la probabilidad de que no haya llamadas
en el intervalo sea 0.90.
Solución:
a) Sabemos que E(x)=1/λ=15, de donde λ=1/15. Entonces
P(X = 0) = P(T > 30) = e-(1/15)(30) = 0.1353
137
o por la función exponencial
P(T > 30) =1-P(T  30) =1- 1- e-(1/15)(30)  = 0.1353
 
b) P(X  1) =1-P(X = 0) =1- e-(1/15)(10) = 0.4866
c) P(5 < T <10) =P(T <10)-P(T < 5)
= 1- e-(1/15)(10)  - 1- e-(1/15)(5) 
   
= e-(1/15)(5) - e-(1/15)(10)
= 0.2031
d) P(X = 0) = P(T > t) = 0.90
e-(1/15)t = 0.90
1
- t = Ln(0.90)
15
t=1.58 min
4.9 Distribución gamma.

Las distribuciones gamma es una extensión de la distribución exponencial. La
distribución gamma implica una integral conocida como la función gamma.
DEFINICION
Para r>0, la función gamma está definida por Γ: [0, α[ →R tal que

Γ(r) =  tr-1e-t dt
0
PROPIEDADES:
1. Γ(r)=(r-1)Γ(r-1), r>1 (se demuestra por integración por partes).

2. Γ(r)=(r – 1)! r ε Z+.
3. Γ(1/2)=  .
La distribución gamma
DISTRIBUCION GAMMA
La variable aleatoria X cuya función de densidad de probabilidad es
λr xr-1e-λx
f(x) = , si x > 0
Γ(r)
tiene una distribución gamma con parámetros r>0 y λ>0.
138
Si X es una variable aleatoria cuya función de densidad de probabilidad gamma con
parámetro de forma r y de escala λ, se expresa como X~Γ(r, λ). Observe que cuando
r=1, la distribución gamma es igual a la exponencial. Con símbolos, Γ(1,
λ)=Exp(λ). La figura muestra gráficas de la función de densidad gamma para valores
de r y λ.
Algunas alternativas de la función de densidad gamma se muestran en el siguiente
gráfico. Siendo los parámetros de forma y escala r y λ, respectivamente. En general,
la forma de la distribución es:
 Si r≤1, jota invertida o en forma de L.

 Si r>1, tiene un pico en x=(r-1)/λ = x̂
TEOREMA.
Si X es una variable aleatoria gamma con parámetros r y λ, entonces la media y

la varianza de X son
E(X) = r/λ y V(X) = r/λ2
El modelo Gamma se ha utilizado frecuentemente en variables tales como:

Problemas de tráfico en líneas telefónicas; resistencia de componentes del concreto
reforzado; altura de la precipitación mensual; tiempo de falla de un sistema de r
componentes, cada uno falla con frecuencia λ; ingresos familiares, etc.
Probabilidades a partir de la distribución gamma

TEOREMA
En la distribución gamma, si el parámetro de forma es un número entero r>0,

entonces la distribución acumulada de probabilidad está dada por
e-λx (λx)k
x r r-1 -λt r-1
λt e
F(x) =  dt =1-  , x>0
Γ(r) k=0 k!
0
Ejemplo 4.13. En cierta ciudad, el consumo diario de agua (en millones de litros)
sigue una distribución gamma con parámetros r=2; λ=1/3. Si el consumo total diario
139
en esa ciudad es de 9 millones de litros; ¿cuál es la probabilidad de que en un día
cualquiera el abastecimiento de agua sea insuficiente?
Solución:
e-(1/3)(9) (1/3)(9)
1 k
F(9) = P(X < 9) =1-  =1- 0.1991= 0.8009.
k=0 k!
Solución alterna:
( 31 )2
1 9 - 31 x
9 - 1x
Γ(2) 0
9 0
P(x < 9) = xe 3
xe dx dx =
Resolvamos por integración por partes: ∫u dv=uv - ∫v du, haciendo u=x y dv=e-1/3 x,
- 1x
de donde du=dx y v= - e – 1/3 x. Así,  xe 3 dx = - 3xe- 1/3 x - ∫ (- 3 e – 1/3 x) dx
= - 3xe- 1/3 x – 9 e – 1/3 x
( 31 )2 9 - 1x 1 9 - 31 x
Γ(2) 0 9 0
Por lo tanto, P(x < 9) = xe 3 dx = xe dx
1 9
= -3xe-1/3 x - 9e-1/3 x 
9 0
=0.8009
Nota: Si r>0 y no es un entero positivo, solamente puede utilizarse la integral.
Si r=k/2 donde k es un entero positivo, a la distribución Γ(r, ½) se le llama

distribución Ji-cuadrada con k grados de libertad. La distribución Ji-cuadrada es
muy importante en la inferencia estadística. Se analizarán algunos de sus usos en
la parte de inferencia estadística. Obsérvese que r es múltiplo de ½.
Area bajo la curva normal tipificada

140
z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
141
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Unidad V: DISTRIBUCIONES DE PROBABILIDAD CONJUNTA

BIVARIADA DISCRETA Y DISTRIBUCIONES DE
142
MUESTREO
5.1 Distribuciones de probabilidad conjunta de variables

aleatorias discretas X y Y
Hasta aquí nuestro estudio de variables aleatorias y sus distribuciones de
probabilidad se ha restringido a espacios muestrales unidimensionales. Sin
embargo, habrá situaciones, donde podemos encontrar que es deseable registrar
los resultados simultáneos de dos o más variables aleatorias.
Sea X y Y dos variables aleatorias discretas, la distribución de probabilidad para
sus ocurrencias simultáneas se puede representar mediante una función con
valores f(x,y) para cualquier par de valores (x,y) dentro del rango de las variables
aleatorias X y Y. Se acostumbra referirse a esta función como la distribución de
probabilidad conjunta de X y Y.
De aquí, en el caso discreto,
f(x,y)=P(X=x, Y=y)
es decir, los valores f(x,y) dan la probabilidad de que ocurran los resultados x y y al
mismo tiempo.
Distribución de probabilidad conjunta bivariada discreta de X y Y

DEFINICION
Sea X y Y vad. La distribución de probabilidad bivariada para X y Y se denota

por f(x,y) si satisface
1. f(x,y)≥0
2.  f(x,y) =1
x y
3. f(x,y)=P(X=x, Y=y)
Distribución de probabilidad marginal

DEFINICION
Si X y Y son variables aleatorias discretas con función de masa de probabilidad

conjunta f(x,y), entonces las funciones de masa de probabilidad marginal de
X y Y son
fX (x) = P(X = x) =  f(x,y)

y
fY (y) = P(Y = y) =  f(x,y)

x
La función de masa de probabilidad de una sola de las variables se obtiene al

sumar f(x,y) sobre los valores de la otra variable. El resultado se llama función de
masa de probabilidad marginal porque cuando las f(x,y) aparecen en una tabla
rectangular, las sumas son los totales marginales (renglón o columna).
143
La marginal es la distribución de probabilidad de la variable en el contexto de la
conjunta.
Media y varianza
 
E(X) =  xfX (x) =  x   f(x,y)  =  xf(x,y)
 y  R
x x  
V(X) =  (x - μX ) fX (x) =  (x -μX )2  f(x,y)
2
x x y
=  (x -μX )2 f(x,y) =  (x -μX )2 f(x,y)

x y R
DEFINICION
Si la distribución de probabilidad marginal de X tiene la función de masa de

probabilidad fX(x), entonces
E(X) =  xfX (x) = xf(x,y) y

x R
V(X) = (x - μX ) 2
(x -μX )2 f(x,y)
fX (x) =
x R
Fórmula abreviada:
V(x) =  x 2fx (x) - μ2x =  x 2f(x,y) -μ2x

R
Donde R denota el conjunto de todos los puntos en el rango de (X, Y).
De manera semejante se encuentra E(Y) y V(Y).
Independencia entre variables

DEFINICION
Sean X y Y dos variables aleatorias discretas, con distribución de probabilidad

conjunta f(x,y) y distribuciones marginales fX(x) y fY(y), respectivamente. Se dice
que las variables aleatorias X y Y son estadísticamente independientes si y sólo
f(x,y)=fX(x).fY(y)
para toda (x,y) dentro de sus rangos.
Si no se satisface la ecuación precedente, entonces se dice que X y Y son

dependientes.
Ejemplo 5.1. Una caja contiene 14 piezas de las cuales 4 tienen defectos grandes,
3 con defectos pequeños y están buenas 7. Se seleccionan al azar 2 piezas de entre
144
14. Sea X el número de piezas con defectos grandes y Y el número de piezas con
defectos pequeños.
a) Calcular la dpc en forma de función utilizando combinatorios.
b) Calcular la dpc en forma tabular.
c) Calcular P(x+y≤1)
d) Calcular la marginal de X y Y.
e) Calcular µX y σ 2X .
f) ¿Son X y Y estadísticamente independientes?
Solución: 14 piezas: 4 defectos grandes, 3 defectos pequeños y 7 buenas. Se

seleccionan 2 piezas. Si X y Y número de piezas con defectos grandes y pequeños
respectivamente, entonces el número de piezas buenas es 2 – ( X + Y ).
h
a) f(x,y) = p(x,y) =
n
n =14 C2
h = 4 Cx .3 Cy .7 C2-(x+y)
h 4 Cx .3 Cy .7 C2-(x+y)
f(x,y) = p(x,y) =  ; x=0,1,2; y=0,1,2; 0≤x+y≤2
n C
14 2
b) f(0,0)=p(0,0)=4C0.3C0.7C2 / 14C2 =21/91

p(0,1)=21/91
p(0,2)=3/91
...
p(2,2)=0
y
x 0 1 2
0 21/91 21/91 3/91
1 28/91 12/91 0
2 6/91 0 0
c) P(x+y≤1)=f(0,0)+f(0,1)+f(1,0)=21/91+ 21/91+28/91=70/91
d) La marginal de x, fX(x)=P(X=x)=p(x) es el total marginal del renglón.
y
x 0 1 2
0 21/91 21/91 3/91 45/91
1 28/91 12/91 0 40/91
145
2 6/91 0 0 6/91
55/91 33/91 3/91 1
Así, fX(x) es
x 0 1 2
P(X=x) 45/91 40/91 6/91
Otra forma de encontrar los valores de f X(x) es a través de la definición de fX(x),

fX (x) = f(x,y)
y
fX(0)=∑f(0,y)=f(0,0)+f(0,1)+f(0,2)=21/91+21/91+3/91+0=45/91
fX(1)=∑f(1,y)=f(1,0)+f(1,1)+f(1,2)=28/91+12/91+0+0=40/91
fX(2)=∑f(2,y)=f(2,0)+f(2,1)+f(2,2)=6/91+0+0=6/91
La marginal de y, fY(y)=P(Y=y)=p(y) es el total marginal de la columna.
y 0 1 2
P(Y=y) 55/91 33/91 3/91
Los valores de fY(y) se pueden encontrar también por definición.
e) μX =  x fX (x) = (0)(45/91)+(1)(40/91)+(2)(6/91)=52/91 o por definición,
x
μX =  x f(x,y) = 0[f(0,0)+f(0,1)+f(0,2)] + 1[f(1,0)+f(1,1)+f(1,2)] + 2[f(2,0)+f(2,1)+f(2,2)]=52/91

R
En forma semejante se encuentra µY.
σ 2X =  x2 fX (x) - μ2X = (0)2(45/91)+(1)2(40/91)+(2)2(6/91) – (52/91)2=240/637 o por

x
definición, σ 2X   x2 f(x,y) -μ2x =
R
2
(0) [f(0,0)+f(0,1)+f(0,2)] + (1)2[f(1,0)+f(1,1)+f(1,2)] +
(2)2[f(2,0)+f(2,1)+f(2,2)]=0 + 40/91 + 24/91 – (52/91)2=240/637.
En forma semejante se encuentra σ 2Y .

f) X y Y son estadísticamente independientes si y sólo f(x,y)=fX(x).fY(y)
 (x,y)εR, es decir, la conjunta es igual al producto de las marginales.
f(0,0)=fX(0).fY(0)
21/91≠(45/91).(55/91)
Así, X y Y no son estadísticamente independientes, son pues dependientes.
5.2 Combinaciones lineales de variables aleatorias

Una variable aleatoria se define en ocasiones como una función de varias
variables aleatorias. Por ejemplo, si las variables aleatorias X1 y X2 denotan la
longitud y el ancho, respectivamente, de una pieza rectangular manufacturada,
146
entonces Y=2X1+2X2 es una variable aleatoria que representa el perímetro de la
pieza.
DEFINICION
Dadas las variables aleatorias X1, X2,…,Xn y las constantes a1, a2,…,an, entonces
Y = a1X1 +a2 X2 +...+an Xn
es una combinación lineal de X1, X2,…,Xn.
TEOREMA
Si X1, X2,...,Xn tienen valores medios μ1, μ2, ...,μn, y varianzas σ12, σ22,...,σn2,
respectivamente, entonces:
1. Si las Xi son o no independientes,

E(a1X1 +a2 X2 +...+an Xn ) = a1E(X1)+a2E(X2 )+...+anE(Xn ) = a1μ1 +a2μ2 +...+anμn
2. Si X1, X2,...,Xn son independientes,
V(a1X1 +a2 X2 +...+an Xn ) = a12 V(X1)+a22V(X2 )+...+an2V(Xn ) = a12σ12 +a22σ22 +...+an2σn2
y σa1X1+a2X2 +...+anXn = a12σ12 +a22σ22 +...+an2σn2
Ejemplo 5.2. En la figura se muestra un diagrama de una pieza en forma de anillo.

Suponga que todas las dimensiones son independientes.
a) Exprese W como una combinación lineal de Z y S.

b) Encuentre μW y σ 2W .
W: diámetro interior del anillo
Z: diámetro exterior del anillo
S: espesor
Solución:
a) W= Z - 2S
b) W=1.Z + (-2)S
μW=1.μZ + (-2).μS (media de una combinación lineal)
μW= μW - 2 μS
147
σ2W = (1)2.σ2Z + (-2)2.σS2 (varianza de una combinación lineal de VAI)
σ2W = σ2Z + 4σS2
TEOREMA
Si X =( X1+ X2+…+Xn)/n con E(Xi)=μ para i=1,2,…,n, entonces
E( X )=μ
Además, si X1, X2,...,Xn también son independientes con V(Xi)=σ2 para

i=1,2,…,n, entonces
V(X) = σ2 /n
TEOREMA. PROPIEDAD REPRODUCTIVA DE LA DISTRIBUCION NORMAL.
Si X1, X2,…,Xn son variables aleatorias normales e independientes con E(Xi)=μi
y V(Xi)=  i2 , para i=1,2,…,n, entonces
Y = a1X1 +a2 X2 +...+an Xn
es una variable aleatoria normal con
E(Y) = a1μ1 +a2μ2 +,...,anμn

y
V(Y) = a12σ12 +a22σ22 +...+an2σn2
Ejemplo 5.3.
a) Lanzamiento de una moneda. X: número de caras. Calcule μX y σ 2X .
x p(x) μX =∑x.p(x)=(0)(0.5)+(1)(0.5)=0.5
0 0.5 σ 2X =∑x2.p(x)- μ2X =(0)2(0.5)+(1)2(0.5)-(0.5)2=0.25=(1/4)/1
1 0.5
b) Lanzamiento de dos monedas. X: número de caras. Calcule μX y σ 2X .
x1 x2 p(x1, x2) x
148
0 0 0.25 0 Distribución de probabilidad de x :
0 1 0.25 0.5 x 0 0.5 1
1 0 0.25 0.5 p( x ) 0.25 0.50 0.25
1 1 0.25 1
μX =∑ x p( x )=(0)(0.25)+(0.5)(0.50+(1)(0.25)=0.5
σ 2X =∑ x 2p(x) - μX 2 =0.125=1/8= (1/4) / 2
c) Lanzamiento de tres monedas. X: número de caras. Calcule μX y σ 2X .
x1 x2 x3 p(x1, x2, x3) x Distribución de probabilidad de x :

0 0 0 0.125 0 0 0.33 0.67 1
x
0 0 1 0.125 1/3=0.33 p( x ) 0.125 0.375 0.375 0.125
0 1 0 0.125 1/3=0.33
0 1 1 0.125 2/3=0.67
μX =∑ x p( x )=(0)(0.125)+(0.33)(0.375)+
1 0 0 0.125 1/3=0.33
1 0 1 0.125 2/3=0.67 =(0.67)(0.375)+(1)(0.125)=0.5
1 1 0 0.125 2/3=0.67 σ X =∑ x 2p(x) - μX 2 =1/12= (1/4)/3
2
1 1 1 0.125 1
Estos ejemplos sugieren que para cualquier tamaño de muestra n:
μX =μ y σ 2X = σ2/n
¿Cómo se lee? ¿Cómo se interpreta?
Ejemplo 5.4. El diámetro exterior de un tubo cilíndrico es una variable aleatoria con
una media de 3 pulg y una DE de 0.02 pulg, el espesor del tubo es una variable
aleatoria con una media de 0.3 pulg y una DE de 0.005 pulg, y las dos variables
aleatorias son independientes normalmente distribuidas.
a) Encuentre la media y la DE del diámetro interior del tubo.

b) Calcular la probabilidad de que el diámetro interior sea por lo menos 2.39 pulg
μZ=3, σZ=0.02, μS=0.3, σS=0.005

a) W=Z – 2S
μW= μZ - 2 μS=3 – 2(0.3)=2.4 pulg
149
σ2W = σ2Z + (2)2 σS2 =(0.02)2 + 4(0.005)2=0.0005 pulg2; σW=0.022 pulg.
b) P(W≥2.39)=1 – P(W<2.39)
 W - 2.4 2.39 - 2.4 
=1 - P  < 
 0.022 0.022 
=1 - P  Z < -0.45 
=1 - ( - 0.45)
= 1 – 0.3264
=0.6736
Ejemplo 5.5. Se llenan latas de refresco con una máquina de llenado automático.
El volumen de llenado promedio es 12.1 onzas líquidas, y la desviación estándar es
0.05 onzas líquidas. Suponga que el volumen de llenado de las latas es una variable
aleatoria normal e independiente. ¿Cuál es la probabilidad de que el volumen
promedio de 10 latas seleccionadas de este proceso sea menor que 12 onzas
líquidas?
Sea X1, X2,...,X10 que denoten los volúmenes de llenado de las 10 latas. El volumen
de llenado promedio (denotado como X ) es una variable aleatoria normal con E( X
σ 2 (0.05)2
)=μX=12.1 y V(X) = X  = 0.00025 cm2 . Por consiguiente,
n 10
 X -12.1 12 -12.1 
P(X <12) = P  < 
 0.00025 0.00025 
= P(Z < -6.32) = 0
Como puede verse esto es inusual que el promedio de 10 latas sea menor que 12
onzas líquidas.
5.3 Distribuciones de muestreo

La inferencia estadística se refiere a la toma de decisiones acerca de una
población con base en la información contenida en una muestra. Por ejemplo, se
puede seleccionar una muestra de 50 ingresos familiares de todas las familias en
un vecindario. La tarea es describir la población tan exactamente como sea posible,
dados únicamente los datos de la muestra de dicha población. En otras palabras,
se desea decidir qué tan fielmente refleja la muestra las características de la
población de la cual proviene.
Las familias del vecindario tienen realmente un ingreso promedio, o media
(parámetro), aunque sea desconocido. Una muestra de familias tendría un ingreso
medio de muestra (estadístico) que, en realidad, se puede calcular después de
haber terminado el muestreo. ¿Serán iguales la media de la muestra y la de la
población? Es probable que no, aunque nunca no se podrá estar seguro. Se espera
que la media de la muestra se acerque a la de la población y, como se verá, si se
lleva a cabo el muestreo bien, en general se cumple esa esperanza. Así que el
análisis que sigue es sobre preguntas del tipo “¿Qué tan grande es probable que
sea la diferencia entre el promedio muestral y el de su población correspondiente?”.
El promedio muestral es sólo uno de los muchos estadísticos posibles que se
estudiarán.
150
Ejemplo 5.6. En el lanzamiento de un dado obtenemos 2, 5, 1, 3, 6,4, 4, 5, 2, 4, 1,
2. Estos números constituyen una muestra aleatoria ya que:
1. Son valores de variables aleatorias independientes.

2. Tienen la misma distribución de probabilidad p(x)=1/6, x=1,2,3,…,6
DEFINICION
Las variables aleatorias X1, X2,…,Xn son una muestra aleatoria de tamaño n si:
a) las Xi son variables aleatorias independientes, y

b) cada Xi tiene la misma distribución de probabilidad.
Interpretaciones:
 Las condiciones a) y b) nos dicen que las Xi son independientes y tienen
distribuciones idénticas.
 Si el muestreo es con reemplazo o de una población infinita (conceptual), las
condiciones a) y b) se satisfacen exactamente.
 Si el muestreo es sin reemplazo las condiciones se satisfacen aproximadamente,
pero con n « N. En la práctica, si n≤0.05N.
Por ejemplo, suponga que se está investigando la vida de servicio efectivo de un

componente electrónico y que la vida del componente está distribuida normalmente.
Se esperaría entonces que cada una de las observaciones de la vida del
componente X1, X2,…,Xn, en una muestra aleatoria de n componentes, sea una
variable aleatoria independiente con exactamente la misma distribución normal.
Después de recabar los datos, los valores numéricos de la vida útil observada se
denotan como x1, x2,..,xn.
El objetivo principal al tomar una muestra aleatoria es obtener información acerca
de los parámetros desconocidos de la población.
La selección al azar o aleatoria de una muestra se hace generalmente mediante
el uso de una tabla de números aleatoria, pero también se puede seleccionar
haciendo uso de una urna, lotería o cualquier otro artificio que genere números
aleatorios.
En la práctica es difícil lograr un muestreo aleatorio perfecto. Si la población no
es demasiado grande, podemos escribir cada uno de los N números en una ficha,
mezclar las fichas y seleccionar una muestra de n fichas. Los números en las fichas
especificarían las observaciones que forman parte de la muestra. Hay otras técnicas
disponibles cuando la población es grande.
La manera más simple y confiable de seleccionar una muestra aleatoria de n
elementos de una población grande consiste en utilizar una tabla de números
aleatorios. Las tablas de números aleatorios se construyen de modo que los enteros
aparezcan aleatoriamente y con la misma frecuencia. Por ejemplo, supongamos que
la población contiene N=1000 elementos. Numérense los elementos en secuencia,
151
de 0 a 999. Luego refiérase a una tabla de números aleatorios, tal como la porción
mostrada en la tabla siguiente
Parte de una tabla de

números aleatorios
___________________
15574 35026 98924
45045 36933 28630
03225 78812 50856
88292 26053 21121
___________________
Seleccionamos n de los números aleatorios en orden. Los elementos de la

población que quedarán incluidos en la muestra aleatoria están indicados por las
tres primeras cifras de los números aleatorios. Así, si n=5, incluiríamos los
elementos numerados 155, 450, 32, 882 y 350. Para no utilizar la misma secuencia
de números aleatorios una y otra vez, debemos seleccionar puntos iniciales distintos
en la tabla de números aleatorios para empezar la selección de números aleatorios
para muestras distintas.
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica
cuando la población que estamos manejando es muy grande.
Hoy en día, las computadoras pueden generar miles de números aleatorios en
una fracción de segundo, y virtualmente cada software estadístico contiene rutinas
que generan muestras aleatorias a partir de una amplia variedad de distribuciones.
Ejemplo 5.7. Un investigador quiere estudiar el nivel de lectura comprensiva de los

estudiantes de nuevo ingreso de una universidad. Hay 8675 estudiantes inscritos y
desea tomar una muestra de 100 para hacer una prueba de lectura comprensiva.
Obtiene una lista de todos los estudiantes, numerada del 1 al 8675. Usa un
generador de números aleatorios de la computadora que genera 100 enteros
aleatorios entre el total de números y después invita a los 100 estudiantes, a quienes
corresponden dichos números, a que participen en el estudio. ¿Esta es una muestra
aleatoria?
Solución:
Sí, ésta es una muestra aleatoria. Observe que es similar a una urna en la que cada
estudiante tiene una papeleta y se sacan 100 de éstas.
Ejemplo 5.8. Un ingeniero supervisor de la calidad quiere inspeccionar un producto

para obtener información acerca de él. Decide tomar una muestra de 50 productos
de la producción de un día. Cada hora durante cinco horas, toma los diez últimos
productos producidos y cuenta el número de desperfectos de cada uno. ¿Esta es
una muestra aleatoria?
Solución:
No. No todo subconjunto de 50 tiene la misma probabilidad de pertenecer a la
muestra. Para formar una muestra aleatoria, el ingeniero necesitaría asignar un
número a cada producto durante el día y después generar números aleatorios para
determinar con qué productos se forma la muestra.
152
Algunas personas piensan que una muestra aleatoria es garantía de que refleja
perfectamente a su población. Esto no es cierto. Las muestras aleatorias siempre
son diferentes de sus poblaciones en algunos aspectos y en ocasiones podrían ser
considerablemente diferentes. Dos muestras diferentes de la misma población
también serán diferentes entre sí. Este fenómeno se conoce como variación del
muestreo.
Ejemplo 5.9. Un inspector de calidad prueba 40 pernos de una gran remesa y mide
la longitud de cada uno. Descubre que 34 de ellos (85%) cubre la especificación de
longitud. Llega entonces a la conclusión de que exactamente 85% de los pernos de
la remesa satisfacen la especificación. Por otra parte, el supervisor del inspector
concluye que la proporción de pernos buenos está cerca de 85% con cierta
probabilidad, pero que no es exactamente igual. ¿Cuál es la conclusión correcta?
Solución:
Debido a la variación del muestreo, las muestras aleatorias no reflejan a la

población perfectamente. Sin embargo, con frecuencia están bastante cerca. Por
tanto, resulta adecuado inferir que la proporción de pernos buenos en la remesa
esté cerca de la proporción de muestra, que es de 85%, con cierta probabilidad. Sin
embargo, no es probable que la proporción de población sea igual a 85%.
En los ejemplos 5.8 y 5.9, las poblaciones constaban de elementos físicos reales:
estudiantes de una universidad y pernos de una remesa. Estas poblaciones se
denominan poblaciones tangibles, poblaciones que siempre son finitas. En
ingeniería es frecuente que los datos sean producto de mediciones realizadas
durante un experimento, más que por muestreo de una población tangible. Por
ejemplo, imagine un ingeniero mide la longitud de una varilla cinco veces, haciendo
las mediciones en condiciones idénticas, las mediciones difieren una de otra. Estos
datos se consideran como una muestra aleatoria de una población. En estos casos,
la población consta de todos los valores que posiblemente puedan haber sido
observados. Esta población se denomina población conceptual.
Por ejemplo, se quiere llegar a una conclusión acerca del promedio de la

población de El Salvador que prefiere una marca de bebida carbonatada particular.
Sea que μ denote el valor desconocido de este promedio. No es práctico preguntarle
a cada individuo de la población para determinar el valor real de μ. Para hacer una
inferencia respecto del promedio real μ, un procedimiento más razonable sería
seleccionar una muestra aleatoria (de un tamaño apropiado) y usar el promedio
observado x de las personas de esta muestra que prefieren la marca de bebida.
El promedio X es una función de los valores observados de una población, el
valor de x variará de una muestra a otra. Es decir, X es una variable aleatoria. A
esta variable aleatoria se le llama estadístico.
153
Un estadístico es cualquier función de las observaciones de una muestra
aleatoria.
Nos hemos encontrado ya con estadísticos. Por ejemplo, si X1, X2,…,Xn es una
muestra aleatoria de tamaño n, entonces la media muestral X , la varianza muestral
S2, y la desviación estándar S son estadísticos.
Puesto que un estadístico es una variable aleatoria, tiene una distribución de

muestreo.
A la distribución de probabilidad de un estadístico se le llama distribución de

muestreo.
A la distribución de probabilidad de X se le llama la distribución de muestreo

de la media.
La distribución de muestreo de un estadístico depende: de la distribución de la

población, del tamaño de la muestra y del método utilizado para seleccionar la
muestra.
Distribuciones de muestreo de medias
TEOREMA
Sea X1, X2, … ,Xn una muestra aleatoria de tamaño n de una distribución normal
con media µ y varianza σ2. Entonces
X =  x/n
Está distribuida normalmente con media μX = μ y varianza σ 2X = σ 2 /n , es decir,
X N(μ, σ2 /n) .
5.4 Teorema del límite central

En cada uno de los siguientes ejemplos se analizan cuatro gráficas que
presentan información de manera ligeramente distinta. La primera en cada caso
muestra la distribución de la población primigenia, la distribución de los valores
individuales x. Cada una de las otras tres gráficas muestra una distribución muestral
de las medias muestrales, usando tres diferentes tamaños de muestra.
Ejemplo 5.10.
154
1)
2)
3)
Las tres distribuciones de los ejemplos que no son normales parecen comprobar
el teorema del límite central; las distribuciones muestrales de las medias muestrales
asemejan comportarse aproximadamente de manera normal cuando se usan
muestras de tamaño 30. Así, se presencia un fenómeno asombroso: no importa cuál
sea la forma de una población, la distribución muestral de las medias muestrales es
normal o se vuelve aproximadamente cuando n se hace suficientemente grande.
TEOREMA. TEOREMA DEL LIMITE CENTRAL (TLC)

Sea X1, X2,…,Xn una muestra aleatoria de tamaño n de una población (sea finita
o infinita) con media μ y varianza σ2, y si X =( X1+ X2+…+Xn)/n es la media
muestral, entonces si n es suficientemente grande
 σ2 
X ~ N  μ, 
 n 
aproximadamente.
Aun cuando el teorema del límite central funcionará bien para muestras
pequeñas (n=4, 5) en la mayoría de los casos, en particular cuando la población es
continua, unimodal y simétrica.
El teorema del límite central establece que X se distribuye aproximadamente
normal, si el tamaño de la muestra n es suficientemente grande. La cuestión natural
155
por preguntar es: ¿Qué tan grande es suficientemente grande? La respuesta
depende de la forma de la población principal. No obstante, si la población está
demasiado sesgada, puede ser necesaria una n muy grande. La evidencia empírica
sugiere que para la mayoría de las poblaciones, un tamaño de muestra de 30 o más
(n≥30) es lo suficientemente grande para que la aproximación normal sea
adecuada. Si n<30, el teorema del límite central funcionará si la distribución de la
población no se aparte significativamente de la distribución normal.
Ejemplo 5.11. Cuando se prepara un lote de cierto producto químico, la cantidad

de una impureza en particular es una variable aleatoria con valor medio de 4.0 g y
desviación estándar de 1.5 g. Si se preparan 50 lotes de manera independiente,
¿cuál es la probabilidad de que la cantidad promedio en la muestra de impureza X
esté entre 3.5 g y 3.8 g?
 (1.5)2 
Por el teorema del límite central se tiene que X ~ N  4.0,  aproximadamente.
 50 
Por lo tanto,
 3.5 - 4.0 3.8 - 4.0 

P(3.5  X  3.8)  P  Z   P  -2.36  Z  -0.94  
 0.2121 0.2121 
P(-2.36  Z  -0.94) = (-0.94)- (-2.36) = 0.1736 - 0.0091= 0.1645
PARTE III: INFERENCIA ESTADISTICA
Unidad VI: ESTIMACION

156
Intoducción
La teoría de la inferencia estadística consiste en aquellos métodos a través de

los cuales se realizan inferencias acerca de una población.
La inferencia estadística se puede dividir en dos áreas: estimación y prueba de
hipótesis. La estimación se divide a su vez en: estimación de parámetros y
estimación por intervalo.
6.1 Conceptos generales de estimación puntual

Dado un parámetro de interés, como una media poblacional μ, el objetivo de la
estimación puntual es emplear una muestra para calcular el número que represente
mejor el verdadero valor del parámetro.
Por ejemplo, el jefe de un departamento de una universidad estaría haciendo
una estimación puntual si afirmará: “Nuestros datos actuales indican que en esta
materia tendremos 350 estudiantes el siguiente ciclo”
DEFINICION
Una estimación puntual de algún parámetro θ es un solo número θ que se

puede considerar como el valor más razonable de θ. La estimación puntual se
obtiene al seleccionar un estadístico apropiado y calcular su valor a partir de los
datos de la muestra dada.
Nota: el símbolo θ suele utilizarse para representar el estimador de θ o la

estimación puntual.
Ejemplo 6.1. Estimador media poblacional μ̂ = X y su estimación puntual x.
Propiedades de los estimadores

Dos son las propiedades deseables de un estimador:
1) θ sea insesgado para θ
2) θ tenga varianza mínima
1. Estimador insesgado para θ

DEFINICION
Se dice que un estimador θ es un estimador insesgado de θ si E( θ )=θ.
Ejemplo 6.2. X y S2 son estimadores insesgados de µ y σ2 respectivamente, ya

que E( X )=µ y E( S2 )=σ2.
157
Aunque S2 es un estimador insesgado de σ 2 , S, es por otro lado, un estimador
sesgado de σ siendo insignificante el sesgo en muestras grandes. Este ejemplo
ilustra por qué dividimos entre n-1 en lugar de n cuando se estima la varianza.
TEOREMA
Si X~Bin(n, p), entonces la proporción muestral P̂ = X/n es un estimador
insesgado de p.
ˆ =p .
Demostración: P̂ = X/n es estimador insesgado de p sí E(P)
ˆ = E  X  = E  1 .X   1 E(X) = 1 np = p
E(P)    
n n  n n
La distribución del estimador P̂ está centrada en el valor verdadero p.
PRINCIPIO DE ESTIMACION INSESGADA
Al elegir entre varios estimadores de θ, se elige uno insesgado.
PARAMETROS Y SUS ESTIMADORES

A continuación se proporciona un listado de parámetros con su respectivo estimador
puntual:
PARAMETRO ESTIMADOR PUNTUAL

θ θ
μ X
σ2 S2
X
p n
μ1 -μ2 X1 - X2
p1 - p2 X1 X2
-
n1 n2
DISTRIBUCION PARAMETRO ESTIMADOR PUNTUAL

θ 
158
X ~ N(μ, σ2 ) μ X
1
σ2 n
 (X - X)2
1
X ~ Exp(λ) λ X
X ~ Poisson(λ) λ X
1
X ~ Geo(p) p X
X2
r
X ~ Γ(r, λ)
1
n  X2 - X 2
X
λ 1
n  X2 - X2
Ejemplo 6.3. Se piensa que los defectos de un tablero metálico usado en la
manufactura de automóviles sigue una distribución de Poisson. Se cuentan los
defectos en 10 tableros con los siguientes resultados: x1=2, x2=7, x3=15, x4=8, x5=7,
x6=6, x7=3, x8=7, x9=3, x10=4. Encuentre una estimación puntual del parámetro de
Poisson λ.
Solución:
λˆ = x =
 x = 62 = 6.2 defectos
n 10
Para una población normal, μ = μ , por lo tanto hay dos opciones para estimar μ.
Entonces, ¿Cuál es el estimador que produce estimados más cercanos al parámetro
θ?
PRINCIPIO DE ESTIMACIÓN INSESGADA CON VARIANZA MINIMA (EIVM)

2. Estimadores con varianza mínima
Si consideramos todos los posibles estimadores insesgados de θ, el de menor
varianza se llama estimador insesgado con varianza mínima de θ.
TEOREMA
Sea X1, X2,…,Xn una muestra aleatoria de una distribución normal con parámetro
μ y σ. Entonces el estimador μ̂ = X es el EIVM para μ.
ERROR ESTANDAR
Además de reportar el valor de una estimación puntual, también debe indicarse su
precisión. La medida de precisión usual es el error estándar del estimador
empleado.
159
DEFINICION
El error estándar de un estimador θ es su desviación estándar σθˆ = V(θ)ˆ . Si
en el error estándar intervienen parámetros desconocidos, cuyos valores se
pueden estimar, la sustitución de estas estimaciones en  ˆ produce el error
estándar estimado (desviación estándar estimada) del estimador. El error
estándar estimado se puede representar ya sea por σˆ θˆ o por Sθ̂ .
Ejemplo 6.4. Se tienen 20 observaciones de voltajes

24.46 25.61 26.25 26.42 26.66 27.15 27.31 27.54 27.74 27.94
27.98 28.04 28.28 28.49 28.50 28.87 29.11 29.13 29.50 30.88
Si se supone que la distribución es normal, μ̂ = X es el mejor estimador de μ. Si se

sabe que σ=1.50, σ X = σ/ n =1.50/√20=0.335. Si se desconoce σ, se sustituye
σ̂ = s =1.462 en σ X para obtener el error estándar estimado σˆ X = sX =
s/√n=1.462/√20=0.327.
X
Ejemplo 6.5. El error estándar de Pˆ = es
n
1 1 np(1- p) p(1- p)
σPˆ = V(X/n) = V( X) 2 V(X) = 2
=
n n n n
6.3 Intervalos de confianza

Introducción
Supongamos que X1, X2,…,Xn es una muestra aleatoria de una población normal
con media desconocida y varianza conocida σ 2 . Se demostró que X es un
estimador para μ . Sin embargo, no esperamos que la media muestral X sea
exactamente igual a μ , sino más bien que “este cerca”. Una alternativa para reportar
un solo valor del parámetro que se está estimando es calcular e informar todo en un
intervalo de valores factibles, un intervalo de confianza (IC).
Intervalos de confianza
Una estimación por intervalo de un parámetro poblacional θ es un intervalo de la
forma l<θ<u, donde l y u dependen de θ . l y u se determinan con:
P(l< θ<u)=1 – α; 0<α<1.
160
TERMINOLOGIA:
 l< θ<u, IC, intervalo de confianza.

 l y u, límite de confianza inferior y superior respectivamente.
 1 – α, CC, coeficiente de confianza o grado de confianza. Mide la fiabilidad
en el intervalo.
 100(1 – α)%, NC, nivel de confianza.
6.4 Intervalo de confianza para μ.

Población normal. σ2 se conoce.
x - zα/2σ/ n < μ < x + zα/2σ/ n
Ejemplo 6.6. Se sabe que la vida en horas de una bombilla de 75 watts tiene una
distribución aproximadamente normal, con desviación estándar σ = 5 horas. Una
muestra aleatoria de 20 bombillas tiene una vida media de x =1014 horas.
Construya un intervalo de confianza de 95% para la vida media.
Solución:
La estimación puntual de μ es x =1014. El valor de z, que deja un área de 0.025 a
la derecha y por tanto un área de 0.975 a la izquierda, es z0.025  1.96. De aquí que
el intervalo de confianza de 95% es
 5   5 
1014 - (1.96)   < μ <1014 +(1.96)  .
 20   20 
que se reduce a 1011.8<μ<1016.2.
Este es el intervalo de confianza de valores razonables para la vida media de una

bombilla con una confianza de 95%.
NIVEL DE CONFIANZA, PRECISIÓN Y SELECCIÓN DEL TAMAÑO DE LA

MUESTRA
Cuanto más alto sea el grado de confianza o coeficiente de confianza 1-, el
intervalo resultante es más largo. Si consideramos que la longitud del intervalo
especifica su precisión, entonces el nivel de confianza del intervalo está
161
inversamente relacionado con su precisión. Una estimación del intervalo altamente
confiable puede ser imprecisa porque los puntos extremos del intervalo estén muy
separados, mientras que un intervalo preciso puede ocasionar relativamente poca
confiabilidad. Por lo tanto, la ganancia, en confiabilidad ocasiona una pérdida de
precisión. Un buen intervalo de confianza debe tener las siguientes dos
características:
1. Ser tan estrecho como sea posible

2. Tener un coeficiente de confianza grande
Una estrategia atractiva consiste en especificar el nivel de confianza y la longitud

del intervalo deseados y luego determinar el tamaño de la muestra necesario.
Ejemplo 6.7. En el ejemplo 6.6, ¿qué tamaño muestral es necesario para garantizar
que el IC de 95% resultante tenga una longitud w de 10? El tamaño muestral n debe
satisfacer
w=10
2z /2 (/n ) =10
2(1.96)(5/n)=10
n=4
La fórmula general para el tamaño muestral n necesario para asegurar una

σ
longitud w del intervalo se obtiene de w = 2zα/2 como
n
2
 σ
n =  2zα/2 
 w
Cuanto más pequeña sea la longitud w deseada, mayor debe ser n. Además, n
es una función creciente de σ y del nivel de confianza 100(1-α)%.
Si deseamos estimar μ con una precisión B (la cota específica del error de
estimación) con un nivel de confianza de 100(1-α)%, el tamaño necesario de la
muestra se calcula reemplazando 2/w por 1/B en la fórmula del cuadro precedente,
con lo que
2
 σ
n =  zα/2 
 B
162
Intervalo de confianza para µ.
Muestras grandes. σ2 se conoce.
Sea X1, X2,…,Xn una muestra aleatoria de una población con media μ y
desviación estándar σ. Siempre que n sea grande, el TLC implica que X tiene
aproximadamente una distribución normal, cualquiera que sea la naturaleza de la
distribución de la población, lo que produce el intervalo:
x - zα/2σ/ n <μ < x + zα/2σ/ n
con muestras grandes para μ con un nivel de confianza de aproximadamente 100(1-

α)%.
Intervalo de confianza para µ.

σ2 desconocida. n>40.
Si σ es desconocida, se sustituye s por σ y la nueva Z = (X - μ)/(S/ n) tiene

aproximadamente una distribución normal estándar, lo que produce un intervalo
general con muestras grandes para µ.
x ± zα/2 s/ n
En términos generales, n>40 será suficiente para justificar el uso de este intervalo.
Es algo más conservador que la sencilla regla para el TLC.
Para muestras pequeñas de poblaciones no normales no puede esperarse que el

nivel de confianza 1 – α sea exacto.
Intervalos de confianza unilaterales

DEFINICION
El intervalo de confianza superior del 100(1-α)% para μ es
μ < u = x + zασ/ n
El intervalo de confianza inferior del 100(1-α)% para μ es
x - zασ/ n = l < μ
Ejemplo 6.8. Se encuentra que la concentración promedio de zinc que se saca del
agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es 2.6
163
gramos por milímetro. Encuentre intervalos de confianza de 95% para la
concentración media de zinc en el río. Suponga que la desviación estándar de la
población es 0.3.
Solución:
La estimación puntual de μ es x = 2.6. El valor de z, que deja un área de 0.025 a la
derecha y por tanto un área de 0.975 a la izquierda, es z0.025 =1.96. De aquí que el
intervalo de confianza de 95% es
 0.3   0.3 
2.6 - (1.96)   < μ < 2.6 +(1.96)  .
 36   36 
que se reduce a 2.50<μ<2.70.
Ejemplo 6.9. En una muestra de 50 microperforadores, el tiempo de vida promedio

(número de huecos perforados antes de que falle) era de 12.68 con una DE de 6.83.
Calcule un IC inferior de 95% como uno superior de 99% para la media del tiempo
de vida de los microperforadores.
Solución:
6.83
x - zασ/ n =12.68 -1.645 * =11.091, o
50
μ>11.091, y
6.83
x + zασ/ n =12.68 + 2.33 * =14.931, o
50
μ<14.931.
6.5 Intervalos de confianza para la proporción de una población

Intervalo de Wald
Si p̂ es la proporción de éxitos en una muestra aleatoria de tamaño n, un IC

aproximado de (1-α)100% para el parámetro binomial p está dado por
pˆ ± zα/2 pq/n
ˆˆ
Teóricamente, este intervalo tiene, para valores grandes de n, un nivel de confianza

aproximado de (1-α)100%. A pesar de lo simple que resulta su cálculo y de su gran
difusión, muchos estudios han demostrado que este intervalo tiene un mal
desempeño (Agresti & Coull 1998, Brown et al. 2002, Newcombe & Merino 2006).
Newcombe & Merino (2006) muestran que si se sustituye p̂ por cero, se obtiene un
error estándar igual a cero y el intervalo se degenera, ya que los límites inferior y
superior son cero. De igual forma, cuando p̂ es uno, los límites superior e inferior
son 1. Aún más, cuando n-x es pequeño, el límite superior puede exceder de 1, en
164
cuyo caso los intervalos obtenidos no tienen sentido. Correa & Sierra (2003), entre
otros, señalan que los intervalos de Wald tienen una probabilidad de cobertura muy
por debajo del nivel de confianza nominal, en especial cuando el tamaño de muestra
es pequeño.
Este intervalo tiene la forma de un intervalo de confianza con muestra grande.

Durante decadas se ha recomendado este intervalo, mientras se justifique la
aproximación normal para P̂ .
Ejemplo 6.10. En una muestra aleatoria de 85 rodamientos para el cigüeñal del

motor de un automóvil, 10 tienen un acabado de la superficie con más asperezas
de las que permiten las especificaciones. Por lo tanto, una estimación puntual de la
proporción de rodamientos de la población que excede la especificación de
aspereza es p̂ = x n =10/85 = 0.12. Calcular un IC de dos colas de 95%.
Solución:
ˆ p)/n
ˆ (0.12)(0.88)
zα/2 p(1- =1.96 = 0.0691
85
El intervalo de confianza de 95% es, por lo tanto, 0.12±0.0691, ó (0.0509; 0.1891).
Determinación del tamaño de la muestra
En situaciones en que es posible seleccionar el tamaño de la muestra, n puede

escogerse para tener una confianza del 100(1-α) por ciento de que el error sea
menor que un valor especificado E. Si se hace E = zα/2 p(1- p)/n y se resuelve la
expresión para n, el tamaño de la muestra apropiado es
2
z 
n =  α/2  p(1- p) (a)
 E 
Para usar esta ecuación se necesita estimar p. Si se cuenta con una estimación p̂
de una muestra anterior, ésta puede sustituir a p en la ecuación, o tal vez pueda
hacerse una estimación subjetiva. Si estas alternativas no son satisfactorias, puede
tomarse una muestra preliminar, calcular p̂ y después usar la ecuación para
determinar cuántas observaciones adicionales se requieren para estimar p con la
precisión deseada. Otro enfoque para elegir n utiliza el hecho de que el tamaño de
la muestra de la ecuación siempre será un máximo para p=0.5, lo cual puede usarse
para encontrar una cota superior de n. En otras palabras, se tiene una confianza de
al menos 100(1-α) por ciento de que el error al estimar p utilizando p̂ es menor que
E si el tamaño de la muestra es
165
2
z 
n = 0.25  α/2  (b)
 E 
Ejemplo 6.11. Considérese la situación del ejemplo 6.10. ¿Qué tamaño de la

muestra se necesita si se quiere tener una confianza de 95% de que el error al usar
p̂ para estimar p es menor que 0.05? Al utilizar p̂ = 0.12 como estimación inicial de
p, por la ecuación (a) se encuentra que el tamaño de la muestra requerido es
2 2
z  ˆ ˆ =  1.96  (0.12)(0.88)  163
n =  ¨0.025  p(1- p)
 E   0.05 
Si se quiere tener una confianza de al menos 95% de que la estimación p̂ de la
verdadera proporción p estuvo dentro de 0.05 independientemente del valor de p,
entonces se usa la ecuación (b) para encontrar el tamaño de la muestra
2 2
z   1.96 
n =  0.025  (0.25) =   (0.25)  385
 E   0.05 
Intervalo de confianza de Agresti-Coull

x+2
Sea X~Bin(n,p). Se define n = n+ 4 y p = . Un intervalo de confianza para el
n
parámetro binomial p con un nivel de confianza de 100(1-α)% es
p ± zα/2 p(1- p)/n
Si el límite inferior es menor que 0, se reemplaza éste con 0. Si el superior es

mayor que 1, se reemplaza éste con 1.
Agresti & Coull (1998) recomendaron la implementación de este intervalo ajustado

de Wald en los cursos elementales de estadística debido a su sencillez ya que se
comporta mejor que el intervalo de Wald para los niveles usuales de confianza.
SUGERENCIA
Para tamaños muestrales muy grandes, los resultados del intervalo clásico de Wald
son casi idénticos a los obtenidos con el método de Wald Ajustado. Para tamaños
muestrales pequeños o medianamente grandes, el punto de vista del intervalo de
Wald Ajustado, llamado también de Agresti-Coull, es mejor.
Ejemplo 6.12. En cierto día se fabrica un gran número de fusibles cada uno tasado
a 15 A. Al extraer una muestra de 75 de la producción del día, se encontró que 17
de ellos tenían amperajes de quemado mayores que 15 A.
Determine un IC de 95% para la proporción de fusibles fabricados ese día, cuyo
amperaje de quemado es mayor que 15 A.
Solución:
166
Sumando 4 al número de ensayos y 2 al de éxitos, se tiene
x+2
p= = (17 + 2)/(75 + 4) =19/79 = 0.2405,
n+ 4
de donde,
(0.2405)(0.7595)
zα/2 p(1- p)/n =1.96 = 0.0942
79
El intervalo de confianza de 95% es, por lo tanto, 0.2405±0.0942, ó (0.1463; 0.3347).
Intervalos de confianza unilaterales
Los IC de un lado se pueden calcular también para proporciones.
Un nivel de 100(1-α)% de un límite inferior de confianza para p es
p - zα p(1- p)/n , y
un nivel de 100(1-α)% de un límite superior de confianza para p es
p + zα p(1- p)/n
Si el límite inferior es menor que 0, se reemplaza con 0. Si el superior es mayor

que 1, se reemplaza con 1.
Ejemplo 6.13. Co referencia al ejemplo anterior, encuentre un límite superior de

confianza de 98% para la proporción de fusibles con amperajes de quemados
mayores que 15 A.
Solución:
Dicho intervalo es de la forma
(0.2405)(0.7595)
p + zα p(1- p)/n = 0.2405 + 2.05 = 0.2405 + 0.0986 = 0.3391 ó
79
p<0.3391
Determinación del tamaño de la muestra

El siguiente ejemplo muestra cómo calcular el tamaño muestral necesario para un
intervalo de confianza que tenga un ancho específico cuando se conoce un valor
preliminar de p.
167
Ejemplo 6.14. Del ejemplo precedente, determine el tamaño muestral necesario
para que un intervalo de confianza de 95% especifique la proporción dentro de
±0.05.
Solución:
El IC más ancho posible, para una muestra de tamaño n, es
(0.2405)(0.7595)
±1.96
n+ 4
Al despejar n de
(0.2405)(0.7595)
1.96 = 0.05
n+ 4
se obtiene,
(0.2405)(0.7595)
(1.96)2 = (0.05)2
n+ 4
0.7017
= 0.0025
n+ 4
de donde, n≈277.
6.6 Intervalos de confianza para la media poblacional con

muestras pequeñas (σ desconocida).
X -μ
Si en el estadístico Z = la muestra es pequeña y la varianza σ2 es
σ/ n
desconocida, ¿Qué sucede con la distribución de Z si se reemplaza σ por s? Si la
muestra es pequeña (n<30) de una población normal o aproximadamente normal
X -μ
con media μ, surge el estadístico T = , que tiene una distribución t de
S/ n
Student:
Γ (ν +1)/2  t 2 
-(ν+1)/2
h(t) =  1+  , t R
Γ(ν/2) πν  ν
donde ν=n – 1, el número de grados de libertad (gl).
Propiedades de la distribución t de Student
Representemos con tν la curva de función de densidad para ν grados de libertad.
168
1. Cada curva tν tiene forma de campana con centro en 0.
2. Cada curva tν está más dispersa que la curva normal estándar (z).
3. A medida que ν aumenta, la dispersión de la curva tν correspondiente disminuye.
4. A medida que    , la secuencia de curvas tν se aproxima a la curva normal
estándar (por lo que la curva z recibe a veces el nombre de curva t con gl = ).
Intervalos de confianza al usar la distribución t de Student
Sea X1, X2,…,Xn una muestra aleatoria pequeña (n<30) de una población normal
con media μ. Entonces un intervalo de confianza de nivel 100(1-α)% para μ es
s
x ± tn-1, α/2
n
Ejemplo 6.15. En un estudio se ha determinado el pH de seis muestras de agua:

5.9, 5.0, 6.5, 5.6, 5.9 y 6.5. Suponiendo que éstas son muestras aleatorias de agua
de una población aproximadamente normal, encuentre un IC de 95% para la media
del pH.
Solución:
Aquí, x = 5.90; s = 0.57; y t5, 0.025 = 2.571 , entonces
0.57
t s = 2.571 = 0.60
n-1, α/2 6
n
El IC de 95% es, por lo tanto, 5.90±0.60, ó (5.30; 6.50).
Intervalos unilaterales de confianza

La distribución t de Student se puede utilizar para calcular intervalos de confianza
de un lado.
INTERVALOS DE CONFIANZA UNILATERALES
Sea x y s la media muestral y desviación estándar muestral, calculadas a partir

de los resultados de una muestra aleatoria de una población normal con media
μ. Entonces un límite superior de confianza de 100(1-α)% para μ es
s
x + tn-1, α
n
y un límite inferior de confianza de 100(1-α)% para μ es
s
x - tn-1, α
n
169
¿Cómo se determina si la distribución t de Student es adecuada?
En muchos casos se debe decidir si una población es aproximadamente normal
examinando la muestra. Desafortunadamente, si el tamaño de la muestra es
pequeño, desviaciones a la normalidad pueden ser difíciles de detectar. Una manera
es construir ya sea un gráfico de papel probabilidad, una gráfica cuantilar normal,
un diagrama de caja o uno de puntos. Si el gráfico o estos diagramas no revelan
una asimetría fuerte o algún dato atípico, entonces en la mayor parte de los casos
la distribución t de Student es confiable.
Ejemplo 6.16. Se presentan mediciones de la fuerza nominal de corte (en kN) para
una muestra de 15 vigas de concreto. Los resultados son
580 400 428 825 850 875 920 550
575 750 636 360 590 735 950
Se puede verificar que la población es aproximadamente normal con σ=180.0 kN.

Encuentre un LIC (límite inferior de confianza) de 99% para la media de la fuerza de
corte.
Solución:
Aquí, x = 668.3; s =192.1; y t14, 0.01 = 2.624 , entonces
192.1
t s = 2.624 =130.2
n-1, α 15
n
El LIC de 99% es, por lo tanto, 668.3-130.2=538.13 kN, ó μ>538.1 kN.
6.7 Intervalos de confianza para la diferencia entre dos medias
Si x1 y x 2 son las medias de las muestras aleatorias independientes de tamaños

n1 y n2 de poblaciones con varianzas conocidas σ12 y σ 22 , respectivamente,
entonces un intervalo de confianza del 100(1-α) por ciento para μ1 -μ2 es
σ12 σ 22
x1 - x2 ± zα/2 +
n1 n2
Cuando los valores de σ12 y σ 22 son desconocidos, se pueden sustituir con las
DE muestrales s1 y s2 , pero con n1>40 y n2>40.
Ejemplo 6.17. Se están comparando los puntos de fusión de dos aleaciones. Se

fusionaron 45 especímenes de la aleación 1. La temperatura promedio de fusión fue
de 517.0o F y la DE fue de 2.4oF. Se fusionaron 47 especímenes de la aleación 2.
La temperatura promedio fue de 510.1oF y la DE fue de 2.1oF. Determine un IC de
99% para la diferencia entre los puntos de fusión.
170
Solución:
Aquí, n1 = 45, x1 = 517.0o F y s1 = 2.4o F; y n2 = 47, x2 = 510.1o F y s2 = 2.1o F.
Además, z0.005 = 2.575. Entonces,
σ12 σ 22 2.42 2.12

zα/2 + = 2.575 + =1.21
n1 n2 45 47
El IC de 99% es, por lo tanto, (517.0-510.1)±1.21=6.90±1.21, ó (5.69; 8.11).
6.8 Intervalos de confianza para la diferencia entre dos

proporciones
Intervalo de confianza tradicional
Sea pˆ 1 y pˆ 2 las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2

, respectivamente, un IC aproximado de (1-α)100% para la diferencia de dos
parámetros binomiales p1 - p2 , está dado por
pˆ (1- pˆ 1) pˆ 2 (1- pˆ 2
(pˆ 1 - pˆ 2 ) ± zα/2 1 +
n1 n2
Este método no se puede utilizar a menos que ambas muestras contengan al

menos diez éxitos y diez fracasos.
Ejemplo 6.18. Se considera cierto cambio en un proceso de fabricación de partes

componentes. Se toman muestras del procedimiento actual y del nuevo, para
determinar si el nuevo tiene como resultado una mejoría. Si se encuentra que 75 de
1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del
procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90%
para la diferencia real en la fabricación de defectosos entre el proceso actualy el
nuevo.
Solución:
Sean p1 y p2 las proporciones reales de defectuosos para los procedimientos actual

y nuevo, respectivamente. De aquí, pˆ 1 = 75/1500 = 0.05 y pˆ 2 = 80/2000 = 0.04, y
z0.05 =1.645. Entonces,
pˆ 1(1- pˆ 1) pˆ 2 (1- pˆ 2 ) (0.05)(0.95) (0.04)(0.96)

zα/2 + =1.645 + = 0.0117.
n1 n2 1500 2000
El IC de 90% es, por lo tanto, (0.05-0.04)±0.0117=0.01±0.0117, ó (-0.0017; 0.0217).

INTERVALO DE CONFIANZA DE AGRESTI-CAFFO
171
El IC es similar al que se tomo para el intervalo de confianza de una muestra. El
intervalo de confianza dado a continuación suele ser llamado intervalo de Agresti-
Caffo, después que lo desarrollaron Alan Agresti y Brian Caffo.
Si X1 ~ Bin(n1,p1) y X2 ~ Bin(n2,p2 ). Se define n1 = n1 + 2, n2 = n2 + 2, p1 = (x1 +1)/n1

y p2 = (x2 +1)/n2. Entonces, un IC para la diferencia de los parámetros binomiales
p1 - p2 en un nivel de confianza de 100(1-α)% es
p1(1- p1 ) p2 (1- p2 )
(p1 - p2 ) ± zα/2 +
n1 n2
Si el límite inferior del IC es menor que -1, sustituya éste con -1. Si el límite
superior del IC es mayor que 1, sustituya éste con 1.
Ejemplo 6.19. En una prueba del efecto de la humedad en conexiones eléctricas,

se probaron 100 conexiones eléctricas bajo condiciones húmedas y 150 bajo
condiciones secas. Veinte de las primeras fallaron y sólo diez de las segundas no
pasaron la prueba. Determine un intervalo de confianza de 90% para la diferencia
entre las proporciones de las conexiones que fallaron, húmedas y secas.
Solución:
Sea X1 la va del número de conexiones bajo condiciones húmedas y X 2 la va del
número de conexiones bajo condiciones secas.
Aquí, n1 = n1 + 2 =100 + 2 =102, p1 = (x1 +1)/n1 = (20 +1)/102 = 0.2059; y
n2 = n2 + 2 =150 + 2 =152, p2 = (x2 +1)/n2 = (10 +1)/152 =.0724; y además
z0.05 =1.645.
Entonces,
p (1- p1) p2 (1- p2 ) (.2059)(.7941) (.0724)(.9276)
zα/2 1 + =1.645 + = 0.0744
n1 n2 102 152
El IC de 90% es, por lo tanto, (0.2059-0.0724) ± 0.0744=0.1335±0.0744, ó (0.0591;
0.2079).
Para tamaños muestrales pequeños, el intervalo de confianza tradicional falla para

lograr que contenga la probabilidad; en otras palabras, el intervalo de confianza de
nivel 100(1-α)% calculado por el método tradicional contiene el valor verdadero
menos del 100(1-α)% de las veces.
6.9 Intervalos de confianza para la varianza y el cociente de dos

varianzas
Distribución Ji-cuadrada
Si en la distribución Gamma hacemos r=k/2 donde k es un entero positivo, a la
distribución Γ(r, ½) se le llama distribución Ji-cuadrada con k grados de libertad.
El estadístico S2 tiene poca aplicación, en su defecto se utiliza el estadístico:
172
χ2=(n-1)S2/σ2 que tiene una distribución ji-cuadrada con ν= n – 1 grados de
libertad, siempre que la muestra se tome de una distribución normal.
1
f(x) = ν/2
x ν/2 - 1.e-x/2 , x > 0 Distribución Ji-cuadrada
2 Γ(ν/2)
Nota: por simplicidad escribimos Xα, v por X2α, v
Intervalo de confianza para la varianza

Un intervalo de confianza de 100(1- α)% para la varianza σ2 de una población
normal es
(n -1)s2 (n -1)s2
< < 2
2
χ 2α/2, n-1 χ 1- α/2, n-1
Ejemplo 6.20. Muestra tomada de una población normal.
9.85 5.87 11.29 10.61 9.60

12.56 11.99 7.75 5.89 10.15
¿Calcule un IC de 90% para σ?
Solución:
(n -1)s2 2 (n -1)s2
< σ <
χ 2α/2, ν 2
χ1-α/2, ν
s=2.35; 1-α=0.90, α=0.10, α/2=0.05, χ2α/2, ν = χ0.05,

2
9 =16.919;
2 2
χ1-α/2, ν = χ0.95, 9 = 3.325.
(9)(2.35)2 (9)(2.35)2
<σ <
2
16.919 3.325
2.936<2<14.941
y
1.714<<3.865
173
Distribución muestral de F
La distribución F de probabilidad tiene dos parámetros, representados por ν1 y ν2. El
parámetro ν1 se llama número de grados de libertad del numerador, y ν2 es el
número de grados de libertad del denominador; aquí, ν1 y ν2 son enteros positivos.
Hay una relación importante entre una variable F y las variables ji-cuadradas. Si X1
y X2 son variables aleatorias ji-cuadradas independientes con ν1 y ν2 grados de
libertad, respectivamente, entonces se puede demostrar que la variable aleatoria
X1/ν1
F=
X2 /ν 2
el cociente entre las dos variables ji-cuadrada, divididas entre sus respectivos
grados de libertad, tiene una distribución F:
Γ (ν1 + ν 2 )/2 (ν1 + ν 2 )ν1/2 f (ν1/2)-1

h(f) = , f > 0 ; Distribución F de Snedecor o de
Γ(ν1/2)Γ(ν 2 /2) (1+ ν1f/ν 2 )(ν1+ν2 )/2
Fisher-Snedecor
Intervalo de confianza para el cociente de dos varianzas poblacionales
Si s12 y s22 son las varianzas de muestras independientes de tamaño n1 y n2,

respectivamente, de poblaciones normales, entonces un intervalo de confianza
de 100(1- α)% para σ12 /σ 22 es
s12 1 σ12 s12

< < f
s22 fα/2, ν1, ν 2 σ 22 s22 α/2, ν 2 , ν1
donde ν1=n1-1 y ν2=n2-1.
Ejemplo 6.21. Una muestra aleatoria de n1=16 observaciones de resistencias a la

ruptura de un tipo de vidrio produjeron s12 =3.68 (las mediciones están en libras por
174
pulgadas cuadrada). Una muestra aleatoria de n2=10 mediciones en una segunda
máquina, pero del mismo tipo de vidrio, dio s22=2.31. Estimar la relación verdadera
de las varianzas σ12 /σ 22 , en un intervalo de confianza de 90%. Suponer normalidad
para ambas poblaciones.
Solución:
s12 1 σ12 s12
< < f
s22 fα/2, ν1, ν 2 σ 22 s22 α/2, ν 2 , ν1
1-α=0.90, α=0.10, α/2=0.05, f α/2, ν1, ν2 = f 0.05,15, 9 = 3.01, f α/2, ν2, ν1 = f 0.05, 9,15 = 2.59,
3.68  1  σ12 3.68

 < <  2.59 
2.31  3.01  σ 22 2.31
0.529< σ12 /σ 22 <4.126
175
Unidad VII: PRUEBA DE HIPOTESIS
Introducción
Podemos estimar un parámetro de manera puntual o a través de un intervalo de
confianza. A veces el objetivo no es estimar un parámetro sino determinar cuál de
dos hipótesis contradictorias del parámetro es la correcta. Esto se logra con las
pruebas de hipótesis.
7.1 Hipótesis y procedimientos de prueba

DEFINICION
Una hipótesis estadística, es una expresión que representa el valor de una

sola característica o los valores de varias características de la población.
Ejemplos 7.1.
1. La expresión μ=0.75, donde μ es el promedio verdadero del diámetro interior de
cierto tipo de tubo de PVC.
2. El enunciado p<0.10, donde p es la proporción de tarjetas defectuosas de un
circuito, entre todas las fabricadas por un fabricante.
3. Si μ1 y μ2 representan el verdadero promedio de resistencia a la ruptura de dos
tipos de cuerdas, una hipótesis es la afirmación μ1-μ2=0 ó μ1 = μ2.
En cualquier problema de prueba de hipótesis hay dos hipótesis contradictorias.

Una podría ser por ejemplo, μ=0.75 y otra μ≠0.75. El objetivo es determinar con
base en la muestra, cuál de las dos es la correcta.
DEFINICION
La hipótesis nula, representada por Ho, es la afirmación sobre una o más

características poblacionales que al inicio se supone cierta. La hipótesis
alternativa, Ha, es la afirmación contradictoria a Ho.
Ejemplo 7.2. El diámetro interior de una tubería de PVC es diferente de ¾ pulg.

Ho: µ=3/4 pulg
Ha: µ≠3/4 pulg
La hipótesis nula se rechaza a favor de la hipótesis alterna, solo si la
evidencia muestral sugiere que Ho es falsa. Las dos posibles conclusiones de un
análisis de prueba de hipótesis son rechazar Ho o no rechazar Ho.
DEFINICION
Una prueba de hipótesis estadística es un método que emplea datos de una
muestra para decidir si se debe rechazar Ho.
176
El razonamiento usado en una prueba de hipótesis estadística es similar al
proceso en un juicio. Al procesar a una persona por robo, el jurado debe decidir
entre la inocencia y la culpabilidad. Cuando empieza el juicio, se considera que la
persona acusada es inocente. La parte acusadora reúne y presenta toda la
evidencia disponible en un esfuerzo por contradecir la hipótesis de inocencia, el
jurado rechazará la hipótesis de inocencia y declarará al demandado culpable. Si la
fiscalía no presenta suficientes pruebas para demostar que el demandado es
culpable, el jurado lo declarará no culpable. Observe que esto no demuestra que el
demandado es inocente, sino sólo que no hubo evidencia suficiente para concluir
que el demandado era culpable.
Ejemplo 7.3. En el ejemplo del tubo de PVC, podríamos probar Ho: μ=0.75, contra
la alternativa Ha: μ≠0.75. Si los datos de la muestra indican que μ≠0.75, se debe
rechazar Ho.
La alternativa a Ha, puede presentarse en una de las tres formas:
Ha: θ> θo, Ha: θ< θo ó Ha: θ≠ θo
Ejemplo 7.4. Sea μ el tiempo medio de secado de una pintura. Se decide utilizarla
si μ<75 min. La hipótesis pertinente sería Ho: μ=75 min. contra Ha: μ<75 min.
El valor del parámetro poblacional especificado en la hipótesis nula se determina
por lo general en una de tres formas. Primera, puede ser el resultado de la
experiencia pasada, del conocimiento del proceso o, incluso, de pruebas o
experimentos anteriores. Así, el objetivo de la prueba de hipótesis suele ser
determinar si el valor del parámetro ha sufrido cambios. Segunda, este valor puede
determinarse a partir de una teoría o modelo del proceso bajo estudio. En este caso,
el objetivo de la prueba de hipótesis es verificar la teoría o el modelo. Una tercera
situación surge cuando el valor del parámetro poblacional es resultado de
consideraciones externas, como especificaciones de diseño o de ingeniería, o de
obligaciones contractuales. En este caso, por lo general el objetivo de la prueba de
hipótesis es una prueba de conformidad.
PROCEDIMIENTO DE PRUEBA
Un procedimiento de prueba se especifica por un estadístico de prueba, que es
una función de los datos muestrales en los cuales se basa la decisión, y una región
de rechazo, el conjunto de todos los valores del estadístico de prueba para los
cuales Ho será rechazada. La hipótesis nula se rechaza si y sólo si el valor calculado
del estadístico se ubica en la región de rechazo.
ERRORES EN PRUEBA DE HIPÓTESIS

Es posible que Ho pueda rechazarse cuando sea verdadera o que Ho pueda no ser
rechazada cuando sea falsa.
DEFINICION
Un error tipo I consiste en rechazar la hipótesis Ho cuando en realidad es
verdadera.
Un error tipo II implica no rechazar Ho cuando en realidad es falsa.
DECISION Y ERROR
177
Rechazar a Ho No rechazar Ho
Ho cierta Error de tipo I Decisión correcta
Ho falsa Decisión correcta Error tipo II
Ejemplo 7.5. El diámetro interior de una tubería de PVC es diferente de ¾ pulg.
Ho: µ=3/4 pulg
Ha: µ≠3/4 pulg
Error tipo I: el diámetro interior de una tubería de PVC es diferente a ¾ pulg, cuando
de hecho es igual a ¾ pulg.
Error tipo II: el diámetro interior de una tubería de PVC es igual a ¾ pulg, cuando de
hecho es diferente a ¾ pulg.
No es posible un procedimiento de prueba para el cual no ocurra algún tipo de error
probablemente. Buen procedimiento es aquel en el que la probabilidad de cometer
algún tipo de error es pequeña. La probabilidad de cometer un error tipo I y II se
denota por α y β respectivamente. Para controlar esos errores, a cada uno de ellos
se le asigna una pequeña probabilidad. La probabilidad asignada a cada error
depende de la gravedad de ellos. 0.001 muy grave, 0.01 y 0.05 algo grave (los de
mayor uso), 0.1 grave y mayores que 0.1 no grave en absoluto.
Ejemplo 7.6. Un fabricante de fibras textiles está investigando una nueva fibra para
tapicería, la cual tiene una elongación media por hilo de 12 kg con una DE de 0.5
kg. La compañía desea probar Ho: μ=12 contra Ha: μ<12, usando n=16 suponiendo
normalidad.
a) ¿Cuál es la probabilidad del error tipo I si la región crítica es X <11.6 kg?
b) Encuentre β para el caso donde la verdadera elongación promedio es de 11.1
kg.
Solución:
a) α=(Error tipo I)
=P(Rechazar Ho | Ho es verdadera)
=P( X <11.6 | µ=12)
x -12 11.6 -12
= P( < )
0.5/ 16 0.5/ 16
=P(Z<-3.2)
=0.0007
=0.001
¿gravedad?
b) β(11.5)=P(Error tipo II)

=P(No rechazar Ho | Ho es falsa)
=P( X ≥11.6 | µ=11.5)
178
x -11.5 11.6 -11.5
= P(  )
0.5/ 16 0.5/ 16
=P(Z≥0.8)
=1 – P(Z<0.8)
=1 – 0.7881
=0.2119 ¿gravedad?
Hay una interrelación entre la probabilidad del error tipo I, la probabilidad del error
tipo II y el tamaño de la muestra n. Si cualquiera de estos tres se incrementa o
disminuye, uno o dos de ellos se ven afectados. Al analizar el ejemplo 7.6 se
obtienen los siguientes resultados.
RESUMEN
 Al aumentar la región de rechazo α aumenta y β disminuye.

 Al reducirse la región de rechazo α disminuye y β aumenta.
 β aumenta conforme el parámetro verdadero se aproxima al valor hipotético.
 Al aumentar n se reduce α y β siempre que el VC no cambie.
 Al disminuir n se aumenta α y β siempre que el VC no cambie.
Un error tipo I es por lo general más serio que uno de tipo II. El método que siguen
los expertos consiste en especificar el máximo valor de α tolerable y encontrar una
región de rechazo que incluya ese valor de α en lugar de cualquier otro menor. Esto
hace que β sea tan pequeña como sea posible, sujeta al límite α. El valor de α se
conoce con el nombre de nivel de significancia de la prueba. Los niveles
tradicionales de significancia son 0.10, 0.05 y 0.01. El correspondiente
procedimiento de prueba se llama prueba de nivel α.
179
Ejemplo 7.7. Representamos por µ el verdadero promedio de vida actual en una
ciudad. Consideremos probar Ho: µ=70 años contra Ha: µ>70 años. Una muestra
de tamaño 100 muertes el año pasado mostró un promedio de vida de 71.8 años,
con una desviación estándar de 8.9 años. Si la probabilidad de cometer un error
tipo I se especifica como 0.05, ¿cuál es la probabilidad de cometer un error tipo II
para el caso en que la media verdadera sea 72 años?
Solución:
Para probar Ho: μ=70, contra Ha: μ=72, se rechaza Ho si
z>zα
z>z0.05
z>1.645
x - μ0
z= >1.645
σ/ n
o bien, si
 σ 
x > μ0 +1.645  
 n
 8.9 
= 70 +1.645   = 71.464 = c
 100 
de donde x >71.464 es la región de rechazo.
La figura muestra esta región de rechazo, donde μ´ es otro valor particular de μ que
excede del valor nulo μo. Así, por definición, β = P(X  71.464 cuando μ´= 72) es el
área sombreada bajo la curva a la izquierda de c=71.464. Por consiguiente, si
μ´=72,
 71.464 - 72 
β = P Z   = P(Z  -0.61) = 0.2743.
 8.9/ 100 
180
7.2 Proceso de prueba para la media
Procedimiento de prueba de hipótesis: enfoque clásico
1. Identificar el parámetro de interés.
2. Establecer la hipótesis nula Ho.
3. Especificar una apropiada hipótesis alternativa, Ha.
4. Establecer el nivel de significancia.
5. Establecer un estadístico de prueba apropiado sustituyendo el valor
nulo y valores de parámetros, pero no las de cualesquier cantidad
basada en la muestra.
6. Establecer la región de rechazo para α.
7. Calcular todas las cantidades muestrales necesarias, sustituirlas en la
ecuación para el estadístico de prueba, y calcular el valor
correspondiente.
8. Decidir si Ho debe ser rechazada y establecer esta conclusión en el
contexto del problema.
Caso I: Una población normal con σ conocida

Ejemplo 7.8. Probar Ho: µ=95 contra Ha: µ≠95; σ=1.20, n=16, x =94.32, α=0.01.
Población normal.
Solución:
1. µ, promedio verdadero.
2. Ho: µ=95
3. Ha: μ≠95
4. α=0.01
5. z = x-95  z = x-μ0 
1.20/ n  σ/ n 
6. Región de rechazo: z≤-2.575 ó z≥2.575; zα/2=z0.01 / 2=z0.005=2.575
7. z = 94.32-95 = -2.27
1.20/ 16
8. Decisión: El valor calculado de z= - 2.27 no cae en la región de rechazo, por lo

que Ho no se rechaza al nivel 0.01. Conclusión: El verdadero promedio no difiere
del valor 95 al nivel 0.01.
181
Determinación de β y del tamaño muestral
Considérese primero la prueba de cola superior con región de rechazo z≥zα. Esto
σ σ
equivale a x  μo + zα , por lo que Ho no será rechazada si x < μo + zα .
n n
Representemos con μ´ un valor particular de μ que exceda el valor Ho. Entonces
β(μ´)=P(Ho no será rechazada cuando μ=μ´)
σ
= P(X < μo + zα cuando μ = μ´)
n
 X -μ μ -μ 
= P < zα + o cuando μ = μ´ 
 σ/ n σ/ n 
 μ -μ´ 
β(μ´) = Φ  zα + o 
 σ/ n 
Las probabilidades de error para las pruebas de cola inferior y dos colas se
deducen de una manera similar.
A continuación se demuestra que es posible seleccionar un tamaño de muestra que

garantice una α y β especificada, siempre que μo y μ´ también se especifiquen.
Para comparar Ho: μ=μo contra Ha: μ=μ´, donde μ´>μo, se ha visto que se rechaza
 σ   σ 
Ho cuando x  c, donde c = μo + zα   . Pero es claro que c = μ´-zβ  .
 n  n
Así es que
 σ   σ 
c = μo + zα   = c = μ´-zβ  
 n  n
 σ 
z α + zβ    = μ´-μo
 n
o sea,
n
z
  z  
´ o
de donde,
2
 σ(zα + zβ ) 
n= 
 μo - μ´ 
Un argumento paralelo produce el tamaño muestral necesario para pruebas de
cola inferior y de dos colas, como se resume a continuación.
182
Hipótesis Probabilidad β(μ´) del error tipo II
alternativa para una prueba de nivel α
 o  ´ 
Ha: μ>μo  ( ´)    z  
 / n
   ´ 
Ha: μ<μo 1     z  o 
 / n 
   ´   o  ´ 
Ha:μ≠μo   z / 2  o      z / 2  
 / n   / n 
El tamaño muestral n, para el cual una prueba de nivel α también tiene

β(μ´)=β en el valor alternativo μ´, es

 zα + zβ  
2
 σ para una prueba de una cola (superior o inferior)
 μo - μ´ 


n=

 zα/2 + zβ  
2
 σ
 para una prueba de dos colas (solución aproximada)
  μo - μ´ 
Ejemplo 7.9. Consideremos probar Ho: µ=70 contra Ha: µ>70. Una muestra de
tamaño 100 mostró un promedio de 71.8, con una DE de 8.9.
a) Si se utiliza una prueba de nivel 0.05, ¿Cuál es β(72)?
b) ¿Qué tamaño muestral n es necesario si β(74.5)=0.001?
Solución:
 μ -μ´ 
a) β(μ´) = Φ  zα + o 
 σ/ n 
 70 - 72 
β(72) = Φ  1.645 +  = Φ(-0.6) = 0.2743 ; zα=z0.05=1.645
 8.9/ 100 
2
 σ(zα + zβ ) 
b) n =  
 μo - μ´ 
2
 8.9(1.645 + 3.08) 
n=
 70 - 72   243 ; zβ=3.08
Caso II: Pruebas con muestras grandes n>40 y σ desconocida.
183
Ejemplo 7.10. Consideremos probar Ho: µ=58 contra Ha: µ>58. Una muestra de
tamaño 100 mostró un promedio de 58.5, con una DE de 3.2. Use un nivel de
significancia 0.05.
Solución:
1. μ, promedio verdadero
2. Ho: μ=58
3. Ha: μ>58
4. Nivel de significancia α=0.05.
__
-58
5. z = x
s/ n
6. Región de rechazo: z≥1.645
7. z = 58.5-58 =1.56
3.2/ 100
8. Decisión: Como z=1.56 no cae en la región de rechazo, entonces Ho no se

rechaza al nivel 0.05. Conclusión: El promedio verdadero no es mayor que 58 al
nivel 0.05.
La determinación de β y el tamaño necesario para estas pruebas con muestras

grandes pueden fundamentarse, ya sea especificando un valor razonable de σ y
usando las fórmulas del caso I (aún cuando s se utilice en la prueba).
Caso III: Una población con distribución normal n<30 y σ desconocida.
Ejemplo 7.11. Consideremos probar Ho: µ=3.50 contra Ha: µ>3.50. Una muestra
de tamaño 8 mostró un promedio de 3.72, con una DE de 1.25. Use un nivel de
significancia de 0.05. Se supone la población normal.
Solución:
1. μ, promedio verdadero.
2. Ho: μ=3.50
3. Ha: μ>3.50
4. α= 0.05
184
x - 3.50
5. t =
s/ n
6. Región de rechazo: t>1.895, tα, n - 1 =t0.05, 7=1.895
3.72 - 3.50
7. t = = 0.489
1.25/ 8
8. Decisión: Como t=0.498 no cae en la región de rechazo, entonces Ho no se
rechaza al nivel 0.05. Conclusión: El promedio verdadero no es mayor que 3.50 al
nivel 0.05.
La mayor parte de los programas de cómputo más empleados también

calculan las probabilidades de error tipo II y determinan tamaños necesarios de
muestra. Estos cálculos se basan en la potencia de una prueba estadística.
La potencia de una prueba estadística es la probabilidad de rechazar la hipótesis
nula Ho cuando la hipótesis alternativa es verdadera. El valor de la potencia es 1-β,
y la potencia puede interpretarse como la probabilidad de rechazar de manera
correcta una hipótesis nula falsa. Por ejemplo, considérese el ejemplo 7.4 cuando
se prueba Ho: μ=75 min contra Ha: μ<75 min. Supóngase que el valor verdadero de
la media es μ=72. Cuando n=25, se tiene que β=0.7486, de modo que la potencia
de esta es 1-β=0.7486=0.2514 cuando μ=52.
La potencia es una medida muy descriptiva y concisa de la sensibilidad de una
prueba estadística, donde por sensibilidad se entiende la capacidad de una prueba
para detectar diferencias. En este caso, la sensibilidad de la prueba para detectar
la diferencia entre un tiempo de secado de 75 min y otro de 72 min, es 0.2514. Esto
es, si el valor verdadero de la media es en realidad 72 min, esta prueba rechazará
de manera correcta Ho: μ=75 min y “detectará” esta diferencia el 25.1% de las
veces. Si se piensa que el valor de esta potencia es bajo, entonces se puede
aumentar α o el tamaño de la muestra n.
Relación entre estimación por intervalo y prueba de hipótesis

METODO DEL INTERVALO DE CONFIANZA PARA PROBAR UNA HIPÓTESIS DE LA FORMA
Ho: µ=µo
Ha: µ≠ µo
1. Seleccionar de la población una muestra aleatoria simple y emplear el valor de
la media muestral x para obtener un intervalo de confianza para la media
poblacional µ.
σ
x ± zα/2
n
2. Si el intervalo de confianza contiene el valor hipotético µ o, no se rechaza Ho. Si
no es así, se rechaza Ho.
Preste atención a que este análisis y ejemplo pertenecen a pruebas de hipótesis de

dos colas para la media poblacional. Sin embargo la misma relación entre intervalo
de confianza y prueba de hipótesis de dos colas existe para otros parámetros
poblacionales. Esta relación también se extiende a pruebas de hipótesis de una cola
para parámetros poblacionales, para lo que se pide elaborar intervalos de confianza
unilaterales que son muy poco usados en la práctica.
185
Ejemplo 7.12. Pruebe Ho: µ=4.5 contra µ≠4.5, si n=40, x =3.975 y σ=2.87. Use
α=0.10.
1. Un intervalo de confianza para µ es
σ
x ± zα/2
n
3.975±(1.645) 2.87/√40
(3.2285; 4.7215)
2. Como el valor µo=4.5, está en dicho intervalo, la conclusión de la prueba de

hipótesis es que no se puede rechazar la hipótesis nula, H0: µ=4.5 al nivel 0.10.
7.3 Valor P
DEFINICION.
El Valor P o nivel de significancia alcanzado, es el nivel más pequeño de
significancia α para el cual la información observada indica que la hipótesis nula
debe ser rechazada. Una vez que el valor P se haya determinado, la conclusión
en cualquier nivel α particular resulta de comparar P con α:
1) Si P≤α entonces rechazamos Ho al nivel α.

2) Si P>α entonces no rechazamos Ho al nivel α.
Procedimiento de prueba de hipótesis: enfoque del Valor P
1. Identificar el parámetro.
2. Establecer Ho.
3. Especificar Ha.
4. Establecer α.
5. Establecer el valor del estadístico de prueba apropiado.
6. Calcular el estadístico de prueba.
7. Uso del valor P.
8. Decisión y conclusión.
2 1- Φ( zo ) prueba de dos colas


El Valor P para una prueba z: 1- Φ(zo ) prueba de cola superior (derecha)
Φ(z ) prueba de cola inferior (izquierda)
 o
Ejemplo 7.13. Se sabe que el diámetro de los agujeros para una montura de cable
tiene una DE de 0.01 pulg. Se obtiene una muestra aleatoria de diez monturas,
186
donde el diámetro promedio resulta ser 1.5045 pulg. Utilice α=0.01. Pruebe la
hipótesis de que el diámetro promedio verdadero del agujero es 1.50 pulg.
Solución:
1. μ, diámetro promedio verdadero.
2. Ho: μ=1.50 pulg
3. Ha: μ≠150 pulg
4. =0.01
5. z= x-150
0.01/ n
6. z= 1.5045 - 1.50 =1.42
0.01/ 10
7. Valor P
El valor P es el área de la región sombreada a la derecha de -1.42 y a la izquierda
de 1.42. Entonces, P=2(1-Φ(IzoI))=2(1-Φ(I1.42I))=2(1-0.9222)=0.1556.
8. Decisión: Como P>0.01, Ho no se rechaza al nivel 0.01. Conclusión: El diámetro
medio verdadero no es diferente de 1.50 pulg al nivel 0.01.
Ejemplo 7.14. Una muestra aleatoria de 100 muertes registradas en una ciudad el
año pasado mostró un promedio de vida de 71.8 años, con una desviación estándar
de 8.9 años. ¿Podría esto indicar que el promedio de vida actual es mayor que 70
años? Utilizar un nivel de significancia de 0.05.
Solución:
1. μ, promedio verdadero de vida.
2. Ho: μ=70 años.
3. Ha: μ>70 años.
4. =0.05
5. z= x-70
s/ n
6. z= 71.8-70
= 2.02
8.9/ 100
7. Valor P
El valor de P es el área de la región sombreada a la derecha de 2.02. Entonces P=
1 – Φ(2.02)= 1–0.9783=0.0217.
8. Decisión: Como P<0.05, Ho se rechaza al nivel 0.05. Conclusión: El promedio
verdadero de vida es mayor que 70 años al nivel 0.05.
7.4 Pruebas para la diferencia entre dos medias poblacionales

Ejemplo 7.15. Un experimento para comparar la resistencia de cohesión a la
tensión del muestreo modificado con látex de polímero, con la resistencia de mortero
no modificado resultó en x1 =18.12 kgf/cm2 para el mortero modificado (n1=40) y x 2
=16.87 kgf/cm2 para el mortero sin modificaciones (n2=32). Sean µ1 y µ2 la
resistencia real promedio de adherencia para el mortero modificado y no modificado,
respectivamente. Suponga que las distribuciones de resistencia de adherencia son
normales.
187
Si se supone que σ1 =1.6 y σ2= 1.4, pruebe Ho: µ1 - µ2 = 0 contra Ha: µ1 - µ2 > 0 al
nivel 0.01.
Solución:
1. μ1 y µ2: resistencia promedio verdadera de adherencia para el mortero modificado
y no modificado respectivamente.
2. Ho: μ1-μ2=0
3. Ha: μ1-μ2 >0
4. =0.01
x1-x2 x1-x2
5. z= =
12  22 (1.6)2 (1.4)2
+ +
n1 n2 n1 n2
6. Región de rechazo: z> 2.33; zα=z0.01=2.33

7. z= 18.12-16.87 = 3.53
1.62 +1.42
40 32
8. Decisión: Como z=3.53>2.33, Ho se rechaza al nivel 0.01. Conclusión: La
resistencia real de adherencia del mortero modificado es mayor que la resistencia
real de adherencia del mortero no modificado al nivel 0.01.
7.5 Pruebas relacionadas con una proporción poblacional.

Pruebas con muestras grandes (npo≥10 y n(1-po)≥10)
Ejemplo 7.16. Se estudia la fracción de circuitos integrados defectuosos

producidos en un proceso de fotolitografía. Para ello se somete a prueba una
muestra de 300 circuitos, en la que 13 son defectuosos. Utilice los datos para probar
Ho: p=0.5 contra Ha: p≠0.5. Utilice 0.05.
Solución:
1. p, fracción verdadera de circuitos integrados defectuosos.
2. Ho: p=0.05
3. Ha: p≠0.05
4. α=0.05
ˆ o
p-p ˆ
5. z 
p-0.05
=
po (1-po )/n (0.05)(0.95)
n
0.0433 - 0.05
6. z = = -0.53
(0.05)(0.95)
300
7. Valor P
P es la probabilidad de la región sombreada a la derecha de – 0.53 y a la izquierda
de 0.53, entonces P=2(1 – Φ(IzoI))=2(1 – Φ(I - 0.53I))=2(1-0.7019)=0.5962.
8. Decisión: Como P>0.05, Ho no se rechaza al nivel 0.05. Conclusión: La fracción
verdadera de circuitos integrados defectuosos no es diferente de 0.05, al nivel 0.05.
7.6 Pruebas para la diferencia entre proporciones (x≥10 y
n - x≥10)
188
Ejemplo 7.17. Sea utilizan dos máquinas diferentes de moldeo por inyección para
la fabricación de piezas de plástico. Una pieza se considera defectuosa si tiene un
encogimiento excesivo o si le falta color. Se toman dos muestras aleatorias cada
una de tamaño 300, y se encuentran 15 piezas defectuosas en la muestra de la
máquina 1, mientras que sólo ocho en la muestra de la máquina 2. ¿Es razonable
concluir que ambas máquinas producen la misma fracción de partes defectuosas,
utilizando α=0.05?
Solución:
1. p1 y p2 son las fracciones verdaderas de partes defectuosas de las máquinas 1 y
2 respectivamente.
2. Ho: p1 - p2=0 ó p1=p2
3. Ha: p1 - p2≠0 ó p1≠p2
4. =0.05
pˆ 1 - pˆ 2
5. z =
 
ˆˆ 1 + 1 
pq
 n1 n2 
0.0500 - 0.0267
6. z= =1.48
 0.0388  0.9612 
1 1 
+ 
 300 300 
x +x
pˆ 1 = 0.0500, pˆ 2 = 0.0267, pˆ = 1 2 = 0.0388
n1 +n2
7. Valor P.
P es la probabilidad de la región sombreada a la izquierda de – 1.48 y a la derecha
de 1.48, entonces P=2(1-Φ(IZoI))=2(1-Φ(I1.48I))=2(1-0.9306)=0.1388.
8. Decisión: Como p>0.05, Ho no se rechaza al nivel 0.05. Conclusión: Ambas
máquinas no producen diferentes fracciones de partes componentes defectuosas al
nivel 0.05.
7.7 Pruebas relacionadas con varianzas

Ejemplo 7.18. El contenido de azúcar del almíbar de duraznos enlatados tiene una
distribución normal, donde se cree que la varianza es σ 2=18 (mg)2. Pruebe la
hipótesis Ho: σ2=18 contra Ha: σ2≠18 si al tomar una muestra de n= 10 latas, la DE
muestral es s=4.8 mg con α=0.05.
Solución:
1. σ2, varianza verdadera del contenido de azúcar del almíbar en (mg)2.
2. Ho: σ2=18 (mg)2
3. Ha: σ2 ≠18 (mg)2
4. =0.05
(n -1)s2 (n -1)s2
5. χ 2 = 
2 18
189
6. Región de rechazo: 2  20.975, 9  2.700 ó 2  20.025, 9  19.022
(9)(4.8)
7. χ 2 = =11.52
18
8. Decisión: Como X2=11.52 cae en la región de no rechazo, entonces Ho no se
rechaza al nivel 0.05. Conclusión: La varianza verdadera del contenido de azúcar
del almíbar no es diferente de 18 (mg)2 al nivel 0.05.
Ejemplo 7.19. Dos proveedores fabrican un engrane de plástico utilizado en una

impresora láser. Una característica importante de estos engranes es la resistencia
al impacto, la cual se mide en pies-libras. Una muestra aleatoria de 10 engranes
suministrados por el primer proveedor arroja los siguientes resultados:
x1 = 290 y s1 =12. Del segundo proveedor se toma una muestra aleatoria de 15
engranes, donde los resultados son x2 = 321 y s2 =15. ¿Existe evidencia suficiente
para concluir que la varianza de la resistencia al impacto es diferente para los dos
proveedores con α=0.05? Suponer normalidad aproximada en ambas poblaciones.
Solución:
1. σ12 y σ22 varianzas verdaderas de las resistencias al impacto de los engranes
del proveedor 1 y 2 respectivamente.
2. Ho: σ12=σ22
3. Ha: σ12≠σ22
4. =0.05
5. f=s12/s22
6. Región de rechazo:
f<f0.975, 14, 9=0.31 y f>f0.025 9,14=3.21
7. f= 122/152=0.64
8. Decisión: Como f=0.64 está en la región de no rechazo, Ho no se rechaza al nivel

0.05. Conclusión: La varianza de la resistencia al impacto no es diferente para los
dos proveedores al nivel 0.05.
190

PYE115

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

PYE115

Uploaded by

Copyright:

Available Formats

Introducción

El origen de la estadística se pierde en la más lejana antigüedad. Se tienen

PARTE I: ESTADISTICA DESCRIPTIVA

Unidad I: ESTADISTICA DESCRIPTIVA

1.1 ¿Qué es estadística?

1. Supóngase que un ingeniero en carreteras desea estudiar el flujo de vehículos

1.2 Términos básicos.

Ejemplo 1.1. Un estudiante de estadística está interesado en determinar algo

1. La población es la colección de todos los libros que pertenecen a todos los

Atendiendo a su naturaleza, las variables bajo estudio pueden clasificarse según

Las variables cualitativas se refieren a características o cualidades que no

Continuo Discreto Nominal Jerarquizado

1.3 Ramas de la estadística

Así pues, en probabilidad se supone que la población es conocida y se calcula

1.4 El asistente para gráficos de Excel

1.5 Datos cualitativos. Gráficos.

El número de veces que aparece repetido un determinado valor de la variable se

Una tabla de distribución de frecuencias, es un cuadro que contiene

Un cuadro estadístico en el que se presentan datos cualitativos con su

Las partes principales de una tabla de atributos son: 1) título, 2) encabezado, 3)

Ejemplo 1.2. Condición de tenencia de la vivienda, en el Departamento de San

Una gráfica se construye usualmente de acuerdo con la información

La gráfica de línea consiste de líneas o segmentos de líneas rectas, también

Ejemplo 1.3. En la siguiente tabla se presenta la Deuda Externa Total de 2003 a

La deuda externa total en 2007, totalizó US $ 9059.7, mostrando una disminución

La gráfica de barras tiene un número de barras rectangulares.

La gráfica de barras se utiliza para representar tanto datos cualitativos como

Ejemplo 1.4. Describa la información del ejemplo precedente, mediante un gráfico

Una gráfica de partes componentes muestra las relaciones entre la partes

Los tipos más comunes de gráficas de partes componentes son: gráfica de

Ejemplo 1.5. En la siguiente tabla se presentan las remesas familiares de Enero

INGRESOS POR REMESAS FAMILIARES ENERO-OCTUBRE AÑOS 2008 Y

Enero 275.5 252.4

Febrero 298.3 275.1

Marzo 338.4 315.8

Abril 338.5 292.5

Mayo 353.4 308.2

Junio 334.4 295.7

Agosto 305.7 287.4

Septiembre 304.7 270.9

Octubre 304.3 281.7

TOTAL 3185.30 2865.80

INGRESOS POR REMESAS FAMILIARES ENERO-

El ingreso por concepto de remesas familiares acumulado de enero a octubre de

La disminución acumulada significó que las familias dejaron de percibir en

En la gráfica de partes componentes de barras dobles sobrepuestas, la

Los gráficos de partes componentes de barras dobles sobrepuestas, pueden ser

Ejemplo 1.6. La siguiente tabla presenta las exportaciones e importaciones totales

EXPORTACIONES E IMPORTACIONES ENERO-OCTUBRE AÑO 2008 Y 2009

Año Exportaciones Importaciones

2008 3907.3 8389

2009 3219 6018.2

EXPORTACIONES E IMPORTACIONES ENERO-

El flujo acumulado de exportaciones de enero a octubre de 2009, totalizó US $

En el gráfico de pastel o circular, un círculo de radio arbitrario se divide en

En los gráficos de pastel, cada sector se rotula con su nombre y se le coloca el

Ejemplo 1.7. La siguiente tabla muestra los principales países productores de

PRINCIPALES PAISES PRODUCTORES DE PETROLEO 2006

Argelia, 2.12, 3% Arabia Saudi,

Kuwait, 2.67, 4% Rusia, 9.67, 15%

Si en las tablas, las columnas correspondientes a los atributos corresponden a los

En el gráfico polar, el círculo se divide en 12 sectores iguales, las líneas de

Ejemplo 1.9. La siguiente tabla muestra los ingresos anuales en concepto de