Inferencia Estadistica-1

CUADERNO DE APUNTES
INFERENCIA ESTADÍSTICA
Ernesto Canizales
22 de octubre de 2012
1
ÍNDICE ÍNDICE
Índice
1. PROBABILIDAD Y ESTADÍSTICA 6
1.1. Esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Función Caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2. Distribución Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.4. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2. Razones que justifican un estudio inferencial . . . . . . . . . . . . . . . . . . 13
1.4.3. Conceptos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.4. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2. DISTRIBUCIONES MUESTRALES 17
2.1. Distribución conjunta de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Estadı́sticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Distribución muestral de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Distribución muestral de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5. Distribución muestral de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7. Distribución muestral de la diferencia de dos medias . . . . . . . . . . . . . . . . . . 39
2.8. Distribución muestral de la diferencia de dos proporciones . . . . . . . . . . . . . . 42
2.9. Distribución muestral del cociente de dos varianzas . . . . . . . . . . . . . . . . . . 43
3. ESTIMACIÓN DE PARÁMETROS 50
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2
ÍNDICE ÍNDICE
3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.3. Cota para la varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.1. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.2. Propiedades de los estimadores de máxima verosimilitud . . . . . . . . . . . 59
3.4.3. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5. Estimación por Intervalos de confianza en una población . . . . . . . . . . . . . . . 61
3.5.1. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . . . 63
3.5.2. Intervalo de confianza para una proproción . . . . . . . . . . . . . . . . . . . 65
3.5.3. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . . . . . 66
3.6. Intervalo de confianza en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . 67
3.6.1. Intervalo de confianza para la diferencia de dos medias, cuando las muestras
son independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
son dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.6.3. Intervalo de confianza para la diferencia de dos proporciones . . . . . . . . . 72
3.6.4. Intervalo para el cociente de dos varianzas . . . . . . . . . . . . . . . . . . . 73
3.7.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.7.2. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4. PRUEBA DE HIPÓTESIS ESTADÍSTICAS 84

4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2. Tipos de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.1. Hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.2. Hipótesis alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.3. Tipos de regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5. Metodologı́a de un contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 89
4.6. Prueba de hipótesis en una población . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3
ÍNDICE ÍNDICE
4.6.1. Prueba de hipótesis sobre una media . . . . . . . . . . . . . . . . . . . . . . 91

4.6.2. Prueba de hipótesis sobre una proporción . . . . . . . . . . . . . . . . . . . . 96
4.6.3. Prueba de hipótesis sobre una varianza . . . . . . . . . . . . . . . . . . . . . 98
4.7. Prueba de hipótesis en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.7.1. Prueba de hipótesis sobre igualdad de medias, muestras independientes . . . 100
4.7.2. Prueba de hipótesis sobre igualdad de medias, muestras dependientes . . . . 104
4.7.3. Prueba de hipótesis sobre igualdad de proporciones . . . . . . . . . . . . . . 106
4.7.4. Prueba de hipótesis sobre igualdad de varianzas . . . . . . . . . . . . . . . . 108
4.8.1. Contraste en una población . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.8.2. Comparación de dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 115
4
ÍNDICE ÍNDICE
Prefacio
El objetivo de este documento es ayudar a los estudiantes en su proceso de aprendizaje en el
curso de Inferencia Estadı́stica. Muchos de los obstáculos que todo estudiante debe enfrentarse
en el transcurso de su carrera, es la falta de bibliografı́a. Además se dificulta el hecho de prestar
atención a la clase y de tomar apuntes de la misma. Por esa razón, he considerado conveniente
el tomarme tiempo para digitar en LATEXun documento que trate sobre los temas que deben ser
visto en el curso de Inferencia Estadı́stica; este material no tiene por objeto reemplazar en ningún
momento a los libros clásicos sobre inferencia; sino más bien el de presentar de manera breve pero
elegante un resumen de dichos libros en un solo documento que contenga toda la sencillez pero a
la vez el rigor matemático necesario.
Se ha considerado conveniente incorporar un apartado sobre probabilidad, con el objetivo de pre-
sentar los conocimientos previos que el estudiante debe poseer para una comprensión adecuada del
material que se presenta en el documento.
Hago resaltar que todo el documento es de mi absoluta responsabilidad, por lo que agradeceré al
lector comunicarme de cualquier falta ortográfica, gramatical o de cualquier errata que contenga
el documento, e inclusive cualquier sugerencia para mejorar la redacción y la presentación del
documento a la siguiente dirección electrónica canizales1985@gmail.com
5
1 PROBABILIDAD Y ESTADÍSTICA
1. PROBABILIDAD Y ESTADÍSTICA
1.1. Esperanza matemática
Si X es una variable aleatoria con función de probabilidad P (X) (densidad f (X)), se define la
esperanza matemática por:
n
X
E[X] = xi P (X = xi ); cuando X es discreta
Zi=1∞
E[X] = xf (x)dx; cuando X continua
∞
La esperanza matemática es una función lineal y cumple las siguientes propiedades:
1. E[aX] = aE[X]
2. E[X ± b] = E[X] ± b
3. E[aX ± b] = aE[X] ± b
4. E[X ± Y ] = E[X] ± E[Y ]
Además,
1. var(X) = E[X 2 ] − E[X]2
2. cov(X; Y ) = E[XY ] − E[X]E[Y ]
También si X e Y son variables aleatorias se cumple lo siguiente:
E[XY ] = E[X]E[Y ]
1.2. Función Caracterı́stica
Sea X una variable aleatoria con función de distribución F (X). Se llama función caracterı́stica de
la variable aleatoria X y se le representa por φX (t), a la esperanza matemática de exp(itX) (la
cual es también variable aleatoria).
6
1.3 Distribuciones de probabilidad 1 PROBABILIDAD Y ESTADÍSTICA
Es decir,
φX (t) = E [exp(itX)]
Z ∞
= exp(itX)dF (x) Continua
∞
n
X
= exp(itxi )P (X = xi ) Discreto
i=1
Teorema 1.1. Sean X1 , X2 , . . . , Xn , un conjunto de variables aleatorias independientes cada una

con función caracterı́stica φX1 (t), φX2 (t), . . . , φXn (t). Entonces la variable aleatoria:
Y = a1 X 1 + a2 X 2 + · · · + an X n
tiene la siguiente función caracterı́stica
φY (t) = φX1 (a1 t)φX2 (a2 t) . . . φXn (an t) (1)
Demostración.
φY (t) = E [exp (t (a1 X1 + a2 X2 + · · · + an Xn ))]
= E [exp (ta1 X1 ) exp (ta2 X2 ) · · · exp (tan Xn )]
= E [exp (ta1 X1 )] E [exp (ta2 X2 )] · · · E [exp (tan Xn )]
= φX1 (a1 t)φX2 (a2 t) . . . φXn (an t)
1.3. Distribuciones de probabilidad
Si X es una variable aleatoria que puede tomar los valores (x1 , x2 , . . . , xk ), se llama distribución
de probabilidad de X al siguiente cuadro:
X P (X)
x1 P (x1 )
x2 P (x2 )
.. ..
. .
xk P (xk )
1
7
A continuación se presentan las principales distribuciones de probabilidad que son necesarias para
el desarrollo del curso.
1.3.1. Distribución normal
Una variable aleatoria X se dice que tiene una distribución normal de parámetros µ (media) y σ 2
(varianza) si función de densidad es la siguiente:
(x − µ)2

1
f (x) = √ exp − (2)
σ 2Π 2σ 2
la cual se abrevia por X ∼ N (µ; σ 2 ).
Su función caracterı́stica es:
t2 σ 2

φX (t) = exp itµ −
2
Una variable aleatoria X se dice que tiene una distribución normal estándar N (0; 1) si función de
densidad es la siguiente:
2
1 x
f (x) = √ exp − (3)
2Π 2
t2

φX (t) = exp −
2
Teorema 1.2. Sean X1 , X2 , . . . , Xn , n variables aleatorias independientes cada una con Xi ∼
N (µi ; σi2 ). Entonces la variable aleatoria
Z = a1 X 1 + a2 X 2 + · · · + an X n
Pn Pn
es una variable con distribución normal de parámetros µ = i=1 ai µ i y σ 2 = i=1 a2i σi2
Demostración. Si Xi ∼ N (µi ; σi2 ) entonces ai Xi ∼ N (ai µi ; a2i σi2 ), y

1 2 2 2
φai Xi (t) = exp it (ai µi ) − t ai σi
2
8
Puesto que las Xi son independientes,
φX (t) = φa1 X1 (t)φa2 X2 (t) · · · φan Xn (t)

1 2 2 2 1 2 2 2 1 2 2 2
= exp ita1 µ1 − t a1 σ1 exp it (a2 µ2 ) − t a2 σ2 · · · exp itan µn − t an σn
2 2 2
n n
!
X 1 X 2 2
= exp it ai µi − t2 ai σ i
i=1
2 i=1
La cual es precisamente la función caracterı́stica de una distribución normal de parámetros µ =

Pn 2
Pn 2 2
i=1 ai µi y σ = i=1 ai σi
1.3.2. Distribución Chi-Cuadrado
Sean X1 , X2 , . . . , Xn , n variables aleatorias independientes e idénticamente distribuidas con Xi ∼

N (0; 1).
Llamaremos χ2n de Pearson a la variable aleatoria
χ2n = X12 + X22 + · · · + Xn2 (4)
El subı́ndice n corresponde al número de variables aleatorias independientes, y se suele llamar

grados de libertad.
n
−
φχ2n (t) = (1 − 2it) 2 (5)
Teorema 1.3. Sean χ2n1 , χ2n2 , . . . , χ2nk , k variables aleatorias independientes con distribución Chi-
Cuadrada con grados de libertad respectivos n1 , n2 , . . . , nk . Entonces la variable aleatoria
η = χ2n1 + χ2n2 + . . . + χ2nk
Sigue una distribución Chi-cuadrado con grados n1 + n2 + . . . + nk de libertad.
Demostración.
φη (t) = φχ2n1 (t)φχ2n2 (t) · · · φχ2n (t)

k
n1 n2 nk
− − −
= (1 − 2it) 2 (1 − 2it) 2 · · · (1 − 2it) 2
Pk
i=1 ni
−
= (1 − 2it) 2
9
La cual es precisamente la función caracterı́stica de una distribución Chi-cuadrado con grados

Pk
i=1 ni de libertad.
En una distribución Chi-cuadrado se cumple:
1. E [χ2n ] = n
2. var (χ2n ) = 2n
1.3.3. Distribución t de Student
Sean X, X1 , X2 , . . . , Xn , n + 1 variables aleatorias independientes e idénticamente distribuidas con

Xi ∼ N (0; 1).
Llamaremos t de Student a la variable aleatoria siguiente:
X
T =r (6)
1 Pn
X2
n i=1 i
Teorema 1.4. La distribución t de Student es ası́ntoticamente N (0; 1). Es decir, si n → ∞,
entonces t ∼ N (0; 1).
1.3.4. Distribución F de Snedecor
Sean χ2m y χ2n , dos variables aleatorias independientes con distribución Chi-cuadrado con grados
de libertad respectivos m y n.
Llamaremos F de Snedecor con (m, n) grados de libertad, y la representaremos por F (m, n) a la
variable aleatoria:
1 2
χm
F = m (7)
1 2
χ
n n
Propiedades de la distribución F .
1
1. Si X ∼ F (m, n), entonces X
∼ F (n, m)
2. Si representamos por F (m, n, α) al valor en el distribución F de Snedecor tal que P {F (m, n) >
1
F (m, n, α)} = α. Entonces F (m, n, 1 − α) =
F (n, m, α)
10
1.4 Inferencia Estadı́stica 1 PROBABILIDAD Y ESTADÍSTICA
3. Si t ∼ tn , entonces la variable aleatoria t2 ∼ F (1, n).
1.4. Inferencia Estadı́stica
1.4.1. Introducción
Estadı́stica Descriptiva
Permite organizar y presentar un conjunto de datos de manera que describan en forma precisa
las variables analizadas haciendo rápida su lectura e interpretación. Su materia prima la
constituyen los datos, que son el resultado de las observaciones y/o experimentos.
Ejemplo; Durante los últimos dı́as se ha informado de un total de 13 homicidios diarios. La

encuesta Gallup informa que una ventaja del 20 % para el candidato de izquierda.
Estadı́stica Inferencial
Generaliza los resultados de una muestra a los de una población total; es cuando de los
datos estadı́sticos obtenidos de una muestra se deduce o infiere una observación la cual se
generaliza sobre la población total. Para determinar la confiabilidad de la inferencia de los
datos estadı́sticos de una muestra, se hace necesario comprobar la misma para poder asegurar
que lo que se observa en una muestra también se observará en la población.
Generalmente el análisis inferencial se lleva a cabo para mostrar relaciones de causa y efecto,
ası́ como para probar hipótesis y teorı́as cientı́ficas.
El curso de Inferencia Estadı́stica se divide en: Estimación de parámetros y prueba de hipótesis.

Existen dos tipos de estimaciones para parámetros: Puntuales y por intervalo.
Técnicamente la Inferencia, consiste en, una vez estudiada la muestra, proyectar las conclusiones
obtenidas al conjunto de la población. Por motivos obvios, la calidad de estudio, que se realice
depende, por una parte, de la calidad de la muestra y, por otra, del uso que de ella se haga.
Se supondrá que la muestra ha sido seleccionada con algún tipo de muestreo probabilı́stico.
En primer lugar, se ha de hacer notar que la pobación va a venir representada por una variable alea-
toria con una determinada distribución de probabilidad. Dependiendo del grado de conocimiento
de ésta se distinguen dos métodos para realizar el proceso inferencial.
11
1. Inferencia paramétrica.
Es aquella en la que se admite que la distribución de la población pertenece a cierta familia

paramétrica de distribuciones conocidas, siendo necesario únicamente precisar el valor de los
parámetros para determinar la distribución poblacional.
2. Inferencia no paramétrica.
No supone ninguna distribución de probabilidad de la población, exigiendo sólo hipótesis

muy generales, como puede ser la simetrı́a.
EJEMPLO 1.1
Se realiza un estudio para comprobar tres métodos de compresión lectora a niños de segundo grado,
como son:
Intrucción directa.
Enseñanza recı́proca.
Combinación de los dos métodos.
Las preguntas a resolver son:
¿Cuál de los métodos mejora la compresión lectora?
¿Para el próximo año el método identificado como el mejor, dará buenos resultados para el
alumno “Juan Pérez”, quien cursará el segundo grado?
La primera pregunta es un caso de incertidumbre porque, basándonos en el estudio de los tres

métodos a cada muestra de manera independientemente; con el apoyo de la Inferencia Estadı́stica
contestamos esta pregunta, eligiendo a la que mejora significativamente la compresión lectora, para
el tipo de alumnos en la muestra.
La segunda pregunta es un caso de toma de desiciones, porque “Juan Pérez” no ha participado en
el estudio, pero se le aplicará el mejor método que resulte de la investigación realizada, claro está
con un cierto nivel de confianza y margen de error admisible.
12
Los casos de incertidumbre y toma de desiciones son resueltos por la estadı́stica inferencial, apo-
yando por supuesto de la probabilidad.
Ası́, por ejemplo, nos puede interesar tener información sobre:
La renta media de todas las familias de una ciudad.
El tiempo medio de espera en la caja de un supermercado.
La proporción de automóviles que se averı́an durante el primer año de garantı́a.
etc.
Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de dos
maneras:
1. En la estimación, basta seleccionar un estadı́stico muestral cuyo valor es utilizará como

estimador del valor del parámetro poblacional.
2. En la contrastación de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se

utiliza la información proporcionada por una muestra para decidir si la hipótesis se acepta o
se rechaza.
1.4.2. Razones que justifican un estudio inferencial
La realización de un estudio inferencial se justifica por distintas circunstancias, algunas de ellas

son las siguientes:
Por motivos presupuestarios. La realización de un estudio a través de muestras supone un

ahorro tanto de dinero como de tiempo.
En ocasiones la población tiene un gran número de elementos, pudiendo ser éstos potencial-
mente infinitos (número de clientes demandando un servicio).
No todos los elementos de la población están localizados o no son localizables.
Existe situaciones en la que cuando se analiza un elemento éste es destruido.
13
Por motivos de precisión. Aunque parezca contradictorio, a veces un análisis total, implica
que se comentan errores graves en la medición, codificación, resumen, etc., cuestiones que
pueden ser mucho mejor controladas utilizando un estudio a partir de una muestra.
1.4.3. Conceptos de muestreo
Las estadı́sticas de por si no tienen sentido si no se consideran o se relacionan dentro del contexto
con que se trabaja.
Población. Es el conjunto total de individuos, objetos, elementos que poseen algunas carac-
terı́sticas observables en un lugar y en un momento determinado. La población por su parte
debe contener las siguientes caracterı́sticas:
1. Homogeneidad. Que todos los elementos de la población tenga las mismas caracterı́sticas
según las variables que se vayan a considerar. Por ejemplo, si se fuera a investigar la inci-
dencia de la drogadicción entre jóvenes mujeres adolescentes hay que definir claramente
las edades que comprenden la adolescencia.
2. Tiempo. Se refiere al perı́odo de tiempo donde se ubicarı́a la población de interés.
3. Espacio. Se refiere al lugar geográfico donde se ubica la población de interés.
4. Cantidad. Se refiere al tamaño (número de elementos) de la población de interés.
Muestra. Es un subconjunto (por lo regular fielmente) de la población.
Parámetros. Caracterı́stica que se desea conocer en la población, tales como: una proporción,
una media; suelen denotarse por letras griegas θ.
Estimador. Función matemática (aplicada a una muestra (X1 , X2 , . . . , Xn )) para predecir

(estimar) el valor de un parámetro, θ̂ = f (X1 , X2 , . . . , Xn )
Estimación. Valor que toma el estimador para una muestra concreta.
Marco muestral. Es el listado fı́sico de todos los elementos de la población y con el cual se
elegi la muestra.
14
Muestra aleatoria. Dada una población X se llama muestra aleatoria de tamaño n a la repeti-
ción de X1 , X2 , . . . , Xn variables aleatorias independientes con ditribución igual, y denotada
por (X1 , X2 , . . . , Xn ).
1.4.4. Tipos de muestreo
Hay diferentes tipos de muestreo.
No probabilı́sticos: Intencional, y sin norma.
En el primero es la persona que selecciona la muestra la que procura que sea representativa;
por consiguiente, la representatividad depende de su intención al seleccionar la muestra.
En el muestreo sin norma se toma la muestra de cualquier manera, a la aventura, por razones
de comodidad o circunstancias.
Estos tipos de muestreo no serán considerados.
Probabilı́stico:
Decimos que el muestreo es probabilı́stico cuando puede calcularse de antemano cuál es la

probabilidad de obtener cada una de las muestras que sea posible seleccionar, con lo cual es
posible conocer la probabilidad de que un elemento pertenezca a una muestra.
Entre los muestreos probabilı́sticos, los más ampliamente utilizados son los siguientes:
1. Muestreo Aleatorio Simple.
Decimos que una muestra es aleatoria simple cuando:
Cada elemento de la población tiene la misma probabilidad de ser seleccionado en la

muestra.
Todas las muestras posibles tienen igual probabilidad.
2. Muestreo Estratificado.
Se denomina muestreo estratificado a aquel en que los elementos de la población se dividen en

clases o estratos. En cada estrado, los elementos son homogéneos respecto a la caracterı́stica
a estudiar, y entre estratos son heterogéneos.
15
1.5 Problemas propuestos 1 PROBABILIDAD Y ESTADÍSTICA
3. Muestreo por Conglomerado.
Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son aplicables, ya

que no disponemos de una lista con el número de elementos de la población ni de los posibles
estratos.
En estos casos tı́picamente los elementos de la población se encuentran de manera natu-

ral agrupados en conglomerados, cuyo número si se conoce. Usualmente los conglomerados
representan zonas geográficas tales como: municipios, provincias, distritos, etc.
Puede suponerse que cada conglomerado es una muestra representativa de la población.
Las ideas de estratificación y de conglomerados son opuestas: la estratificación funciona tanto

mejor cuánto mayores sean las diferencias entre los estratos y más homogéneos sean éstos inter-
namente; los conglomerados funcionan si hay pocas diferencias entre ellos y son muy heterogéneos
internamente (incluyen toda la variabilidad de la población dentro de cada uno).
En lo que resta se supondra una muestra aleatoria seleccionada con reposición a no ser que se diga
lo contrario.
1.5. Problemas propuestos
1. Demuestre que si X tiene una distribución de Student Tn con n grados de libertad, entonces
si n > 2
n
E[X] = 0 V [X] =
n−2
2. Demuestre que si X es una variable aleatoria con distribución de Snedecor Fm,n , entonces si
n>4
n 2n2 (n + m − 2)
E[X] = V [X] =
n−2 m(n − 2)2 (n − 4)
16
2 DISTRIBUCIONES MUESTRALES
2. DISTRIBUCIONES MUESTRALES
2.1. Distribución conjunta de la muestra
La probabilidad de extracción de una muestra aleatoria simple concreta (X1 , X2 , . . . , Xn ), si la

variable poblacional es discreta con función de masa P (X = x), se calcula de la siguiente manera:
T T T
El suceso final es {X1 = x1 } {X2 = x2 } · · · {Xn = xn }; (Xi = xi ) significa que el elemento i-
ésimo de la muestra es xi . Y como la muestra es aleatoria simple sus elementos son independientes,
por lo cual;
P (x1 , x2 , . . . , xn ) = P ({X1 = x1 } ∩ {X2 = x2 } ∩ · · · ∩ {Xn = xn })
= P ({X1 = x1 }) P ({X2 = x2 }) · · · P ({Xn = xn })
Siendo P ({Xk = xk }) la probabilidad de obtener (observar) en la población un elemento cuyo

valor sea xk y P (x1 , x2 , . . . , xn ) es la función de probabilidad conjunta de la muestra.
En el caso de que la variable aleatoria poblacional sea continua, con función de densidad f (x),
la probabilidad elemental de obtener un resultado concreto (X1 , X2 , . . . , Xn ), por ser la muestra
aleatoria es:
f (x1 , x2 , . . . , xn )
donde f (x1 , x2 , . . . , xn ) es la función conjunta de la muestra, verficándose que:
f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) · · · f (xn )
por ser independientes cada uno de sus elementos.

En una muestra aleatoria simple (X1 , X2 , . . . , Xn ) se verifican las siguientes relaciones entre sus
elementos:
1. F (X1 ) = F (X2 ) = · · · = F (Xn )
2. F (X1 , X2 , . . . , Xn ) = F (X1 )F (X2 ) · · · F (Xn )
Es decir, las variables Xi son independientes e idénticamente distribuidas con la misma distribución
de probabilidad que tenga la población.
Si la muestra no fuera aleatoria (es decir, la selección fuése sin reemplazamiento)
17
2.2 Estadı́sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES
P (X1 , X2 , . . . , Xn ) = ΠP (Xi = xi /X1 = x1 , X2 = x2 , . . . , Xi−1 = xi−1 )
f (X1 , X2 , . . . , Xn ) = Πf (Xi /X1 , X2 , . . . , Xi−1 )
2.2. Estadı́sticos y distribuciones muestrales
Definición 2.1. La distribución de muestreo de un estadı́stico θ̂ es la distribución de probabilidad

de θ̂ que puede obtenerse como resultado de un número infinito de muestras aleatorias indepen-
dientes, cada una de tamaño n, provenientes de la población de interés.
Dado que se supone que las muestras son aleatorias, la distribución de un estadı́stico es un tipo de
modelo de probabilidad conjunta para variables aleatorias independientes, en donde cada variable
posee una función de densidad de probabilidad igual a la de las demás. De manera general, la
distribución de muestreo de un estadı́stico no tiene la misma forma que la función de densidad de
probabilidad en la distribución de la población.
EJEMPLO 2.1
Una urna contiene 1000 bolas, todas de igual tamaño, y marcadas con 4 números distintos: 400
con el número 1, 100 con el 2, 300 con el 3 y las 200 restantes con el 4.
La distribución de probabilidad de la población es:
P (X = 1) = 0.4 P (X = 2) = 0.1
P (X = 3) = 0.3 P (X = 4) = 0.2
Tomamos una muestra aleatoria de tamaño 100, siendo el resultado: 43 bolas con el número 1, 6
con el 2, 28 con el 3 y 23 con el 4.
La distribución de frecuencias de la muestra obtenida es:
n1 n2
= 0.43 = 0.06
n n
n3 n4
= 0.28 = 0.23
n n
En la figura (1) se muestra graficamente la comparación de las frecuencias relativas en la muestra

en comparación con los de la población. Los cı́rculos de color azul corresponde a la distribución
poblacional, mientras que las barras corresponden a la distribución muestral.
18
2.2 Estadı́sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES
Figura 1: Distribución de frecuencia en la muestra
Si comparamos ambas distribuciones se aprecia que son muy parecidas pero no coinciden, pues
la muestra no reproduce exactamente la estructura de la población, debiéndose esta diferencia a
la variabilidad introducida en la estricta aleatoriedad de la muestra. Si más muestras, cada una
de ellas tendrá su propia distribución, que se aproximará tanto más a la población cuanto “más
aleatorio” haya sido el proceso de selección, es decir, “más objetivo”.
En general, en una muestra concreta, sus caracterı́sticas (momentos, etc.) no tienen por qué coin-
cidir exactamente con las correspondientes de la población a cuasa de la aleatoriedad del procedi-
miento de extracción de los elementos, pero sı́ la muestra ha sido tomada con las máximas garantı́as
de aleatoriedad, con máxima objetividad, es de esperar que los valores de las caracterı́sticas mues-
trales no se alejen demasiado de los poblaciones, lo que proporciona a la muestra sus posibilidades
inductivas.
En el caso de que la caracterı́stica fuese la media:
19
2.3 Distribución muestral de la media 2 DISTRIBUCIONES MUESTRALES
En la población,
µ = 1 × 0.4 + 2 × 0.1 + 3 × 0.3 + 4 × 0.2
= 2.3
Mientras que en la muestra
X̄ = 1 × 0.43 + 2 × 0.06 + 3 × 0.28 + 4 × 0.23
= 2.31
Claramente no coinciden, sin embargo, son muy parecidos.
Muestra aleatoria, significa de ahora en adelante que la muestra ha sido seleccionada de manera
aleatoria y con reposición (un elemento puede estar incluido más de una vez en la muestra).
2.3. Distribución muestral de la media
EJEMPLO 2.2
Una variable aleatoria X tomo los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y 0.7. Tomamos mues-
tras aleatorias simples de tamaño 3 y consideramos como estadı́stico la media muestral. Encontrar
la distibución en el muestreo para X̄.
Solución. En el cuadro 1 se muestra todas las muestras de tamaño 3 que pueden obtenerse de la
población. En la columna identificada como tipo, se muestra los elementos que conforman a cada
una de las muestras (sin considerar el orden de aparición); en la columna muestra se enumeran
todas las muestras posibles; en las restantes columnas se muestra el valor de la media muestra (X̄)
y la probabilidad asociada para cada una de las muestras (P(muestras)).
La distribución en el muestreo de X̄ se muestra en el cuadro 2.
EJEMPLO 2.3
Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la
distribución en el muestreo para la media en el caso que el tamaño de la muestra sea 2.
Solución. En el cuadro 3 se presentan las muestras obtenidas de tamaño 2 que pueden obtenerse de
la población. En la columna etiqueta como “Tipo” se muestran las muestras que pueden obtenerse
20
Cuadro 1: Muestras obtenidas para el ejemplo 2
Tipo Muestras X̄ P(Muestra) Tipo Muestras X̄ P(Muestra)

{1, 1, 1} {1, 1, 1} 1 0.13
4 5
{1, 1, 2} 3
0.12 × 0.2 {1, 1, 3} 3
0.12 × 0.7
4 5
{1, 1, 2 } {1, 2, 1 } 3
0.12 × 0.2 {1, 1, 3 } {1, 3, 1 } 3
0.12 × 0.7
4 5
{2, 1, 1} 3
0.12 × 0.2 {3, 1, 1} 3
0.12 × 0.7
{2, 2, 2} {2, 2, 2} 2 0.23
5 7
{1, 2, 2} 3
0.22 × 0.1 {3, 2, 2} 3
0.22 × 0.7
5 7
{1, 2, 2 } {2, 2, 1 } 3
0.22 × 0.1 {3, 2, 2 } {2, 2, 3 } 3
0.22 × 0.7
5 7
{2, 1, 2} 3
0.22 × 0.1 {2, 3, 2} 3
0.22 × 0.7
{3, 3, 3} {3, 3, 3} 3 0.73
7 8
{1, 3, 3} 3
0.72 × 0.1 {2, 3, 3} 3
0.72 × 0.2
7 8
{1, 3, 3 } {3, 3, 1 } 3
0.72 × 0.1 {2, 3, 3 } {3, 3, 2 } 3
0.72 × 0.2
7 8
{3, 1, 3} 3
0.72 × 0.1 {3, 2, 3} 3
0.72 × 0.2
{1, 2, 3} 2 0.1 × 0.2 × 0.7 {1, 3, 2} 2 0.1 × 0.2 × 0.7
{1, 2, 3 } {2, 1, 3 } 2 0.1 × 0.2 × 0.7 {1, 2, 3 } {2, 3, 1} 2 0.1 × 0.2 × 0.7
{3, 1, 2} 2 0.1 × 0.2 × 0.7 {3, 2, 1} 2 0.1 × 0.2 × 0.7
(sin considerar el orden de los elementos en la misma); en la columna “Cantidad” se presenta

el número de muestras diferentes que pueden considerarse para cada tipo; mientras que en las
columnas restantes se muestra la media muestral para cada tipo de muestra.
En el cuadro 4 se muestra la distribución muestral de la media para todas las muestras posibles
de tamaño 2.
EJEMPLO 2.4
Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la
distribución en el muestreo para la media en el caso que el tamaño de la muestra sea 3.
Solución. En el cuadro 5 se presentan las muestras obtenidas de tamaño 3 que pueden obtenerse de
21
Cuadro 2: Distribución en el muestreo de la media muestral, datos del ejemplo 2
X̄ P (X̄)
1 0.13 = 0.001
4
3
3 × 0.12 × 0.2 = 0.006
5
3
3 × 0.12 × 0.7 + 3 × 0.1 × 0.22 = 0.033
2 6 × 0.1 × 0.2 × 0.7 + 0.23 + 0.092
7
3
3 × 0.22 × 0.7 + 3 × 0.1 × 0.72 = 0.231
8
3
3 × 0.2 × 0.72 = 0.294
3 0.73 = 0.343
la población. En la columna etiqueta como “Tipo” se muestran las muestras que pueden obtenerse
(sin considerar el orden de los elementos en la misma); en la columna “Cantidad” se presenta
el número de muestras diferentes que pueden considerarse para cada tipo; mientras que en las
columnas restantes se muestra la media muestral para cada tipo de muestra.
En el cuadro 6 se muestra la distribución muestral de la media para todas las muestras posibles
de tamaño 3.
En la figura 2 se representación gráfica de la distribución de la media muestral para los ejemplos
3 y 4. La distribución en el caso de muestras de tamaño 2 se muestra en 3a; mientras que la
distribución para muestras de tamaño 3 se presenta en 3b. Puede observarse que al aumentar el
tamaño de la muestra mejora la precisión de las estimaciones, pues la curva correspondiente para
n = 3 muestra menor dispersión. Estudiaremos el efecto del tamaño de la muestra más adelante.
22
Cuadro 3: Muestras obtenidas de tamaño 2 para el ejemplo 3
Tipo Cantidad X̄ Tipo Cantidad X̄

{1 , 2 } 2 1.5 {1 , 3 } 2 2
{1 , 4 } 2 2.5 {1 , 5 } 2 3
{2 , 3 } 2 2.5 {2 , 4 } 2 3
{2 , 5 } 2 3.5 {3 , 4 } 2 3.5
{3 , 4 } 2 1.5 {3 , 5 } 2 4
{4 , 5 } 2 4.5 {1 , 1 } 1 1
{2 , 2 } 1 2 {3 , 3 } 1 3
{4 , 4 } 1 4 {5 , 5 } 1 5
Figura 2: Distribución muestral de la media para los ejemplos 3 y 4
(a) Muestras de tamaño 2 (b) Muestras de tamaño 3
Denotemos por X̄i a la media muestral para una muestra de tamaño i. De los resultados anteriores
podemos verificar que se cumple que:

1 2 2 1
E X̄2 = 1 + 1.5 + · · · + 4.5 +5
25 25 25 25
= 3
23
Cuadro 4: Distribución en el muestreo de la media para el ejemplo 3
X̄ P (X̄)
1
1 25
2
1.5 25
3
2 25
4
2.5 25
1
3 5
4
3.5 25
3
4 25
2
4.5 25
1
5 25

1 4 3 14 3 1
E X̄3 = 1 + + ··· + +5
125 3 125 3 125 125
= 3
Además;

var X̄2 = 1

var X̄3 = 0.667
De lo anterior se observa que el valor esperado de la media muestral siempre coincide con el valor de
la media poblacional. Por otra parte, la varianza de la media muestral parece disminuir a medida
que el tamaño de la media muestra aumenta.
Hagamos ahora un análisis geneneral sobre el comportamiento de la media muestral para cualquier
tamaño, recordemos únicamente que:
n
1X
X̄ = Xi
n i=1
y utilicemos el hecho que son muestras aleatorias y apoyándonos en las propiedades de valor
24
Cuadro 5: Muestras obtenidas de tamaño 3 para el ejemplo 4
Tipo Cantidad X̄ Tipo Cantidad X̄

{1 , 2, 3 } 6 2 {2 , 3, 4 } 6 3
7 10
{1 , 2, 4 } 6 3
{2 , 3, 5 } 6 3
8 11
{1 , 2, 5 } 6 3
{2 , 4, 5 } 6 3
8
{1 , 3, 4 } 6 3
{3 , 4, 5 } 6 4
10
{1 , 3, 5 } 6 3 {1 , 4, 5 } 6 3
4 5
{1 , 1, 2 } 3 3
{2 , 2, 1 } 3 3
5 7
{1 , 1, 3 } 3 3
{2 , 2, 3 } 3 3
8
{1 , 1, 4 } 3 2 {2 , 2, 4 } 3 3
7
{1 , 1, 5 } 3 3
{2 , 2, 5 } 3 3
7
{3 , 3, 1 } 3 3
{4 , 4, 1 } 3 3
8 10
{3 , 3, 2 } 3 3
{4 , 4, 2 } 3 3
10 11
{3 , 3, 4 } 3 3
{4 , 4, 3 } 3 3
11 13
{3 , 3, 5 } 3 3
{4 , 4, 5 } 3 3
11
{5 , 5, 1 } 3 3
{5 , 5, 2 } 3 4
13 14
{5 , 5, 3 } 3 3
{5 , 5, 4 } 3 3
{1 , 1, 1 } 1 1 {2 , 2, 2 } 1 2
{3 , 3, 3 } 1 3 {4 , 4, 4 } 1 4
{5 , 5, 5 } 1 5
esperado.
" n #
1X
E X̄ = E Xi
n i=1
n
1X
= E [Xi ]
n i=1
n
1X
= µ
n i=1
nµ
=
n
= µ
25
Cuadro 6: Distribución en el muestreo de la media para el ejemplo 4
X̄ P (X̄)
1
1 125
4 3
3 125
5 6
3 125
2
2 25
7 3
3 25
8 18
3 125
19
3 125
10 18
3 125
11 3
3 25
2
4 25
13 6
3 125
14 3
3 125
1
5 125
Mientras que:
n
!
1X
var X̄ = var Xi
n i=1
n
1 X
= var(Xi )
n2 i=1
n
1 X 2
= σ
n2 i=1
nσ 2
=
n2
σ2
=
n
y qué pasarı́a si el muestreo se realiza sin reposición? Se sigue cumpliendo lo anterior?

Sı́ se obtienen muestras sin reemplazamiento de una población de tamaño N , y cada una muestra
es de tamaño n, por principios de conteo se sabe que en total habrá Nn muestras distintas.

26
N −1

Si se fija un elemento en la muestra, digamos Xi , en total habrá n−1
muestras que contenga a
Xi .
De este modo;
(Nn ) n
!
1 X 1 X
E X̄ = N
Xi
n j=1
n i=1
j
N
1 X N −1
= N
Xi
n−1

n n i=1
N −1 X
N
n−1
= Xi
n Nn i=1

N −1 N

n−1
X
= Xi
N N −1
n i=1
n n−1
N
1 X
= Xi
N i=1
= µ
Veamos ahora que sucede con la varianza de la media muestral, note que ahora Xi y Xj si están
relacionadas entre sı́, y ya no son independientes como en el caso anterior. La probabilidad de Xi
1
y Xj pertenezcan a una muestra es de N (N −1)
.
27
1. Primera forma:
n
!
1X
var X̄ = var Xi
n i=1
n
!
1 X
= var Xi
n2 i=1
" n n
#
1 X X
= var(Xi ) + 2 cov(Xi ; Xj )
n2 i=1 i<j
" n #
2
1 X σ
= nσ 2 + 2 −
n2 i<j
N −1
σ2

1 2 n(n − 1)
= nσ − 2
n2 N −1 2
σ2

n(n − 1)
= 2
n−
n N −1
σ nN − n − n2 + n
2

=
n2 N −1
2

σ N −n
=
n N −1
28
Puesto que:
Cov(Xi ; Xj ) = E[Xi Xj ] − µ2
N N
!2
X 1 1 X
= Xi Xj − 2 Xi
i6=j
N (N − 1) N i=1
 !2 
N N
1  X Xi Xj 1 X
= − Xi 
N i6=j N − 1 N i=1

PN 2 P !2

N 2
1  i=1 Xi − i=1 Xi 1 X
N
= − Xi 

N N −1 N i=1

 !2 !2 
PN 2 N N
−1  i=1 Xi
1 X 1 X
= + Xi − Xi 
N N −1 N i=1 N −1 i=1
 !2 
PN 2 N
−1  i=1 Xi 1 X
= − Xi 
N N −1 N (N − 1) i=1
 !2 
N N
−1 X 1 X
=  Xi2 − Xi 
N (N − 1) i=1 N i=1
N
−1 X 2
= Xi2 − µ
N (N − 1) i=1
−1 2
= σ
N −1
2. Segunda forma: Se verifica que:

n X̄ − µ = (X1 − µ) + (X2 − µ) + · · · + (Xn − µ)
Xn
= (Xi − µ)
i=1
Por consiguiente
2
n2 X̄ − µ = (X1 − µ)2 + (X2 − µ)2 + · · · + (Xn − µ)2
+ 2 (X1 − µ) (X2 − µ) + · · · + 2 (Xn−1 − µ) (Xn − µ)

Xn Xn
2
= (Xi − µ) + 2 (Xi − µ) (Xj − µ) (8)
i=1 i<j
En muestreo aleatorio debe cumplirse que E[nX̄] debe ser un múltiplo del total poblacional,
29
es decir;
E[X1 + X2 + · · · + Xn ] = θ(X1 + X2 + · · · + XN )
n
Resulta que θ = N
, pues en la expresión anterior. En la izquierda hay n términos, mientras
que en la derecha hay N .
Bajo un razonamiento análogo se deduce que

" n # " N #
X n X
E (Xi − µ)2 = (Xi − µ)2
i=1
N i=1
y también
" n
# " N #
X n(n − 1) X
E 2 (Xi − µ) (Xj − µ) = 2 (Xi − µ) (Xj − µ)
i<j
N (N − 1) i<j
(la suma de los productos se extiende sobre todas las parejas de elementos en la muestra
(izquierda) y en la pobación (derecha)).
n(n−1)
La suma del lado izquierdo contiene 2
términos, mientras que la suma de la derecha
N (N −1)
contiene 2
términos.
aplicando esperanza a la ecuación (8) y en base a los resultados anteriores,

" N # " N #
h
2
i n X n(n − 1) X
n2 E X̄ − µ (Xi − µ)2 + 2

= (Xi − µ) (Xj − µ)
N i=1 N (N − 1) i<j
Reescribiendo esta última expresión, resulta que:

" N N
#
2
h 2 i n n−1 X 2 n−1 X
n E X̄ − µ = 1− (Xi − µ) + (Xi − µ) (Xj − µ)
N N − 1 i=1 N − 1 i<j
Observe que,
N
X
(Xi − µ) = 0
i=1
(una propiedad elemental de la media aritmética)
Finalmente,
N
X
1 n−1
(Xi − µ)2

var X̄ = 1−
nN N −1 i=1
N −n 2
= σ
n(N − 1)
30
Cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la población el

N −n
término N −1
puede omitirse en el cálculo de la varianza, dicho término recibe el nombre de “co-
n
rrección debida a poblaciones finitas” o “corrección por finitud”. Siempre y cuando N
sea pequeño.
n
En la práctica puede ignorarse siempre y cuando la fracción en el muestreo N
no exceda el 5 %,
n
y para muchos própositos aún cuando N
no exceda el 10 %. El efecto de ignorar la corrección es
sobreestimar el error estándar en la estimación de X̄.
Por ejemplo, si σ 2 es la misma en dos poblaciones, una muestra de 500 de una poblacion de 200,000
da una estimación de la media de la población, casi tan precisa como una muestra de 500 de una
población de 10,000.
Teorema 2.2. En el caso de que la caracterı́stica poblacional de interés, tenga distribución normal,
se cumplirá, no importando el tamaño de la muestra (siempre y cuando se trate de muestras
aleatorias) que:
σ2

X̄ ∼ N µ; (9)
n
Demostración. Recordemos que si:
X ∼ N (µ; σ)
Entonces su función generatriz es:

t2 σ 2

φX (t) = exp itµ − (10)
2
Por consiguiente, la función generatriz de la media muestral es:

φX̄ (t) = E exp itX̄

X1 + X2 + · · · + Xn
= E exp it
n

X1 X2 Xn
= E exp it exp it · · · exp it
n n n
Al ser muestra aleatoria se cumple,

X1 X2 Xn
φX̄ (t) = E exp it E exp it · · · E exp it
n n n

t t t
= φX1 φX2 · · · φXn
n n n
Al ser las Xi normales
itµ it2 σ 2

t
φXi = exp − ∀ i
n n 2n2
31
n
itµ it2 σ 2

⇒ φX̄ (t) = exp −
n 2n2
t2 σ 2

= exp itµ −
2n
σ2
La cual es una función generatriz de una distribución normal de parámetros µ y n
Observación: el resultado anterior sigue siendo válido en muestreo sin reemplazamiento (hay que
reemplazar la varianza correspondiente).
En el caso de que la distribución de la población sea normal pero se deconozca el valor de σ 2
(muy común en la práctica). Más adelante veremos que una buena estimación de σ 2 , será Sn−1
2
, la
cuasivarianza muestral:
2 1 X 2
Sn−1 = Xi − X̄
n − 1 i=1
Se sabe que,
2
(n − 1)Sn−1
∼ χ2n−1
σ2
La suma de n − 1 variables N (0; 1)2 independientes.
De este modo
X̄ − µ
σ
√
n
t = s
2
(n − 1)Sn−1
(n − 1)σ 2
X̄ − µ
= r
2
Sn−1 σ2
nσ 2
X̄ − µ
=
Sn−1
√
n
Es decir, la variable aleatoria
X̄ − µ
t = ∼ tn−1
Sn−1
√
n
32
2.4 Distribución muestral de la proporción 2 DISTRIBUCIONES MUESTRALES
(Resultado también válido para muestras no aleatorias)

2
Para muestras grandes (n > 30), se cumplirá que Sn−1 = Sn2 ∼
∼ = σ 2 , y por consiguiente:
X̄ − µ
≈ N (0; 1)
Sn−1
√
n
Es decir, X̄ tendrá aproximadamente una distribución normal, como veremos más adelante Teo-
rema Central del Lı́mite (TLC).
2.4. Distribución muestral de la proporción
La proporción muestral, es la media muestral cuando las observaciones Xi sólo pueden tomar dos
valores 0 y 1 (ausencia o presencia de la caracterı́stica o propiedad de interés).
Puede asumirse que cada Xi sigue una distribución de Bernoulli de parámetro p (Xi ∼ B(p)).
Sabemos que en la distribución de Bernoulli la media es p, mientras que la varianza es p(1 − p).
En una muestra aleatoria, sea π la proporción muestral (estimador de p).
Entonces;
" n
#
1X
E [π] = E Xi
n i=1
n
1X
= E [Xi ]
n i=1
n
1X
= p
n i=1
1
= (np)
n
= p
33
2.4 Distribución muestral de la proporción 2 DISTRIBUCIONES MUESTRALES
Mientras que para la varianza,

n
!
1X
var (π) = var Xi
n i=1
n
1 X
= var (Xi )
n2 i=1
n
1 X
= p(1 − p)
n2 i=1
1
= (np(1 − p))
n2
p(1 − p)
=
n
Note que son expresiones parecidas al caso de X̄, donde σ 2 ha sido reemplazada por p(1 − p).
De una forma análoga puede verificarse que en muestras sin reposición, se verifica que:
E [π] = p
N − n p(1 − p)
var (π) =
N −1 n
Además, de manera equivalente puede verificarse que para n grande (muestras grandes) se cumple,

p(1 − p)
π ∼ N p;
n
La distribución en el muestreo de π, proporción observada en la muestra, se obtiene inmediatamente
de la distribución Binomial. En efecto:
r
P π= = PB (r)
n
n r
= p (1 − p)n−r
r
donde r es el número de elementos en la muestra que presentan la caracterı́stica de interés. LA
SUMA DE n VARIABLES CON DISTRIBUCIÓN DE BERNOULLI DE PARÁMETRO p ES
UNA NUEVA VARIABLE CON DISTRIBUCIÓN BINOMIAL.
r
Es decir, la probabilidad de que la porporción en la muestra sea es igual a la probabilidad de
n
obtener r elementos con esta caracterı́stica en una muestra de tamaño n; la cual es la distribución
Binomial:
π ∼ B (n; p)
34
2.5 Distribución muestral de la varianza 2 DISTRIBUCIONES MUESTRALES
2.5. Distribución muestral de la varianza
La varianza muestral viene definida por la siguiente expresión:
n
1X 2
Sn2 = Xi − X̄
n i=1
Mientras que la cuasivarianza muestral por,
n
2 1 X 2
Sn−1 = Xi − X̄
n − 1 i=1
Calculemos la esperanza para cada una de las estimaciones de la varianza poblacional.
1. Empezemos con la varianza muestral,

" n #
2 1X 2
E Sn = E Xi − X̄
n i=1
" n #
1X 2
= E Xi − µ + µ − X̄
n i=1
" n n n
#
1X 1 X 2 1 X
(Xi − µ)2 +

= E µ − X̄ + 2 (Xi − µ) µ − X̄
n i=1 n i=1 n i=1
Puesto que:
n n
1X 1 X
(Xi − µ) µ − X̄ = µ − X̄ (Xi − µ)
n i=1 n i=1
1
= µ − X̄ nX̄ − nµ
n
2
= − µ − X̄
35
2.5 Distribución muestral de la varianza 2 DISTRIBUCIONES MUESTRALES
" n #
1X 2 2
(Xi − µ)2 + µ − X̄ − 2 µ − X̄
2
⇒ E Sn = E
n i=1
" n #
1X 2
(Xi − µ)2 − µ − X̄

= E
n i=1
n
1X h 2 i
E (Xi − µ)2 − E µ − X̄

=
n i=1
n
1X σ2
= var(Xi ) −
n i=1 n
σ2
= σ2 −
n
n−1
= σ2
n
La varianza muestral no es centrada.
2. Veamos que sucede con la cuasivarianza muestral.
Se sabe que:
nSn2 = (n − 1)Sn−1
2
2 n
⇒ Sn−1 = Sn2
n−1
De este modo resulta;

2 n 2
E Sn−1 = E S
n−1 n
n
E Sn2

=
n−1
n n−1
= σ2
n−1 n
= σ2
La cuasivarianza muestral es un estimador centrado para σ 2 .
Sı́ la caracterı́stica de interés poblacional X sigue una distribución normal de parámetros µ y σ 2 ,

entonces la variable:
(n − 1) 2
χ2 = Sn−1 (11)
σ2
36
2.6 Teorema Central del Lı́mite 2 DISTRIBUCIONES MUESTRALES
Sigue una distribución Chi-Cuadrado con n − 1 grados de libertad. Es decir, si X ∼ N (µ; σ 2 ),

σ2
entonces X̄ ∼ N µ; n .
Verifiquemos que efectivamente sigue tal distribución.
Demostración. Primero observemos que,

n
2
X 2
(n − 1)Sn−1 = Xi − X̄
i=1
n
X 2
= Xi − µ + µ − X̄
i=1
n n n
X X 2 X
(Xi − µ)2 +

= µ − X̄ +2 (Xi − µ) µ − X̄
i=1 i=1 i=1
n
X 2 2
= (Xi − µ)2 + n µ − X̄ − 2n µ − X̄
i=1
n
X 2
= (Xi − µ)2 − n µ − X̄
i=1
Por consiguiente;
n 2
2
(n − 1)Sn−1 X (Xi − µ)2 µ − X̄
= −n
σ2 i=1
σ 2 σ2
n 2 !2
X Xi − µ µ − X̄
= −
σ √σ
i=1 n
2
(n − 1)Sn−1
⇒ ∼ χ2n − χ21
σ2
∼ χ2n−1
Pues cada uno de los n sumandos del primer término de la derecha de la ecuación sigue una
distribución normal estándar elevada al cuadrado, lo mismo sucede para el segundo término; y
como además se cumple que la suma (diferencia) de dos variables Chi-Cuadrado siguen también
una distribución con grados de libertad igual a la suma (resta) de ambas variables.
2.6. Teorema Central del Lı́mite
En muchos casos prácticos la distribución de la caracterı́stica de interés X no será siempre normal.

El Problema Central del lı́mite expresa que la distribución de la suma de un número muy grande
de variables aleatorias indenpendientes, en condiciones muy generales, se aproxima a la normal.
37
2.6 Teorema Central del Lı́mite 2 DISTRIBUCIONES MUESTRALES
Estos teoremas revelan las razones por la cual, en muchos campos de aplicación, se encuentran
distribuciones normales.
Si X1 , X2 , . . . , Xn son variables aleatorias independientes e idénticamente distribuidas (iid), enton-
ces: " # !!
n
X n
X n
X
Xi ∼ N E Xi ; var Xi
i=1 i=1 i=1
y por consiguiente
Pn Pn
i=1 Xi − E [ Xi ]
p Pn i=1 ∼ N (0; 1)
var ( i=1 Xi )
cuando el tamaño de la muestra sea lo suficientemente grande, es decir, cuando n → ∞.
Del resultado anterior, se deducen los siguientes teoremas:
Teorema 2.3 (Levy-Lindeberg). Sean {Xn }n∈N variables aleatorias iid con E[Xi ] = µ (finita)
y var(Xi ) = σ 2 (finita) ∀i. Entonces
Pn
i=1Xi − nµ
√ ∼ N (0; 1)
σ n
Demostración. Debemos demostrar que
t2

φZn (t) → exp − ; cuando n → ∞
2
con Pn
i=1 Xi − nµ
Zn = √
σ n
Al ser las Xi variables aleatorias independientes e idénticamente distribuidas, todas tendrán la
misma media µ, y la misma varianza σ 2 (las cuales suponemos que son valores finitos).
Será pues que ∀i ∈ N , E[Xi − µ] = 0
Haciendo Sn = ni=1 Xi , resulta que E[Sn ] = µ y var(Sn ) = nσ 2 .
P
Entonces ∀n ∈ N , se tiene:
Sn − nµ
Zn = √
nσ
Pn
i=1 Xi − nµ
= √
nσ
n
X Xi − µ
= √
i=1
nσ
38
2.7 Distribución muestral de la diferencia de2 dos
DISTRIBUCIONES
medias MUESTRALES
y
Pn
it i=1 (Xi − µ)
φZn (t) = E exp √
σ n
n
Y it(Xi − µ)
= E exp √
i=1
σ n
n
Y t
= φXi −µ √
i=1
σ n
En vista que, E[Xi − µ] = 0, el segundo momento de Xi − µ coincide con su varianza, y utilizando

además un desarrollo en serie de Taylor para φZn (t), con ε(t) → 0, cuando t → 0 (0 < ε(t) < t).
Se tendrá que ∀n ∈ N
σ 2 2 ε(t) 3
φXi −µ (t) = 1 − t + t
2 6
n
Y t
⇒ φZn (t) = φXi −µ √
i=1
σ n
n
σ2
2
Y t ε(t) 3
= 1− + t
i=1
2 σ2n 6
!n
t2
ε(t) 3
= 1− 2 + t
n 6
2
t
→ exp −
2
Que es justo lo que querı́amos demostrar.
Teorema 2.4 (Moivre). Sean {Xn }n∈N variables aleatorias iid con Xn ∼ Bin(n; p) ∀n. Entonces
X − np
p n ∼ N (0; 1)
np(1 − p)
La demostración se deja como ejercicio para el estudiante.
2.7. Distribución muestral de la diferencia de dos medias
Si en lugar de una población se consideran dos, y de cada una de ellas se selecciona una muestra
aleatoria, la primera de tamaño n1 (X1 , X2 , . . . , Xn1 ); y la segunda de de tamaño n2 (Y1 , Y2 , . . . , Yn2 )
de manera independiente de la primera.
Es decir;
39
DISTRIBUCIONES
medias MUESTRALES
En la primera población X es la caracterı́stica de interés tal que E[X] = µ1 y var(X) = σ12 ,

y sea (X1 , X2 , . . . , Xn1 ) una muestra aleatoria de ella.
En la segunda población la caracterı́stica de interés Y (la misma que se mide en la primera

población) tal que E[Y ] = µ2 y var(Y ) = σ22 , y sea (Y1 , Y2 , . . . , Yn2 ) una muestra aleatoria
de ella.
Entonces para el estadı́stico, diferencia de media muestrales X̄ − Ȳ , se cumple que:

E X̄ − Ȳ = E X̄ − E Ȳ
= µ1 − µ2
Mientras que,

var X̄ − Ȳ = var X̄ + var Ȳ
σ2 σ2
= 1+ 2
n1 n2
1. En el caso de que las poblaciones sean normales, es decir;
σ12

2

X ∼ N µ1 ; σ1 ⇒ X̄ ∼ N µ1 ;
n1
σ22

2

Y ∼ N µ2 ; σ2 ⇒ Ȳ ∼ N µ2 ;
n2
Sucederá que:
σ12 σ22

X̄ − Ȳ ∼ N µ1 − µ2 ; +
n1 n2
Demostración. La variable X̄ − Ȳ , tiene la función caracterı́stica:

φX̄−Ȳ (t) = E exp it(X̄ − Ȳ )

= E exp itX̄ exp −itȲ

= E exp itX̄ E exp −itȲ
= φX̄ (t)φȲ (−t)

it2 σ12 it2 σ22

= exp itµ1 − exp −itµ2 −
2n1 2n2
2
2 2

t σ1 σ2
= exp it(µ1 − µ2 ) − +
2 n1 n2
40
DISTRIBUCIONES
medias MUESTRALES
La última expresión es, precisamente la función caracterı́stica de una distribución normal
σ12 σ22

N µ1 − µ2 ; +
n1 n2
2. En caso que las poblaciones sean normales, pero se desconozcan σ12 y σ22 .
Para simplificar suponga que σ12 = σ22 = σ 2
σ 2 (n1 + n2 )

X̄ − Ȳ ∼ N µ1 − µ2 ;
n1 n2
σ 2 (n1 + n2 )
Note que es una varianza combinada de las dos poblaciones, de este modo:
n1 n2

X̄ − Ȳ − (µ1 − µ2 )
Z= r ∼ N (0; 1)
(n1 + n2 )
σ
n1 n2
Del mismo modo que se combinan las varianzas poblacionales podemos calcular las cuasiva-
rianzas muestrales, sean Sn21 −1 y Sn22 −1
Por argumento similar al presentado para una población, puede verificarse que,
(n1 − 1)Sn21 −1 + (n2 − 1)Sn22 −1

∼ χ2n1 +n2 −2
σ2
De este modo el estadı́stico t,
(X̄−r
Ȳ )−(µ1 −µ2 )
(n1 +n2 )
σ n1 n2
t = s
(n1 − 1)Sn21 −1 + (n2 − 1)Sn22 −1
σ 2 (n1 + n2 − 2)
q
(n1 n2 )
n1 +n2
X̄ − Ȳ − (µ 1 − µ 2 )
= s
(n1 − 1)Sn21 −1 + (n2 − 1)Sn22 −1
(n1 + n2 − 2)
∼ tn1 +n2 −2
41
DISTRIBUCIONES
proporciones MUESTRALES
3. Cuando los tamaños de muestras sean grandes, digamos n1 , n2 > 30
Sn21 −1 ≈ Sn21 ≈ σ12
Sn22 −1 ≈ Sn22 ≈ σ22
Por lo que el estadı́stico:

X̄ − Ȳ − (µ1 − µ2 )
Z = s
Sn21 −1 Sn22 −1
+
n1 n2
≈ N (0; 1)
2.8. Distribución muestral de la diferencia de dos proporciones
Al igual que en el caso de una muestra partimos del hecho que la proporción muestral es la media
aritmética de una variable que toma los valores 0 y 1 (ausencia o presencia de la caracterı́stica de
interés).
En la primera muestra de tamaño n1 las observaciones (X1 , X2 , . . . , Xn1 ), son variables aleatorias
con distribución de Bernoulli de parámetro p1 , es decir,
Xi ∼ B(p1 )∀ i = 1, . . . , n1
En la segunda muestra de tamaño n2 las observaciones (Y1 , Y2 , . . . , Yn2 ) (la cual es totalmente
independiente de la primera),
Yi ∼ B(p2 )∀ i = 1, . . . , n2
p1 y p2 son respectivamente las proporciones poblacionales. Combinando entonces los resultados

para la diferencia de medias (y el de una proporción) se tiene que:
Sean Π1 y Π2 las proporciones de ambas muestras.
⇒ Π1 ∼ Bin(n1 ; p1 )
y Π2 ∼ Bin(n2 ; p2 )
⇒ E [Π1 − Π2 ] = E [Π1 ] − E [Π2 ]
= p1 − p2
42
2.9 Distribución muestral del cociente de dos
2 DISTRIBUCIONES
varianzas MUESTRALES
⇒ var (Π1 − Π2 ) = var (Π1 ) + var (Π2 )

p1 (1 − p1 ) p2 (1 − p2 )
= +
n1 n2
Cuando los tamaños de ambas muestras sean relativamente grandes (n1 , n2 > 30), se tendrá por
el TLC.

p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
Π1 − Π2 ∼ N p̂1 − p̂2 ; + (12)
n1 n2
donde p̂1 y p̂2 representan valores concretos de las estimaciones de las proporciones en ambas
muestras, es decir, para una muestra concreta.
2.9. Distribución muestral del cociente de dos varianzas
Dada una muestra aleatoria (X1 , X2 , . . . , Xn1 ) de una población N (µ1 ; σ12 ) y (Y1 , Y2 , . . . , Yn2 ) de
una población N (µ2 ; σ22 ), ambas muestras independientes entre si.
Por una parte de los resultados previos, se tendrá que:
(n1 − 1)Sn21 −1
χ1 = 2
∼ χ2n1 −1
σ1
(n2 − 1)Sn22 −1
χ2 = ∼ χ2n2 −1
σ22
son variables aleatorias independientes (al ser las muestras independientes entre si).
Resulta entonces, que la distribución en el muestreo del estadı́stico,
(n1 − 1)Sn21 −1
(n1 − 1)σ12
F =
(n2 − 1)Sn22 −1
(n1 − 1)σ22
Sn21 −1
σ12
= 2 (13)
Sn2 −1
σ22
sigue una distribución F de Snedecor con n1 − 1 grados de libertad en el numerador y n2 − 1 grados
de libertad en el denominador.
43
2.10 Problemas propuestos 2 DISTRIBUCIONES MUESTRALES
1. Una variable aleatoria Xtoma los valores 1, 2, 3, 4 y 5. Estudiar la distribución en el muestreo

para la media muestral X̄, en los casos que el tamaño de la muestra aleatoria sea:
a) 2 b) 3 c) 4 d) 5
2. Repetir el problema anterio, pero considerando que las muestras no son aleatorias (es decir,
muestras se seleccionan sin reemplazamiento).
3. Sea (X1 , X2 , . . . , Xn ) una muestra aleatoria de una población N (µ; σ 2 ) y Xn+1 una varia-
ble aleatoria independiente de la muestra anterior. Calcúlese la distribución de la variable
aleatoria r
n Xn+1 − X̄
Y =
n+1 S
Siendo S 2 , la cuasivarianza muestral.
4. Demuéstrese que dada una muestra aleatoria (X1 , X2 , . . . , Xn ) de una población N (µ; σ 2 ),
las variables aleatorias X̄ y Xi − X̄ son independientes para todo i.
1
5. Sea X una población de Bernoulli de parámetro 2
y se consideran todas las muestras aleato-
rias posibles de tamaño 3. Para cada muestra calcúlese X̄ y S 2 , la media y la cuasivarianza
muestrales y determı́nense sus distribuciones en el muestreo.
6. Dada una muestra aleatoria (X1 , X2 , . . . , Xn ) de una población N (µ; σ 2 ) se construyen:

k n
1X 1 X
X̄k = Xi X̄n−k = Xi
k i=1 n − k i=k+1
k n
2 1 X 1 X
Sk−1 = (Xi − X̄k )2 2
Sn−k−1 = (Xi − X̄k )2
k − 1 i=1 n − k − 1 i=k+1
Calcúlese la distribución de las variables aleatorias:
a)
2 2
(k − 1)Sk−1 + (n − k − 1)Sn−k−1
σ2
44
b)
2
Sk−1
2
Sn−k−1
7. Dada dos muestras aleatorias independientes (X1 , X2 , . . . , Xm ) de una población N (µ1 ; σ12 )
e (Y1 , Y2 , . . . , Yn ) de una población N (µ2 ; σ22 ) respectivamente, y dos números reales α y β,
hállese la distribución de la variable aleatoria
α(X̄ − µ1 ) + β(Ȳ − µ2 )
q
Sp m1 + n1
Donde
(m − 1)S12 + (n − 1)S22
Sp2 =
n+m−2
siendo S12 y S22 las cuasivarianzas muestrales.
8. Dada una muestra aleatoria de tamaño n, calcule la distribución de la media muestral X̄,
cuando la población es:
a) Bernoulli.
b) Gamma.
c) Exponencial.
d ) Cauchy.
9. Demostrar que para una muestra aleatoria de tamaño n de una población N (µ; σ 2 ) se tiene
que el segundo momento muestral respecto de la media (la varianza muestral) y la media
muestral, son variables aleatorias independientes.
10. Dada una muestra aleatoria de tamaño n, de una población con momento poblacional de
cuarto orden finito, demostrar que:
n
E S2 = σ2

n−1
β4 − β22 β4 − 2β22 β4 + 3β22
var S 2 =

−2 − 4
n n2 n3

Donde βk = E (X − µ)k , el momento poblacional de orden k respecto al centro de los datos.
S 2 denota la varianza muestral.
45
1
11. De una población binomial de parámetro n = 3 y p = ; se extraen muestras aleatorias de
2
tamaño 2. Determine:
a) Distribución de la muestra.
b) Distribución de la media muestral.
c) Esperanza y varianza de la media muestral.
d ) Distribución de la varianza muestral.
e) Esperanza de la varianza muestral.
12. Sea una urna con 100 bolas de las cuales 20 están marcadas con el número uno, 30 con el dos y
50 con el tres. Se extraen dos bolas al azar. Determine, primero suponiendo reemplazamiento
en la extracción de las bolas y después no:
a) Distribución de probabilidad de la muestra.
b) Distribución de probabilidad, esperanza y varianza de la media.
c) Comente los resultados obtenidos con y sin reemplazamiento.
13. Se lanza dos veces un dado ideal (todas las caras tienen igual probabilidad de ocurrencia).
Determine:
a) Distribución de probabilidad de la puntuación máxima obtenida.
b) Probabilidad de que la puntuación máxima sea superior a 4.
c) Si apuesta un millón de dólares a que la puntuación máxima en el lanzamiento de dos

dados es superior a 4, ¿cuál es su ganancia esperada?
14. Los salarios mensuales de dos trabajadores de dos sectores económicos A y B se distribuyen
independientemente según las leyes de probabilidad.
Salarios en el sector A ∼ N (125; 30)
Salarios en el sector B ∼ N (125; 60)
Para muestras independientes de tamaño 100 en el sector A y de tamaño 90 en el sector B,

determine:
46
a) Distribución de probabilidad de la media muestral en el sector A.
b) Distribución de probabilidad de la media muestral en el sector B.
c) Distribución de probabilidad de la media muestral en el sector A menos la media mues-

tral en el sector B.
15. De una población normal se toman dos muestras: la primera de tamaño 10 es tal que la su
varianza es igual a 9; en la segunda de tamaño 8 se tiene que su varianza muestral es 20.
¿Cuál es la probabilidad de la diferencia de medias sea menor que 3?
16. El tiempo en minutos que un cliente debe esperar hasta ser atendido en una pastelerı́a de
moda sigue una distribución exponencial, de modo que:
x
F (x) = P (X ≤ x) = 1 − exp −
2
Se elige una muestra de 100 clientes, y se miden los tiempos de espera. A partir de esta
muestra se pide:
a) Esperanza de la media muestral.
b) Varianza de la media muestral.
c) Esperanza de la varianza muestral.
17. Consideremos una muestra de tamaño 4 de una población normal N (µ, σ 2 ), donde se desea
estimar la media. Para ello se consideran los estimadores:
1
T1 = (X1 + X2 + X3 + X4 )
4
1 1 1
T2 = X1 + X2 + (X3 + X4 )
2 4 8
a) Encuentre la esperanza de ambos estimadores.
b) Encuentre la varianza de ambos estimadores.
c) ¿Cuáles son las distribuciones de ambos estimadores?
18. Sea X una variable aleatoria con distribución de Poisson de parámetro λ. Dada una muestra
aleatoria de tamaño n, encontrar la función de densidad conjunta de la muestra.
47
19. Sean (X1 , X2 , . . . , X25 ) e (Y1 , Y2 , . . . , Y25 ) dos muestras aleatorias independientes de dos po-
blaciones N (0; 42 ) y N (1; 32 ). Determine:
a) La distribución de muestreo de la diferencia de medias.
b) Calcule P (X̄ > Ȳ ).
20. Una población consiste en cuatro números 1, 2, 3 y 4. Se extraen dos elementos sin reempla-
zamiento y se nota por (X1 , X2 ) los valores obtenidos. Se pide
a) Distribución conjunta de (X1 , X2 ).
b) Distribución de la media muestral.
21. La duración media de una muestra aleatoria de 10 bombillas de una población de desviación
tı́pica 425 horas, fue de 1327 horas. Una muestra aleatoria independiente de la anterior
de tamaño 6 de una población con desviación tı́pica de 375 horas, arrojó una duración
media muestral de 1215 horas. Si las medias de las dos poblaciones se supones iguales, ¿qué
probabilidad se tiene de obtener una desviación de las muestrales menor que la que se ha
obtenido?
22. Una población se compone de los cinco números 2, 3, 6, 8, 11. Considerar todas las mues-
tras posibles de tamaño dos que se puedan extraer con reemplazamiento de esta pobla-
ción.Encontrar:
a) La distribución de la media muestral.
b) Distribución de la varianza muestral.
c) Distribución de la cuasivarianza muestral.
23. Repetir el problema anterior pero considerando el caso que las muestras se eligen sin reem-
plazamiento.
24. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media 22.4 onzas y
desviación tı́pica 0.048 onzas. Si se extraen 300 muestras de tamaño 36 de esta población,
determinar la esperanza y la desviación tı́pica de la distribución muestral de medias si el
muestreo se hace con reemplazamiento, ¿y si se hace sin reemplazamiento?
48
25. Una población de 7 números tiene una media de 40 y una desviación tı́pica de 3. Si se extraen
muestras de tamaño 5 de esta población y se calcula la cuasivarianza de cada muestra, hallar
la media de la distribución muestral de cuasivarianzas si el muestreo es con reemplazamiento,
¿y en el caso de ser muestras sin reemplazamiento?
26. Tenemos una variable aleatoria que toma los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y
0.7, respectivamente. Encuentre la distribución muestral de la cuasivarianza muestral y en
base a ella encuentre la esperanza de la cuasivarianza en los siguientes casos:
a) Tamaño de muestra dos y con reemplazamiento.
b) Tamaño de muestra dos y sin reemplazamiento.
c) Tamaño de muestra tres y con reemplazamiento.
d ) Tamaño de muestra tres y sin reemplazamiento.
27. Para muestras aleatorias de tamaño 10, encuentre la media y la varianza de la media muestral
en el caso que:
a) Si la población es Poisson con parámetro igual a 1.
b) Si la población es Bernoulli de parámetro 0.3.
c) Si la población es normal con media igual a varianza e iguales a 1.
28. Sea una población Poisson de parámetro igual 0.1 de la cual se toma una muestra aleatoria
de tamaño 2. Determine la distribución de probabilidad, esperanza y varianza de la media
muestral. Considere únicamente los primeros cuatro valores que puede tomar la variable.
29. Encuentre la distribución en el muestreo de la media para muestras aleatorias de tamaño

n las cuales proceden de una población con distribución gamma de parámetros p + 1 y θ
(G(p + 1, θ)) ası́ como la esperanza y varianza de la media muestral, utilizando la función
caracterı́stica de esta última.
30. Demuestre el Teorema de Moivre.
49
3 ESTIMACIÓN DE PARÁMETROS
3. ESTIMACIÓN DE PARÁMETROS
3.1. Introducción
La estimación de un parámetro involucra el uso de datos muestrales en conjunción con algún

estimador. Existen dos formas de llevar a cabo lo anterior: la estimación puntual y la estimación por
intervalos de confianza. En la primera se busca un estimador, que con base en los datos muestrales,
dé origen a un único valor del parámetro y que recibe el nombre de estimación (estimado) puntual.
Para la segunda, se determina un intervalo en el que, en forma probable, se encuentre el valor del
parámetro. Este recibe el nombre de intervalo de confianza estimado.
Denotaremos de aquı́ en adelante como f (X; θ) a la función de densidad (probabilidad), de la
caracterı́stica de interés, donde la función depende de un parámetro arbitrario θ (el cual es desco-
nocido pero constante). Nuestro principal objetivo es presentar los criterios convenientes para la
determinación de los estimadores de θ.
f (X; θ) depende del valor de θ, pero será siempre de la misma familia (normal, binomial, beta,
etc.)
Estimación puntual
θ̂ = f (X1 , X2 , . . . , Xn )
Estimación por intervalo

P (θ̂1 ≤ θ ≤ θ̂2 ) = α
donde
θ̂i = fi (X1 , X2 , . . . , Xn )
El estimador θ̂ será una variable aleatoria (función de variables aleatorias muestrales) (X1 , X2 , . . . , Xn ),
y se transformará en una estimación del parámetro θ, un valor concreto, cuando las variables mues-
trales (X1 , X2 , . . . , Xn ) se conviertan en datos observados al obtenerse una muestra determinada.
3.2. Propiedades de los estimadores
Es posible definir muchos estimadores para tratar de estimar un parámetro desconocido θ. Enton-
ces, ¿cómo seleccionar un buen estimador de θ?, ¿cuáles son los criterios para juzgar cuando un
50
3.2 Propiedades de los estimadores 3 ESTIMACIÓN DE PARÁMETROS
estimador de θ es “bueno” o “malo”?, ¿qué es un buen estimador?

Suponga para esto que θ̂1 , θ̂2 y θ̂3 son tres estimadores distintos para θ, y que construimos la
distribución de frecuencias para cada uno de ellos tal y como se muestra en la figura 3.
Figura 3: Comparación de estimadores
La intuición sugiere que θ̂3 podrı́a considerarse como el mejor estimador de θ, no solo porque se
concentra alrededor del valor de θ, sino porque además su variabilidad es pequeña. θ̂2 no serı́a
tan bueno porque tiene una mayor variabilidad que la de θ̂2 3 a pesar que también se concentra
alrededor de θ. Mientras que θ̂1 serı́a el peor de todos pues apesar que tiene aproximadamente la
misma variabilidad que θ̂3 , no se encuentra concentrado alrededor de θ, por lo que es poco probable
acertar con una muestra el verdadero valor.
Es de recalcar que en la práctica, sólo tendremos acceso a la información contenida por una sola
muestra, por lo que debe tomarse el “mejor” estimador posible para el parámetro de interés.
De los comentarios anteriores surgen dos propiedades deseables que un estimador θ̂ debe tener una
distribución en el muestreo concentrada alrededor del valor de θ, y la varianza de θ̂ debe ser la
menor posible.
Sea θ̂ = T (X1 , X2 , . . . , Xn ) un estimador, y (X1 , X2 , . . . , Xn ) una muestra aleatoria.
Al ser desconocido el parámetro θ nunca sabemos exactamente hasta qué punto cada estimación
se encuentra lejos o cerca del valor del parámetro. Para establecer la bondad de un estimador,
partimos del hecho de conocer si la estimación se encuentra lejos o cerca del verdadero valor
51
siempre desconocido.
El error que podemos cometer, es la diferencia entre θ̂ y θ, para eliminar signo se toma el cua-
2
drado, θ̂ − θ . Si fuera posible obtener todas las muestras posibles y para cada una de ellas su
estimación, un medida global de los errores es el Error Cuadrático Medio, el cual se presenta en la
siguiente definición.
Definición 3.1. Sea θ̂ cualquier estimador de un parámetro desconocido θ, se define el Error

Cuadrático Medio de θ̂ como la esperanza matemática del cuadrado de la diferencia entre θ̂ y θ, se
denotará por ECM (θ̂), es decir;
h i2
ECM (θ̂) = E θ̂ − θ (14)
Un valor pequeño de ECM (θ̂) indicará que, en media, el estimador no se encuentra lejos lejos de
θ, inversamente, cuánto mayor sea ECM (θ̂), θ̂ estará más alejado de θ, también en media.
Para un mejor cálculo de E(θ̂), se puede escribir como:
h i2
ECM θ̂ = E θ̂ − θ
h h i h i i2
= E θ̂ − E θ̂ + E θ̂ − θ
h h ii2 h h i i2
= E θ̂ − E θ̂ + E θ̂ − θ
2
= var θ̂ + sesgo θ̂
El Error Cuadrático Medio de cualquier estimador θ̂ es la suma de dos cantidades no negativas,

una es la varianza del estimador y la otra es el cuadrado del sesgo (diferencia entre la esperanza
del estimador y el parámetro a estimar) del estimador. Deducimos entonces que un alto valor de
ECM (θ̂) puede deberse a un valor alto de la varianza, a un alto valor del sesgo, o ambos a la vez.
En principio el problema (seleccionar estimadores) visto de manera superficial parece bastante
sencillo; esto es, seleccionar, como mejor estimador de θ, el que tenga menor ECM (θ̂) de entre
todos los estimadores posibles y factibles de θ. Sin embargo, un estimador puede tener un Error
Cuadrático Medio mı́nimo para algunos valores de θ, mientras que otro estimador tendrá la misma
52
propiedad, pero para otros valores de θ.
EJEMPLO 3.1
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que E[Xi ] = µ y var(Xi ) = σ 2 , y consideremos los
estimadores siguientes para µ:
n
1X
θ̂1 = Xi
n i=1
n
1 X
θ̂2 = Xi
n + 1 i=1
Entonces,
2
ECM θ̂1 = var θ̂1 + sesgo θ̂1
σ2
=
n
Mientras que
2
ECM θ̂2 = var θ̂2 + sesgo θ̂2
2
n n
= var θ̂1 + µ−µ
n+1 n+1
n2 σ 2 µ2
= +
(n + 1)2 n (n + 1)2
1 2 2

= nσ + µ
(n + 1)2
Para un tamaño de muestra n = 10 y σ 2 = 100, tendrı́amos

ECM θ̂1 = 10
1000 + µ2
ECM θ̂2 =
121
√
y se cumplirá que para µ > 210 que ECM θ̂1 < ECM θ̂2 ; mientras que para que para
√
µ < 210 que ECM θ̂2 < ECM θ̂1 .
Sin embargo, a partir del Error Cuadrático Medio construiremos una buena parte de las propiedades
que es razonable exigir a un estimador para ser considerado como “bueno”.

Para que ECM θ̂ sea mı́nimo es necesario que los dos sumandos sean mı́nimos. El sesgo de θ̂
será mı́nimo cuando valga 0, los cual no lleva a la primera propiedad.
53
Definición 3.2. Se dice que un estimador θ̂ es un estimador insesgado del parámetro θ, si para
todos los posibles valores de θ se cumple que E[θ̂] = θ. De este modo la distribución en el muestreo
de θ̂ se encuentra centrada alrededor de θ y ECM (θ̂) = var(θ̂).
La media muestral X̄ es un estimador insesgado de µ (media poblacional); mientras que la cuasi-

2
varianza muestral Sn−1 es un estimador insesgado de la varianza poblacional σ 2 , no ası́, la varianza
muestral Sn2 .
Es razonable esperar que un buen estimador de un parámetro θ sea cada vez mejor conforme crece
el tamaño de la muestra. Esto es conforme la información en una muestra se vuelve más completa,
la distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor
del párametro θ. Se tendrá una mejor estimación de θ si se base en 30 observaciones que si lo hace
sólo con 5.
Definición 3.3. Sea θ̂ el estimador de un parámetro θ, y sea θ̂1 , θ̂2 , . . . , θ̂n una sucesión de esti-
madores que representan a θ̂ con base a muestras de tamaño 1, 2, . . . , n, respectivamente. Se dice
que θ̂ es un estimador consistente para θ si:

lı́m p |θ̂ − θ| ≤ ε = 1 (15)
n→∞
para todos los valores de θ y ε > 0

o de manera equivalente
h i
lı́m E θ̂ = 0 (16)
n→∞

El requisito de que lı́m P |θ̂ − θ| ≤ ε = 1 para todo θ constituye lo que se denomina convergencia
n→∞
en probabilidad. Es decir, si un estimador es consistente, converge en propabilidad al valor del
parámetro que está intentando estimar conforme el tamaño de la muestra crece.
EJEMPLO 3.2
La media muestral X̄, es un estimador consistenta para µ, es decir:

lı́m P |X̄ − µ| ≤ ε = 1
n→∞
Demostración.

E X̄n = µ
σ2
var X̄n =
n
54
Según el Teorema de Tchebysheff

σ 1
P |X̄ − µ| > k √ ≤ 2
n k
√
ε n
Tomemos k = σ
, entonces
σ2
P |X̄ − µ| > ε ≤ 2
εn

⇒ lı́m P |X̄ − µ| > ε = 0
n→∞
Por tanto se concluye que

lı́m P |X̄ − µ| < ε = 1
n→∞
Es decir, X̄ es consistente.
Definición 3.4. Un estimador θ̂ se dice que es eficiente para el parámetro θ, si entre todos los
posibles estimadores insesgados que pueden obtenerse para θ es el que tenga la menor varianza
posible. Es decir, θ̂ si
var(θ̂) = min{var(θ̂s )} (17)
donde θ̂s es la familia de estimadores insesgados para θ.
En otras palabras, si θ̂1 y θ̂2 son estimadores de θ, θ̂1 será eficiente siempre y cuando var(θ̂1 ) ≤
var(θ̂2 ). Si son sesgados se utiliza el Error Cuadrático Medio.
Esta propiedad exige que el estimador que se utilice genere estimaciones parecidas para las dife-
rentes muestras que puedan obtenerse de la población.
Definición 3.5. Un estimador θ̂ de un parámetro θ se dice que es un estimador suficiente cuando

utiliza toda la información contenida en la muestra. En otras palabras, se dice que un estimador
θ̂ es suficiente, si la distribución conjunta de la muestra aleatoria (X1 , X2 , . . . , Xn ) dado θ̂, se
encuentra libre de θ (no depende de θ). Es decir,
f (X1 , X2 , . . . , Xn /θ̂; θ) = h(θ̂; θ)g(X1 , X2 , . . . , Xn ) (18)
donde g(X1 , X2 , . . . , Xn ) no depende de θ.
55
3.3 Cota para la varianza de un estimador 3 ESTIMACIÓN DE PARÁMETROS
3.3. Cota para la varianza de un estimador
Sea una población definida por la función de densidad f (X; θ) que contiene al parámetro descono-
cido, estimado mediante, θ̂.
La función de verosimilitud es simplemente la distribución conjunta de la muestra
L(X1 , X2 , . . . , Xn ; θ) = f (X1 , X2 , . . . , Xn ; θ)
con lo que resulta que:

∂sesgo θ̂
1+
var θ̂ ≥ ∂θ 2 (19)
∂ ln L(X1 , X2 , . . . , Xn ; θ)
E
∂θ
La expresión (19) es conocida como la cota de Cramer-Rao, que indica que la varianza de un
estimador, para un tamaño de muestra dado, no puede ser menor que ésta.
Si la muestra con la que se trabaja es aleatoria sucede que:
L(X1 , X2 , . . . , Xn ; θ) = f (X; θ)n
Entonces,
ln L(X1 , X2 , . . . , Xn ; θ) = n ln f (X; θ)
Por lo que la cota de Cramer es:

∂sesgo θ̂
1+
var θ̂ ≥ ∂θ 2 (20)
∂ ln f (X; θ)
nE
∂θ
Si el estimado fuese insesgado, la cota se convierte en:
1
var θ̂ ≥ 2 (21)
∂ ln f (X; θ)
nE
∂θ
Puede apreciarse que la cota depende únicamente del tamaño muestral y de la función de densidad.
La cota también podrı́a utilizarse para saber si un estimador es eficiente (si la cota coincide con
la varianza del estimador).
56
3.4 Métodos de estimación 3 ESTIMACIÓN DE PARÁMETROS
3.4. Métodos de estimación
Anteriormente hemos visto las propiedades deseables de un buen estimador. Ahora nos concentra-
remos en la forma de cómo obtener esos estimadores, de manera que tengan buenas propiedades.
Trataremos únicamente con los más utilizados y que cumplen la mayorı́a de las propieades.
3.4.1. Máxima verosimilitud
El método de máxima verosimilitud se fundamenta en el supuesto intuitivo siguiente: de varios

sucesos que pueden tener lugar, admitimos que aparecerá el más probable, o si ha aparecido uno
concreto será razonable suponer que, entre todos los posibles, era el más probable.
El método consiste en lo siguiente:
Tenemos una variable aleatoria X, con función de densidad f (X; θ), siendo θ el parámetro
desconocido que se desea estimar.
Seleccionar una muestra aleatoria de tamaño n, (X1 , X2 , . . . , Xn ) de dicha población.
Construimos la función de verosimilitud de la muestra, que no es más que la función de

densidad conjunta de la muestra.
L(X1 , X2 , . . . , Xn ; θ)
Para la selección del estimador θ̂ del parámetro θ, de entre todos los posibles valores que
puede tomar, se toma θ̂ de manera que:
L(X1 , X2 , . . . , Xn ; θ̂) = max{L(X1 , X2 , . . . , Xn ; θ)}
Para encontrar el valor que maximiza la función conjunta de la muestra (el estimador θ̂),
se deriva con respecto al parámetro θ y se iguala a cero (se obtiene una ecuación con una
incógnita). La solución (θ̂), será únicamente una función que depende de los elementos en
la muestra (y no del parámetro), será el estimador de máxima verosimilitud del parámetro,
siempre y cuando se verifique la condición de máximo. En la mayorı́a de los casos es más
conveniente trabajar con el logaritmo de la función conjunta, a dicho logaritmo se le da el
nombre de función soporte.
57
EJEMPLO 3.3
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribución normal µ y σ 2 (X ∼ N (µ; σ 2 )) con
función de densidad,
(x − µ)2

2 1
f (X; µ, σ ) = √ exp −
2Πσ 2 2σ 2
Determine los estimadores de µ y σ 2 por el método de máxima verosimilitud.
Solución. La función de verosimilitud es
n
Y
2
L(X1 , X2 , . . . , Xn ; µ, σ ) = f (Xi ; µ, σ 2 )
i=1
n
(Xi − µ)2

Y 1
= √ exp −
i=1 2Πσ 2 2σ 2
n " n
#
2

1 X (Xi − µ)
= √ exp −
2Πσ 2
i=1
2σ 2
La función soporte es:
n
2 n n 2 1 X
ln L(X1 , X2 , . . . , Xn ; µ, σ ) = − ln(2Π) − ln(σ ) − 2 (Xi − µ)2
2 2 2σ i=1
Para obtener el estimador de µ se deriva con respecto a µ y se iguala a 0,
n
∂ ln L(X1 , X2 , . . . , Xn ; µ, σ 2 ) 1 X
=− 2 (Xi − µ) = 0
∂µ 2σ i=1
lo cual implica que µ̂ = X̄.

Mientras que el estimador de σ 2
n
∂ ln L(X1 , X2 , . . . , Xn ; µ, σ 2 ) n 1 1 X
= − + (Xi − µ)2
∂σ 2 2 σ 2 2(σ 2 )2 i=1
= 0
n
1X
⇒ σ2 = (Xi − µ)2
n i=1
de donde deducimos que
n
1X 2
σ̂ = (Xi − X̄)2
n i=1
El método de máxima verosimilitud, selecciona como estimador a aquel valor del parámetro que
tiene la propiedad de maximizar el valor de la probabilidad de la muestra observada. Consiste más
bien en encontrar el valor del parámetro que maximiza la función de verosimilitud.
58
3.4.2. Propiedades de los estimadores de máxima verosimilitud
Insesgadez:
Los estimadores son por lo general sesgados, sin embargo, son insesgados asintóticamente, es
decir, si θ̂ es un estimador por máxima verosimilitud del parámetro θ, entonces:
h i
lı́m E θ̂ = θ
n→∞
Consistencia:
Bajo condiciones generales, los estimadores son consistentes.
Eficiencia:
Si existe un estimador cuya varianza es igual a la cota de Cramer-Rao, entonces es el obte-

nido por máxima verosimilitud. No todo estimador de máxima verosimilitud es eficiente, sin
embargo, si existe un estimador eficiente es el obtenido por máxima verosimilitud.
Normalidad
Los estimadores son asintóticamente normales con esperanza θ y asintóticamente eficientes
 
 1 
lı́m θ̂ ∼ N θ;
 
2 
n→∞  ∂ ln L(X1 , X1 , . . . , Xn ; θ) 
E
∂θ
Suficiencia
Si T es un estimador suficiente de θ, el estimador θ̂ (máxima verosimilitud) es función de T ,

θ̂ = g(T ).
Invarianza
Si θ̂ es un estimador de θ, g(θ̂) será un estimador de g(θ). Los estimadores son invariantes

ante transformaciones de θ.
59
3.4.3. Método de los momentos
Quizá el método más antiguo para la estimación de parámetros es el método de los momentos.
Este consiste en igualar los momentos apropiados de la distribución de la población con los corres-
pondientes momentos en la muestra para estimar el parámetro desconocido. Los momentos son
con respecto al origen.
Si ak es el momento de orden k con respecto al origen el la muestra y αk lo es en la población.
Entonces:
E [ak ] = αk (22)
ak es un estimador insesgado de αk .
El procedimiento consiste en:
Seleccionar una muestra aleatoria de tamaño n, (X1 , X2 , . . . , Xn ).
Calculamos los primeros k momentos muestrales con respecto al origen dependiendo del
número k de parámetros a estimar,
n
1X k
ak = X
n i=1 i
Igualamos cada momento muestral con su correspondiente momento poblacional obteniendo

ası́, un sistema de ecuaciones con k incógnitas (k variables) muchos de ellos son lineales.
a1 = α 1
a2 = α 2
.. ..
. .
ak = α k
La solución del sistema proporciona los estimadores de los parámetros
θ̂1 = f1 (a1 , a2 , . . . , ak )
θ̂2 = f2 (a1 , a2 , . . . , ak )
.. ..
. .
θ̂k = fk (a1 , a2 , . . . , ak )
60
3.5 Estimación por Intervalos de confianza en3 una
ESTIMACI
poblaciÓN
ón DE PARÁMETROS
En condiciones generales, los estimadores obtenidos son consistentes. Pueden tener otras propie-
dades pero no se cumplirán siempre.
EJEMPLO 3.4
En una población N (µ; σ 2 ) determinar los estimadores para µ y σ 2 por el método de los momentos.
Solución. Para una muestra aleatoria de tamaño n (X1 , X2 , . . . , Xn ),
n
1X
a1 = Xi = X̄
n i=1
n
1X 2
a2 = X
n i=1 i
Mientras que en la población
α1 = µ
α 2 = σ 2 + µ2
El esistema es:
µ = X̄
n
2 2 1X 2
σ +µ = X
n i=1 i
La solución es:
µ̂ = X̄
n
2 1X 2
σ̂ = X − X̄ 2
n i=1 i
n
1X
= (Xi − X̄)2
n i=1
= S2
Es decir, las estimaciones para µ y σ 2 , son respectivamente la media muestral y la varianza

muestral.
3.5. Estimación por Intervalos de confianza en una población
Cuando se toma una muestra aleatoria se obtiene un único valor para el estimador θ̂, a ciencia
cierta si desconocemos totalmente el valor del parámetro θ, no podemos saber si θ̂ se encuentra
61
ESTIMACI
poblaciÓN
cerca o lejos de θ (debido a la aleatoriedad de la muestra). Otra forma de estimar un parámetro

es mediante un intervalo de valores, en el cual confiamos que se encuentre el verdadero valor del
parámetro θ. Dicho intervalo recibe el nombre de intervalo de confianza.
El problema que abordaremos de aquı́ en adelante es que se desea estimar un parámetro poblacional
θ mediante el estimador θ̂, para esto debemos encontrar números reales inf (X; θ̂) y sup(X; θ̂) tales
que:
h i
θ ∈ inf (X; θ̂), sup(X; θ̂) (23)
ocurra con probabilidada alta, digamos 1 − α.

Es decir,

P inf (X; θ̂) ≤ θ ≤ sup(X; θ̂) = 1 − α (24)
y donde inf (X; θ̂) y sup(X; θ̂) dependan únicamente de θ̂ y de valores que puedan conocerse.
a 1 − α se le da el nombre de nivel de confianza. Mientras que a α nivel de significancia.
Téngase en cuenta que, el intervalo de confianza es un intervalo aleatorio, pues depende de los
elementos seleccionados en la muestra.
El intervalo de confianza no representa la probabilidad de que el parámetro θ se encuentre en el
intervalo es igual a 1 − α, pues:
θ será un parámetro desconocido, lo que impide verificar la afirmación.

En P inf (X; θ̂) ≤ θ ≤ sup(X; θ̂) las variables aleatorias son inf (X; θ̂) y sup(X; θ̂) y no el
parámetro θ.
h i
1 − α es la probabilidad que el intervalo aleatorio inf (X; θ̂), sup(X; θ̂) incluya el verdadero
valor del parámetro antes de extraer la muestra. Una vez seleccionada la muestra, la probabilidad
de que el parámetro θ se encuentre en el intervalo es 1 ó 0, dependiendo de si el parámetro se
encuentra en el intervalo o no de la muestra seleccionada. En esta situación no se puede hablar
de probabilidad del intervalo al nivel 1 − α sino de la confianza puesto que, una vez extraı́da la
muestra, la probabilidad será 1 ó 0, y no la inicial 1 − α que se transforma en confianza.
El concepto de confianza también puede interpretarse como: si se repitiera el experimento muestral
(se tomarán varias muestras) muchas veces, en el 100(1 − α) % de los casos se confiarı́a que el
parámetro θ pertenecerá al intervalo.
62
ESTIMACI
poblaciÓN
Los intervalos anteriores son bilaterales, pues se especifica tanto inf (X; θ̂) como sup(X; θ̂), en
algunos casos el intervalo se deja abierto dejando a inf (X; θ̂) = −∞ o sup(X; θ̂) = ∞ , se habla
en ese caso de intervalos unilaterales:

P θ ≥ inf (X; θ̂) = 1 − α

P θ ≤ sup(X; θ̂) = 1 − α
La interpretación de dicho intervalos es la misma al del caso bilateral.
3.5.1. Intervalo de confianza para la media
Supongamos que la caracterı́stica de interés X sigue una distribución N (µ; σ 2 ), siendo únicamente
desconocido el valor de µ. De dicha población seleccionamos una muestra aleatoria de tamaño n.
Lo que deseamos es encontrar valores reales, digamos k1 y k2 , tales que
P (k1 ≤ µ ≤ k2 ) = 1 − α
Puesto que:
si X ∼ N (µ; σ 2 )
σ2

⇒ X̄ ∼ N µ;
n
1. Suponiendo que la varianza poblacional sea conocida.
De este modo la variable aleatoria,
X̄ − µ
Z= σ ∼ N (0; 1)
√
n
Tomenos Z α2 y Z1− α2 como los valores tabulares de la distribución N (0; 1) tales que entre
ellos se encuentra contenida un área igual a 1 − α. Como la distribución N (0; 1) es simétrica
resulta que Z1− α2 = −Z α2 (valor que deja por encima de el un área igual a α2 ).
De este modo el intervalo buscado será simétrico y a la vez tendrá longitud mı́nima, resulta
entonces;
63
ESTIMACI
poblaciÓN

P −Z α2 ≤ Z ≤ Z α2 = 1 − α
!
X̄ − µ
P −Z α2 ≤ σ ≤ Z α2 = 1−α
√
n

σ σ
P − √ Z α2 ≤ X̄ − µ ≤ √ Z α2 = 1−α
n n

σ σ
P X̄ − √ Z α2 ≤ µ ≤ X̄ + √ Z α2 = 1−α
n n
Con lo que los valores buscados son:
σ
k1 = X̄ − √ Z α2
n
σ
k2 = X̄ + √ Z α2
n
Por lo que el intervalo de confianza para la media poblacional µ es:

σ σ
µ ∈ X̄ − √ Z α2 , X̄ + √ Z α2
n n
2. En el caso de que la varianza poblacional σ 2 sea desconocida, para encontrar el intervalo de

confianza para µ no podemos proseguir como en el caso anterior, sin embargo, se sabe que
la variable aleatoria,
X̄ − µ
T = ∼ tn−1 (25)
Sn−1
√
n
La distribución t de Student ya se encuentra tabulada, por lo que para encontrar el intervalo
de confianza procedemos como en el caso anterior, sustituimos la distribución N (0; 1) por la
t de Student para n − 1 grados de libertad.
α
α
Tomemos tn−1
2
como el valor que deja por encima de el un área igual a 2
en la distribución
α
t de Student con n − 1 grados de libertad (por consiguiente −tn−1 será el valor que deje por
2
debajo esa misma área).
64
ESTIMACI
poblaciÓN
Resulta que:
α α
P −tn−1 ≤ T ≤ tn−1 = 1 − α
2 2
!
α X̄ − µ α
P −tn−1
2
≤ Sn−1 ≤ tn−1
2
= 1−α
√
n

Sn−1 α2 Sn−1 α2
P − √ tn−1 ≤ X̄ − µ ≤ √ tn−1 = 1−α
n n

P X̄ − √ tn−1 ≤ µ ≤ X̄ + √ tn−1 = 1−α
n n
Por lo que el intervalo de confianza para la media poblacional µ (cuando la varianza pobla-
cional es desconocida) es:

µ ∈ X̄ − √ tn−1 , X̄ + √ tn−1
n n
En caso de que la población no fuese normal, para encontrar el intervalo de confianza se usará la
desigualdad de Tchebyssheff, el intervalo será sólo aproximado en cuanto a confianza (la confianza
será mayor a la propuesta). Sin embargo, sólo puede usarse cuando σ 2 es conocida.
3.5.2. Intervalo de confianza para una proproción
Si X ∼ B(p) y se toman muestras aleatorias de tamaño n se tendrá por lo visto anteriormente

que:
Π ∼ Bin(n; p)
y por el Teorema de Moivre

p(1 − p)
Π ∼ N p;
n
Puesto que p no se conocerá (pues de lo contrario no habrı́a nada que hacer), se estimará mediante
una muestra, al estandarizar para esa muestra en particular se tendrá que;
p̂ − p
Z=r
p̂(1 − p̂)
n
donde p̂ es el valor de la proporción muestral para esa muestra en particular.
65
ESTIMACI
poblaciÓN
El intervalo de confianza será entonces (utilizando una lógica similar para el caso de la media).

P −Z α2 ≤ Z ≤ Z α2 = 1 − α
 
p̂ − p
P −Z α2 ≤ q ≤ Z α2  = 1 − α
p̂(1−p̂)
n
r r !
p̂(1 − p̂) p̂(1 − p̂)
P −Z α2 ≤ p̂ − p ≤ Z α2 = 1−α
n n
r r r !
p̂(1 − p̂) p̂(1 − p̂) p̂(1 − p̂)
P p̂ − Z α2 ≤ p ≤ p̂ + = 1−α
n n n
Por lo que el intervalo de confianza es:

" r r #
p̂(1 − p̂) p̂(1 − p̂)
p ∈ p̂ − Z α2 , p̂ + Z α2
n n
3.5.3. Intervalo de confianza para la varianza
Supongamos que la caracterı́stica de interés X sigue una distribución N (µ; σ 2 ). De dicha población
seleccionamos una muestra aleatoria de tamaño n. Se sabe por lo visto que antes, que la variable
aleatoria,
2
(n − 1)Sn−1
χ2 = ∼ χ2n−1 (26)
σ2
La distribución Chi-cuadrado no es simétrica, por lo que el intervalo más pequeño que se puede
α
encontrar es aquel donde se reparte un área igual a 2
para valores que sean mayores o menores al
de la ditribución, es decir, sean χ21− α y χ2α los valores tabulares de la distribución Chi-cuadrado
2 2
(para n − 1 grados de libertad) que dejan comprendida un área igual 1 − α entre ellos.
De este modo el intervalo puede obtenerse por;

P χ21− α ≤ χ2 ≤ χ2α = 1−α
2 2
2
(n − 1)Sn−1

P χ21− α ≤ 2
≤ χ2α = 1−α
2 σ 2
!
2 2
(n − 1)Sn−1 (n − 1)S n−1
P 2
≤ σ2 ≤ 2
= 1−α
χα χ1− α
2 2
66
3.6 Intervalo de confianza en dos poblaciones3 ESTIMACIÓN DE PARÁMETROS
Con lo que el intervalo de confianza para la varianza poblacional σ 2 es:

" #
2 2
(n − 1)Sn−1 (n − 1)Sn−1
σ2 ∈ ,
χ2α χ21− α
2 2
3.6. Intervalo de confianza en dos poblaciones
son independientes
Si X ∼ N (µ1 ; σ12 ) y extraemos una muestra aleatoria de tamaño n1 , se tendrá que,

σ12

X̄ ∼ N µ1 ;
n1
Si Y ∼ N (µ2 ; σ22 ) y extraemos una muestra aleatoria de tamaño n2 independiente de la primera
muestra, se tendrá que:
σ22

Ȳ ∼ N µ2 ;
n2
y por consiguiente
σ2 σ2

X̄ − Ȳ ∼ N µ1 − µ2 ; 1 + 2
n1 n2
Primer caso: σ12 y σ22 conocidas.
En base a los resultados previos, sabemos que la variable aleatoria

X̄ − Ȳ − (µ1 − µ2 )
Z= q 2 ∼ N (0; 1) (27)
σ1 σ22
n1
+ n2
Basando en la misma lógica aplicada para el caso de una población, resulta que el intervalo,

P −Z α2 ≤ Z ≤ Z α2 = 1 − α
 
X̄ − Ȳ − (µ1 − µ2 )
P −Z α2 ≤ q 2 ≤ Z α2  = 1 − α
σ1 σ22
n1
+ n2
 s s 
2 2 2 2
σ1 σ2 σ1 σ2 
P −Z α2 + ≤ X̄ − Ȳ − (µ1 − µ2 ) ≤ Z α2 + = 1−α
n1 n2 n1 n2
 s s 
2 2 2 2
σ1 σ2 σ1 σ2 
P  X̄ − Ȳ − Z α2 + ≤ (µ1 − µ2 ) ≤ X̄ − Ȳ + Z α2 + = 1−α
n1 n2 n1 n2
67
Con lo que el intervalo de confianza para la diferencia de medias es:

 s s 
2 2 2 2
σ1 σ2 σ1 σ2 
µ1 − µ2 ∈  X̄ − Ȳ − Z α2 + , X̄ − Ȳ + Z α2 +
n1 n2 n1 n2
Segundo caso: σ12 y σ22 desconocidas pero iguales.
De los resultados previos sabemos que la variable aleatoria :

q
(n1 n2 )
n1 +n2
X̄ − Ȳ − (µ1 − µ2 )
T = r ∼ tn1 +n2 −2 (28)
2
(n1 −1)Sn 2
+(n2 −1)Sn
1 −1 2 −1
(n1 +n2 −2)
Haciendo s
(n1 − 1)Sn21 −1 + (n2 − 1)Sn22 −1
Sp2 =
n1 + n2 − 2
resulta que,
X̄ − Ȳ − (µ1 − µ2 )
T = q ∼ tn1 +n2 −2
1 1
Sp n1 + n2
El intervalo de confianza es:

α α
P −tn21 +n2 −2 ≤ T ≤ tn21 +n2 −2 = 1−α
 
α X̄ − Ȳ − (µ 1 − µ 2 ) α
P −tn21 +n2 −2 ≤ q ≤ tn21 +n2 −2  = 1−α
1 1
Sp n1 + n2
r r
1 1 α2 1 1 α2
P −Sp + t ≤ X̄ − Ȳ − (µ1 − µ2 ) ≤ Sp + t = 1−α
n1 n2 n1 +n2 −2 n1 n2 n1 +n2 −2
r r
1 1 α2 1 1 α2
P X̄ − Ȳ − Sp + t ≤ µ1 − µ2 ≤ X̄ − Ȳ + Sp + t = 1−α
n1 n2 n1 +n2 −2 n1 n2 n1 +n2 −2

r r
1 1 α2 1 1 α2
µ1 − µ2 ∈ X̄ − Ȳ − Sp + t , X̄ − Ȳ + Sp + t
n1 n2 n1 +n2 −2 n1 n2 n1 +n2 −2
Tercer caso: σ12 y σ22 desconocidas y distintas.
En este caso la distribución de la variable aleatoria definida en la ecuación (27) depende de

σ12
σ22
, a esta distribución se le conoce con el nombre de Bebrens-Fisher.
Existen diferentes soluciones:
68
Solución debida Hsu.
Quien aproxima la distribución de (27) por una distribución t de Student con v =

mı́n{n1 , n2 } − 1 grados de libertad.
Solución de Welch.
Quien aproxima la distribución de (27) por una distribución t de Student con v =

n1 + n2 − 2 − δ grados de libertad.
donde δ es la parte de entera de:

" #
[(n2 − 1)ψ1 − (n1 − 1)ψ2 ]2
δ= (29)
(n2 − 1)ψ12 + (n1 − 1)ψ22
con
Sn21 −1 Sn22 −1
ψ1 = y ψ2 =
n1 n2
Autor desconocido.
Quien aproxima la distribución de (27) por una distribución t de Student con v grados
de libertad.
donde v es la parte entera de:

h S2 2
Sn
i2
n1 −1 2 −1
n1
+ n2
v= 2
!2
2
!2 (30)
Sn Sn
1 −1 2 −1
n1 n2
n1 −1
+ n2 −1
La solución consiste entonces en definir la nueva variable aleatoria,

X̄ − Ȳ − (µ1 − µ2 )
T = q 2 2
∼ tv (31)
Sn −1 Sn
2 −1
1
n1
+ n2
los grados de libertad dependerán de cualquiera de las soluciones elegidas anteriores. Por lo
69
que el intervalo de confianza será:

α α
P −tv ≤ T ≤ tv2
2
= 1−α
 
α X̄ − Ȳ − (µ 1 − µ 2 ) α
P −tv2 ≤ q 2 2
≤ tv2  = 1−α
Sn −1 Sn
2 −1
1
n1
+ n2
 s s 
2 2 2 2
Sn1 −1 Sn2 −1 2 α Sn1 −1 Sn2 −1 2 α
P − + tv ≤ X̄ − Ȳ − (µ1 − µ2 ) ≤ + tv  = 1−α
n1 n2 n1 n2
 s s 
2 2 2 2
α Sn1 −1 S α S S
P X̄ − Ȳ − tv2 + n2 −1 ≤ µ1 − µ2 ) ≤ X̄ − Ȳ + tv2 n1 −1
+ n2 −1  = 1−α
n1 n2 n1 n2

 s s 
2 2 2 2
α Sn1 −1 Sn2 −1 α Sn1 −1 Sn2 −1
µ1 − µ2 ∈  X̄ − Ȳ − tv2 + , X̄ − Ȳ + tv2 + 
n1 n2 n1 n2
Cuarto caso: cuando n1 , n2 > 30
En este caso la variable aleatoria,

X̄ − Ȳ − (µ1 − µ2 )
Z= q 2 2
∼ N (0; 1) (32)
Sn −1 Sn
2 −1
1
n1
+ n2
Puede verificarse fácilmente que el intervalo de confianza resultante es:

 s s 
2 2 2 2
Sn1 −1 Sn2 −1 Sn1 −1 Sn2 −1
µ1 − µ2 ∈  X̄ − Ȳ − Z α2 + , X̄ − Ȳ + Z α2 + 
n1 n2 n1 n2
Resulta que como ya se comentó anteriormente, para muestras grandes
Sn21 −1 ≈ Sn21 y n1 − 1 ≈ n1
Sn22 −1 ≈ Sn22 y n2 − 1 ≈ n2
por lo que pueden combinarse para el cálculo del intervalo de confianza.
70
son dependientes
Cuando las muestras son dependientes entre si, sucede que:

var X̄ − Ȳ = var X̄ + var Ȳ − 2var X̄; Ȳ
con lo que si consideramos las muestras como independientes y nos olvidamos de la covarianza, la
variable,
X̄ − Ȳ − (µ1 − µ2 )
Z= q
var X̄ − Ȳ

puede ser equivocadamente grande o pequeña dependiendo de la magnitud y signo de cov X̄; Ȳ .
La solución para esto es definir una nueva variable D = X − Y y utilizar la varianza de la nueva

variable como estimación directa de var X̄ − Ȳ (para esto ambas muestran deben tener igual
número de elementos, es decir, los tamaños deben coincider). En este caso asumiendo normalidad
en ambas poblaciones, se tendrá que D también es normal con media µD = µ1 − µ2 y varianza
2

σD = var X̄ − Ȳ .
De este modo construir un intervalo de confianza para µ1 − µ2 será equivalente a construirlo para
µD . Es de mencionar que para que tenga sentido D = X − Y , se trabajan con observaciones de un
mismo individuo o elemento (por lo regular X denota las observaciones antes de realizar o aplicar
algún tratamiento, mientras que Y es despúes de aplicarlo).
Definiendo la variable aleatoria,
D̄ − µD
T = SD
∼ tn−1 (33)
√
n
Siguiendo el procedimiento descrito para encontrar el intervalo de confianza para la media cuando
la varianza es desconocida se tiene que el intervalo es:
α α
P −tn−1
2
≤ T ≤ tn−1
2
= 1−α
!
α D̄ − µD α
P −tn−1
2
≤ SD
≤ tn−1
2
= 1−α
√
n

SD α SD α2
P − √ tn−1 ≤ D̄ − µD ≤
2
√ tn−1 = 1−α
n n

SD α2 SD α2
P D̄ − √ tn−1 ≤ µD ≤ D̄ + √ tn−1 = 1−α
n n
71
El intervalo de confianza resultante es:

SD α2 SD α2
µD ∈ D̄ − √ tn−1 , D̄ + √ tn−1
n n
donde
n n
1X 2 1 X 2
D̄ = Di y SD = Di − D̄
n i=1 n − 1 i=1
3.6.3. Intervalo de confianza para la diferencia de dos proporciones
En la primera muestra de tamaño n1 las observaciones (X1 , X2 , . . . , Xn1 ), son variables aleatorias
con distribución de Bernoulli de parámetro p1 , es decir,
Xi ∼ B(p1 )
y sea p̂1 la proporción estimada en ella.

En la segunda muestra de tamaño n2 las observaciones (Y1 , Y2 , . . . , Yn2 ) (la cual es totalmente
independiente de la primera),
Yi ∼ B(p2 )
y sea p̂2 la proporción estimada en ella.

Cuando ambos tamaños de muestras son grandes (n1 , n2 > 30), se tiene que la diferencia de
proporciones sigue una distribución normal tal y como se indicó enla ecuación (12).
Si definimos la variable,
(p̂1 − p̂2 ) − (p1 − p2 )
Z=r (34)
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
n1 n2
El intervalo se obtiene de la siguiente manera;

P −Z α2 ≤ Z ≤ Z α2 = 1 − α
 
 (p̂1 − p̂2 ) − (p1 − p2 ) 
P −Z α ≤ r ≤ Z α = 1−α
 2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) 2
+
n1 n2
El intervalo de confianza será entonces:
 s s 
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) 
(p1 − p2 ) ∈ (p̂1 − p̂2 ) − Z α2 + ; (p̂1 − p̂2 ) + Z α2 +
n1 n2 n1 n2
72
3.6.4. Intervalo para el cociente de dos varianzas
Dada una muestra aleatoria (X1 , X2 , . . . , Xn1 ) de una población N (µ1 ; σ12 ) y (Y1 , Y2 , . . . , Yn2 ) de
una población N (µ2 ; σ22 ), ambas muestras independientes entre si.
Sabemos según lo visto anteriormente que:
(n1 − 1)Sn21 −1
∼ χ2n1 −1
σ12
(n2 − 1)Sn22 −1
∼ χ2n2 −1
σ22
Si ambas muestras son independientes, está claro que la variable aleatoria definida en la ecuación
(13) sigue una distribución F de Snedecor con n1 − 1 y n2 − 1 grados de libertad; la variable
aleatoria como se recordará es:
Sn21 −1
σ12
F =
Sn22 −1
σ22
Sn21 −1 σ22
= (35)
Sn22 −1 σ12
El intevalo de confianza se calcula de manera similar al del intervalo para una varianza, pero se
usa la F de Snedecor en lugar de la χ2 .
Sean
α
1− α
Fn21 −1,n2 −1 y Fn1 −1,n
2
2 −1
(36)
los valores en la distribución F que dejan entre si un área igual a 1 − α.
σ2
El interalo de confianza es (para σ12 ):
2
α
1− α

P Fn21 −1,n2 −1 ≤ F ≤ Fn1 −1,n2
2 −1
= 1−α
Sn21 −1 σ22

α
1− α
P Fn1 −1,n2 −1 ≤ 2
2
≤ Fn1 −1,n2 −1
2
= 1−α
Sn2 −1 σ12
!
1 Sn22 −1 σ12 1
P 1− α
≤ 2 ≤ α = 1−α
Fn1 −1,n
2 Sn1 −1 σ22 Fn21 −1,n2 −1
2 −1
!
Sn21 −1 1 σ 2 S 2
1
P 2 1− α ≤ 12 ≤ n21 α = 1−α
Sn2 −1 F 2 σ2 Sn2 F 2
n1 −1,n2 −1 n1 −1,n2 −1
73
3.7 Problemas propuestos 3 ESTIMACIÓN DE PARÁMETROS
Por lo que el intervalo de confianza será:

" #
σ12 Sn21 −1 1 S2 1
2
∈ 2 1− α , n21 −1 α
σ2 Sn2 −1 F 2 Sn2 −1 F 2
n1 −1,n2 −1 n1 −1,n2 −1
σ22
El interalo de confianza es (para σ12
):
De una manera muy similar al caso anterior, resulta que el intervalo de confianza es:
2
σ22 Sn22 −1 1− α2

Sn2 −1 α2
∈ F , F
σ12 Sn21 −1 n1 −1,n2 −1 Sn21 −1 n1 −1,n2 −1
3.7.1. Estimación puntual
1. En un experimento binomial se observan x éxitos en n ensayos independientes. Se proponen

los siguientes estimadores para la proporción poblacional p:
1 1
T1 = x y T2 = (x + 1)
n n+1
Obtener y comparar los errores cuadráticos medios para ambos.
2. Sea X1 , X2 , X3 y X4 una muestra aleatoria de tamaño cuatro de una población cuya dis-
tribución es exponencial de parámetro θ desconocido. De los siguientes estimadores, ¿cuáles
son estimadores insesgados de θ?
1 1
T1 = (X1 + X2 ) + (X3 + X4 )
6 3
1
T2 = (X1 + 2X2 + 3X3 + 4X4 )
5
1
T3 = (X1 + X2 + X3 + X4 )
4
3. Demostrar que los estimadores T1 y T2 , en el problema 1, son estimadores consistente del

parámetro binomial p.
4. De entre los estimadores de θ dados en el problema 2, determinar cuál es el que tiene la

varianza más pequeña.
74
5. Mediante el uso de la cota inferior de Cramer-Rao determinar la varianza del estimador

insesgado de varianza mı́nima de θ cuando se muestrea una población cuya distribución es
exponencial con función de densidad:
1 x
f (x; θ) = exp −
θ θ
6. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una población cuya distribución es gamma

con parámetro de forma desconocido. Demostrar que el estimador de máxima verosimilitud
para el parámetro de escala es:
n
1 X
T = Xi
nα i=1
7. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una población cuya distribución es poisson

con parámetro λ. Obtener el estimador de máxima verosimilitud de λ.
8. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una población cuya distribución es expo-

nencial con parámetro de escala θ. Obtener el estimador de máxima verosimilitud de θ y
demostrar que es un estimador suficiente para θ.
9. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una población cuya distribución es Rayleigh,

2
con densidad f (x; θ) = θx2 exp − 2θ x
2
10. Dada una población de distribuida normalmente con media desconocida y varianza igual a
25, se extraen una muestra aleatoria de tamaño 3 y se consideran los siguientes estimadores
para la media:
T1 = 0.65X1 + 0.25X2 + 0.1X3
T2 = 2X3 − X1 )
1
T3 = (X1 + X2 + X3 )
3
Estudie cuál de los tres estimadores es el mejor desde el punto de vista del sesgo y la eficiencia.
11. Sea la variable aleatoria X que sigue la distribución de Pascal:
f (x; p) = p(1 − p)x ; x = 0, 1, 2 . . .
Buscar un estimador de p por el método de los momentos.
75
12. Obtenga un estimador, por el método de los momentos, para el parámetro a de la distribución
que tiene por función de densidad.
2(a − x)
f (x; a) = ;0 < x < a
a2
13. La función de densidad de una variable aleatoria es:
f (x; θ) = (θ + 1)xθ ; 0 < x < 1
Encuentre el estimador de utilizando:
a) El método de los momentos.
b) El método de máxima verosimilitud.
c) ¿Cuál será la estimación de máxima verosimilitud de la esperanza de esta distribución?

¿y la del método de los momentos?
14. Sea X una variable aleatoria con función de probabilidad
f (x; θ) = θ(1 − θ)x−1 ; 0 < x < 1; x = 0, 1, 2, . . .
Encuentre el estimador del parámetro θ por el método de máxima verosimilitud.
15. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria simple de tamaño n de la distribución con

función de densidad.
f (x; θ) = exp(θ − x); x ≥ θ; −∞ < θ < ∞
a) Demostrar que la esperanza de esta distribución es θ + 1.
b) Calcular el estimador de θ por el método de los momentos.
16. Supóngase que se están probando bombillas de dos tipos: normales y de larga duración. El
tiempo de vida de una bombilla normal sigue una distribución exponencial de media θ y
el tiempo de vida de una bombilla de larga duración sigue una distribución exponencial de
media 4θ. La compañı́a que las produce quiere medir los tiempos de vida de dos bombillas
normales (X1 , X2 ) y de dos de larga duración (Y1 , Y2 ). Escribir la función de verosimilitud
para θ basada en estas 4 bombillas. Calcular el estimador de θ por el método de la máxima
verosimilitud.
76
17. De entre 50000 números de loterı́a instantánea, la proporción de tickets ganadores es p

(desconocida). Queremos estimar p. Para ello cada dı́a, durante 20 dı́as, compramos tickets
de loterı́a, uno a uno, hasta que nos toca un ticket ganador. El número de tickets que hemos
tenido que comprar cada uno de los 20 dı́as es:
2 18 24 3 19 6 5 8 5 4
2 1 1 16 3 34 1 1 26 10
18. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria simple de tamaño n de la distribución con

función de densidad.
xexp − xθ

f (x; θ) = ; x, θ > 0
θ
Para la que E[x] = 2θ; var(x) = 4θ
a) Encontrar el estimador de máxima verosimilitud de θ y estudiar si es insesgado.
b) Encontrar el estimado de máxima verosimilitud de var(X) y demostrar que es sesgado.
c) Encontrar un estimador insesgado para var(X).
19. Sea X una variable aleatoria cuya distribución es uniforme en el intervalo [0, a]. Calcular los
estimadores de a por el método de los momentos y de máxima verosimilitud.
3.7.2. Estimación por intervalos
1. Se tiene una muestra aleatoria simple de 9 observaciones, proveniente de una distribución

normal, con media µ desconocida pero con varianza σ 2 conocida e igual a 4:
8.5; 7.4; 11.2; 9.3; 10.0; 8.8; 7.1; 10.1; 8.3
a) Calcular un intervalo de confianza al 95 % para µ .
b) Si σ 2 es ahora desconocida, calcular un intervalo de confianza al 95 % para µ.
c) Comparar el intervalo obtenido en los dos incisos anteriores. ¿Se sabı́a a priori si uno
de ellos debı́a tener mayor tamaño que el otro?
d ) En general, sugerir al menos dos maneras en las que la longitud de los intervalos de
confianza puede ser reducida.
77
2. La Cámara de Comercio de una ciudad se encuentra interesada en estimar la cantidad prome-

dio de dinero que gasta la gente que asiste a convenciones, calculando comidas, alojamiento
y entretenimiento por dı́a. De las distintas convenciones que se llevan a cabo en la ciudad, se
seleccionaron 16 personas y se les preguntó la cantidad de dinero que gastaban por dı́a. Se
obtuvo la siguiente información en dólares: 150, 175, 163, 148, 142, 189, 135, 174, 168, 152,
158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero gastada en un dı́a es una
variable distribuida normal, obtener los intervalos de confianza estimados del 90 %, 95 % y
99 % para la cantidad promedio real.
3. Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una fibra.
Diseña un experimento en que se observan las tensiones de ruptura, en libras de 16 hilos del
proceso seleccionados aleatoriamente. Las tensiones son 20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8,
19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 19.6, 20.3 y 20.7. Supóngase que la tensión de ruptura
de una fibra se encuentra modelada por una distribución normal con desviación estándar de
0.45 libras. Construir un intervalo de confianza estimado para el valor real de la tensión de
ruptura promedio de la fibra en el caso que la confianza sea del 90 %, 95 % y 99 %.
4. Una muestra aleatoria de los salarios por hora para nueve mecánicos de automóviles pro-
porcionó los siguientes datos: 10.5, 11, 9.5, 12, 10, 11.5, 13, 9, 8.5. Bajo la suposición que el
muestreo se lleva a cabo sobre una población distribuida normalmente, construir los inter-
valos de confianza estimados del 90 %, 95 % y 99 % para los salarios por hora promedio para
todos los mecánicos. Interpretar los resultados.
5. Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a sus
alumnos a principios de cada semestre. Las dos desean comparar el tiempo promedio que
les toma a sus estudiantes completar el trámite de inscripción. En cada universidad se ano-
taron los tiempos de inscripción para 100 alumnos seleccionados al azar. Las medias y las
desviaciones estándares muestrales son las siguientes:
X̄1 = 50.2 X̄2 = 52.9
S1 = 4.8 S2 = 5.4
Si se supone que el muestreo se llevó a cabo sobre dos poblaciones distribuidas normalmente
78
e independientes, obtener los intervalos de confianza estimados del 90 %, 95 % y 99 % para

la diferencia entre las medias del tiempo de inscripción para las dos universidades. Con base
a esta evidencia.
6. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo
proceso en que se añade una aleación a la producción de metal. Los fabricantes se encuentran
interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales
producidos por los dos procesos. Para cada metal se seleccionan 12 especı́menes y cada uno
de éstos se somete a una tensión hasta que se rompe. La siguiente tabla muestra las tensiones
de ruptura de los especı́menes en kilogramos por centı́metro cuadrado:
Proceso estándar 428 419 458 439 441 456 463 429 438 445 441 463
Proceso nuevo 462 448 435 465 429 472 453 459 427 468 452 447
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e indepen-
dientes con varianzas iguales, obtener los intervalos de confianza estimados del 90 %, 95 % y
99 % para la diferencia de medias (estándar - nuevo).
7. Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de plástico
que una máquina produce. Para determinar cuándo la variación en el espesor se encuentra
dentro de ciertos lı́mites, cada dı́a se seleccionan de forma aleatoria 12 láminas de plástico y
se mide en milı́metros su espesor. Los datos que se obtuvieron son los siguientes: 12.6, 11.9,
12.8, 12.3, 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se supone que el espesor es una
variable aleatoria distribuida normal, obtener los intervalos de confianza estimados del 90 %,
95 % y 99 % para la varianza desconocida del espesor. Si no es aceptable una varianza mayor
de 0.9 mm, ¿existe alguna razón para preocuparse con base en esta evidencia?
8. Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la crı́a de peces
con fines comerciales. Esta agencia se encuentra interesada en comparar la variación de cierta
sustancia tóxica en dos estuarios cuyas aguas se encuentran contaminadas por desperdicios
industriales provenientes de una zona industrial cercana. En el primer estuario se seleccionan
11 muestras y en el segundo 8, las cuales se enviaron a un laboratorio para su análisis. Las
mediciones en ppm que se observaron en cada muestra se exponen en la siguiente tabla.
79
Estuario I 10 10 12 13 9 8 12 12 10 14 8
Estuario II 11 8 9 7 10 8 8 10
Si se supone que el muestreo se hizo sobre dos poblaciones independientes distribuidas norma-
les, obtener un intervalo de confianza estimado del 95 % para el cociente de las dos varianzas
σ12
no conocidas σ22
.
9. La lista electoral final en una elección reciente para senador, reveló que 1400 personas de
un total de 2500 seleccionadas aleatoriamente, tienen preferencia por el candidato A con
respecto al candidato B.
a) Obtener un intervalo de confianza unilateral inferior del 99 % para la verdadera propor-

ción de votantes a favor del candidato A.
b) Supóngase que selecciona aleatoriamente una muestra de 225 personas con la misma
proporción muestral a favor del candidato A. ¿Son los resultados diferentes a los del
apartado anterior?
10. Se recibe un lote muy grande de artı́culos proveniente de un fabricante que asegura que el
porcentaje de artı́culos defectuosos en la producción es del 1 %. Al seleccionar una muestra
aleatoria de 200 artı́culos y después de inspeccionarlos, se descubren 8 defectuosos. Obtener
los intervalos de confianza aproximados del 90 %, 95 % y 99 % para la verdadera proporción
de artı́culos defectuosos en el proceso de manufactura del fabricante.
11. A partir de una muestra de 26 embotelladoras de agua, se observa que el número medio de
botellas llenas es de 71.2 por minuto y que su varianza es de 13.4. Suponiendo Normalidad,
calcule un intervalo de confianza del 95 % para el número medio de botellas llenas.
12. Se está realizando un estudio para determinar el grado de precisión de las medidas efectuadas
por un aparato. Para ello, se realizan 10 medidas, observándose que presentan una desviación
tı́pica de 0.23 unidades. Suponiendo normalidad, obténgase un intervalo de confianza al 99 %
para la desviación tı́pica de las medidas llevadas a cabo por el aparato.
13. Un agricultor siembra dos tipos de tomates hı́bridos en cinco parcelas diferentes. Las Pro-
ducciones, en quintales métricos por hectáreas son las siguientes:
80
Parcelas 1 2 3 4 5
Hı́brido I 90 85 95 76 80
Hı́brido II 90 84 85 87 95
Si se supone que las poblaciones son Normales:
a) Construya un intervalo de confianza del 90 % para la diferencia entre las producciones

medias.
b) Construya un intervalo de confianza del 90 % para el cociente de las varianzas.
14. Para estudiar la diferencia de estaturas medias, medidas en centı́metros, de estudiantes va-
rones en las facultades de ciencias de Cádiz y Málaga, se toma una muestra aleatoria de 15
estudiantes en cada facultad, oteniéndose:
Cádiz 182 170 175 167 171 174 181 169 174 174 170 176 168 178 180
Málaga 181 173 177 170 170 175 169 169 171 173 177 182 179 165 174
Obtenga el intervalo de confianza al 99 % para la diferencia de estaturas medias entre ambos

colectivos de estudiantes. Se supone que las estaturas siguen una distribución Normal y que
las varianzas poblacionales son iguales.
15. Se está realizando un estudio sobre la evolución del nivel de colesterol de las personas, para lo
cual se seleccionan 10 individuos al azar y se les somete a una nueva dieta alimenticia durante
seis meses, tras la cual se les volvió a medir el nivel de colesterol en mg/dl. Suponiendo
Normalidad, obtenga un intervalo de confianza al 90 % para la diferencia de medias.
Antes 200 156 178 241 240 256 245 220 235 200
Después 190 145 160 240 240 255 230 200 210 195
16. En una población de 10000 niños se desea hacer una campaña de vacunación. Se quiere saber
cuántas vacunas deben preverse, con un 95 % de confianza, si de una muestra aleatoria de 90
encuestados 30 estaban vacunados.
81
17. A partir de una muestra de 150 enfermos escogidos entre los admitidos en un hospital durante
un periodo de tres años, se observó que 129 tenı́an algún tipo de seguro hospitalario. En un
segundo hospital, se tomó otra muestra de 160 individuos, extraı́da de forma similar, de los
cuales 144 tenı́an algún tipo de seguro. Encuentre los intervalos al 90 %, 95 % y 99 % de
confianza para la diferencia de proporciones.
18. Con el propósito de estudiar la cantidad de nicotina de una determinada marca de cigarrillos
se toma una muestra de 100 de ellos, encontrándose una media de 26 mg. Se sabe que
la cantidad de nicotina se distribuye normalmente, y que su desviación tı́pica es de 8 mg.
Obtenga un intervalo de confianza para el contenido medio en nicotina al 99 %.
19. Sea X la longitud (centı́metros) de una cierta especie de pescado que se captura en primavera.
Una muestra aleatoria de 13 observaciones de la variable X son:
13.1; 5.1; 18.0; 8.7; 16.5; 9.8; 6.8; 12.0; 17.8; 25.4: 19.2: 15.8; 23.0 2
a) Dar una estimación puntual de la varianza, σ 2 , para la especies de pescado.
b) Encontrar un intervalo del 95 % de confianza para la σ. ¿Qué suposiciones se hacen para

el cálculo de dicho intervalo?.
20. Un fabricante de televisores afirma que poco menos del 20 % de sus tubos de imágenes fallan
dentro de 2 años. Se encontró en una muestra aleatoria de tamaño 100 que 18 tubos de
imágenes fallaron en 2 años. Calcule un intervalo de confianza al 95 % para π, la proporción
de tubos que fallan en 2 años.
21. Se cree que los supermercados en Swansea tienden a cobrar más por sus artı́culos que en
Cardiff. Un comprador en Cardiff y un comprador en Swansea acuerdan comprar artı́culos
para luego comparar precios. Las dos ciudades tiene 10 cadenas de supermercado en común,
las cuales llamaremos A, B, . . . , J, y los compradores visitarán cada una a la vez en semanas
consecutivas, se registraron los siguientes precios en libras:
Tienda A B C D E F G H I J
Swansea 12.08 12.81 12.74 13.54 14.86 14.68 12.64 15.23 13.83 12.64
Cardiff 11.62 11.69 12.57 13.32 13.15 14.04 11.76 13.63 12.95 12.59
82
Construya un intervalo de confianza al 95 % para la diferencia de medias en precios entre los

supermercados de Swansea y Cardiff. ¿Con el intervalo de confianza se apoya la teorı́a que
los precios en Swansea son mayores?
22. Se está realizando un estudio sobre la oferta turı́stica existente en un conocido lugar de
veraneo. Como parte de ese estudio, se desea conocer el precio medio del “menú del dı́a” de
los restaurantes de una determinada zona. Para ello se eligen al azar 12 restaurantes y se
recogen los precios de dicho menú:
6.70, 7.80, 7.70, 7.75, 7.00, 5.50, 8.20, 8.40, 7.90, 9.50, 3.00, 11.00
Suponiendo normalidad en los precios y un nivel de significancia del 5 %, calcule los intervalos
de confianza para el precio medio y la desviación tı́pica del precio.
23. Una cadena de tiendas de electrodomésticos quiere estudiar la efectividad de una nueva
campaña televisiva sobre la venta de frigorı́ficos. Para ello se recoge el número de unidades
vendidas antes y después de la campaña, en las 12 tiendas que componen la cadena:
Antes 12 10 15 8 19 14 12 21 16 11 8 15
Después 11 11 17 9 21 13 16 25 20 18 10 17
a) Con un nivel de significancia del 5 %, hallar un intervalo de confianza para la diferencia
de medias de unidades vendidas antes-después
b) ¿Se puede considerar efectiva la campaña publicitaria?
24. En una encuesta a 600 personas, 270 son favorables al voto a favor de un nuevo candidato.
Con un nivel de confianza del 95 %
a) Hallar el intervalo de confianza para la verdadera proporción de votantes del nuevo

candidato.
b) Misma cuestión si se duplica el número de encuestados y se mantiene la proporción de

votantes favorables.
25. Sea una población normal (µ; 42 ) de la cual se extrae una muestra aleatoria de tamaño 100
cuya media muestral resulta ser 25, construya un intervalo de confianza del 95 % para la
media poblacional µ.
83
4 PRUEBA DE HIPÓTESIS ESTADÍSTICAS
4. PRUEBA DE HIPÓTESIS ESTADÍSTICAS
4.1. Conceptos básicos
La función de probabilidad de una variable aleatoria X, f (X; θ), depende de uno o más parámetros
θ0 s, los cuales toman valores en un espacio paramétrico Θ (θ ∈ Θ), de forma que para cada valor
θ en Θ, la función f (X; θ) es distinta.
“Una hipótesis estadı́stica sobre el parámetro es una conjetura sobre los valores que el parámetro
puede tomar”.
El establecimiento de una hipótesis sobre θ supone dividir el espacio parámetrico en dos partes;
una, que denominaremos Θ0 , integrada por el conjunto de valores que cumplen la hipótesis, y otra
Θ1 , por el conjunto de valores que no la cumplen, los dos conjuntos Θ0 y Θ1 son mutuamente
excluyentes y la unión de ellos es el espacio Θ.
A la hipótesis que se desea contrastar la denominaremos hipótesis nula H0 [θ ∈ Θ0 ], y la otra,
hipótesis alternativa H1 [θ ∈ Θ1 ].
4.2. Tipos de hipótesis
Llamaremos hipótesis estadı́stica a una suposición que determina, parcial o totalmente, la distri-
bución de probabilidad de una o varias variables aleatorias. Estas hipótesis pueden clasificarse,
según que:
1. Especifiquen un valor concreto o un intervalo de valores para los parámetros de una población.
2. Establezcan la igualdad de las distribuciones de dos o más poblaciones.
3. Determinen la forma de la distribución de la población.
Un ejemplo del primer tipo es que la media de una variable es 10; del segundo, que las medias de
dos poblaciones normales con igual varianzas son idénticas; del tercero, que la distribución de una
población es normal. Aunque la metodologı́a para realizar el contraste es análoga en los tres casos,
es importante distinguir entre ellos porque:
84
4.2 Tipos de hipótesis 4 PRUEBA DE HIPÓTESIS ESTADÍSTICAS
1. La contrastación de una hipótesis respecto a un parámetro está muy relacionada con la

construcción de intervalos de confianza, y tiene frecuentemente una respuesta satisfactoria
en términos de estimación.
2. La comparación de dos o más poblaciones requiere en general un diseño experimental que

asegure la homogeneidad de las comparaciones.
3. Un contraste sobre la forma de la distribución es un contraste no parámetrico que debe

realizarse dentro de la fase de validación del modelo.
4.2.1. Hipótesis nula
Hipótesis nula (H0 ) es la hipótesis que se constrasta. El nombre de “nula” proviene de que H0
representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y debe
entenderse, por tanto, en el sentido de “neutra”. La hipótesis nula nunca se considera probada,
aunque puede ser rechazada por los datos.
Po ejemplo, la hipótesis de que dos poblaciones tienen la misma media puede ser rechazada cuando
ambas difieran mucho, analizando muestras lo suficientemente grandes de ambas poblaciones, pero
no puede ser “demostrada” mediante muestreo (es posible que las medias difieran en δ, siendo δ
un valor pequeño imperceptible en el muestreo).
La hipótesis H0 se elige normalmente de acuerdo al principio de simplicidad cientı́fica, que podrı́amos
resumir diciendo que solamente debemos abandonar un modelo simple a favor de otro más complejo
cuando la evidencia a favor de este último sea fuerte.
En consecuencia, en el primer tipo de contraste respecto a los parámetros de una distribución, la
hipótesis nula suele ser que el parámetro es igual a un valor concreto. Cuando comparamos pobla-
ciones, H0 es siempre que las poblaciones son iguales (igualdad de medias). Cuando investigamos
la forma de la distribución H0 suele ser que los datos son una muestra homogénea de una población
simple (Normal, Poisson, etc.).
4.2.2. Hipótesis alternativa
Si rechazamos H0 estamos implı́citamente aceptando una hipótesis alternativa, H1 . En el caso de

que H0 sea simple, del tipo θ = θ0 , los casos más importantes de hipótesis alternativa son:
85
4.3 Tipos de regiones 4 PRUEBA DE HIPÓTESIS ESTADÍSTICAS
1. Desconocemos en qué dirección puede ser falsa H0 , y especificamos H1 : θ 6= θ0 ; decimos que

el contraste es bilateral.
2. Conocemos que si H1 : θ 6= θ0 forzosamente H1 : θ > θ0 (o bien θ < θ0 ). Tenemos entonces

un contraste unilateral.
Si los conjuntos Θ0 y Θ1 se componen de un solo elemento (θ0 y θ1 ) las hipótesis correspondientes

se denominan simples, en caso contrario, compuestas. En la hipótesis simple, la distribución de
probabilidad queda perfectamente determinada (y es única), cosa que no sucede en las compuestas,
donde coexiste un cierto número de ellas, número que puede ser infinito.
Definición 4.1. Un contraste o test de hipótesis es una regla de desición mediante la cual optamos
por una u otra hipótesis, a la luz de la información proporcionada por una muestra extraı́da de la
población objeto de estudio.
4.3. Tipos de regiones
El procedimiento para llevar a cabo un contraste es el siguiente: se procede a una partición del
espacio muestral X (X1 , X2 , . . . , Xn ) en dos subconjuntos disjuntos, C y C ∗ , los cuales dependen
de H0 y H1 , de tal forma que si el punto muestral (la muestra seleccionada) X pertenece a uno
de ellos, por ejemplo a C, llamado región crı́tica, se rechaza la hipótesis nula y si, pertenece a C ∗ ,
llamado región de aceptación; se acepta la hipótesis nula.
El rechazo de la hipótesis nula equivale a la aceptación de la alternativa, y viceversa. Debiendo
entender que la aceptación o rechazo de una hipótesis en el sentido de que la muestra ha propor-
cionado evidencia suficiente, pero no absoluta, para que sea razonable la aceptación o rechazo de
la hipótesis.
EJEMPLO 4.1
En la distribución B(p) el campo de variación del parámetro p es el intervalo (0, 1). Una hipótesis
nula podrı́a ser la pertenencia de p al intervalo Θ0 = (0.0, 0.3] y la alternativa la pertenencia de p
al intervalo Θ1 = (0.3, 1.0), es decir,
H0 : 0.0 < p ≤ 0.3
H1 : 0.3 < p < 1.0
86
4.4 Tipos de errores 4 PRUEBA DE HIPÓTESIS ESTADÍSTICAS
EJEMPLO 4.2
El peso de un producto oscila entre 1 y 4 kg y puede distribuirse con media de 2 kg o 3 kg. Se
toma una muestra aleatoria de tamaño 1, si el peso es mayor a 2.6 kg se rechaza la hipótesis de
que la media sea igual a 2 kg y se acepta, por consiguiente, de que es igual a 3 kg.
El espacio muestral X es el intervalo [1, 4], la región crı́tica C = [2.6, 4.0] y la región de aceptación
C ∗ = [1.0, 2.6), de tal forma que:
X = C∗ ∪ C
= [1.0, 2.6) ∪ [2.6, 4.0]
= [1.0, 4.0]
4.4. Tipos de errores
En cualquier contraste de hipótesis no está exento de errores debido entre muchos factores a la
aleatoriedad de la muesttra. La situación se refleja en el cuadro 7:
Cuadro 7: Tipos de errores en un contraste de hipótesis.
Hipótesis Decisión
Cierta Aceptar H0 Rechazar H0
H0 Correcta Error tipo I
H1 Error tipo II Correcta
que expresado de otra manera dice que:
Si la hipótesis nula es cierta y se acepta la decisión es correcta.
Si la hipótesis nula es cierta y se rechaza la decisión es errónea, y a este error se le denomina

“Error tipo I” o de primera especie.
87
4.4 Tipos de errores 4 PRUEBA DE HIPÓTESIS ESTADÍSTICAS
Si la hipótesis nula es falsa y se rechaza la decisión es correcta.
Si la hipótesis nula es falsa y se acepta la decisión es errónea, se le denomina “Error tipo II”
o de segunda especie.
Las situaciones de error, como las de acierto, son desconocidas e incontrolables de manera cierta,
sin embargo, procuraremos establecer controles sobre ellos mediante el conocimiento de las proba-
bilidades de cometer los mencionados errores, se analizará para hipótesis simples (para hipótesis
compuestas son bastante similares).
La probabilidad de cometer el “Error tipo I” (rechazar la hipótesis nula siendo verdadera) se llama
nivel de significancia del contraste o tamaño de la región crı́tica o del contraste, y se designa por
la letra griega α.
La probabilidad de cometer el “Error tipo II” no tiene nombre particular y se representa por la
letra griega β, suele ser más fácil trabajar con 1 − β a la que se le denomina potencia del contraste
y es la probabilidad de rechazar la hipótesis nula siendo falsa.
α = P (Error tipo I)
= P (Rechazar H0 siendo verdadera)
= P (Rechazar H0 / H0 es cierta)
β = P (Error tipo II)
= P (Aceptar H0 siendo falsa)
= P (Aceptar H0 / H0 es falsa)
1 − β = P (Rechazar H0 siendo falsa)
= P (Rechazar H0 / H0 es falsa)
EJEMPLO 4.3
En una población N (µ; 22 ) tenemos la hipótesis nula H0 : [µ = 1] y la alternativa H1 : [µ = 4]. Se
toma una muestra aleatoria de tamaño uno y se considera como región crı́tica el intervalo [2, ∞),
es decir, si el valor muestral es igual o superior a 2 se rechaza H0 , en caso contrario se acepta.
La probabilidad del Error tipo I, nivel de significancia, es la probabilidad de que el valor muestral
pertenezca a la región crı́tica, [2, ∞) cuando es cierta la hipótesis nula H0 : [µ = 1]. En estas
88
4.5 Metodologı́a de un contraste de hip
4 PRUEBA
ótesis DE HIPÓTESIS ESTADÍSTICAS
condiciones no tenemos más que encontrar en una distribución N (1 : 22 ) la probabilidad del suceso
{X ≥ 2}.
α = P (Error tipo I)
= P X ≥ 2/N (1; 22 )

X −1 2−1
= P ≥
2 2
= P (Z ≥ 0.5)
= 0.3085
Con lo cual comprobamos que, efectivamente, aunque no sepamos si la elección ha sido acertada o
no, disponemos de un criterio razonable de información.
La probabilidad de aceptar la hipótesis nula siendo falsa, es decir, aceptar H0 será porque el valor
muestral no pertenece a la región crı́tica y si al intervalo complementario (−∞, 2), siendo cierta la
hipótesis alternativa N (4 : 22 )
β = P (Error tipo II)
= P X < 2/N (4; 22 )

X −4 2−4
= P z
2 2
= P (Z < −1)
= 0.1587
Dado el desconocimiento que el experimentador tiene sobre qué hipótesis es la correcta no sabrá
en cuál de las cuatro situaciones descritas se encuentra, dos correctas y dos incorrectas. Para
protegerse, el experimentador debe asegurarse que la probabilidad de comenter un error sea mı́nima,
siendo la situación ideal fijar el nivel de significancia lo menor posible (se plantea la probabilidad
de un suceso raro) y simultáneamente hacer la potencia lo mayor posible (probabilidad de acierto).
Estas dos probabilidades no son independientes.
4.5. Metodologı́a de un contraste de hipótesis
La metodologı́a actual de contraste de hipótesis es el resultado de de los trabajos de Fisher, Neyman

y Pearson entre 1920 y 1933. Su lógica es similar a la de un jucio penal, donde debe decidirse si el
89
4.5 Metodologı́a de un contraste de hip
4 PRUEBA
ótesis DE HIPÓTESIS ESTADÍSTICAS
acusado es inocente o culpable. En un juicio, la hipótesis nula que es la que tratamos de mantener
a no ser que los datos nos indiquen claramente lo contrario, es que el acusado es inocente. El
juicio consiste en aportar evidencia suficiente para rechazar la hipótesis nula de inocencia más
allá de cualquier duda razonable. Análogamente, en un contraste de hipótesis se analiza si los
datos muestrales permiten rechazar la hipótesis nula, es decir, si los datos observados tienen una
probabilidad de aparecer lo suficientemente pequeña cuando la hipótesis nula es cierta.
Si la hipótesis nula especı́fica el parámetro de la distribución de una variable en una población,
el contraste consiste en tomar una muestra aleatoria y calcular un estimador del parámetro. Si el
estimador está “próximo” al valor del parámetro indicado por H0 concluiremos que la hipótesis ha
predicho lo observado, y que no existe evidencia para rechazarla. Si, por el contrario, la diferencia
entre ambos es grande, concluiremos que hay una discrepancia significativa entre lo previsto por
la hipótesis y lo observado, y rechazaremos H0 .
En sı́ntesis, las etapas de un contraste son:
1. Definir la hipótesis nula a contrastar, H0 , y la hipótesis alternativa H1 (pueden ser simples

o compuestas).
2. Definir una medida de discrepancia entre los datos muestrales y la hipótesis H0 , que no
dependa de las unidades de medida de los datos.
3. Calcular que discrepancias son esperables si H0 es cierta. Para ello se estudia la distribución
de la medida de discrepancia cuando H0 es cierta. En muchos casos la distribución es una
variable normal estándar bajo H0 (o alguna de sus derivadas).
4. Fijar el mı́nimo p-valor admisible para no rechazar H0 . A este valor se le denomina nivel
de significancia. Al fijar esta cantidad queda definida una región de rechazo o región crı́tica,
que es el conjunto de valores de la discrepancia para los que se rechaza H0 . El nivel de
significancia es la probabilidad de la región de rechazo cuando H0 es cierta.
5. Tomar la muestra y juzgar la compatibilidad entre la discrepancia observada y H0 mediante

el p-valor, si éste es suficientemente pequeño (menor que el nivel de significancia) se debe
rechazar H0 . En caso contrario, no existe evidencia en los datos para cuestionar la validez de
H0 .
90
4.6 Prueba de hipótesis en una poblaci4ón
PRUEBA DE HIPÓTESIS ESTADÍSTICAS
Para realizar un contraste de hipótesis se define normalmente una medida de discrepancia entre
los datos muestrales y la hipótesis nula H0 . Intuitivamente la discrepancia debe depender de la
diferencia entre el valor del parámetro especificado por H0 y el valor del estimador calculado en la
muestra. Para obtener una medida de discrepancia que no dependa de las unidades de medida de la
variable podemos dividir esta diferencia por su valor promedio, que es el error tı́pico de estimación
del parámetro,
estimador − parámetro
discrepancia = (37)
error tı́pico de estimación
Note que la ecuación (37) representa el error relativo en la estimación.
El concepto de nivel crı́tico o p-valor proporciona una filosofı́a para la resolución de un contraste
de hipótesis.
Definición 4.2. Consideremos un estadı́stico de contraste D y sea dˆ el valor observado para una
muestra determinada X1 , X2 , . . . , Xn , es decir, X̂ = D(X1 , X2 , . . . , Xn ).
Se denomina nivel crı́tico o p-valor a la probabilidad de obtener una discrepancia mayor o igual
que dˆ cuando H0 es cierta.
En la definición anterior, la expresión mayor o igual debe interpretarse en relación con el dis-
tanciamiento de H0 en la dirección de H1 . De este modo, si el contraste es unilateral derecho,

ˆ 0
(izquierdo) el p-valor es P D ≥ d/H P D ≤ d/Hˆ 0 , y el caso de pruebas bilaterales es,
ˆ 0 ), P (D ≥ d/H
2 mı́n{P (D ≤ d/H ˆ 0 )}.
4.6. Prueba de hipótesis en una población
4.6.1. Prueba de hipótesis sobre una media
Para efectuar el contraste de hipótesis sobre la media poblacional de una distribución normal
distinguimos, en primer lugar, dos casos: Población con varianza conocida y Población con varianza
desconocida. La hipótesis nula será simple H0 : [µ = µ0 ], mientras que la alternativa será simple
H1 : [µ 6= µ0 ] o cumpuesta H0 : [µ < µ0 ] o H0 : [µ > µ0 ].
Los contraste se efectúan tomando muestras aleatorias (X1 , X2 , . . . , Xn ) de tamaño n, de una
población N (µ; σ 2 ).
1. Varianza conocida.
91
Las hipótesis a contrastar son:
H0 : µ = µ0
H1 : µ 6= µ0
Partimos de la definición de nivel de signficancia α = P (Rechazar H0 siendo cierta).
Si la hipótesis nula es cierta, la población es N (µ0 ; σ 2 ), la media muestral por su parte es

σ2
N µ; n .
Del apartado de intervalos de confianza sabemos que:

!
X̄ − µ0
P −Z α2 ≤ ≤ Z α2 =1−α (38)
√σ
n
En (38) en lugar de construir el intervalo de confianza para µ, lo construimos para X̄, resultará
que el intervalo es:
σ σ
X̄ ∈ µ0 − √ Z α2 , µ0 + √ Z α2
n n
Donde Z α2 es el valor de la distribución normal estándar que deja por encima un área igual
a α2 .
En este caso:
La región de aceptación es,

σ σ
µ0 − √ Z α2 , µ0 + √ Z α2
n n
La región de crı́tica (rechazo) es,

[
σ σ
−∞, µ0 − √ Z α2 µ0 + √ Z α2 , ∞
n n
Con lo que rechazamos la hipótesis nula, cuando X̄ se encuentre en la región crı́tica, en caso
contrario se acepta.
De manera equivalente si definimos el estadı́stico de prueba (contraste)
X̄ − µ0
Z0 = σ (39)
√
n
92
La región de aceptación se convierte en:

−Z α2 , Z α2
Mientras que la región crı́tica es;

[
−∞, −Z α2 Z α2 , ∞
Con lo que rechazaremos la hipótesis nula cuando Z0 (dada en la ecuación 39) se encuentre
en la región crı́tica, en caso contrario se acepta.
Otra forma de contrastar una hipótesis referida a la media poblacional es con ayuda del
p-valor, recuerdese que:
X̄ − µ0
Z0 = σ ∼ N (0; 1)
√
n
por lo que valores grandes (en valor absoluto) nos llevarán al rechazo de H0 , es decir, dema-
siadia discrepancia entre H0 y X̄ (entre lo observado y lo esperado por la hipótesis nula), la
cual se define por:
 

X̄ − µ
0 
P − valor = 2P Z ≥ σ  = 2P (Z ≥ |Z0 |)

√
n
También es posible que lo que se desee es contrastar cualquiera de las siguientes tipos de
hipótesis:
B) H0 : µ ≤ µ0 ; Prueba unilateral derecha
H1 : µ > µ0
C) H0 : µ ≥ µ0 ; Prueba unilateral izquierda
H1 : µ < µ0
La única diferencia con la prueba bilateral radica en que, ahora uno de los extremos del
intervalo queda abierto dependiendo del tipo de prueba que se esté considerando B) o C).
En el caso B) discrepancias grandes positivas nos llevarán al rechazo de H0 , mientras que en

el caso C) discrepancias grandes pero negativas nos llevarán al rechazo de H0 .
93
Obteniendo nuevamente los intervalos de confianza para X̄, tendremos que las regiones
crı́ticas son:
Caso B)
σ
µ0 + √ Zα , ∞
n
Caso C)
σ
−∞, µ0 − √ Zα
n
Con lo que el criterio de aceptación o de rechazo para H0 se basa en la región crı́tica; si X̄
se encuentra en la región crı́tica rechazamos H0 , aceptamos en caso contrario.
Alternativamente, podemos calcular el estadı́stico de prueba (39), y las regiones crı́ticas

serán:
Caso B)
(Zα , ∞)
Caso C)
(−∞, −Zα )
Rechazaremos H0 cuando Z0 se encuentre en la región crı́tica, en caso contrario la aceptare-

mos.
El p-valor para ambos tipos de prueba es:
Caso B)
p − valor = P (Z > Z0 )
H0 se rechaza con valores grandes positivos de Z0 .
Caso C)
p − valor = P (Z < Z0 )
H0 se rechaza con valores grandes negativos de Z0 .
2. Varianza desconocida.
94
Es muy común en la práctica que σ 2 también sea

un valor desconocido. En este caso cuando
2

σ
H0 sea cierta se cumplirá que: X̄ ∼ N µ0 ; .
n
Por consiguiente,
X̄ − µ0
T0 = ∼ tn−1
Sn−1
√
n
Las hipótesis a contrastar serán:
A) H0 : µ = µ0
H1 : µ 6= µ0
B) H0 : µ ≤ µ0
H1 : µ > µ0
C) H0 : µ ≥ µ0
H1 : µ < µ0
Con lo que se realiza un procedimiento similar al caso anterior pero sustituyendo σ por Sn−1
y N (0; 1) por tn−1 (cuasidesviación tı́pica).
Basados en los resultados obtenidos para los intervalos de confianza cuando se desconoce
la varianza poblacional y el de los contraste de hipótesis cuando la varianza es conocida,
tendremos que las regiones crı́ticas para X̄ son:
Caso A) [
−∞, µ0 − √ tn−1 µ0 + √ tn−1 , ∞
n n
Caso B)
Sn−1 α
µ0 + √ tn−1 , ∞
n
Caso C)
Sn−1
−∞, µ0 − √ tαn−1
n
Donde tαn−1 el valor de la distribución t de Student con n − 1 grados de liberta que deja por
encima de el una área igual a α.
95
Con lo que rechazaremos H0 cuando X̄ se encuentre en la región crı́tica; en caso contrario se acepta.
De manera equivalente podemos calcular el estadı́stico de prueba,
X̄ − µ0
T0 = (40)
Sn−1
√
n
Con lo que las regiones crı́ticas para T0 (dadas en 40) se convierten en:
Caso A)
α [ α
−∞, −tn−12
tn−1 , ∞
2
Caso B)
tαn−1 , ∞

Caso C)
−∞, −tαn−1

Finalmente el p-valor es:
Caso A)
p − valor = 2P (tn−1 > |T0 |)
Caso B)
p − valor = P (tn−1 > T0 )
Caso C)
p − valor = P (tn−1 < T0 )
4.6.2. Prueba de hipótesis sobre una proporción
El objetivo es contrastar un valor postulado para la proporción de invidividuos de una población

que verifican determinada caracterı́stica A. En este contexto, tomar una muestra de tamaño n
equivale a evaluar sobre cada una de las n unidades muestrales el cumplimiento o no de A.
Si X denota el número de unidades muestrales que verifican A, X ∼ Bin(n; p), entonces bajo la
hipótesis nula H0 : p = p0 , la proporción muestral π verifica que (para n > 30)

p0 (1 − p0 )
π ∼ N p0 ;
n
96
Lo cual nos permitirá construir las regiones crı́ticas bilaterales y unilaterales, para el siguiente
conjunto de hipótesis;
A) H0 : p = p0
H1 : p 6= p0
B) H0 : p ≤ p0
H1 : p > p0
C) H0 : p ≥ p0
H1 : p < p0
Las regiones crı́ticas p̂ para ambos casos son, respectivamente:
Caso A) " r ! r #
p0 (1 − p0 ) [ p0 (1 − p0 )
0; p0 − Z α2 p0 + Z α2 ;1
n n
Caso B) r #
p0 (1 − p0 )
p0 + Zα ;1
n
Caso C) " r !
p0 (1 − p0 )
0; p0 − Zα
n
De manera equivalente podemos definir el estadı́stico de prueba:
p̂ − p0
Z0 = r (41)
p0 (1 − p0 )
n
De este modo las regiones crı́ticas para Z0 (definidas en 41) son:
Caso A)
[
−∞, p0 − Z α2 Z α2 , ∞
Caso B)
(Zα , ∞)
97
Caso C)
(−∞, Zα )
Y del mismo modo, podemos calcular el p-valor en cada uno de los tipos de hipótesis.
Caso A)
p − valor = 2P (Z > |Z0 |)
Caso B)
p − valor = P (Z > Z0 )
Caso C)
p − valor = P (Z < Z0 )
Con lo que rechazaremos H0 para p-valores pequeños.

Nota: En caso de que n ≤ 30 debe usarse la distribución binomial para calcular las regiones
exactas.
4.6.3. Prueba de hipótesis sobre una varianza
Partimos nuevamente que X ∼ N (µ; σ 2 ), en este caso σ 2 es desconocida. Las hipótesis que nos
interesan contrastar son las siguientes:
A) H0 : σ 2 = σ02
H1 : σ 2 6= σ02
B) H0 : σ 2 ≤ σ02
H1 : σ 2 > σ02
C) H0 : σ 2 ≥ σ02
H1 : σ 2 < σ02
Bajo el supuesto de que H0 es cierta (σ 2 = σ02 ),

2
(n − 1)Sn−1
χ20 = ∼ χ2n−1
σ02
Con una razonamiento similar al de los intervalos de confianza para σ 2 , y además de los resultados
2
previos, las regiones crı́ticas para Sn−1 en cada uno de los tipos de hipótesis son:
98
Caso A)
χ21− α χ2α
" ! #
[
0, σ02 2
σ02 2
,∞
n−1 n−1
Caso B)
χ2α
!
σ02 2
,∞
n−1
Caso C)
χ21− α
" !
0, σ02 2
n−1
donde χ2α el valor de la distribución Chi-cuadrado (para n − 1 grados de libertad) que deja
por encima de el un área igual a α.
Alternativamente podemos definir el estadı́stico de contraste,

2
(n − 1)Sn−1
χ20 = (42)
σ02
Las regiones crı́ticas para χ20 (definida e la ecuación 42) se convienten en:
Caso A)
h [
0, χ21− α χ2α , ∞
2 2
Caso B)

χ2α , ∞
2
Caso C)
h
0, χ21− α
2
Por otra parte el p-valor en cada uno de los tres tipos de prueba es:
Caso A)
p − valor = 2 mı́n{P χ2n−1 > χ20 , P χ2n−1 < χ20 }

Caso B)
p − valor = P χ2n−1 > χ20

Caso C)
p − valor = P χ2n−1 < χ20

99
4.7 Prueba de hipótesis en dos poblaciones
4.7. Prueba de hipótesis en dos poblaciones
4.7.1. Prueba de hipótesis sobre igualdad de medias, muestras independientes
Sean X ∼ N (µ1 ; σ12 ) e Y ∼ N (µ2 ; σ22 ) dos poblaciones normales de las cuales extraemos dos
muestreas aleatorias independientes entre si.
Sea X1 , X2 , . . . , Xn1 , una muestra aleatoria de tamaño n1 de la población X, entonces;
σ12

X̄ ∼ N µ1 ;
n1
Sea Y1 , Y2 , . . . , Yn2 , una muestra aleatoria de tamaño n2 de la población Y , la cual es independiente

de la primera muestra, entonces;
σ2

Ȳ ∼ N µ2 ; 2
n2
De los resultados obtenidos en estimación puntual resulta que:
σ12 σ22

X̄ − Ȳ ∼ N µ1 − µ2 ; + (43)
n1 n2
A paritr de estas dos muestras, interesa contrastar la hipótesis nula de igualdad de medias. Dis-
tinguimos al igual que en los intervalos de confianza tres casos:
1. Varianzas conocidas.
2. Varianzas desconocidas pero iguales.
3. Varianzas desconocidas y diferentes.
Las hipótesis a contrastar en cada uno de los casos son:
A)H0 : µ1 = µ2 o H0 : µ1 − µ2 = 0
H1 : µ1 6= µ2 H1 : µ1 − µ2 6= 0
B)H0 : µ1 ≤ µ2 o H0 : µ1 − µ2 ≤ 0
H1 : µ1 > µ2 H1 : µ1 − µ2 > 0
C)H0 : µ1 ≥ µ2 o H0 : µ1 − µ2 ≥ 0
H1 : µ1 < µ2 H1 : µ1 − µ2 < 0
100
Primer caso: Varianzas conocidas.
Una expresión equivalente a (43) es:
X̄ − Ȳ
Z0 = q 2 ∼ N (0; 1)
σ1 σ22
n1
+ n2
Se verifica que las regiones crı́ticas para X̄ − X̄ en cada uno de los tres tipos de hipótesis
son:
Caso A)    
s s
−∞, −Z α σ12 σ22  [  σ12 σ22
+ Z α2 + , ∞
2
n1 n2 n1 n2
Caso B)  
s
σ12 σ22
Zα + , ∞
n1 n2
Caso C)  
s
−∞, −Zα σ12 σ22 
+
n1 n2
Alternativamente, podemos definir las regiones crı́ticas con ayuda del estadı́stico de contraste,
X̄ − Ȳ
Z0 = q 2 (44)
σ1 σ22
n1
+ n2
Se verifica entonces que las regiones crı́ticas para Z0 (dado en la ecuación 44) son:
Caso A)
[
−∞, −Z α2 Z α2 , ∞
Caso B)
(Zα , ∞)
Caso C)
(−∞, −Zα )
Mientras que el p-valor en cada uno de los casos es:
101
Caso A)
p − valor = 2 (Z > |Z0 |)
Caso B)
p − valor = 2 (Z > Z0 )
Caso C)
p − valor = (Z < Z0 )
Segundo caso: Varianzas desconocidas pero iguales.
Las hipótesis de independencia y normalidad de las muestras garantiza que la variable alea-
toria,
X̄ − Ȳ
T0 = q ∼ tn1 +n2 −2
Sp n11 + 1
n2
con
(n1 − 1)Sn21 −1 + (n2 − 1)Sn22 −1
Sp2 =
n1 + n2 − 2
(una estimación insesgada de la varianza poblacional común en ambas poblaciones).
De este modo las regiones crı́ticas en cada uno de los tipo de hipótesis para X̄ − Ȳ son:
Caso A)
r r
α 1 1 [ α 1 1
−∞, −Sp tn1 +n2 −2
2
+ Sp tn1 +n2 −2
2
+ ,∞
n1 n2 n1 n2
Caso B) r
α 1 1
Sp tn1 +n2 −2 + ,∞
n1 n2
Caso C) r
1 1
−∞, −Sp tαn1 +n2 −2 +
n1 n2
Alernativamente podemos definir el estadı́stico de contraste,

X̄ − Ȳ
T0 = q (45)
Sp n11 + 1
n2
Con lo que las regiones crı́ticas para T0 (dada en 45) en cada uno de los tipos de hipótesis
son:
102
Caso A)
α [ α
−∞, −t 2
n1 +n2 −2 t
2
n1 +n2 −2 ,∞
Caso B)
tαn1 +n2 −2 , ∞

Caso C)
∞, −tαn1 +n2 −2

Finalmente también podemos tomar nuestra decisión con ayuda del p-valor, el cálculo para
cada una de los tipos de hipótesis (haciendo g = n1 + n2 − 2)es:
Caso A)
p − valor = 2P (tg > |T0 |)
Caso B)
p − valor = P (tg < T0 )
Caso C)
p − valor = P (tg > T0 )
Tercer caso: Varianzas desconocidas y diferentes.
Cuando se estudió los intervalos de confianza mencionamos que la distribución de la variable

σ12
Z0 dada en la ecuación (44) depende de la magnitud de σ22
.
Entre las muchas soluciones aproximadas, una de las más habituales y más ampliamente
usadas es considerar la variable aleatoria,
X̄ − Ȳ
T0 = s ∼ tv
Sn21 −1 Sn2−1
2
+
n1 n2
Donde v. número de grados de libertad, se calcula dependiento de si se usa la aproximación

de Hsu, de Welch o cualquier otra.
Los grados del libertad son:
1. Para Hsu son v = mı́n{n1 , n2 } − 1.
103
2. Para Welch v = n1 + n2 − 2 − δ con δ dada en la ecuación (29).
3. Mientras que la otra alternativa es usar los grados de libertad a partir de la ecuación
(30).
Las regiones crı́ticas, serán similares al caso anterior, la diferencia radicará únicamente en
los grados de libertad asociados a la distribución t de Student (dependiendo de la solución
que se esté utilizando). El cálculo del p-valor, también es similar con la misma observación
q 2
Sn −1 S2
hecha sobre los grados de libertad, y además utilizando 1
n1
+ n2−1
n2
en lugar de Sp .
Cuarto caso: cuando n1 , n2 > 30
Este caso es similar al caso en que se conocen las varianzas; pues de lo visto previamente re-
sulta que si definimos la variable Z como en la ecuación (32), la variable Z ∼ N (0; 1). De este
modo las regiones crı́ticas pueden encontrarse de manera similar reemplazando únicamente
q 2 2
q 2
Sn −1 Sn2−1 σ1 σ2
1
n1
+ n2
por n1
+ n22 ; el cálculo del p-valor se obtiene de manera similar.
4.7.2. Prueba de hipótesis sobre igualdad de medias, muestras dependientes
Las hipótesis a contrastar son siempre las mismas a las del apartado anteriror,
A)H0 : µ1 = µ2 o H0 : µ1 − µ2 = 0
H1 : µ1 6= µ2 H1 : µ1 − µ2 6= 0
B)H0 : µ1 ≤ µ2 o H0 : µ1 − µ2 ≤ 0
H1 : µ1 > µ2 H1 : µ1 − µ2 > 0
C)H0 : µ1 ≥ µ2 o H0 : µ1 − µ2 ≥ 0
H1 : µ1 < µ2 H1 : µ1 − µ2 < 0
No se puede abordar el problema como se hizó antes pues claramente cov(X̄; Ȳ ) 6= 0. Tal y como
se indicó en el apartado de intervalos de confianza en muestras pareadas, la solución consiste en
104
definir la nueva variable D = X − Y ; de este modo las hipótesis se convierten en:
A)H0 : µD = 0
H1 : µD 6= 0
B)H0 : µD ≤ 0
H1 : µD > 0
C)H0 : µD ≥ 0
H1 : µD < 0
y determinamos la región de confianza para esta nueva variable, se determina que las regiones
crı́ticas para D̄ en cada uno de las tipos de hipótesis son:
Caso A)
α SD [ α2 SD
−∞, −tn−1 √
2
tn−1 √ , ∞
n n
Caso B)
α SD
tn−1 √ , ∞
n
Caso C)
SD
∞, −tαn−1 √
n
donde
n n
2 1 X 1X
SD = (Di − D̄) D̄ = Di
n − 1 i=1 n i=1
Alternativamente podemos encontrar las regiones crı́ticas con ayuda del estadı́stico de contraste:
D̄
T0 = (46)
S
√D
n
Las regiones para T0 (dada en la ecuación 46) son:
Caso A)
α [ α
−∞, −tn−1
2
tn−1
2
,∞
105
Caso B)
tαn−1 , ∞

Caso C)
∞, −tαn−1

El p-valor también puede calcularse de la siguiente manera:
Caso A)
p − valor = 2P (tn−1 > |T0 |)
Caso B)
p − valor = P (tn−1 > T0 )
Caso C)
p − valor = P (tn−1 < T0 )
4.7.3. Prueba de hipótesis sobre igualdad de proporciones
Si X ∼ B(p1 ) e Y ∼ B(p2 ) son dos poblaciones.

Sea X1 , X2 , . . . , Xn1 una muestrea aleatoria de tamaño n1 de la población X. Sea además, Y1 , Y2 , . . . , Yn2
una muestrea aleatoria de tamaño n2 de la población Y , la cual es independiente de la primera.
Deseamos contrastar las hipótesis:
A)H0 : p1 = p2 o H0 : p1 − p2 = 0
H1 : p1 6= p2 H1 : p1 − p2 6= 0
B)H0 : p1 ≤ p2 o H0 : p1 − p2 ≤ 0
H1 : p1 > p2 H1 : p1 − p2 > 0
C)H0 : p1 ≥ p2 o H0 : p1 − p2 ≥ 0
H1 : p1 < p2 H1 : p1 − p2 < 0
106
Por el Teorema del Lı́mite Central y por los resultados obtenidos en el apartado de intervalos de
confianza se tiene que:

p1 (1 − p1 )
Π1 ∼ N p1 ;
n1

p2 (1 − p2 )
Π2 ∼ N p2 ;
n2

p1 (1 − p1 ) p2 (1 − p2 )
Π1 − Π2 ∼ N p1 − p 2 ; +
n1 n2
Bajo el supuesto de que H0 es cierta (p1 = p2 = p), se deduce que:
Π1 − Π2
s ∼ N (0; 1)
1 1
p(1 − p) +
n1 n2
La estimación más eficiente para p desconocida, es el promedio de las estimaciones puntuales en

cada muestra (p̂1 , p̂2 ), ponderando por los tamaños de cada una de las muestras, es decir;
n1 n2
p̂ = p̂1 + p̂2
n1 + n2 n1 + n2
Con lo que si definimos la variable aleatoria Z0 por:
Π1 − Π2
Z0 = s ∼ N (0; 1)
1 1
p̂(1 − p̂) +
n1 n2
Las regiones crı́ticas (para p1 - p2 ) en cada uno de los tipos de hipótesis son:
Caso A)
s ! [ s !
1 1 1 1
−∞, −Z α2 p̂(1 − p̂) + Z α2 p̂(1 − p̂) + ,∞
n1 n2 n1 n2
Caso B) s !
1 1
Zα p̂(1 − p̂) + ,∞
n1 n2
Caso C) s !
1 1
−∞, −Zα p̂(1 − p̂) +
n1 n2
107
Alternativamente podemos calcular el estadı́stico de contraste,
p̂1 − p̂2
Z0 = s (47)
1 1
p̂(1 − p̂) +
n1 n2
Por lo que las regiones crı́ticas para Z0 (dada en 47) son:
Caso A)
[
−∞, −Z α2 Z α2 , ∞
Caso B)
(Zα , ∞)
Caso C)
(−∞, −Zα )
Mientras que el p-valor en cada uno de los casos es:
Caso A)
p − valor = 2P (Z > |Z0 |)
Caso B)
p − valor = P (Z > Z0 )
Caso C)
p − valor = P (Z < Z0 )
4.7.4. Prueba de hipótesis sobre igualdad de varianzas
Sean X1 , X2 , . . . , Xn1 e Y1 , Y2 , . . . , Yn2 dos muestras aleatorias obtenidas de dos poblaciones nor-
males e independientes X ∼ N (µ1 ; σ12 ) e Y ∼ N (µ2 ; σ22 ), repectivamente.
A partir de la información proporcionada por ambas muestras se desea contrastar la hipótesis de
igualdad de varianzas:
H0 : σ12 = σ22
H1 : σ12 6= σ22
108
4.8 Problemas propuestos 4 PRUEBA DE HIPÓTESIS ESTADÍSTICAS
Nos concentraremos únicamente en un caso, pues como ya se sabe la comparación de medias se basa
únicamente en si las varianzas son iguales o distintas, por lo que en un primer paso se deberı́a de
realizar este contraste, a menos que tengamos información sobre la varianza de ambas poblaciones.
Bajo el supuesto normalidad e independencia de las muestras, se tiene:
(n1 − 1)Sn21 −1
∼ χ2n1 −1
σ12
(n2 − 1)Sn22 −1
∼ χ2n2 −1
σ22
Bajo el supuesto de que H0 es cierta, se tendrá, según la ecuación (35) que la variable aleatoria:
Sn21 −1
F0 = ∼ Fn1 −1,n2 −1 (48)
Sn22 −1
α
1− α
Sean Fn21 −1,n2 −1 y Fn1 −1,n
2
2 −1
los descritos en (36). De este modo la región crı́tica para el conciente
2
Sn
1 −1
F0 = 2
Sn
es
2 −1
α
1− α
h [
0, Fn21 −1,n2 −1 Fn1 −1,n
2
2 −1
, ∞
Con lo que rechazaremos la hipótesis nula de igualdad de varianzas siempre y cuando el valor de F0
calculado en la ecuación (48) se encuentre en la región de aceptación; en caso contrario se aceptará.
Mientras que el p-valor es:
p − valor = 2 mı́n{P (Fn1 −1,n2 −1 > F0 ) , P (Fn1 −1,n2 −1 < F0 )}
4.8.1. Contraste en una población
1. A partir de una muestra aleatoria de tamaño 36 extraı́da de una población normal con
desviación tı́pica 5 se desea realizar el siguiente contraste:
H0 : µ = 14
H1 : µ = 17
109
Aplicando la regla de decisión,
si X̄ ≤ 15; no se rechaza H0
si X̄ > 15; se rechaza H0
a) Calcule el nivel de significacia, α.
b) Obtenga la probabilidad de cometer el error tipo II.
c) Calcule la potencia del contraste.
2. Tenemos una población N (µ; 1). Sobre el parámetro µ se establecen dos hipótesis: la hipótesis
nula establece que µ = 1, mientras que la alternativa que µ = 2. La región crı́tica es el
intervalo [2.282, ∞). El contraste se efectúa mediante una muestra aleatoria de tamaño 1.
Determine el nivel de significación y la potencia del contraste.
3. Para una muestra aleatoria de tamaño 16 de una población N (µ; 1) con µ ∈ {0, 1} se utiliza
la región crı́tica RC = {X̄ > k} para contrastar
H0 : µ=0
H1 : µ=1
Se pide:
a) Valor de k para que la prueba tenga tamaño 0.01.
b) Probabilidad de error tipo I.
c) Probabilidad de error tipo II.
4. Por estadı́sticas que se tienen, se ha podido establecer que más del 40 % de los jóvenes toman
regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 jóvenes reveló que
162 de ellos solı́an tomar dicha bebida cuando tenı́an sed.
a) ¿Cuál podrı́a ser su conclusión al nivel del 1 % de significancia acerca de lo que muestran
las estadı́sticas?
b) ¿Cuál podrı́a ser su conclusión al nivel del 5 % de significancia acerca de lo que muestran
las estadı́sticas?
110
5. La media de una muestra es de 49 y el tamaño de la muestra es de 36, la desviación estándar

es 3. Utilice el nivel de significancia de 0.02 para probar las siguientes hipótesis:
H0 : µ = 50
H1 : µ 6= 50
6. La cadena de restaurante “Campero” afirma que el tiempo de espera para el servicio de

atención tiene una distribución normal, con una media de 3 minutos y una desviación de
1 minuto. El departamento de aseguramiento de calidad descubrió en una muestra de 50
clientes que el tiempo medio de espera es de 2 minutos, en el nivel de significancia de 0.05
¿Se puede llegar a la conclusión de que el tiempo de espera en promedio es menos de tres
minutos?
7. De un análisis exhaustivo de la obra de un cierto autor, un investigador concluye que este

autor escribe frases cuya longitud siguen una distribución normal con media µ = 31.5 palabras
y desviación estándar σ = 6.8 palabras. El investigador ahora lee otro escrito tal vez por el
mismo autor, en el cual la longitud promedio de 80 frases es 34 palabras. Pruebe si la longitud
media de la nueva obra es consistente con el trabajo del conocido autor. Enuncie la hipótesis
nula y alternativa y presente claramente su conclusión.
8. El dueño de una fábrica sostiene que su producto tiene una vida media de 10 años. Para
comprobar tal afirmación se toma una muestra de 120 productos comprobándose que su vida
media habı́a sido de 9.6 años y su desviación tı́pica de 1.2 años
a) ¿Qué se puede decir de la afirmación del fabricante, supuesto que sus productos siguen
una distribución normal, con un nivel de confianza del 95 %?
b) ¿Cómo se verá afectada la conclusión anterior si la desviación tı́pica hubiese sido de 1.5?
9. Sea X una variable aleatoria distribuida según una N (µ; 32 ). A partir de la muestra: 6, 7, 8,
3, 5, 6, 7, 8, 9, 1, 7, 6, 3, 8, 9, 7, contraste, con un nivel de significación de 0.05, la hipótesis
de que la media real es 5.
10. Se sabe que el promedio de las calificaciones de los estudiantes en la asignatura de Estadı́stica
en los últimos dos años ha sido de 5.6. Tras tomar una muestra aleatoria de 30 estudiantes
111
del presente curso, se obtuvo un promedio de 6.4 y una desviación tı́pica de 1.25. Suponiendo
que se distribuyen normalmente, ¿se puede afirmar que los alumnos de este año obtuvieron
calificaciones por encima de lo habitual?
11. Se sabe que ciertas piezas de una máquina tienen una vida media de 1940 horas. Al variar
uno de sus componentes se observa que una muestra de 100 piezas ha dado una duración
media de 2000 horas y una desviación tı́pica de 150 horas. ¿Se puede afirmar a un nivel de
significación del 10 % que el componente modificado ha supuesto un cambio significativo en
la duración media de las piezas?
12. Se tiene que reparar una máquina en cierta fábrica si produce más del 10 % de artı́culos
defectuosos del gran lote de producción de un dı́a. Una muestra aleatoria de 100 artı́culos de
la producción contiene 15 defectuosos y el supervisor decide que debe repararse la máquina.
¿La evidencia de la muestra apoya la decisión del supervisor? Utilice un nivel de significancia
del 1 %.
13. El fabricante de un determinado aparato de medida garantiza que éste tiene una desviación
tı́pica de 0.25 unidades. Transcurrido un periodo de 9 meses, una muestra de 20 medidas
proporcionó una desviación tı́pica de 0.32 unidades. ¿Puede afirmarse con un nivel de signi-
ficación del 5 % que el aparato de medida está estropeado? ¿Y con un 1 % de significación?
14. Durante 100 años la desviación tı́pica de las temperaturas anuales máximas de una ciudad
ha sido de 16º F. Pero en los últimos 12 años se estuvo tomando la temperatura máxima los
dı́as uno de cada mes y dio una desviación tı́pica de 10º F. Supuesto que la temperatura se
distribuye normalmente, ¿se puede afirmar con un 95 % de fiabilidad que la variabilidad de
las temperaturas ha disminuido?
15. Sea X siguiendo una distribución normal N (µ; σ 2 ). Una prueba es necesaria para H0 : σ 2 =
0.04 contra H1 : σ 2 6= 0.04, basado en una muestra aleatoria de tamaño n = 13. Si S 2
observado es 0.058, ¿se rechaza H0 : σ 2 = 0.04 al nivel de significancia del 5 %?
16. Un fabricante de televisores afirma que poco menos del 20 % de sus tubos de imágenes fallan
dentro de 2 años. Se encontró en una muestra aleatoria de tamaño 100 que 18 tubos de
imágenes fallaron en 2 años. ¿Es razonable la afirmación del fabricante?
112
17. Se sabe que el porcentaje de curación espontánea de una determinada enfermedad es del
30 %. Para asegurar la eficacia de un nuevo tratamiento se selecciona aleatoriamente una
muestra de 100 enfermos y se les somete a tal tratamiento, obteniéndose que el porcentaje
de personas curadas es del 45 %. ¿Se puede afirmar la eficacia del mencionado tratamiento
con una confianza del 95 %?
18. Una agencia de empleos, critica el hecho de que el 30 % de las personas que son colocadas no
pasan la prueba de trabajo en los tres meses. Se quieren comprobar esta crı́tica y del archivo
de colocación de empleados, selecciona una muestra de 25 empleados y se encuentra que 7
no pasaron la prueba. ¿Se puede justificar esta crı́tica?
19. En la distribución N (µ; 1), contrástese las hipótesis
H0 : µ=6
H1 : µ=4
Hállese la región crı́tica y la potencia del contraste si el nivel de significancia es igual a 0.05
y la muestra aleatoria es de tamaño 4.
20. En la distribución N (µ; 122 ), contrástese las hipótesis
H0 : µ = −5
H1 : µ < −5
En muestras aleatorias de tamaño 9 y con un nivel de significancia de 15 %, siendo la muestra

extraı́da: -20.06, 4.56, -17.20, 6.05, 3.17, -0.28, 0.63, -15.26, -3.16.
21. Contrástese con un nivel de significancia del 20 %, las hipótesis
H0 : σ2 = 4
H1 : σ 2 6= 4
Tomemos para esto una muestra aleatoria de tamaño 7, cuyo resultado es: 7.1, 5.3, 4.7, 8.0,
9.9, 3.4 y 3.6.
113
22. De una población N (µ; 1), se observa una muestra de tamaño 5. Se considera el contraste de
hipótesis:
H0 : µ=1
H1 : µ=3
Y la región crı́tica dada por: C = {X̄ > 2.5}
a) Calcular las probabilidades de los dos tipos de error.
b) Para la muestra: 2.5, 3, 1.2, 2.1 y 3.2, ¿qué decisión debe tomarse?
23. Se sospecha que el medio de una partida de paquetes de garbanzos no llega a un kilo, tal
como se indica en el envase. Para ello se selecciona una muestra de 9 paquetes, resultando
los siguientes pesos en gramos: 1010, 989, 999, 1005, 956, 989, 992, 1025, 1050.
Contrastar la afirmación anterior, para un nivel de significancia del 5 %.
24. Las normas de fabricación impuestas a los fabricantes sobre la resistencia a rotura de un tipo
de hilo son µ = 300 gramos y σ = 20 gramos. Se pretende contrastar estas normas en un
nuevo proceso de fabricación con un error del 5 %, en los siguientes supuestos:
a) En una muestra de 100 bobinas de hilo se comprobó que X̄ = 305 y S = 22.
b) En una muestra de 10 bobinas donde X̄ = 316 y S = 10.
25. Contrastar la hipótesis de que el contenido medio de las latas de gasolina de una determinada
marca sea 5 litros si los contenidos de 9 recipientes son: 5.1, 4.85, 5.05, 5.15, 5.06, 4.9, 4.95, 5.2,
5.15. Elegir un nivel de significancia del 1 %. Se supone que la distribución de los contenidos
es normal.
26. En el paquete de una marca de cigarrillos se afirma que el contenido medio de nicotina no
excede los 3.5 miligramos. En una muestra de 10 cigarrillos se ha encontrado una media
de 4.1 miligramos con una desviación tı́pica de 1.3. Contrastar la hipótesis con un nivel de
significancia del 5 %.
114
27. Después de un cambio tecnológico, una industria que tiene establecida su producción media en
12000 unidades mensuales, observa su producción durante los 12 meses siguientes, obteniendo
las siguientes producciones (en miles de unidades): 12.2, 12.4, 11.6, 13.1, 10.9, 12.4, 11.3, 11.7,
12.2, 12.7, 11.9, 11.8. Contrastar a un nivel de significancia del 5 %, si el cambio tecnológico
ha afectado a la dispersión de la producción que estaba en σ = 1500 unidades por mes.
28. La oficina de control de tránsito sostiene que el 40 % de conductores de vehı́culos de servicio

particular tienen pase de conducción vencida. Se lleva a cabo una muestra de 20 conductores,
encontrando que 9 de ellos tienen pase vencido. ¿Al 5 % de nivel de significancia, se puede
afirmar que el porcentaje es mayor que el señalado por la oficina?
29. La duración media de una muestra de 10 bombillas es 1250 horas, con una cuasidesviación
tı́pica muestral de 115 horas. Se cambia el material del filamento por otro nuevo y, entonces,
de una muestra de 12 bombillas se obtuvo una duración media de 1340 horas, con una
cuasidesviación tı́pica de 106.
a) ¿Puede aceptarse que las varianzas, antes y después del cambio, son iguales? ¿Bajo qué
hipótesis?
b) ¿Ha aumentado la duración media de las bombillas?
4.8.2. Comparación de dos poblaciones
1. Sean X e Y denotando los pesos en gramos de gallaretas machos y hembras, respectivamente.

2
Suponga que X es N (µX ; σX ) e Y es N (µY ; σY2 ) una muestra aleatoria de tamaño n = 13 y
2
m = 13 dan como resultado X̄ = 415.16, SX = 1356.75, Ȳ = 347.4, SY2 = 629.21. Pruebe
primero las hipótesis:
2
H0 : σX = σY2
2
H1 : σX 6= σY2
Y posteriormente las hipótesis:
H0 : µX − µY = 0
H1 : µX − µY > 0
115
2. Se cree que los supermercados en Swansea tienden a cobrar más por sus artı́culos que en
Cardiff. Un comprador en Cardiff y un comprador en Swansea acuerdan comprar artı́culos
para luego comparar precios. Las dos ciudades tiene 10 cadenas de supermercado en común,
las cuales llamaremos A, B, . . . , J, y los compradores visitarán cada una a la vez en semanas
consecutivas, se registraron los siguientes precios en libras:
Tienda A B C D E F G H I J
Swansea 12.08 12.81 12.74 13.54 14.86 14.68 12.64 15.23 13.83 12.64
Cardiff 11.62 11.69 12.57 13.32 13.15 14.04 11.76 13.63 12.95 12.59
Utilizando un nivel de confianza del 95 % enuncie cualquier hipótesis y contrástela con dichos
datos. ¿Se apoya la teorı́a que los precios en Swansea son mayores?
3. Para averiguar si difieren los niveles de una determinada sustancia quı́mica en dos grupos de
personas, se toman muestras con los siguientes resultados:
Muestra n X̄ S
Vitaminas 31 8.5 5.5
Normal 25 4.8 5.1
Suponiendo normalidad, contraste tal hipótesis a un nivel de significación de 0.05.
4. Se pretende estudiar si existe diferencia, en lo que a eficacia se refiere, entre el paracetamol

y un nuevo producto, Y , en el alivio de determinados sı́ntomas. Para ello, se seleccionó dos
grupos de 10 y 16 personas y se midió el tiempo medio que tardaban los enfermos en sentirse
bien. Los resultados indicaron que mientras el primer grupo tardaba 15.8 minutos de media
con una desviación tı́pica de 7.8 minutos, el segundo lo hacı́a en 13.2 minutos de media y
desviación tı́pica de 6.6 minutos. Si se supone normalidad en ambos casos, realice el contraste
adecuado para un nivel de significación de 0.05.
5. De dos poblaciones Normales se extraen dos muestras aleatorias X e Y , de tamaño 121 y 41

y cuasivarianzas muestrales 70.2 y 76.8, respectivamente. Realice un contraste para averiguar
si existen evidencias para pensar que las dos muestras procedan de poblaciones con varianza
diferente, a un nivel de significación del 10 %.
116
6. En una encuesta realizada a 200 habitantes de una población A, 95 personas afirmaban que
preferı́an la playa a la montaña para pasar las vacaciones. La misma encuesta realizada a
150 habitantes de otra población B, dio como resultado que 100 personas preferı́an ir a la
playa. ¿Puede pensarse que los habitantes de la población B son más aficionados a la playa
que los de la población A? Contrástese dicha hipótesis al 99 %.
7. En un estudio realizado sobre las tendencias de los fumadores se seleccionó de manera alea-
toria una muestra de 400 hombres de los cuales 190 eran fumadores y otra muestra aleatoria
de 800 mujeres, de las que fumaban 300. ¿Se puede afirmar que la proporción de fumadores
es la misma en hombres que en mujeres con una confianza del 90 %?
8. En dos ciudades se llevó a cabo una encuesta sobre el costo de la vida para obtener el gasto
semanal promedio en alimentación en familias constituidas por cuatro personas. De cada
ciudad se seleccionaron aleatoriamente una muestra de 20 familias y se observaron que en la
primera ciudad se obtuvo una media de $ 135 y una desviación tı́pica de $ 15 y en la segunda
ciudad se obtuvo una media de $ 122 y una desviación tı́pica de $ 10. Se consideran que los
datos referidos a cada población son independientes y con distribución normal.
9. Un grupo de personas participan en un estudio nutricional que trata de analizar los niveles
de Vitamina C en la sangre de fumadores y no fumadores. Los resultados, en mg/l, fueron:
Fumadores 18.3 9.3 12.6 15.7 14.2 13.1 14.3 16.2 18.1 19.4 15.5 11.7
No fumadores 24.9 16 26.3 25.5 19.3 16.8 15.7 24.6 19.9 9.4 17.4
Admitiendo que, en ambos casos, los niveles siguen distribuciones normales, contraste las
siguientes hipótesis H0 : µ1 ≥ µ2 frente a H1 : µ1 < µ2 con un nivel de significancia del 5 %.
10. Para medir la introversión se aplica a 12 individuos un test de personalidad en sus dos
variantes, 1 y 2, que se supone la miden por igual. A partir de los datos de la siguiente tabla:
Individuo 1 2 3 4 5 6 7 8 9 10 11 12
Forma I 12 18 21 10 15 27 31 6 15 13 8 10
Forma II 10 17 20 5 21 24 29 7 9 13 8 11
117
¿Es cierto que las formas 1 y 2 miden por igual la introversión?
11. Para estudiar cuál de los dos tratamientos contra la artrosis es más eficaz se eligen aleato-
riamente dos muestras de 10 y 22 pacientes a los cuales se les somete a los tratamientos 1 y
2, respectivamente. Pasados tres meses se valoran ambos tratamientos de manera que el que
tenga mayor puntuación será más eficaz. La tabla siguiente refleja los resultados obtenidos.
Tratamiento 1 12 15 21 17 38 42 10 23 35 28
Tratamiento 2 21 18 42 25 14 52 65 40 43 35 18
56 29 32 44 15 68 41 37 43 58 42
Asumiendo normalidad de los datos evalué si existe diferencia entre los dos tratamientos.
12. Con el propósito de saber si debe poner neumáticos diferentes en los trenes delanteros (D) y
traseros (T) de sus vehı́culos, un fabricante ha medido el desgaste producido en 20 de ellos
después de 15000 Kms, obteniendo los siguientes resultados:
Delanteros 23.4 21.7 18 23.2 16.8 19.1 18.7 19.8 25 21.5

Traseros 22.8 24.9 18 22.7 22.3 18.3 22.1 23.9 17.4 19
a) Suponiendo normalidad, ¿confirman los datos, con un nivel de significación de 0.05, la

hipótesis de que el desgaste medio en el tren delantero es de 21 unidades?
b) ¿Se puede afirmar que los neumáticos sufren el mismo desgaste en los dos trenes?
13. Una determinada empresa le propone al director de una fábrica un nuevo método que, su-
puestamente, reduce el tiempo empleado en el montaje de uno de sus productos. Con el
propósito de comparar tal método con el empleado habitualmente, seleccionó aleatoriamente
a siete de sus empleados para que llevasen a cabo el montaje con los dos sistemas y anotó
los tiempos empleados en el montaje, obteniendo los siguientes resultados:
Trabajador 1 2 3 4 5 6 7
Método habitual 38 32 41 35 42 32 45
Método nuevo 30 32 34 37 35 26 38
118
Supuesto que el tiempo de montaje sigue una distribución normal, ¿se puede afirmar que
efectivamente el nuevo método reduce el tiempo en más de dos minutos?
14. En una empresa los operarios de planta constituyen un colectivo de 528 empleados, de los
cuales 79 sufren problemas de espalda. Los administrativos, por el contrario, son 32, de los
cuáles 7 sufren problemas de espalda. ¿Se tienen evidencias de que los administrativos sufren
más problemas de espalda que los operarios de planta? (Utilı́cese un nivel de significancia
del 5 %).
15. Es un tópico que las mujeres conducen peor que los hombres. Un ingeniero mecánico que
trabaja en cuestiones relativas a seguridad vial quiere realizar una comprobación al respecto
en la población que le atañe. Concretamente, se interesa por el porcentaje de varones cau-
santes de accidentes de tráfico. En una muestra aleatoria de n accidentes, descubre que en
k de ellos fue un varón el causante. Sabiendo que el porcentaje de varones en la población
es del 49 %, ¿tiene evidencias el ingeniero que existan diferencias entre hombres y mujeres
como causantes de accidentes de tráfico? (Utilı́cese un nivel de significación del 5 %).
16. Un fabricante desea comparar la tensión promedio de su hilo con la de su más cercano
competidor. Las tensiones de 100 hilos para cada marca se observaron bajo condiciones
controladas. Las medias y desviaciones estándar de cada marca fueron las siguientes:
X̄1 = 110.8 X̄2 = 108.2
S1 = 10.2 S2 = 12.4
Si se supone que el muestreo se llevó a cabo sobre dos poblaciones normales e independientes,
¿existe alguna razón para creer que hay diferencia entre las tensiones promedio de ruptura
de los dos hilos? Utilice un nivel de significancia del 2 %. ¿Cuál es el p-valor?
17. Se cree que el promedio verbal para el número de respuestas correctas para la prueba SAT
para las mujeres es mayor que el de los hombres por más de diez puntos. Las muestras
aleatorias para ambos sexos arrojaron los siguientes resultados:
Hombres n1 = 125 X̄1 = 480 S1 = 60

Mujeres n2 = 100 X̄2 = 460 S2 = 52
119
a) Si se muestran dos poblaciones independientes normales, ¿se encuentra la creencia apo-

yada por la evidencia muestral con α = 0.05? ¿Cuál es el p-valor?
b) Supóngase que la verdadera diferencia es de 15 puntos. ¿Cuál es la potencia de la prueba

anterior?
18. Se espera que dos operadores produzcan, en promedio, el mismo número de unidades ter-
minadas en el mismo tiempo. Los siguientes datos son los números de unidades terminadas
para ambos trabajadores en una semana de trabajo:
Operador 1 12 11 18 16 13
Operador 2 14 18 18 17 16
Si se supone que el número de unidades terminadas diariamente por los dos trabajadores son
variables aleatorias independientes distribuidas normales con varianzas iguales, ¿se puede
discernir alguna diferencia entre las medias a un nivel de confianza del 99 %?
19. Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la habilidad
de pensamiento para llevar a cabo determinada tarea. Se seleccionaron al azar diez personas
de distintas caracterı́sticas y se les pidió que participaran en el experimento. Después de
proporcionarles la información pertinente, cada persona llevó a cabo la tarea sin nada de
alcohol en su organismo. Entonces, la tarea volvió a llevarse a cabo, después que cada persona
habı́a consumido una cantidad suficiente de alcohol para tener un contenido en su organismo
de 0.1 %.
a) Discutir los aspectos importantes del control que el experimentador debe considerar al
llevar a cabo el experimento.
b) Supóngase que los tiempos antes y después (en minutos) de los diez participantes son
los siguientes:
Participante 1 2 3 4 5 6 7 8 9 10
Antes 28 22 55 45 32 35 40 25 37 20
Después 39 45 67 61 46 58 51 34 48 30
120
¿Puede concluirse a un nivel de confianza del 95 % que el tiempo promedio antes es menor
que el tiempo promedio después por más de 10 minutos?
20. Con objeto de estudiar si las pulsaciones en los hombres pueden considerarse menores que
en las mujeres, se tomaron muestras de 16 hombres y 16 mujeres, obteniéndose los siguientes
datos:
Hombres 74 77 71 76 79 74 83 79 83 72 79 77 81 79 84 80
Mujeres 81 84 80 73 78 80 82 84 80 84 75 82 79 82 79 85
¿Qué se puede decir al respecto?
21. Queremos comparar dos métodos rápidos para estimar la concentración de una hormona en
una solución. Tenemos 10 dosis preparadas en el laboratorio y vamos a medir la concentración
de cada una con los dos métodos. Se obtienen los siguientes resultados:
Dosis 1 2 3 4 5 6 7 8 9 10
Método A 10.7 11.2 15.3 14.9 13.9 15.0 15.6 15.7 14.3 10.8
Método B 11.1 11.4 15.0 15.1 14.3 15.4 15.4 16.0 14.3 11.2
Contrastar si los dos métodos proporcionan, en media, las mismas estimaciones (tomar un
nivel de confianza del 90 %).
22. Para contrastar la hipótesis de igualdad de varianzas de las distribuciones N (µ1 ; σ12 ) y
N (µ2 ; σ22 ), con un nivel de significancia del 10 % se toman dos muestras aleatorias inde-
pendientes de tamaño 5 y 10, respectivamente. Los datos se muestran en el siguiente cuadro:
Muestra 1 25.9 22.3 26.4 24.4 27.8

Muestra 2 16.7 13.5 13.6 18.6 22.8 18.9 17.2 15.4 8.9 10.8
23. Se van a probar dos medicamentos A y B, contra una enfermedad. Para esto, tratamos 100
ratones enfermos con A y otros 100 con B. El número medio de horas que sobreviven con A
es 1200, y el número medio con B es 1400. Suponiendo normalidad en ambos casos se pide:
(Xi − X̄)2 = 900000 y

P
a) ¿Se puede aceptar igualdad de varianzas si sabemos que
(Yi − Ȳ )2 = 950000 (tomar un nivel de confianza del 90 %).
P
121
b) ¿Es más efectivo el medicamento B? Plantear el contraste adecuado para estudiar esto
con un nivel de confianza del 95 %.
24. Una determinada empresa desea saber si la proporción de personas que compran un deter-
minado electrodoméstico es la misma para hombres que para mujeres, y ası́ poder dirigir su
estrategia de marketing. Para ello toman 50 personas de cada sexo y preguntan si alguna
vez compraron dicho electrodoméstico, siendo afirmativa la respuesta en 10 hombres y 24
mujeres ¿conviene dividir a la población en segmentos según sexo?
25. Un total de nueve adultos se someten a una nueva dieta para adelgazar durante un periodo
de dos meses. Los pesos en kilogramos antes y después de la dieta son los siguientes:
Antes 85 93 84 87 84 79 85 78 86
Después 78 94 78 87 78 77 87 81 80
Contrastar, a un nivel de significancia del 2.5 %, que la dieta no es efectiva frente a que sı́ lo
es.
26. Se afirma que en las zonas rurales se ven más telenovelas que en las urbanas. En una muestra
de 120 televidentes de zonas rurales, 65 siguen regularmente una telenovela, mientras que
para una muestra de 250 televidentes en la zona urbana ese número es de 148. Contrastar la
hipótesis anterior a un nivel de significancia del 5 %.
27. En unos almacenes, para comparar la aceptación de dos productos, se han contabilizado las
ventas de cada uno en 10 y 8 dı́as respectivamente, con los siguientes resultados:
Producto I 9 32 14 25 30 22 19 25 33 26
Producto II 15 22 19 12 21 20 16 18
Admitiendo que las ventas siguen distribuciones normales, contrastar, a un nivel de confianza
del 5 %, la hipótesis nula de que ambos tienen la misma aceptación.
122

Inferencia Estadistica-1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Inferencia Estadistica-1

Uploaded by

Copyright:

Available Formats

CUADERNO DE APUNTES

3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4. PRUEBA DE HIPÓTESIS ESTADÍSTICAS 84

4.6.1. Prueba de hipótesis sobre una media . . . . . . . . . . . . . . . . . . . . . . 91

1.1. Esperanza matemática

La esperanza matemática es una función lineal y cumple las siguientes propiedades:

4. E[X ± Y ] = E[X] ± E[Y ]

1. var(X) = E[X 2 ] − E[X]2

2. cov(X; Y ) = E[XY ] − E[X]E[Y ]

También si X e Y son variables aleatorias se cumple lo siguiente:

1.2. Función Caracterı́stica

Teorema 1.1. Sean X1 , X2 , . . . , Xn , un conjunto de variables aleatorias independientes cada una

tiene la siguiente función caracterı́stica

φY (t) = φX1 (a1 t)φX2 (a2 t) . . . φXn (an t) (1)

φY (t) = E [exp (t (a1 X1 + a2 X2 + · · · + an Xn ))]

= E [exp (ta1 X1 ) exp (ta2 X2 ) · · · exp (tan Xn )]

= E [exp (ta1 X1 )] E [exp (ta2 X2 )] · · · E [exp (tan Xn )]

= φX1 (a1 t)φX2 (a2 t) . . . φXn (an t)

1.3. Distribuciones de probabilidad

1.3.1. Distribución normal

Demostración. Si Xi ∼ N (µi ; σi2 ) entonces ai Xi ∼ N (ai µi ; a2i σi2 ), y

Puesto que las Xi son independientes,

φX (t) = φa1 X1 (t)φa2 X2 (t) · · · φan Xn (t)

La cual es precisamente la función caracterı́stica de una distribución normal de parámetros µ =

1.3.2. Distribución Chi-Cuadrado

Sean X1 , X2 , . . . , Xn , n variables aleatorias independientes e idénticamente distribuidas con Xi ∼

χ2n = X12 + X22 + · · · + Xn2 (4)

El subı́ndice n corresponde al número de variables aleatorias independientes, y se suele llamar

η = χ2n1 + χ2n2 + . . . + χ2nk

Sigue una distribución Chi-cuadrado con grados n1 + n2 + . . . + nk de libertad.

φη (t) = φχ2n1 (t)φχ2n2 (t) · · · φχ2n (t)

La cual es precisamente la función caracterı́stica de una distribución Chi-cuadrado con grados

En una distribución Chi-cuadrado se cumple:

1.3.3. Distribución t de Student

Sean X, X1 , X2 , . . . , Xn , n + 1 variables aleatorias independientes e idénticamente distribuidas con

1.3.4. Distribución F de Snedecor

3. Si t ∼ tn , entonces la variable aleatoria t2 ∼ F (1, n).

1.4. Inferencia Estadı́stica

Ejemplo; Durante los últimos dı́as se ha informado de un total de 13 homicidios diarios. La

El curso de Inferencia Estadı́stica se divide en: Estimación de parámetros y prueba de hipótesis.

Es aquella en la que se admite que la distribución de la población pertenece a cierta familia

No supone ninguna distribución de probabilidad de la población, exigiendo sólo hipótesis

Combinación de los dos métodos.

Las preguntas a resolver son:

¿Cuál de los métodos mejora la compresión lectora?

La primera pregunta es un caso de incertidumbre porque, basándonos en el estudio de los tres

La renta media de todas las familias de una ciudad.

El tiempo medio de espera en la caja de un supermercado.

La proporción de automóviles que se averı́an durante el primer año de garantı́a.

1. En la estimación, basta seleccionar un estadı́stico muestral cuyo valor es utilizará como

2. En la contrastación de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se

1.4.2. Razones que justifican un estudio inferencial

La realización de un estudio inferencial se justifica por distintas circunstancias, algunas de ellas

Por motivos presupuestarios. La realización de un estudio a través de muestras supone un

No todos los elementos de la población están localizados o no son localizables.

Existe situaciones en la que cuando se analiza un elemento éste es destruido.

1.4.3. Conceptos de muestreo

2. Tiempo. Se refiere al perı́odo de tiempo donde se ubicarı́a la población de interés.

3. Espacio. Se refiere al lugar geográfico donde se ubica la población de interés.

4. Cantidad. Se refiere al tamaño (número de elementos) de la población de interés.

Muestra. Es un subconjunto (por lo regular fielmente) de la población.

Estimador. Función matemática (aplicada a una muestra (X1 , X2 , . . . , Xn )) para predecir

Estimación. Valor que toma el estimador para una muestra concreta.