You are on page 1of 25

5 ESTIMACION

Objetivo: Aprender la construcción y características de los estimadores de los parámetros más


comunes, de manera puntual y por intervalo.

5.1 ESTIMACIÓN.

La parte de las matemáticas que trata de resolver problemas en base al análisis realizado sobre datos
que han sido obtenidos de la manera más adecuada posible (en base a un buen diseño de muestreo) se
conoce como estadística.

La estadística descriptiva organiza, resume y presenta los datos, mientras que la estadística inferencial
toma decisiones respecto a una población en base a todo un estudio que hace sobre una parte de tal
población, conocida como muestra.

Descriptiva

Estadística
Puntual
Estimación de
parámetros
Por intervalo
Inferencial

Prueba de
hipótesis

5.1.1 ESTIMACIÓN PUNTUAL

Generalmente los parámetros de las distribuciones que describen adecuadamente a un conjunto de


datos son desconocidos por lo que surge la necesidad de “estimarlos”.

Definición._ Un estimador es una función de las variables aleatorias X 1 , X 2 ,K , X n . Es también una


variable aleatoria y su función de distribución de probabilidad puede obtenerse a partir de la
distribución conjunta de X 1 , X 2 ,K , X n .

Ejemplo._ Supón que el parámetro de interés es θ . Entonces θˆ = f ( X 1 , X 2 , K, X n ) es un estimador de


θ.

Existen dos tipos de estimadores; puntual si solo se presenta un número como posible valor del
parámetro θ , y por intervalo si se presenta un conjunto de números dentro del cual puede estar el
valor de θ .
Por ejemplo cuando decimos; edad promedio de 35 años, estatura promedio de 1.65m, calificación
promedio de 9.3, etc. son estimaciones puntuales.
132
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Como ya se dijo θˆ es una v.a y tiene una distribución de probabilidad. Supón que θˆ1 y θˆ2 son
estimadores diferentes del parámetro θ y que tienen una distribución acampanada, con E θˆ1 = θ y ( )
( )
E θˆ > θ .
2

¿Qué estimador es mejor?


Si tenemos que elegir entre uno de los dos, nos decidiríamos por el primero es decir θˆ1 ya que en
promedio le pega al verdadero valor del parámetro; esto significa que si se repite muchas veces el
muestreo obteniendo estimaciones θˆ11 , θˆ12 , ... , θˆ1k gran número de estos valores están cerca del
parámetro de interés, sin embargo no ocurre lo mismo si usamos θˆ para estimar al parámetro ya que
2
sólo una pequeña proporción de estos valores están cerca de θ .
Pero si las distribuciones de los dos estimadores son acampanadas y centradas en θ con V θˆ1 < V θˆ2 . ( ) ( )
¿Qué estimador es mejor? Bajo estas circunstancias θˆ1 es mejor ya que tiene una menor dispersión,
esto garantiza que la proporción de estimadores del parámetro que se acercan al parámetro es mayor
que la proporción correspondiente de los valores de θˆ2 .

Definición._ θˆ es un estimador insesgado de θ si E θˆ = θ . ()


2
Definición._ i) El error cuadrático medio del estimador está dado por ECM θˆ = E θ − θˆ . () ( )
ii) La eficiencia de θˆ1 relativa a θˆ2 se define como Er =
ECM θˆ1 ( )
ECM θˆ2
.
( )
Observaciones: 1) El error cuadrático medio es un medio para comparar estimadores, así, si
( ) ( )
ECM θˆ1 < ECM θˆ2 decimos que θˆ1 es “mejor” que θˆ2 .
2) Si Er < 1 , se dice que θˆ es más eficiente que θˆ .
( ) ()
1 2

3) Sesgo θˆ1 = E θˆ − θ
ECM (θˆ ) = E (θ − θˆ )
2

= E [θ − θˆ + E (θˆ ) − E (θˆ )]
2

= E [(E (θˆ ) − θˆ ) − (E (θˆ ) − θ )]


2

= E (E (θˆ ) − θˆ ) − 2(E (θˆ ) − θˆ )(E (θˆ ) − θ ) + (E (θˆ ) − θ ) 


2 2

 

= E [E (θˆ ) − θˆ] − 2 E [E (θˆ ) − θˆ]Sesgo(θˆ ) + E [Sesgo(θˆ )]


2 2

() ( )[ ( ) ( )]
= V θˆ − 2 Sesgo θˆ E θˆ − E θˆ + Sesgo 2 θˆ ()
() ()
ECM θˆ = V θˆ + Sesgo 2 θˆ ()
()
Si el estimador es insesgado, se tiene que Sesgo θˆ = 0 y entonces ECM θˆ = V θˆ . () ()
133
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Sería muy bueno encontrar el estimador insesgado de varianza mínima, para esto se utiliza la cota de
Cramér-Rao, la cual se presenta como

()
V θˆ ≥
1
nE [ ln f X ( x;θ )]
∂ 2
∂θ

()
Si V θˆ =
1
se dice que se tiene el estimador insesgado de varianza mínima para el
nE [ ln f X ( x;θ )]
∂ 2
∂θ

parámetro θˆ .

Ejemplos:

1._ Si X es una v.a con media µ y varianza σ 2 y X 1 , X 2 ,K , X n es una m.a de tamaño n de X, se tiene
que la media muestral X y la varianza muestral S 2 son estimadores puntuales de la media y la
varianza poblacional respectivamente. ¿Son insesgados estos estimadores?

Solución

1 n
La media muestral está dada por la expresión X = ∑ X i . Entonces su esperanza es:
n i =1

( ) 1 n 
E X = E  ∑ X i  = µ ∴ X sí estima de manera insesgada a la media poblacional.
 n i =1 

La varianza muestral esta dada por


1 n
S2 = ∑
n − 1 i =1
( xi − x) 2

=
1 n 2

n − 1 i =1
(
xi − 2 xi x + x
2
)
1 n 2 n n
2
=  ∑
n − 1  i =1
x i − 2 x ∑
i =1
x i + ∑
i =1
x 

1 n 2 n
2
=  ∑
n − 1  i =1
x i − 2 xn x + ∑
i =1
x 

1 n 2 2
= ∑ x i − 2n x + n x 
2

n − 1  i =1 
1 n 2 2
=  ∑
n − 1  i =1
xi − n x 

Entonces E (S 2 ) =
1 n
 ∑
n − 1  i =1
( )
E (xi2 ) − nE x 
2 

134
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
σ2 
Recuerda que

X ~ N  x; µ x = µ , σ x2 = 
n 
y que ( )
V ( X ) = E X 2 − E 2 (X ) y por tanto

( )
E X2 = V ( X ) + E 2 (X )

Utilizando toda esta información tenemos que


1  σ 2 
( )
ES =2

n −1 
2
(
n σ + µ − n
2
) + µ 2 
 n 
=
1
n −1
(
nσ 2 + nµ 2 − σ 2 − nµ 2 )
σ 2 (n − 1)
= = σ 2 Entonces S 2 estima de manera insesgada a la varianza poblacional.
n −1

2._ Supón que se tiene una m.a de tamaño 2n de una población denotada por X con media µ y varianza
1 2n 1 n
σ 2 y que µ̂1 = ∑ X i y µ̂ 2 = ∑ X i son dos estimadores para la media poblacional µ . ¿Cuál
2n i =1 n i =1
estimador recomendarías?

Solución
 1 2n 
E (µˆ 1 ) = E  ∑ X i  = µ
 2n i =1 

1 n 
E (µˆ 2 ) = E  ∑ X i  = µ
 n i =1 

Ambos estimadores son insesgados, entonces hay que considerar otro criterio. Veamos cuales son sus
errores cuadráticos medios.

( )
ECM (µˆ 1 ) = V X =
σ2
2n

nσ 2 σ 2
ECM (µˆ 2 ) = =
n2 n
σ n 1
2
Er = = <1
2n σ 2 2

Entonces yo recomendaría a µ̂1 porque estima de manera más eficiente a la media poblacional.

135
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
3._ Si X 1 , X 2 ,K , X 7 es una m.a de una población que tiene media µ y varianza σ 2 . Considera los
siguientes estimadores de µ :
1 7
θˆ1 = ∑ X i
7 i =1
θˆ2 = (2 X 1 − X 6 + X 4 )
1
2

a) ¿Alguno de estos estimadores es insesgado?


b) ¿Cuál es mejor? ¿Por qué?

Solución

( ) 1
7
1
( )
a) E θˆ1 = (7 µ ) = µ y E θˆ2 = (2 − 1 + 1) µ = µ . Ambos estiman de manera insesgada a la medio
2
poblacional.

( ) ( ) σ 2
b) ECM θˆ1 = V X =
7
( ) ( )
ECM θˆ2 = V θˆ2 = (6σ 2 ) = σ 2
1
4
3
2
Entonces θˆ1 es más eficiente que θˆ2 .

4._ Considera que se toman tres muestras aleatorias de tamaños 10, 8 y 6 de una población con media
µ y varianza σ 2 . S12 , S 22 y S 32 las varianzas correspondientes de las muestras. ¿Será S 2 un estimador
insesgado de la varianza poblacional?
S2 =
1
24
(
10 S12 + 8S 22 + 6 S 32 )

Solución

( )
Ya vimos que E S 2 = σ 2 entonces E (S 2 ) =
1
24
(10 + 8 + 6)σ 2 = σ 2 , por tanto sí es un estimador
insesgado del la varianza poblacional.

5._ Supón que Y1 , Y2 , Y3 forman una muestra aleatoria de una distribución exponencial con función de
1  y
densidad f Y ( y ;θ ) = exp −  con y > 0 . Considera los siguientes estimadores para θ : θˆ1 = Y 1 ,
θ  θ
Y +Y Y + 2Y2
θˆ2 = 1 2 , θˆ3 = 1 , θˆ4 = Y .
2 3
a) ¿Cuáles de estos son estimadores insesgados?
b) Considerando sólo a los estimadores insesgados ¿Cuál tiene menor varianza?
136
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Solución

a) Todos son insesgados.


( ) σ
( ) σ
( ) ( )
2 2
b) V θˆ1 = σ 2 , V θˆ2 = , V θˆ3 = = V θˆ4 .
2 3

6._ Demuestra que la media muestral es el estimador de varianza mínima para la media poblacional de
una distribución normal con media µ y varianza σ 2 .

Solución

Ya vimos que la media muestral es un estimador insesgado de la media poblacional µ .


 1  x − µ 2 
La f.d.p de la normal está dada por la expresión f X x; µ , σ ( 2
) =
1
exp −   
σ 2π  2  σ  

1 x−µ 
2

(
ln f X x; µ , σ 2
) = ln
1
−  
σ 2π 2  σ 


ln f X (x; µ , σ 2 ) =
1
[2( x − µ )] = x −2µ
∂µ 2σ 2
σ

2
∂
(   1
)  1
E  ln f X x; µ , σ 2  = E  4 ( x − µ ) 2  = 4 E ( x − µ ) 2 =
1 1
V (X ) = 2
 ∂µ  σ  σ σ2
2
σ ( )

Entonces CCR =
σ2
n
( )
= V X por lo tanto X es el estimador insesgdo de varianza mínima para µ .

Definición._ i) Se dice que θˆ * es un estimador óptimo de θ si ECM θˆ * ≤ ECM θˆ ∀θˆ . ( ) ()


ii) Se dice que θˆn (estimador de θ basado en una muestra de tamaño n) es consistente para θ si
lim P(| θˆ − θ |< ε ) = 1 o equivalentemente cuando lim ECM (θˆ ) = 0 .
n n
n →∞ n →∞

Ejemplo: X es un estimador óptimo y consistente de µ para N µ , σ 2 ya que ( )


( ) ( ) ( ) σ 2
V X = ECM X = CCR y lim ECM X = lim =0
n →∞ n →∞ n

137
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
MÉTODO DE LOS MOMENTOS PARA ESTIMAR PARÁMETROS.

Este método da por hecho que los momentos muéstrale son una buena aproximación de los momentos
poblacionales, por lo tanto se igualan ambos momentos y de ahí se despeja el estimador del parámetro
de interés.

µ k = E (X k ) k-ésimo momento poblacional de la v.a X.

1 n
mk = ∑
n i =1
Xi
k
k-ésimo momento muestral de la v.a X.

µ k = mk y de aquí se despeja el estimador.

El estimador del parámetro θ obtenido por el método de los momentos se escribe con una tilde sobre
~
teta de la forma θ .

Ejemplos:
( ) ( )
1._ Sea X ~ N x; µ , σ 2 estima θ = µ , σ 2 en base a una muestra aleatoria de tamaño n usando el
método de los momentos.
Solución

Tenemos dos parámetros a estimar por lo tanto necesitamos los dos primeros momentos muestrales y
los dos primeros momentos poblacionales.
Se igualan los primeros momentos; µ~ = x

Se igualan también los segundos momentos


µ 2 = E (X 2 ) = σ 2 + µ 2 = ∑ xi2 = m2 entonces µ̂ = x
1 n
n i =1
1 n
σ~ 2 + µ~ 2 = ∑ xi2
n i =1

()
σ~ 2 + x =
2 1 n 2
∑ xi
n i =1

σ~ 2 =
1 n 2
∑ xi − x () 2
=
1 n 2
 ∑
n  i =1
() 2
xi − n x 
n i =1 

σ~ 2 =
1 n
(
∑ xi − x
n i =1
)2

2._ Determina los estimadores por momentos para los parámetros α , β de la distribución gamma, en
base a una m.a de tamaño n.

138
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Solución

Igualando los dos primeros momentos poblacionales con los muestrales tenemos un sistema de dos
ecuaciones con dos incógnitas que se tiene que resolver.

α~
µ1 = ~ = X = m1
β
~ ~
α α2 1 n
µ 2 = ~ 2 + ~ 2 = ∑ X i2 = m2
β β n i =1
Despejando α~ de la primera ecuación y sustituyendo en la segunda tenemos que:
~
α~ = β X

~ ~ 2
βX β2X 1 n 2
~2 + ~2 = ∑ X i
β β n i =1

X 1 n 2
~ + X = ∑ Xi
2

β n i =1

( )
2
X 1 n 2 1 n
~ = ∑ Xi − X = ∑ Xi − X
2 2

β n i =1 n i =1

Finalmente se tiene que los estimadores por el método de los momentos para los parámetros de la
2
~ nX ~ nX
distribución Gamma son: β = y α~ = β X =
∑ (X ) ∑ (X )
n 2 n 2

i
2
−X i
2
−X
i =1 i =1

3._ Sea X una v.a binomial con parámetros n y p desconocidos, encuentra los estimadores por el
método de los momentos para tales parámetros en base a una muestra aleatoria de tamaño k .

Solución

µ1 = np = X = m1
1 k 2
µ 2 = np (1 − p) + n 2 p 2 = ∑ X i = m2
k i =1

1 k
X (1 − ~p ) + X = ∑ X i2
2

k i =1
1 k
p X + X = ∑ X i2
2
X−~
k i =1
139
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
X−~
pX =
1 k

k i =1
2 1 k
X i2 − X = ∑ X i − X
k i =1
( )
2

( )
k
1
pX = X − ∑ Xi − X
2
~
k i =1
~
p = 1−
1 k

k X i =1
(
Xi − X
2
)
2
X kX
n~ = ~ =
( )
k
p
k X − ∑ Xi − X
2

i =1

4._ Sea una población con distribución Geométrica con parámetro p . Encuentra el estimador para el
parámetro usando el método de los momentos y en base a una muestra aleatoria de tamaño n .

Solución
1 1
µ1 = ~ = X = m1 ∴ ~p =
p X

MÉTODO DE MÁXIMA VEROSIMILITUD.

Definición._ La función de verosimilitud de n variables aleatorias se define como su densidad


conjunta f X1 , X 2 ,K, X n ( x1 , x2 , K, x n ) . En particular si X 1 , X 2 ,K, X n es una muestra aleatoria de la
densidad f ( x;θ ) entonces la función de verosimilitud de la muestra está dada por
L(θ ) = f X 1 , X 2 ,K, X n ( x1 , x 2 , K , x n ) = f ( x1 ;θ ) f ( x 2 ;θ )L f ( x n ;θ )
n
L(θ ) = ∏ f ( xi ;θ )
i =1

Definición._ Se dice que θˆ es un estimador máximo verosímil si maximiza la función de


verosimilitud.

Recuerda que el método para maximizar es en base a derivar parcialmente respecto al parámetro de
interés, igualar a cero y despejar el valor que hace posible esta ecuación.
Por facilidad de cálculo y dado que las funciones L(θ ) y ln L(θ ) se maximizan en el mismo punto, se

acostumbra encontrar al estimador máximo verosímil resolviendo la ecuación ln L(θ ) = 0
∂θ

Cuando se tiene un vector de parámetros a estimar por ejemplo θ = (θ 1 , θ 2 ,K ,θ k ) la manera de


proceder es resolver las k ecuaciones siguientes:
∂ ∂
ln L(θ ) = ln L(θ1 ,θ 2 , K , θ k ) = 0
∂θ 1 ∂θ 1

140
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
∂ ∂
ln L(θ ) = ln L(θ1 ,θ 2 , K, θ k ) = 0
∂θ 2 ∂θ 2
M
∂ ∂
ln L(θ ) = ln L(θ1 , θ 2 ,K ,θ k ) = 0
∂θ k ∂θ k

Ejemplo 1: Encuentra el estimador máximo verosímil de p en base a una m.a de tamaño n de una
población Bernoulli.
Solución
f X ( x; p ) = p x (1 − p)1− x si x = 0, 1
i) La función de verosimilitud de una m.a de tamaño n
n n
n n ∑ xi n− ∑ xi
L( p ) = ∏ f ( xi , p ) = ∏ p xi (1 − p )1− xi = p i =1 (1 − p ) i =1

i =1 i =1

ii) Sacar el logaritmo natural de la función de verosimilitud.


ln L ( p ) =  ∑ xi  ln( p) +  n − ∑ xi  ln(1 − p)
n n

 i =1   i =1 
iii) Sacar la derivada parcial respecto a p .
n n
∑ xi n − ∑ xi

ln L( p ) = i =1 − i =1

∂p p 1− p

iv) Igualar a cero y resolver la ecuación ln L( p) = 0 . En el momento en que se iguala a cero se le
∂p
pone un “gorrito” al parámetro para indicar que se trata de su estimador máximo verosímil.

n n
∑ xi n − ∑ xi
i =1
− i =1
=0
pˆ 1 − pˆ
n n
∑ xi n − ∑ xi
i =1
= i =1

pˆ 1 − pˆ
n
n − ∑ xi
1 − pˆ
= n
i =1

pˆ ∑ xi
i =1
1 n
−1 = n −1
pˆ ∑ xi
i =1
1 n
= n ∴ pˆ = x
pˆ ∑ x
i
i =1

141
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Ejemplo 2: Sea X 1 , X 2 ,K, X n una m.a de una densidad Normal con media µ y varianza σ 2
encuentra el estimador máximo verosímil de θ = µ , σ 2 ( )
Solución
1  x−µ 
2

( ) 1 −  
f X x; µ , σ 2
= e 2 σ 
si x > 0
σ 2π

i) La función de verosimilitud de una m.a de tamaño n


1  xi − µ 
2

( ) ( )
n n
1 −  
L µ , σ 2 = ∏ f xi , µ , σ 2 =∏ e 2 σ 

i =1 i =1 σ 2π

n
1
∑ ( xi − µ )2
( )

−n 2σ
= σ 2π
2
i =1
e

ii) Sacar el logaritmo natural de la función de verosimilitud.


ln L(µ , σ 2 ) = −n ln σ − n ln 2π −
1 n
2 ∑
( x i − µ )2
2σ i =1
iii) Sacar las derivadas parciales respecto a µ y respecto a σ 2 .

ln L (µ , σ 2 ) =
2 n 1 n
∑ 2 ( x − µ ) = ∑ ( xi − µ )
∂µ 2σ 2 i =1 σ 2 i =1
i


∂σ 2
ln L (µ , σ 2
) = −

n
2
+
1 n
4 ∑
2σ i =1
( x i − µ )2

iv) Igualar a cero y resolver el sistema para encontrar los estimadores máximo verosímiles de los
parámetros de interés.

n
1 n 
∑ (x − µ) =
1
2 ∑ i
0= x − nµˆ  ∴ µ̂ = x
σ2 σ  i =1
i
i =1 

∑ (x − µ)
n 1
0=− +
2

2σ 2σ
2 4 i
i =1
n
1 n
∑ ( x i − µ )2 ( x i − µ )2
1
n=
σˆ 2 i =1
∴ σˆ 2 = ∑
n i =1

Observa que el estimador máximo verosímil para la media poblacional de la distribución Normal es la
media muestral que además es un estimador insesgado, óptimo y consistente. Y que el estimador
máximo verosímil para la varianza poblacional de una distribución Normal es un estimador sesgado
pero consistente.

Definición: Supón que X 1 , X 2 ,K , X n es una muestra aleatoria de tamaño n en orden de aparición, si


ordenamos esta muestra de menor a mayor tenemos lo que se conoce como estadísticas de orden y se
denota X (1) , X ( 2 ) ,K , X ( n ) tales que X (1) ≤ X ( 2) ≤ K ≤ X ( n )
142
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Ejemplo 3: Se toma una muestra aleatoria de 5 estudiantes y se registra su calificación en el segundo
parcial de probabilidad y estadística, siendo las calificaciones en orden de aparición x1 = 10 , x 2 = 5.3 ,
x3 = 8 , x 4 = 6.7 , x5 = 1 , las estadísticas de orden correspondientes son x(1) = 1 , x( 2) = 5.3 , x( 3) = 6.7 ,
x ( 4) = 8 , x ( 5) = 10 .

Ejemplo 4: Se toma una muestra aleatoria de tamaño n de una población distribuida uniformemente
en el intervalo (0, a ) ¿Cuál es el estimador máximo verosímil para a ?

Solución

i) La función de verosimilitud está dada por


n n
L(a ) = ∏ f ( xi , a ) = ∏
1 1
= n
i =1 i =1 a a

ii) Encontrar el valor de a que maximiza la función de verosimilitud.

Observa que esta función es máxima cuando a toma el valor más pequeño permisible que es
precisamente la última estadística de orden, es decir aˆ = X ( n )

0 x (1) x (n) a

Ejemplo 5: Se toma una muestra aleatoria de tamaño n de una población con f.d.p de Poisson con
media λ .
a) Encuentra el estimador máximo verosímil para λ .
b) Encuentra el valor esperado y la varianza del estimador.
c) ¿Es un estimador consistente?

Solución

i) La función de verosimilitud está dada por


n

∑ xi
n
λ x e −λ λ i =1

L(λ ) = ∏
i

= e − λn n
xi !
i =1
∏x !
i =1
i

n n
ln L (λ ) = −λn + ∑ xi ln(λ ) − ln ∏ xi !
i =1 i =1

∂ n
x
ln L (λ ) = −n + ∑ i
∂λ i =1 λ

143
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
ii) Igualando a cero y resolviendo se encuentra el estimador máximo verosímil.

n
xi 1 n
n=∑ ∴ λ̂ = ∑ xi = x
i =1 λ n i =1

b) Valor esperado y varianza del estimador.


( )
E X =λ y V X = ( ) λ
n

n→∞
( )
c) lim V X = lim
n →∞
λ
n
= 0 entonces sí es consistente.

Ejemplo 6: Si X 1 , X 2 ,K, X n es una muestra aleatoria de una población con f.d.p


r
f X ( x;θ ) = x r −1e − x / θ con θ > 0 y x > 0 con r constante y positiva. Encuentra el estimador máximo
r

θ
verosímil para θ .
Solución

i) La función de verosimilitud está dada por


n
1
n
r rn − ∑ xir n
L(θ ) = ∏ ∏x
r −1 − xir / θ θ r −1
xi e = e i =1

θ θ n i
i =1 i =1

ii) Sacar el logaritmo natural de la función de verosimilitud.

 rn  1 n r
( )
n
ln L(θ ) = ln n  − ∑ xi + ∑ ln xi r −1
θ  θ i =1 i =1

1 n n
= n ln(r ) − n ln (θ ) − ∑ xir + (r − 1)∑ ln( xi )
θ i =1 i =1

∂ n 1 n

∂θ
ln L(θ ) = − + 2
θ θ
∑x
i =1
r
i

iii) Igualando a cero y resolviendo se tiene que

n n
n 1 ˆ = 1 xr
= 2
θˆ θˆ

i =1
x i
r
despejando al estimador del parámetro se tiene que θ ∑ i
n i =1

Ejemplo 7: Supón que X 1 , X 2 ,K, X m es una m.a de la producción por acre de la variedad A de trigo,
la cual tiene una distribución Normal con media µ1 y varianza σ 2 y que Y1 , Y2 , K, Yn es una m.a de la
producción por acre de la variedad B de trigo, la cual se distribuye cono una Normal con media µ 2 y
varianza σ 2 . Si X ⊥ Y encuentra el estimador máximo verosímil para la varianza común σ 2 si se
desconocen las medias poblacionales.
144
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
(
X ~ N x; µ1 , σ 2 ) (
y Y ~ N y; µ 2 , σ 2 )
Sabemos que el estimador máximo verosímil para la media poblacional está dado por la media muestral
es decir µ̂1 = X y µ̂ 2 = Y

La función de verosimilitud para la muestra conjunta está dada por

( )
L µ1 , µ 2 , σ 2 = f ( X 1 , X 2 ,K, X m , Y1 , Y2 , K, Yn )

( )∏ f (y ; µ )
m n
= ∏ f x i ; µ1 , σ 2 i 2 ,σ 2
i =1 i =1
1 1
m
1 − 2 ( xi − µ1 )2 n 1 − 2 ( yi − µ 2 )2
=∏ e 2σ ∏ e 2σ

i =1 σ 2π i =1 σ 2π
1 1
m
1 − 2 ( xi − µ1 ) 2 n
1 − 2 ( yi − µ 2 )2

=∏ e 2σ ∏ e 2σ
i =1 σ 2π i =1 σ 2π
m+ n
 2 
(σ )
m+ n
− 1 m n
= (2π ) 2 2 − 2
exp −  ∑ ( X − µ ) 2
+ ∑ (Y − µ )  
σ 2 i 1 i 2
 2  i =1 i =1 

Sacar el logaritmo natural a la función de máximo verosímilitud

m+ n
m+n
( ) = ln(2π ) 1 m
(Yi − µ 2 )2 
− n
ln L µ1 , µ 2 , σ 2 2
− ln(σ 2 ) − 2 ∑
( X − µ ) 2
+ ∑
2σ  i =1
i 1
2 i =1 

Derivando parcialmente respecto a la varianza


∂ m+n
( ) 1 m
(Yi − µ 2 )2 
n
ln L µ , µ , σ 2
= − + − 4 ∑
( X − µ ) 2
+ ∑
∂σ 2σ 2σ  i =1
2 1 2 2 i 1
i =1 

Igualando a cero y despejando se tiene que el estimador máximo verosímil para la varianza común es:
1 m
( ) (Yi − Y )2 
n
σˆ 2 = ∑ − + ∑
2
 X X
m + n  i =1
i
i =1 

5.1.2 ESTIMACIÓN POR INTERVALO.

Cuantas veces hemos escuchado expresiones como “tenía entre 25 y 30 años”, “yo pienso que saco
entre 8 y 10 en el examen de mate”, “espero llegar entre 10:30 y 10:45”, “tiene una estatura entre
1.75m y 1.85m”, etc. Todas estas expresiones en realidad son estimaciones por intervalo y muchas
veces una estimación de este tipo nos da más información que una estimación puntual. Y la manera de
hacer estimaciones por intervalo es construyendo intervalos de confianza.

145
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
5.2 INTERVALOS DE CONFIANZA.

Un intervalo de confianza (IC) es un intervalo de la forma [L, U ] que se construye de tal manera que
exista una probabilidad grande de que el parámetro de interés se encuentre dentro del intervalo. Si α es
un número pequeño entonces (1 − α ) es un número grande y si P(L ≤ θ ≤ U ) = 1 − α , se dice que
[L, U ] es un intervalo para el parámetro θ con una confianza de (1 − α )100% .
CASO 1._ IC para la media poblacional, cuando la muestra es grande y la varianza conocida.
( n ≥ 30 y σ 2 conocida)

Queremos estimar la media poblacional, como es de suponerse el estimador puntual idóneo es la media
muestral X , en base a una muestra aleatoria de tamaño n de una densidad con media µ desconocida
 σ2 
y varianza σ 2 conocida se tiene que el TCL garantiza que X ~ N  µ ,  entonces
 n 
X −µ
Z= ∼ N (0, 1)
σ n

Queremos encontrar L y U tales que P(L ≤ Z ≤ U ) = 1 − α . ¿Cómo escoger L y U de tal manera que el
intervalo sea lo más angosto posible?

Aprovechando la simetría de la distribución Normal tomamos L = −U

La construcción del intervalo es como sigue:

1 − α = P(− Z α / 2 ≤ Z ≤ Z α / 2 )
 X −µ 
= P − Z α / 2 ≤ ≤ Zα / 2 
 σ/ n 
 σ σ 
= P − Zα / 2 ≤ X − µ ≤ Z α / 2  Multiplicando por − 1 y reacomodando
 n n 
 σ σ 
= P − Zα / 2 ≤ µ − X ≤ Z α / 2  Sumando X
 n n 
146
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
 σ σ 
= P X − Zα / 2 ≤ µ ≤ X + Zα / 2 
 n n 
 σ σ 
El intervalo para µ con una confianza de (1 − α )100% está dado por  X − Zα / 2 , X + Zα / 2 
 n n 

Ejemplo 1:
σ σ
Considera el intervalo de confianza para µ con σ conocida X − Zα2 ≤ µ ≤ X + Z α1
n n

donde α 1 + α 2 = α , si α = 0.05 obtén el intervalo para α 1 = α 2 = α / 2 = 0.025. Después determina el


intervalo para α 1 = 0.01 y α 2 = 0.04. ¿Cuál es el intervalo más angosto? ¿Hay ventajas para un
intervalo de confianza simétrico?

Solución

 σ σ   σ σ 
a) X − Z 0.025 , X + Z 0.025  =  X − 1.96 , X + 1.96
 n n   n n 

 σ σ   σ σ 
b) X − Z 0.04 , X + Z 0.01  =  X − 1.75 , X + 2.35
 n n   n n 

σ σ
La longitud del I.C en a) es 2(1.96) = 3.92
n n

σ σ
Y la longitud del I.C en b) es (1.75 + 2.35) = 4.10 . La ventaja del intervalo simétrico es que es
n n
más angosto.

La precisión de la estimación por intervalo esta dada por la longitud del intervalo, mientras más
angosto sea el I.C se considera más precisa la estimación. Si el intervalo es simétrico a medida que la
confianza aumenta la precisión disminuye.

5.3 ERROR ESTÁNDAR Y TAMAÑO DE LA MUESTRA.

Todo estadístico tienen su varianza, por ejemplo la media muestral tiene varianza igual a la varianza de
σ2
la población de donde salió la muestra dividido por el tamaño de la muestra, σ x2 = , y la raíz
n
cuadrada positiva de esta varianza es lo que se conoce como error estándar, en este caso el error
σ
estándar de la media muestral está dado por εε = .
n

147
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
Considera ahora el intervalo de confianza para una media poblacional con varianza conocida, el cual
σ σ
está centrado en X con límite inferior X − Z α / 2 y límite superior X +
Z α / 2 . Por la manera en
n n
que fue construido el I.C se tiene que (1 − α )100 de las veces el parámetro cae dentro del intervalo
como se muestra en la figura siguiente.
σ
Zα /2
n
ε

σ µ σ
X − Zα / 2 X X + Zα /2
n n

La distancia entre el parámetro y la estimación es un error ε = µ − X entonces (1 − α )100 de las veces


σ σ Zα / 2
se tiene que ε ≤ Z α / 2 o equivalentemente n≤ . El intervalo más corto se obtiene cuando
n ε
σ Z α / 2 
2

n es lo más grande posible, es decir cuando n =  


 ε 

Ejemplo 2:

Se sabe que la vida en horas de una bombilla eléctrica de 75 watts se distribuye aproximadamente en
forma Normal, con desviación estándar σ = 25 hrs. Una muestra aleatoria de 20 bombillas tiene una
vida media de x = 1014 hrs.
a) Construye un intervalo de confianza de dos lados al 95% respecto a la vida media.
b) Construye un I.C inferior del 95% respecto a la vida media.
c) Se desea que el ancho total del intervalo de confianza respecto a la vida media sea de ocho horas.
¿Qué tamaño de muestra debe utilizarse?

Solución

n = 20
σ = 25
x = 1014 hrs.

α
a) 1 − α = 0.95 entonces α = 0.05 y = 0.025 por lo tanto z α / 2 = 1.96 El IC pedido es:
2
σ 25
X± Zα / 2 = 1014 ± 1.96 = [1003.04, 1024.96]
n 20

148
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
b) P ( L ≤ µ ) = 0.95 Para este caso que se desea un intervalo de una sola cola se tiene que z α = 1.645
σ 25
Por lo tanto L = X − Zα = 1014 − 1.645 = [1004.804, ∞)
n 20

c) 1 − α = 0.95 y zα / 2 = 1.96 .
σ
Si el ancho del intervalo es de 8 hrs entonces la mitad del intervalo es de 4 hrs, es decir Zα / 2 = 4 ,
n
σ
2 2
  25 
despejando el tamaño de la muestra se tiene que n =  Z α / 2  =  (1.96) = 150 bombillas.
4  4 

Ejemplo 3:

Un experto en eficiencia desea determinar el tiempo promedio que le toma hacer tres agujeros en una
abrazadera metálica.
¿De qué tamaño se necesita la muestra para tener una confianza de 95% de que la media de la muestra
está dentro de 15 seg, respecto de la media verdadera? Supón que por estudios previos se sabe que
σ = 40 segundos.

Solución

α = 5%
ε = 15 seg
σ = 40 seg
zα / 2 = 1.96

ε = µ − X =15 seg

σ Z α / 2 
2 2
 40(1.96) 
n=  =  = 27 abrazaderas.
 ε   15 

CASO 2._ I.C para una media de una distribución Normal con varianza desconocida.
(Para µ con σ 2 desconocida)

Si X 1 ,..., X n es una m.a de una N (µ , σ 2 ) con parámetros desconocidos, no conocemos la varianza


poblacional por lo tanto la estimamos con la varianza muestral S 2 .

149
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
X −µ
( ) ( )
Sabemos que X ∼ f X µ , σ 2 / n ≈ f X µ , S 2 / n el estadístico t = tiene una distribución t de
S/ n
Student con (n − 1) grados de libertad.

El I.C con una confianza de (1 − α )100% para la media poblacional se construye de la manera
siguiente:

1 − α = P(− tα / 2 ≤ t ≤ tα / 2 )
 X −µ 
= P − tα / 2 ≤ ≤ tα / 2 
 S/ n 
 S S 
= P − tα / 2 ≤ X − µ ≤ tα / 2  Multiplicando por − 1 y acomodando
 n n 
 S S 
= P − tα / 2 ≤ µ − X ≤ tα / 2  Sumando X
 n n 
 S S 
= P X − tα / 2 ≤ µ ≤ X + tα / 2 
 n n 

 S S 
El I.C es  X − tα / 2,n −1 , X − tα / 2,n −1 
 n n 

 S S 
Si n ≥ 30 este intervalo suele construirse como  X − Zα / 2 , X − Zα / 2 
 n n 

CASO 3._ I.C para la diferencias de medias con varianzas conocidas.


(Para µ1 − µ 2 con σ 1 y σ 2 conocidas)
2 2

X 1 ~ f X 1 ( x1 ;θ ) con E ( X i ) = µ1 desconocida y V ( X 1 ) = σ 1 conocida, y X 2 ~ f X 2 ( x 2 ;θ ) con


2
Sea
E ( X 2 ) = µ 2 desconocida y V ( X 2 ) = σ 2 conocida.
2

Si las densidades son Normales o bien los tamaños de las muestras aleatorias n1 y n2 son grandes, el
 σ 2  σ 2
TCL garantiza que X 1 ~ N  µ1 , 1  y X 2 ~ N  µ 2 , 2  además una diferencia de Normales es
 n1   n2 
 
Normal con media igual a la diferencia de las medias y varianza igual a la suma de las varianzas.

( X 1 − X 2 ) ~ N  µ1 − µ 2 ,

σ 1 2 σ 2 2 
+ por lo tanto Z =
(X 1 − X 2 ) − (µ1 − µ 2 ) ∼N(0, 1)

 n1 n2  σ 12 σ 2 2
+
n1 n2
La construcción del I.C es como sigue:

150
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
1 − α = P(− Z α / 2 ≤ Z ≤ Z α / 2 )
 
 

= P − Z α / 2 ≤
( X 1 − X 2 ) − (µ 1 − µ 2 ) ≤ Z 
α/2 
 σ 12 σ 2 2 
 + 
 n1 n2 

 σ 12 σ 2 2 σ 12 σ 2 2 
= P − + Z α / 2 ≤ ( X 1 − X 2 ) − (µ 1 − µ 2 ) ≤ + Z α / 2  Multiplicando por − 1 y
 n1 n2 n1 n2 
 

Acomodando términos tenemos que:

 σ 12 σ 2 2 σ 12 σ 2 2 

=P − + Z α / 2 ≤ (µ 1 − µ 2 ) − ( X 1 − X 2 ) ≤ + Z α / 2  Restando ( X 1 − X 2 )
 n1 n2 n1 n2 
 

 σ 12 σ 2 2 σ 12 σ 2 2 
= P (X 1 − X 2 ) −
 + Z α / 2 ≤ µ1 − µ 2 ≤ ( X 1 − X 2 ) + + Zα / 2 
 n1 n2 n1 n2 
 

El IC para la diferencia de medias es de la forma

 σ 12 σ 2 2 σ 12 σ 2 2 
( X 1 − X 2 ) − + Z α / 2 , (X 1 − X 2 ) + + Zα / 2 
 n1 n2 n1 n2 

Observación: Si n1 = n 2 = n el I.C queda


 σ 12 + σ 2 2 σ 12 + σ 2 2 
( X 1 − X 2 ) − Z α / 2 , (X 1 − X 2 ) − Zα / 2 
 n n 
σ 12 + σ 2 2
y entonces ε≤ Zα / 2 , despejando al tamaño de la muestra se tiene que
n

( )
2
Z 
n =  α /2  σ1 +σ 2
2 2

 ε 

Caso 4 I.C para (µ1 − µ 2 ) con σ 1 y σ 2 desconocidas, con densidades Normales con muestras
2 2

pequeñas.

151
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
(
X 1 ∼ N x1 ; µ1 , σ 1
2
) 
 con µ i desconocida y σ i desconocida i = 1, 2.
2

(
X 2 ∼ N x2 ; µ 2 , σ 2
2
)

Estimamos las varianzas poblacionales con las muestrales, es decir σˆ 1 = S1 y σˆ 2 = S 2 .


2 2 2 2

4i) Suponiendo que las varianzas son iguales σ 1 = σ 2 = σ 2 .


2 2

Un estimador insesgado para la varianza común y aprovechando la información muestral es

S 2
=
(n1 − 1)S1 + (n 2 − 1)S 2
2 2

n1 + n2 − 2

Pues ( ) (n
E S2 = 1 − 1)σ 2 + (n 2 − 1)σ 2
n1 + n 2 − 2
=σ 2

 S 
2
 S 
2
Se sabe que X 1 ∼ N  µ1 , 1  y X 2 ∼ N  µ 2 , 2 
 n1   n2 

2 2

E ( X 1 − X 2 ) = µ1 − µ 2 y V ( X 1 − X 2 ) =
S1 S
+ 2
n1 n2
1 
Considerando varianzas iguales se tiene que V ( X 1 − X 2 ) = S 2  +
1

 n1 n2 

Y el estadístico t se distribuye como una t de Student con (n1 + n 2 − 2) grados de libertad lo cual se

escribe; t =
( X 1 − X 2 ) − (µ 1 − µ 2 ) ∼ t
n1 + n2 − 2
1 1
S +
n1 n 2
 
 
 X 1 − X 2 − (µ 1 − µ 2 ) 
Queremos que P − tα / 2 ≤ ≤ tα / 2  = 1 − α entonces el I.C es de la forma
 1 1 
 S + 
 n 1 n 2 

 1 1 1 1 
X 1 − X 2 − S + tα / 2,n1 + n2 − 2 , X 1 − X 2 − S + tα / 2,n1 + n2 −2 
 n1 n 2 n1 n2 

4ii) Suponiendo varianzas poblacionales diferentes, σ 1 ≠ σ 2 entonces el estadístico


2 2

152
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
t* =
(X 1 − X 2 ) − (µ 1 − µ 2 )
∼ tν
2 2
S1 S
+ 2
n1 n2
2
 S1 2 S 2 2 
 
 n + n 
Donde los grados de libertad υ están dados por ν =  1 2 
−2
(S 2
1 n1 ) (
2
S n
+ 2 2
2
)
2

n1 + 1 n2 + 1

CASO 5 Estimación por intervalo para una proporción p .


N

∑X i
La proporción de elementos de interés en la población es p = i =1
con N tamaño de la población y
N

1 si tienen la característica de interés


Xi =
0 en otro caso
n

∑X i
el estimador para p es la proporción muestral pˆ = i =1
, observa que esta proporción muestral es una
n
media muestral para una población Bernoulli con media p y varianza pq . El TCL garantiza que
 σ2  pq 
pˆ ~ N  µ pˆ = µ , σ p2ˆ =  es decir pˆ ~ N  µ pˆ = p, σ p2ˆ = .
 n   n 
La construcción del Intervalo con una confianza de (1 − α )100% es como sigue:

1 − α = P(− Z α / 2 ≤ Z ≤ Z α / 2 )
 pˆ − µ pˆ 
= P − Z α / 2 ≤ ≤ Zα / 2 
 σ pˆ 
 
 
 
 pˆ − p
= P − Zα / 2 ≤ ≤ Zα / 2 
 pq 
 
 n 
 pq pq 
= P − Z α / 2 ≤ pˆ − p ≤ Z α / 2 

 n n 
 pq pq 
= P pˆ − Z α / 2 ≤ p ≤ pˆ + Z α / 2 
 n n 

El intervalo para p con una confianza o de (1 − α )100% está dado por

153
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
 pq pq 
 pˆ − Z α / 2 , pˆ + Z α / 2 
 n n 

CASO 6 Estimación por intervalo para una diferencia de proporciones p1 − p 2 .

 σ2 
Recuerda que el TCL garantiza que pˆ i ~ N  µ pˆ i = µ i , σ p2ˆi = i  es decir
 ni 
 pq 
pˆ i ~ N  µ pˆ i = pi , σ p2ˆi = i i  . Para i = 1, 2.
 ni 

Y que una diferencia de Normales también es Normal con media igual a la resta de las medias y
varianza igual a la suma de las varianzas. Es decir;

 p1 q1 p 2 q 2 
( pˆ 1 − pˆ 2 ) ~ N  µ pˆ − pˆ = p1 − p 2 , σ p2ˆ1 − pˆ 2 = + 

1 2
n1 n2 

por lo tanto Z =
( pˆ 1 − pˆ 2 ) − ( p1 − p 2 ) ∼N(0, 1)
p1 q1 p 2 q 2
+
n1 n2

1 − α = P(− Z α / 2 ≤ Z ≤ Z α / 2 )
 
 

= P − Z α / 2 ≤
( pˆ 1 − pˆ 2 ) − ( p1 − p 2 )
≤ Zα / 2 

 p1 q1 p 2 q 2 
 + 
 n 1 n 2 
 p1 q1 p 2 q 2 p1 q1 p 2 q 2 
= P − Z α / 2 + ≤ ( pˆ 1 − pˆ 2 ) − ( p1 − p 2 ) ≤ Z α / 2 + 

 n 1 n 2 n1 n2 

 p1 q1 p 2 q 2 p1q1 p 2 q 2 
= P ( pˆ 1 − pˆ 2 ) − Z α / 2 + ≤ p1 − p 2 ≤ ( pˆ 1 − pˆ 2 ) + Z α / 2 + 

 n1 n2 n1 n2 

El IC para la diferencia de medias es de la forma

 p1q1 p 2 q 2 p1q1 p 2 q 2 
( pˆ 1 − pˆ 2 ) − Z α / 2 + , ( pˆ 1 − pˆ 2 ) + Z α / 2 + 
 n1 n2 n1 n2 

154
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
CASO 7 Intervalo de confianza para σ 2 .

Si X ∼ N µ , σ 2( ) el estimador puntual para σ 2 es la varianza muestral S 2 y el estadístico


(n − 1) S 2
χ =
2
se distribuye como una ji-Cuadrada con (n − 1) g.l.
σ2

Procedemos como siempre, con una confianza de (1 − α )100%

(
1 − α = P χ 21− α ,n −1 ≤ χ 2 ≤ χ 2 α ,n −1
2 2
)
 n −1 
= P χ 21− α2 ,n −1 ≤ 2 S 2 ≤ χ 2 α2 ,n −1 
 σ 
 χ 1− ,n −1
2 α
1 χ 2 ,n −1 

= P 2
≤ ≤ 
 (n − 1)S 2 σ 2 (n − 1)S 2 
 
 (n − 1)S 2
(n − 1)S 2
= P 2 α ≤σ 2 ≤ 2 α 
 χ ,n−1 χ 1− 2 ,n−1 
 2

 (n − 1)S 2 (n − 1)S 2 
El I.C al (1 − α )100% para σ 2 de una densidad normal es  2 α ,
 χ 2 ,n −1 χ 21− α2 ,n −1 

σ 12
CASO 8 I.C para de densidades Normales.
σ 22

(
Si X 1 ∼ N µ1 , σ 1
2
) (
y X 2 ∼ N µ2 , σ 2
2
)
155
Profesora: Leticia Cañedo Suárez. ESCOM-IPN
2
Se toma una m.a de X 1 de tamaño n1 cuya varianza muestral es S1 y una m.a de X 2 de tamaño n2 y
2
la varianza muestral para ésta es S 2 .

S2 σ 2
2 2

El estadístico F = se distribuye como una F con (n 2 − 1) grados de libertad en el numerador y


S1 σ 1
2 2

(n1 − 1) g.l en el denominador.

El I.C al (1 − α )100% se construye de la forma siguiente:


 
1 − α = P F α ≤ F ≤ Fα 

1− , n2 −1, n1 −1 , n2 −1, n1 −1
 2 2 

 S2 σ 2 
2 2

= P F α ≤ 2 2 ≤ Fα 
S1 σ 1 
 1− 2 ,n2 −1,n1 −1 2
, n2 −1, n1 −1

S2 σ2 S2 
= P 1 2 F α ≤ 1 2 ≤ 1 2 Fα 

 S 2 1− 2 ,n2 −1,n1 −1 σ 2 S 2 2 ,n2 −1,n1 −1 

 S 2  S 2  
Finalmente el IC es  1 2 F α
 1− ,n2 −1,n1 −1 ,  1 2  Fα
 ,n2 −1,n1 −1 
 S 2  2  S2  2 

156
Profesora: Leticia Cañedo Suárez. ESCOM-IPN

You might also like