Notas de Estadistica PDF

Notas para el curso de
Introducción a la Estadı́stica,
dictado por Juan Kalemkerian 1

en la Facultad de Ciencias, el segundo semestre de 2008.
Los errores que puedan contener son total responsabilidad de quien las transcribe
Por sugerencias y correcciones: acholaquidis@cmat.edu.uy
Índice general
1. Introducción 3
1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . . 6
2. Muestreo aleatorio simple 8

2.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Estadı́sticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . . 13
3. Teorı́a de la Estimación, métodos de estimación 15

3.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Método de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. método de estimación por cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5. Estimación de la función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6. Convergencia casi segura de Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 23
4. Evaluación de Estimadores 24
5. Estimacin por intervalos de confianza 33
6. Pruebas de hipótesis 36
6.1. Región Crı́tica Óptima, Teorema de Neyman-Pearson . . . . . . . . . . . . . . . . . 37
6.2. Familias con cociente de verosimilitud monótono . . . . . . . . . . . . . . . . . . . . 40
6.3. Método de la razón de verosimilitud para RC: . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.1. Test de χ2 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.5. Análisis de Varianza, (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7. Modelos Lineales 47
7.1. Variable Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.4. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2
Capı́tulo 1
Introducción
Este capı́tulo pretende introducir los conceptos de esperanza condicional, ası́ como las nociones
de convergencia de variables aletorias, que serán necesarios para los siguientes capı́tulos. Se asumira
que el lector está familiarizado con los conceptos básicos de la probabilidad, correspondientes a un
primer curso introductorio, no ası́ los del análisis real.
1.1. Esperanza Condicional

Definición 1.1. Dado Ω, A, P un espacio de probabilidad, y X, Y : Ω → R variables aleatorias,
definimos la Esperanza Condicional de X dado Y que anotaremos

E X|Y ,
como la función de Y que verifica

E XIY (B) = E E(X|Y )IY (B)
para todo B perteneciente a la sigma álgebra de borel de R, que anotaremos de aquı́ en mas como
B(R)
Observación 1.2. E(X|Y ) está bien definido

existencia: Se sigue del Teorema de Radon-Nikodym
unicidad: Supongamos que α(Y ) y β(Y ) cumplen

E XIY (B) = E α(Y )IY (B) ∀B ∈ B(R)

= E β(Y )IY (B) .

Consideremos B = {α(Y ) > β(Y )}, sabemos que 0 = E (α(Y ) − β(Y ))IY (B) , como (α(Y ) −
β(Y ))IY (B) ≥ 0 y su esperanza es 0 entonces (α(Y ) − β(Y ))IY (B) = 0 c.s.. De forma
totalmente análoga, tomando B̂ = {β(Y ) > α(Y )}, obtenemos que (β(Y ) − α(Y ))IY (B̂) =
0, c.s., de donde se sigue que α = β c.s.
Proposición 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z serán
variables aleatorias a valores reales y a, b números reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X ≥ 0 c.s. entonces E(X|Y ) ≥ 0 c.s..
3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ).
3
Capı́tulo 1. Introducción
4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.
7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).

8) E E(X|Y ) = E(X).
Demostración.
1) Por la unicidad, basta demostrar que, para todo B ∈ B(R)

E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) ,
usando la linealidad de la esperanza el último término es

aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) ,
que, por definición de esperanza condicional, es igual a

aE XIB (Z) + bE Y IB (Z) .
2) La demostración necesita de conceptos del análisis real.
3) Es consecuencia inmediata de 2).

4) Es consecuencia inmediata de la unicidad.

6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la inde-
pendencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de
cualquier variable.
5) Es una consecuencia inmediata de 6).
7) La demostración necesita de conceptos del análisis real.
8) Basta tomar en la definición B = R.
Proposición 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces

ϕ E(X) ≤ E ϕ(X)

ϕ E(X|Y ) ≤ E ϕ(X)|Y
Recordemos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1],
y que si ϕ es C 2 , ϕ es convexa si y solo si ϕ00 (x) ≤ 0 ∀x.
Definición 1.5. Distribución Condicional: Dadas X, Y v.a., definimos
FX|Y =y (x) := P (X ≤ x|Y = y) := E(I( −∞,x] (x)|Y = y).
Definición 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos
P (X ∈ [a, b]|Y ) := E(I[a,b] (X)|Y ).
Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el
caso continuo.
4

Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m ∈ N , defini-
mos la probabilidad condicional en el sentido usual, como
PX,Y (x, y)
PX|Y =y (x) = P (X = x|Y = y) = ∀x ∈ Rec(X), ∀y ∈ Rec(Y ),
PY (y)
entonces X
E(X|Y ) = xPX|Y (x),
x∈Rec(X)
Demostración. Sabemos que

X 1 X
xPX|Y =y (x) = xPX,Y (x, y) =: α(Y )(y),
PY (y)
x∈Rec(X) x∈Rec(X)
queremos demostrar que

 
1 X
E xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,
PY (Y )
x∈Rec(X)
 
1 X X
E xPX,Y (x, Y )IB (Y ) = α(y)PY (y)
PY (Y )
x∈Rec(X) y∈Rec(Y )∩B
X X
= xPX,Y (x, y)IB (Y )
y∈Rec(Y ) x∈Rec(X)

= E XIB (Y ) .
Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces

Z +∞
fX,Y (x, Y )
E(X|Y ) = x dx
−∞ fY (Y )
Demostración.
Z +∞ Z +∞ Z +∞
fX,Y (x, Y ) fXY (x, y)
E x dxIB (Y ) = x IB (y)dx fy (y)dy
−∞ fY (Y ) −∞ −∞ fy (y)
Z +∞ Z +∞
= xIB (y)fX,Y (x, y)dxdy
−∞ −∞
= E(XIB (Y )).
Luego, la tésis es consecuencia de la unicidad.
Proposición 1.8. Fórmula de la distribución conjunta: Dadas X, Y v.a. se tiene que

Z y
FX,Y (x, y) = FX|Y =t (x)dFy (t)
−∞
5
Demostración.

FXY (x, y) = P (X ≤ x, Y ≤ y) = E I(−∞,x] (X)I(−∞,y] (Y )

= E E I(−∞,x] (X)I(−∞,y] (Y ) Y
Z +∞
= I(−∞,y] (t)FX|Y =t (x)dFY (t)
−∞
Z y
= FX|Y =t (x)dFY (t)
−∞
Definición 1.9. Distribución condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0

definimos
P (X ≤ x ∩ A)
FX|A = P (X ≤ x|A) =
P (A)
Definición 1.10. Esperanza condicionada a un conjunto:
Z +∞
E(X|A) = xdFX|A (x) A ∈ A, P (A) 6= 0
−∞
1.2. Nociones de convergencia de variables aletorias

Definición 1.11. Convergencia en probabilidad y casi segura: Dado Ω, A, P espacio de
probabilidad, {Xn } una sucesión de v.a. y X una v.a. decimos que
P
1) Xn converge a X en probabilidad, y anotamos Xn −→ X si

lı́m P |Xn − X| ≤ ε = 1
n→+∞
c.s.
2) Xn converge a X casi seguramente, y anotamos Xn −→ X si

P lı́m Xn = X = 1
n→+∞

1.12. Convergencia en distribución: Sean Xn v.a. en Ωn , An , Pn y X v.a. en
Definición
Ω, A, P , decimos que Xn converge en distribución a X y anotamos
d
Xn −→ X si lı́m FXn (x) = FX (x) ∀x punto de continuidad de FX
n→+∞

Proposición 1.13. Relación entre convergencias: Si {Xn } y X son v.a. sobre Ω, A, P enton-
ces
c.s. P d
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.
Observación 1.14. Todos los recı́procos de la proposición anterior son falsos.

Teorema 1.15. Ley Fuerte de los grandes números: Sean {Xn } v.a. sobre Ω, A, P y Xn
independientes idénticamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces
X1 + · · · + Xn c.s.
Xn = −→ µ
n
6

Teorema 1.16. Teorema Central del Lı́mite: Sean {Xn } definidas en Ω, A, P v.a. i.i.d. en
L2 entonces
Xn − µ d
√ −→ N (0, 1).
σ/ n
Donde N (0, 1) denota la distribución normal con esperanza 0 y varianza 1.
2
Observación 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribución N (µ, σn ) donde
µ = E(Xn ) y σ 2 = V ar(Xn )
7
Capı́tulo 2
Muestreo aleatorio simple
2.1. Algunas definiciones previas

Definición 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en Ω, A, P
son una aleatoria simple si son independientes idénticamente distribuidas (i.i.d.) con distribución
igual a la de X.
Definición 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos
X1 + . . . , Xn
1) Media Muestral: Xn = .
n
n
1 X
2) Varianza Muestra Sn2 = (Xi − Xn )2
n − 1 i=1
n
1 X 2
Observación 2.3. Sn2 = Xi2 − nXn
n − 1 i=1
c.s.
Observación 2.4. Si X ∈ L1 , Xn −→ µ = E(X) por L.F.G.N.
c.s.
Observación 2.5. Si X ∈ L2 , Sn2 −→ σ 2 = V ar(X).
Demostración. !
n
n 1X 2 2 c.s.
Sn2 = X − Xn → E(X 2 ) − µ2 = σ 2 ,
n−1 n i=1 i
donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .
2.2. Muestreo en poblaciones normales

Definición 2.6. Distribución Gamma: Decimos que X tiene distribución Gamma(α, λ) si su
densidad es
α

 λ
xα−1 e−λx si x > 0
fX (x) = Γ(α)
 0 si x = 0
Observación 2.7. Tres propiedades importantes de la distribución Gamma son:

1) Si X v Gamma(α, λ) entonces E(X) = α/λ y V ar(X) = α/λ2 .
8
Capı́tulo 2. Muestreo aleatorio simple
2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+

β, λ).
3) Si α = 1, Gamma(1, λ) = Exp(λ).
Definición 2.8. Distribución Chi cuadrado con k grados de libertad: Decimos que X v χ2k
si X v Gamma(k/2, 1/2) es decir si
xk/2−1 e−x/2
fX (x) = I(0,+∞)
Γ(k/2)2k/2
Observación 2.9. Se puede demostrar que
E(χ2k ) = k
V ar(χ2k ) = 2k
Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces
X12 + · · · + Xk2 = k(X1 , . . . , Xk )k2 v χ2k
que Xi2 v
Demostración. Por la propiedad 2) de las distribuciónes Gamma, es suficiente√demostrar √
2 2
χ1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X ≤ t) = P (|X| ≤ t) = P (− t ≤ X ≤
√
t) =
Z √t Z √t Z t
1 − 1 s2 1 − 1 s2 1 1 1
√
√ e 2 ds = 2 √ e 2 ds = √ e− 2 u √ ,
− t 2π 0 2π 2π 0 u
2
donde en la primera igualdad hemos usado √ que la función e−1/2x es par, y en la seguna hemos
2
hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que
1
e− 2 u
√ √ ,
2π u
√
es la densidad de χ21 pero esto se sigue de que Gamma(1/2) = π.
9
Definición 2.11. Distribución T-Student con k grados de libertad: Sean X v N (0, 1) e

Y v χ2k independientes, la distribución de
X
Tk = p ,
Y /n
se llama distribución T − Student con k grados de libertad. Decimos que la variable Tk tiene
distribución T − Student no central, con parámetro de no centralidad µ > 0 si
X +µ
Tk = p
Y /k
Observación 2.12. Se verifica que

E(Tk ) = 0
V ar(Tk ) = k/(k − 2) para k > 2.
Teorema 2.13. Sea T v Tk , entonces la densidad es
Γ( k+1
2 )
fT (t) = √ k+1
t2
kπΓ( k2 ) 1 + k
2
Demostración. Tomemos el vector (X, Y ), su densidad es

k y
−1 − 2
1 1 2 y2 e
fX,Y (x, y) = √ e− 2 x k k I(0,+∞) (y).
2π Γ( 2 )2 2
Sea g : Rk × R+ −→ Rk × R+ tal que

!
x p
g(x, y) = p , y , g es biyectiva y g −1 (u, v) = u v/k, v ,
y/k
tenemos entonces que g(X, Y ) = (U, V )
I(0,+∞) (v)
fg(x,y) (u, v) = fU,V (u, v) = fX,Y g −1 (u, v)

det Jg g −1 (u, v)
donde !
√1 √u √1
k2 v
p
y/k y det Jg (x, y) = k/y,
0 1
luego, sustituyendo
1 2 k v √
1 e− 2k u v v 2 −1 e− 2 v
fU,V (u, v) = √ I(0,+∞) (v) √ ,
2π Γ( k2 )2k/2 k
como T = U tenemos que
Z +∞ Z +∞
1 u2
“ ”
k−1 −v + 12
fU (u) = fU,V (u, v)dv = √ k v 2 e 2k
dv,
−∞ 2kπΓ(k/2)2 2 0
por otro lado sabemos que

Z +∞ Z +∞
λα Γ(α)
xα−1 e−λx dx = 1 entonces xα−1 e−λx dx = α ,
Γ(α) 0 0 λ
k+1 u2 1
si tomamos entonces α = 2 x=v yλ= 2k + 2 se concluye la tesis.
10
Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ), entonces

σ2

1) Xn v N µ, .
n
2) Xn y Sn2 son independientes.
n−1 2
3) S v χ2n−1 .
σ2 n
√ (Xn − µ)
4) n v Tn .
Sn
Demostración.
1) es inmediato
3) tomemos σ = 1, por inducción en n, para n = 2 tenemos que
2 2
2 X1 + X2 X1 + X2
S2 = X1 − + X2 −
2 2
2 2 2
X1 − X2 X2 − X1 X1 − X2
= + = √ v χ21 ,
2 2 2
n−1
supongamos cierto para n−1. Vamos a usar la igualdad (n−1)Sn2 = (n−2)Sn−1
2
+ (Xn −
n
Xn−1 )2 , como estamos tomando σ = 1 tenemos que ver que (n − 1)Sn2 v χ2n−1 o lo que es lo
mismo (n − 2)Sn−12
+ n−1 2
n (Xn − Xn−1 ) v χn−1 ,
2
por hipótesis de inducción (n − 2)Sn−1 v χn−2 , además n−1

2 2 2
n (Xn − Xn ) es independiente de
2 2 2
(n − 2)Sn−1 pues Xn es independiente de Sn−1 por la parte 2), y Xn es independiente de Sn−1
2
pues Sn−1 depende sólo de X1 , . . . , Xn y la muestra son un M.A.S.
Basta entonces ver que n−1 2
n (Xn − Xn ) v χ1 ,
2

1 n n−1
Xn − Xn−1 v N 0, 1 + = N 0, ⇒ (Xn − Xn−1 )2 v χ21 ,
n−1 n−1 n
y, como la suma de χ2 es tiene distribución χ2 con la suma de los grados tenemos que χ2n−2 +
χ21 v χ2n−1 .
11
4) Es inmediato a partir de 1,2 y 3.

2)
n
1 X
Sn2 = (X1 − Xn )2 + (Xi − Xn )2

n−1 i=2
n n
1 X
2
X
(Xi − Xn )2 ,

= ( Xi − Xn ) +
n − 1 i=2 i=2
hemos escrito entonces Sn2 en función de X2 − Xn , . . . , Xn − Xn , basta demostrar entonces que

Xn es independiente de X2 − Xn , . . . , Xn − Xn .
Consideremos Y1 = Xn , Y2 = X2 − Xn , . . . , Yn = Xn − Xn , y1 = xn , y2 = x2 − xn , . . . , yn =
xn − xn y y = g(x1 , . . . , xn ) entonces
 1 1 1

n n ... n
 −1 1 − 1 ... − n1 
 n n
Jg =  . .

..
 .. . 
1 1 1
−n −n ... 1 − n
Es fácil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz
triangular superior con diagonal 1/n, 1, . . . , 1.
x2 = y2 + y1 , . . . , xn = yn + y1 de donde
!
X
−1
g (y) = − yi − y1 , y2 + y1 , . . . , yn + y1 ,
2
entonces
1
fY (y) = fX (g −1 (y)
| det Jg (g −1 (y))|
( !)
n 1 2
X X
2
X
2 2
= exp − y1 − 2y1 yi + ( yi ) + (yi + 2y1 yi + y1 )
(2π)n/2 2 2 2 2
( !)
n n n o 1 X X
= exp − y12 exp − ( yi ) 2 + yi2 .
(2π)n/2 2 2 2 2
Por lo tanto factorizamos respecto de y1 , iterando, son independientes.
Observación 2.15. Distribución F de Fisher: Sea X v χ2n e Y v χ2m independientes, la

distribución de
X/n
Y /m
se denomina distribución F de Fisher de parámetros n y m, y la anotamos F (n, m).
A modo de motivación geométrica de la distribución F de Fisher, vamos a enunciar el siguiente
teorema.
Teorema 2.16. Sea A el ángulo que forma un vector X v N (0, σ 2 ) en Rd con un subespacio R de
dimensión ρ, entonces
ρ
tan2 (A) v F (d − ρ, ρ)
d−ρ
12
Observación 2.17. Si Z v F (n, m) entonces

n
Γ n+m
n
2 n 2 w 2 −1
fZ (w) = n+m I(0,+∞) (w)
Γ n2 Γ m

2
m n
1+ m w 2
2
Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (µX , σX ) y Y1 , . . . , Yn M.A.S. de Y v N (µY , σY2 )
X e Y independientes, entonces
2 2
SX /σX
2 2 v F (n − 1, m − 1)
SY /σY
Demostración. La demostración se sigue de la parte 3) y 2) del teorema 2.14
2.3. Estadı́sticos de Orden para una M.A.S.

Definición 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos
X1:n = mı́n{X1 , . . . , Xn }

X2:n = mı́n {X1 , . . . , Xn } \ {X1:n }
..
.

Xn:n = mı́n {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }
se tiene entonces que X1:n ≤ · · · ≤ Xn:n

Teorema 2.20. Distribución de los percentiles: Sea X1 , . . . , Xn una M.A.S. de X absoluta-
mente continua, entonces
n! j−1 n−j
fXj:n (x) = fX (x) FX (x) 1 − FX (x)
(j − 1)!(n − j)!
Demostración. FXj:n = P (Xj:n ≤ x) es decir, que al menos j variables sean menores o iguales
uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces
Y v Bin(n, p) con p = FX (x).
n n
X X k n−k
P (Xj:n ≤ x) = P (Y ≥ j) = P (Y = k) = Ckn FX (x) 1 − FX (x)
k=j k=j
entonces, derivando y usando q = 1 − p

n
X n!
fXj:n (x) = kpk−1 fX (x)q n−k − fX (x)(n − k)q n−k−1 pk
(n − k)!k!
k=j
 
n n−1
X 1 X 1
= fX (x)n!  pk−1 q n−k − pk q n−k−1 
(n − k)!(k − 1)! (n − k − 1)!k!
k=j k=j
 
n n
X 1 X 1
= fX (x)n!  pk−1 q n−k − pk−1 q n−k 
(n − k)!(k − 1)! (n − k)!(k − 1)!
k=j k=j+1
1
= fX (x)n! pj−1 q n−j
(n − j)!(j − 1)!
13
n−1 n−1
Observación 2.21. fXmax (x) = nfX (x) FX (x) y fXmin (x) = nfX (x) 1 − FX (x)
Γ(α + β) α−1
Definición 2.22. Si X tiene densidad f (x) = x (1 − x)β−1 I(0,1) (x) decimos que X v
Γ(α)Γ(β)
Beta(α, β)
αβ
Observación 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) = .
(α + β)2 (α + β + 1)
Observación 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n − j + 1).
14
Capı́tulo 3
Teorı́a de la Estimación, métodos

de estimación
3.1. Algunas definiciones previas

Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|θ) donde θ ∈ Rk es un
parámetro desconocido.
Definición 3.1. Sea θ̂ : Rn −→ Rk medible, independiente de θ, entonces θ̂(X1 , . . . , Xn ) : Ω −→ Rk
es un estimador de θ.
Ejemplo 3.2. Si X v N (µ, σ 2 ) y θ = (µ, σ 2 ) entonces si definimos
n
!
x1 + · · · + xn 1 X x1 + · · · + xn
θ̂(x1 , . . . , xn ) = , xi − : Rn −→ R2
n n − 1 i=1 n
entonces
θ̂(X1 , . . . , Xn ) = (Xn , Sn2 )
es un estimador de θ.
Observemos que si bien θ es un vector, θ̂ es un vector aleatorio a valores en Rk .
Definición 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|θ) y θ̂ es un estimador, decimos que
P c.s.
θ̂ es debilmente consistente si θ̂ −→ θ. Decimos que es fuertemente consistente si θ̂ −→ θ
Ejemplo 3.4. Si X v N (µ, σ 2 ) y θ̂ = (Xn , Sn2 ) entonces θ̂ es fuertemente consistente.
Notación: Anotamos como (H) al conjunto de valores posibles, que puede tomar el parámetro
θ. Por ejemplo si X v N (µ, σ 2 ) θ = (µ, σ 2 ) entonces (H) = R × R+ .
3.2. Método de los momentos

Si X1 , . . . , Xn es una M.A.S. de X v F (X|θ) y θ = (θ1 , . . . , θk ) ∈ Rk y X ∈ L1 . Consideremos
el sistema 
 E(X) =


Xn
n

 1X 2
E(X 2 ) = Xi


n i



.. ..


 . .
 n

 k 1X k
 E(X ) = Xi


n i

15
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos
muestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de las
k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solución
ni ser única. Observemos que por la ley fuerte, los estiamdores que se despejan para cada θi son
consistentes.
Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el método de los momentos
es
1/2(b − a) = P Xn
1/12(b − a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2
Si despejamos b en la primer ecuación y sustituimos en la segunda obtenemos las soluciones
q q
a = Xn ± 3(M2 − Xn ), b = Xn ± 3(M2 − Xn )
Como (H) = {(a, b) ∈ R2 : a < b} descartamos soluciones y nos queda

q q
â = Xn − 3(M2 − Xn ), b̂ = Xn + 3(M2 − Xn ).
Teorema 3.6. Método de los momentos, existencia de solución: Si F : (H) ⊂ Rk −→ Rk

es tal que F (θ1 , . . . , θn ) = (E(X), E(X2 ), . . . , E(X k )), entonces, si F es inyectiva, F −1 y F son
continuas y si Xn , M2 , . . . , Mk ∈ F (H) c.s. entonces los estimadores por momentos convergen c.s.
a θ1 , . . . , θ k .
Demostración. F (θ1 , . . . , θn ) = (M1 , . . . , Mk ) entonces (θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ), como
c.s.
M1 = Xn −→ E(X)
..
.
1 X k c.s.
Mk = Xi −→ E(X k )
n i
y F −1 es continua entonces
c.s.
(θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ) −→ F −1 E(X), . . . , E(X k )

= F −1 F (θ1 , . . . , θk ) = (θ1 , . . . , θk ),

de donde θ̂ es fuertemente consistente.
3.3. Método de Máxima Verosimilitud

Definición 3.7. Función de Verosimilitud: Dada una M.A.S. de X v F (X|θ) θ ∈ (H) ⊂ Rk
n
Y
L(θ, x̃) = fX (xi |θ) si X es absolutamente continua
i=1
Yn
L(θ, x̃) = pX (xi |θ) si es discreta
i=1
El método consiste entonces en hallar θ ∈ (H) donde se realice máxθ∈(H) L(θ, x̃), dicho θ̂ es el
estimador de máxima verosimilitud (E.M.V.) de θ. El método no asegura la existencia y/o unicidad
de θ̂.
16
Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp(λ) entonces la función de verosimilitud para
λ es
Yn X
L(λ) = λ exp{−λxi } = λn exp{−λ xi },
i=1 i
con xi ≥ 0 ∀i, derivando obtenemos

( !)
X X
0 n−1
L (λ) = λ exp −λ xi n−λ xi ,
i i
n 1
y por lo tanto, como λ 6= 0, si hacemos L0 (λ) = 0 obtenemos λ = P = , es fácil ver, mirando
i xi Xn
el signo de L0 (λ) que es un máximo.
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la función de verosimilitud
es entonces
1 1
n
( (
Y 1 si 0 < x1 , . . . , x n < b si b > máx{x1 , . . . , xn }
L(b) = I[0,b] (xi ) = b n = bn
i=1
b 0 si no 0 si no
Como la función 1/bn es decreciente obtenemos que b̂ = xn:n = máx{x1 , . . . , xn }.

Observación 3.10. Interpretación del método: Para el caso discreto, si tenemos X1 , . . . , Xn
una M.A.S. y X v pX (X|θ) entonces
n
Y n
Y
L(θ|x̃) = pX (xi |θ) = P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ),
i=1 i=1
esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en función de θ. El método busca
maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el θ que haga que la
muestra sea más probable.
Principio de invarianza del E.M.V.: Supongamos que tenemos un parámetro θ ∈ (H) y

g : (H) → R, y que estamos interesados en estimar g(θ) por el método de máxima verosimilitud, es
decir queremos encontrar M̂ = g(θ̃) que haga que la muestra sea más probable. Queremos maximizar
entonces
L∗ (M |x̃) = sup L(θ|x̃),
{θ:g(θ)=M }
Veremos que si M̂ = E.M.V. de g(θ), es decir donde se realiza el máximo de L∗ entonces M̂ = g(θ̂)
siendo θ̂ = E.M.V de θ. En efecto:
L∗ (M̂ |x̃) = sup L∗ (M |x̃) = sup sup L(θ|x̃) = sup L(θ, x̃) = L(θ̂|x̃)
M M {θ:g(θ)=M } θ∈(H)
y
L∗ (g(θ̂), x̃) = sup L(θ|x̃) = L(θ̂|x̃).
{θ:g(θ)=g(θ̂)}
Entonces g(θ̂) es E.M.V. de g(θ).

Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es p̂ = Xn , como σ 2 = p(1 − p) = g(p)
por el Principio de Invarianza σ̂ 2 = g(p̂) = p̂(1 − p̂).
P
Observación 3.12. Si h(θ) = log(L(θ)) = log(fX (xi |θ) podemos, dado que log(x) es una función
creciente, tomar el θ que maximiza h(θ)
17
Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|θ) y θ ∈ (H) ⊂ R donde
(H) es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ (H), si
h(θ) = log(L(θ)) es derivable como función de θ y además f (x|θ) = f (x|θ0 ) implica θ = θ0 c.s.
entonces
∂ c.s.
∃θˆn ∈ (H) tal que h(θˆn ) = 0 y θˆn −→ θ0
∂θ
Demostración.
n n n
X X X f (xi |θ0 )
h(θ0 ) − h(θ0 − δ) = log((f (xi |θ0 )) − log((f (xi |θ0 − δ))) = log
i=1 i=1 i=1
f (xi |θ0 − δ)
entonces

h(θ0 − δ) − h(θ0 ) 1X f (xi |θ0 − δ) L.F.G.N. f (xi |θ0 − δ)
= log −→ E log c.s.,
n n f (xi |θ0 ) f (xi |θ0 )
como − log es una función convexa, usando la desigualdad de Jensen y la inyectividad.

f (xi |θ0 − δ) f (xi |θ0 − δ)
E log < log E ,
f (xi |θ0 ) f (xi |θ0 )
por otro lado

+∞ +∞
f (xi |θ0 − δ) f (x|θ0 − δ)
Z Z
E = f (x|θ0 )dx = f (x|θ0 )dx = 1.
f (xi |θ0 ) −∞ f (x|θ0 ) −∞
Luego el lı́mite anterior es negativo. Lo mismo para θ0 − δ. Definamos

n h(θ0 ± δ) − h(θ0 ) c.s. f (xi |θ0 ± δ) o
Aδ = ω ∈ Ω : −→ E log <0 .
n f (xi |θ0 )
Por la L.F.G.N. P (Aδ ) = 1. Fijado ω ∈ Aj existe n0 = n0 (ω, δ) tal que h(θ0 ) > h(θ0 ± δ) ∀n ≥ n0 ,
∂
existe θˆn tal que h(θˆn ) = 0. Definamos
∂θ
n ∂ o
Bδ = ω ∈ Ω : ∃θˆn ∈ (θ0 − δ, θ0 + δ) y h(θˆn ) = 0 .
∂θ
Como Aδ ⊂ Bδ tenemos que P (Bδ ), si tomamos δ = 1/n,
∞
!
\
P B1/n = 1.
i=1
c.s.
La sucesión θˆn verifica θˆn −→ θ0 y es cero de ∂
∂θ h.
Observación 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.

P d d
Lema 3.15. Lema de Slutsky: Si Xn −→ c y Yn −→ Y con c constante entonces Xn +Yn −→ c+Y
d
y Xn Yn −→ cY .
d P
Recordemos que Xn −→ c ⇔ Xn −→ c.
Teorema 3.16. Normalidad asintótica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|θ),
supongamos que existe δ > 0 tal que (θ0 −δ, θ0 +δ) ∈ (H), si se cumplen, para todo θ ∈ (θ0 −δ, θ0 +δ)
∂ c.s.
1) ∃{θn } variables aleatorias tal que h(θn ) = 0 ∀n y θn −→ θ0
∂θ
18
∂3

2) E h(θ|x̃) ≤ M (X̃) con E(M (X̃)) < ∞.
∂θ3
!
∂
∂θ f (x|θ)
3) E = 0.
f (x|θ)
∂2
!
∂θ 2 f (x|θ)
4) E = 0.
f (x|θ)
!2
∂
∂θ f (x|θ)
5) i(θ) := E > 0, el número i se denomina número de información de Fischer.
f (x|θ)
Entonces
√

d 1
n θn − θ0 −→ N 0,
i(θ0 )
Demostración. La demostración será una consecuencia de dos afirmaciones:
1 ∂
Afirmación 1: √ h(θ0 ) → N (0, i(θ0 ))
n ∂θ
√ 1 ∂ P
Afirmación 2: n(θn − θ0 ) − √ h(θ0 ) −→ 0.
ni(θ0 ) ∂θ
Veamos primero cómo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la
tesis. En efecto, podemos escribir
√ √

1 ∂ 1 ∂
n(θn − θ0 ) = n(θn − θ0 ) − √ h(θ0 ) + √ h(θ0 )
ni(θ0 ) ∂θ ni(θ0 ) ∂θ
Veamos la demostración de la Afirmación 1:
∂ n ∂ n
1 ∂ 1 X ∂θ f (xi |θ0 ) √ 1 X ∂θ f (xi |θ0 ) √
√ h(θ0 ) = √ = n = nZ n .
n ∂θ n i=1 f (xi |θ0 ) n i=1 f (xi |θ0 )
E(Zi ) = 0 por la hipótesis 3) y V ar(Zi ) = E(Zi2 ) − E 2 (Zi ) = i(θ) > 0 por la hipótesis 5). Luego,
√ d
si aplicamos el T.C.L. tenemos que nZ n −→ N (0, i(θ0 )). Lo que concluye la demostración de la
afirmación 1.
Veamos la demostración de la Afirmación 2: podemos escribir, usando el desarrollo de Taylor y

la hipótesis 1,
∂ ∂ ∂2 ∂3 (θn − θ0 )2
0= h(θn ) = h(θ0 ) + 2 h(θ0 )(θn − θ0 ) + 3 h(θˆn )
∂θ ∂θ ∂θ ∂θ 2
donde θˆn ∈ [θ0 , θn ], despejando obtenemos

∂
− ∂θ h(θn )
θn − θ0 =
∂2
2 h(θ0 ) +
∂3 ˆ (θn −θ0 )
3 h(θn )
∂θ ∂θ 2
y √
∂
√ 1 ∂ − ∂θ h(θn ) n 1 ∂
n(θn − θ0 ) − √ h(θ0 ) = 2 (θ −θ )
−√ h(θ0 ) =
ni(θ0 ) ∂θ ∂ ∂ 3
ˆ n 0 ni(θ0 ) ∂θ
∂θ 2 h(θ0 ) + ∂θ 3 h(θn ) 2
" #
1 ∂ −1 1
√ h(θ0 ) − (3.1)
n ∂θ 1 ∂2 1 ∂3 ˆ (θn −θ0 ) i(θ0 )
n ∂θ 2 h(θ0 ) + n ∂θ 3 h(θn ) 2
19
1 ∂ d
Nuevamente, como √ h(θ0 ) −→ N (0, i(θ0 )), por el lema de Slutsky, la afirmación 2 queda
n ∂θ
demostrada si probamos que la expresión entre [] tiende en probabilidad a 0 (o lo que es lo mismo,
en distribución a 0).
Sabemos que
1 ∂3 (θn − θ0 ) P
h(θˆn ) −→ 0,
n ∂θ3 2
P P
donde hemos usado que si Xn −→ 0 y si E(Yn ) ≤ k ∀n entonces Xn Yn −→ 0.
2 2
∂ ∂
|θ − |θ
n
! n
2 ∂ f (x|θ ) f (x ) f (x )
∂θ f (xi |θ0 )
1 ∂ 1 X ∂ 1 X ∂θ 2 0 i 0 ∂θ i 0
h(θ0 ) = = 2 .
n ∂θ2 n i=1 ∂θ f (xi |θ0 ) n i=1

f (xi |θ0 )
Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la
hipótesis 4:  
∂2 !2
 ∂θ2 f (x |θ
i 0 ) f (x |θ )
i 0  ∂
f (x|θ)
E 2  − E ∂θ = −i(θ0 )
f (x|θ)

f (x|θ0 )
de donde se concluye que la expresión entre [] en 3.1. converge en probabilidad a 0 como querı́amos
demostrar.
Observación 3.17. Sobre las hipótesis del teorema anterior
1) Es la tésis del Teorema 3.13.
!
∂ Z +∞ ∂ Z +∞
∂θ f (x|θ) ∂θ f (x|θ) ∂
3) E = f (x|θ)dx = f (x|θ)dx, observemos que si pudiera-
f (x|θ) −∞ f (x|θ) −∞ ∂θ
Z +∞
∂ ∂
mos aplicar convergencia dominada f (x|θ)dx = 1 = 0.
∂θ −∞ ∂θ
4) Análogo a 3).
∂
∂θ f (x|θ)
5) Por 3), 5) es pedir que no sea constante.
f (x|θ)
3.4. método de estimación por cuantiles

Definición 3.18. Cuantil o percentil p: Sea X v.a., dado p ∈ (0, 1) el cuantil p es

xp = ı́nf x ∈ R : FX (x) ≥ p
Observación 3.19. xp existe, y es mı́nimo

Demostración. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es
tal que F (xn ) ≥ p y xn → p, como F es continua por derecha
lı́m F (xn ) = F (lı́m xn ) = F (xp ) ≥ p.

n n
Definición 3.20. Percentil empı́rico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra

ordenada X1∗ = X1:n ≤ · · · ≤ Xn∗ = Xn:n , entonces
∗
Xnp si np ∈ N
X̂p = ∗
X[np]+1 si np ∈/N
20
Pk
El método consiste en plantear la función g(θ) = i=1 (Xˆpi − xpi )2 donde los pi y k son cuales-
quiera. Lo que se busca es el mı́nimo de g(θ). El argumento que minimiza g(θ) sera θ̂ y dependerá de
los cuantiles empı́ricos Xˆpi .
1
Ejemplo 3.21. Si X v (µ, σ 2 ), entonces fX (x|µ, σ 2 ) = .
x−µ 2

πσ 1 + σ
Es fácil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ 2 ) por el método
de cuantiles. Tomamos k = 4, Q1 = X̂0,25 , Q2 = X̂0,5 y Q3 = X̂0,75 , estimadores de los cuartiles.
Entonces, la función a minimizar es
g(µ, σ 2 ) = (Q1 − x0,25 )2 + (Q2 − x0,5 )2 + (Q3 − x0,75 )2
Calculemos los cuartiles x0,25 , x0,5 y x0,75 en función de µ y σ.

2 1 1 x−µ
FX (x|µ, σ ) = + arctan
2 π σ

x−µ π
Si hacemos FX (x|µ, σ 2 ) = 0,25 entonces arctan = − de donde x = µ − σ. Análogamente
σ 4
x0,5 = µ y x0,75 = µ + σ (estos valores se calculan facilmente a partir de x0,25 usando la paridad de
fX ). Luego, la función a minimizar resulta entonces
g(µ, σ 2 ) = (Q1 − µ + σ)2 + (Q2 − µ)2 + (Q3 − µ − σ)2
Derivando esta función respecto de µ y de σ, el gradiente resultante se anula en

Q1 + Q2 + Q3 Q3 − Q1
µ̂ = σ̂ =
3 2
3.5. Estimación de la función de Distribución

Definición 3.22. Distribución Empı́rica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es
desconocida, la distribución empı́rica se define como
n
1X
Fn∗ (x) = I(−∞,x] (Xi )
n i=1
Observemos que en cada x nos da la proporción de observaciones menores o iguales que x, y que,
para x y n fijos, Fn∗ (x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de Fn∗
son n , y de tamaño 1/n.
c.s.
Proposición 3.23. Fn∗ (x) −→ F (x) ∀x ∈ R.
Demostración. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) con
p = FX (x).
Teorema 3.24. Teorema fundamental de la Estadı́stica, Glivenko-Cantelli, 1937: Sea
X1 , . . . , Xn una M.A.S. de X v FX entonces
c.s.
kFn∗ − FX k∞ = sup Fn∗ (x) − FX (x) −→ 0

x∈R
.
Demostración. Para la demostración vamos a necesitar el siguiente lema:

Lema 3.25. Yn = supx∈R Fn∗ (x) − FX (X) es una v.a., es decir, es medible.
21
Demostración. Basta demostrar que {Yn ≤ δ} ∈ A f orallδ.
{Yn ≤ δ} = |Fn∗ (x) − FX (x)| ≤ δ ∀x ∈ R = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ ∀x ∈ R

\
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ

=
x∈R
Basta demostrar que

\ \
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ

x∈R x∈Q
Fijemos x ∈ R, dado ε > 0 ∃y ∈ Q, y ≥ x tal que

1) Fn∗ (y) − Fn∗ (x) ≤ ε pues Fn∗ es continua por derecha.
2) F (y) − F (x) ≤ ε pues F es continua por derecha.
3) F (y) − δ ≤ Fn∗ (y) ≤ F (y) + δ.

Podemos escribir entonces
x≤y 3 1 x≤y 3 2
F (x) − δ − ε ≤ F (y) − δ − ε ≤ Fn∗ (y) − ε ≤ Fn∗ (x) ≤ Fn∗ (y) ≤ F (y) + δ ≤ F (x) + ε + δ
y por lo tanto
F (x) − δ − ε ≤ Fn∗ (x) ≤ F (x) + ε + δ ∀ε > 0
entonces
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ.
lo cual concluye la demostración del lema.
Veamos la demostración del teorema, para el caso continuo, dado x ∈ R sea Ax = {ω ∈ Ω :
lı́mn Fn∗ (x) =
F (x)}. Por la proposición anterior sabemos que P (Ax ) = 1 para todo x. Luego
T
P x∈Q Ax = 1.
Sea A := x∈Q Ax , basta ver que A ⊂ {ω ∈ Ω : lı́mn supx∈R |Fn∗ (x) − FX (x)|0}. Sea ε > 0.
T
Como lı́mx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε.
Como lı́mx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1 − F (x) < ε.
Como F es uniformemente continua en [k1 , k2 ] existe k1 ≤ x2 < . . . < xm ≤ k2 ∈ Q tal que
F (xk+1 ) − F (xk ) < ε para todo k = 2, . . . , m − 1.
Luego si tomamos −∞ = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < +∞ = xm+2 se verifica
que F (xk+1 ) − F (xk ) < ε para todo k = 0, . . . , m + 1. Si x ∈ R existe k ∈ {0, . . . , m + 2} tal que
xk ≤ x ≤ xk+1 entonces
1 2
Fn∗ (x) ≤ Fn∗ (xk+1 ) ≤ F (xk+1 ) + ε F (x) + ε + ε = F (x) + 2ε,
donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0 , que no
depende de x. La desigualdad 2 se sigue de que F (xk+1 ) ≤ F (xk ) + ε ≤ F (x) + ε. Razonando de
forma análoga llegamos a que, para n > n1 , para todo x tenemos que
F (x) − 2ε ≤ Fn∗ (x) ≤ F (x) + 2ε
de donde
lı́m sup |Fn∗ − F | = 0.
n→+∞
22
3.6. Convergencia casi segura de Percentiles

Teorema 3.26. Dado p ∈ (0, 1) tal que ∀ε > 0 F (xp + ε) > p entonces el percentil empı́rico
c.s.
Xˆp,n x p .
Demostración. Observemos que
1

n np = p si np ∈ N
Fn∗ (Xˆp,n ) = 1 .
n ([np] + 1) → p si np ∈
/N
n n
dado ε > 0 sabemos que Fn∗ (xp + ε) −→ F (xp + ε) > p c.s. y Fn∗ (Xˆp.n ) −→ p por lo tanto ∀n ≥ n0 se
c.s. n
cumple que Fn∗ (Xˆp,n ) < Fn∗ (xp + ε), de donde Xˆp,n < xp + ε. Además Fn∗ (xp − ε) F (xp − ε) < p
c.s
y, razonando de forma análoga xp − ε < xp . Por lo tanto X̂p,n −→ xp .
23
Capı́tulo 4
Evaluación de Estimadores
Definición 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) y T = Tn (X1 , . . . , Xn )

estimador de g(θ) con g a valores reales, conocida. Decimos que
Tn es insesgado si E(Tn ) = g(θ) ∀θ ∈ (H)

n
Tn es asintóticamente insesgado si E(Tn ) −→ g(θ)
Definición 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )−g(θ)
2
Definición 4.3. Error cuadrático medio: Se define E.C.M (Tn ) = E Tn − g(θ)
Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar
estimadores con E.C.M. mı́nimo.
Definición 4.4. Estimador de mı́nima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2 ,
decimos que es insesgado en θ0 ∈ (H), de varianza mı́nima si
i) Tn es insesgado en θ0
ii) Si Tn0 ∈ L2 es insesgado en θ0 V arθ0 (Tn ) ≤ V arθ0 (Tn0 ).
R
Observación 4.5. Eθ Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|θ)
Observación 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mı́nima
varianza.
Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo si
Eθ0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que Eθ (f ) = 0.
Demostración. Para demostrar el teorema será necesario el siguiente lema
Lema 4.8. Tn es insesgado de mı́nima varianza en θ0 si y solo si Tn es insesgado y V arθ0 (Tn ) ≤
V arθ0 (Tn + λf ) para todo λ ∈ R , para todo f tal que Eθ0 (f ) = 0.
Demostración. Veamos el directo, sea λ y f tal que Eθ0 (f ) = 0, Tn0 = Tn + λf es insesgado pues
E(Tn + λf ) = E(Tn ) + λE(f ) = E(Tn ) = g(θ). Como Tn es de mı́nima varianza V arθ0 (Tn ) ≤
V arθ0 (Tn0 ).
Para demostrar el recı́proco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 − Tn ), tomemos
f = Tn0 − Tn y λ = 1 entonces E(f ) = 0, luego, por hipótesis
V arθ0 (Tn ) ≤ V arθ0 (Tn + λf ) = V arθ0 (Tn0 ).
24
Capı́tulo 4. Evaluación de Estimadores
Veamos ahora la demostración del teorema. Por el lema basta ver que V arθ (Tn ) ≤ V arθ0 (Tn +λf )
si y solo si Eθ0 (f Tn ) = 0.
V arθ0 (Tn + λf ) = V ar(Tn ) + λ2 V (f ) + 2λcov(Tn , f ) ≥ V arθ0 (Tn ) ∀λ ∈ R

⇔λ2 V arθ0 (f ) + 2λcov(Tn , f ) ≥ 0 ∀λ ∈ R
⇔p(λ) = λ2 V arθ0 2λcov(Tn , f ) ≥ 0 ⇔ cov(Tn , f ) = 0,
de lo contrario p tendrá 2 raices.
cov(Tn , f ) = E(Tn f ) − E(Tn )E(f ) = 0 ⇔ E(Tn f ) = 0.
Definición 4.9. Estimador insesgado de mı́nima varianza uniformemente: Tn es estimador

I.M.V.U. si es insesgado de varianza mı́nima ∀θ ∈ (H).
Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(λ), θ = 1/λ. Un estimador de θ es Xn , veamos
c.s.
que es de mı́nima varianza. Sabemos que Xn −→ E(X) = 1/λ = θ. Si f es tal que E(f ) = 0 para
todo θ. Z X
E(f ) = f (x1 , . . . , xn )λn exp{−λ xi }dx1 . . . dxn = 0
[0,+∞)n
entonces Z X
f (x1 , . . . , xn ) exp{−λ xi }dx1 . . . dxn = 0 ∀λ ∈ R.
[0,+∞)n
Veamos que E(f Xn ) = 0.

Z n
1 X n X
E(f Xn ) = f (x1 , . . . , xn ) xi λ exp{−λ xi }dx1 . . . dxn = 0
[0,+∞)n n i=1
Z n
1 X X
⇔ f (x1 , . . . , xn ) xi exp{−λ xi }dx1 . . . dxn = 0
[0,+∞)n n i=1
Z
∂ X
⇔ f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0
[0,+∞)n ∂λ
Z
∂ X
⇔ f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0
∂λ [0,+∞)n
Ejemplo 4.11. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamos

que es de mı́nima varianza, sea f tal que E(f ) = 0
X n
Y
E(f ) = f (x1 , . . . , xn ) p(xi |p)
(x1 ,...,xn )∈{0,1}n i=1
X P P
xi
= f (x1 , . . . , xn )p (1 − p)n− xi
(x1 ,...,xn )∈{0,1}n

n
X X P P
xi
= f (x1 , . . . , xn )p (1 − p)n− xi
k=0 x1 +···+xn =k
n
" #
X X
= f (x1 , . . . , xn ) pk (1 − p)n−k = 0
k=0 x1 +···+xn =k
25
Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus
coeficientes son nulos. Luego si calculamos
n
!
X X k k
E(f Xn ) = f (x1 , . . . , xn ) p (1 − p)n−k = 0
n
k=0 x1 +···+xn =k
Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1 , . . . , Xn M.A.S. de X v fX (x|θ). Si Tn

es un estimador insesgado de g(θ). Asumiremos que estamos en las hipótesis de derivación dentro
de la integral, es decir que
Z n
!
∂ ∂ Y
E(Tn ) = Tn fX (xi |θ) dx1 . . . dxn
∂θ Rn ∂θ i=1
y
Z n Z n
∂ Y ∂ Y
fX (xi |θ)dxi = fX (xi |θ)dxi ,
∂θ Rn i=1 Rn ∂θ i=1
entonces
g 0 (θ)

V ar(Tn ) ≥ ∂
2 .
∂θ f (x|θ)
nE f (x|θ)
Además, el igual se da si y solo si existe λ = λ(n, θ) tal que

n ∂
c.s. ∂θ f (xi |θ)
X
Tn (X1 , . . . , Xn ) − g(θ) = λ .
i=1
f (xi |θ)
Demostración.
Z n
0 ∂ ∂ Y
g (θ) = E(Tn ) = Tn (x1 , . . . , xn ) fX (x|θ)dx1 . . . dxn
∂θ ∂θ Rn i=1
Z " n
#
∂ Y
= Tn (x1 , . . . , xn ) fX (xi |θ) dx1 . . . dx n
Rn ∂θ i=1
Z n
∂ Y
= Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ)dx1 . . . dxn
Rn ∂θ i=1
r ∂
Qn
fX (xi |θ)
Z
Yn
= Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ) pQni=1
∂θ
dx1 . . . dxn
i=1 fX (xi |θ)
Rn i=1
26
entonces, si aplicamos la desigualdad de Cauchy-Schwartz

n ∂
Qn 2
∂θQ i=1 fX (xi |θ)
Z Z
2 2 Y
g 0 (θ) ≤ Tn − g(θ) fX (xi |θ) n
Rn i=1 Rn i=1 fX (xi |θ)
∂
Qn 2
∂θQ i=1 fX (xi |θ)
Z
=V (Tn ) n
Rn i=1 fX (xi |θ)
∂
Q n 2 !2
∂θQ i=1 f X (x i |θ)
=V (Tn )E n
i=1 fX (xi |θ)
n
!2
∂ Y
=V (Tn )E log fX (xi |θ)
∂θ i=1
2
∂
=V (Tn )E log(fX (xi |θ))
∂θ
!2
X ∂ f (xi |θ)
∂θ
=V (Tn )E .
f (xi |θ)
∂
∂θ f (xi |θ)
Definamos g(Xi ) = .
f (xi |θ)
X 2 X X X
g 2 (Xi ) + 2 g(Xi )g(Xj ) = nE g(Xi )2 + 2

E g(Xi ) = E E g(Xi )g(Xj ) .
i6=j i6=j

Basta ver
que E g(X
i )g(Xj ) = 0 para todo i 6
= j. Como son independientes E g(Xi )g(Xj ) =
E g(Xi ) E g(Xj ) .
∂
∂θ f (xi |θ)
Z
E(g(Xi )) = f (xi |θ)dx
R f (xi |θ)
Z
∂
= f (xi |θ)dx = 0.
R ∂θ
Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,
por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1 , . . . , xn tal que
∂
Q
qY
∂θ fX (xi |θ)
(Tn − g(θ)) fX (xi |θ) = λ pQ
fX (xi |θ)
y esto sucede si y solo si

∂
Q
∂θQ fX (xi |θ) ∂ Y X ∂
Tn − g(θ) =λ =λ log fX (xi |θ) = λ log fX (xi |θ)
fX (xi |θ) ∂θ ∂θ
∂
∂θ fX (xi |θ)
X
=λ
fX (xi |θ)
Definición 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g(θ) y cumple el

igual en la desigualdad de Cramer-Rao se dice que es eficiente
Observación 4.14. Si θ̂ es un estimador de θ, θ̂ es eficiente si y solo si
i) θ̂ es insesgado
27
1
ii) V ar(θ̂) = ∂
2
∂θ f (x|θ)
nE f (x|θ)
Observación 4.15. Observemos que si θ̂ es eficiente, es de mı́nima varianza (entre el conjunto de

estimadores que estan el las hipótesis del Teorema de Cramer-Rao). Podria no existir un estimador
eficiente, además, existen estimadores de mı́nima varianza que no cumplen la igualdad.
Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y además
∂
!2 2 !
∂p p(x|p)

1 −1 1 1
nE =n 2
p+ (1 − p) = n = ,
p(x|p) p 1−p p(1 − p) V ar(X)
por lo tanto p̂ = Xn es eficiente. Como Xˆn es eficiente es de mı́nima varianza varianza ya que X es
de recorrido finito.
Definición 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|θ) y T (X1 , . . . , Xn )
estimador, decimos que T es suficiente para θ si y solo si FX1 ,...,Xn |T no depende de θ.
Pn
Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador
suficiente para estimar p.
Demostración.
P (X1 , . . . , Xn , T = t)
pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) = =
P (T = t)
( P
0 si t 6= xi
P (X1 =x1 )...P (Xn =xn ) P
P (T =t) si t = xi
P P
xi
p (1 − p)n− xi
= n
Ct pt (1 − p)n−t
1
= n.
Ct
Que no depende de p, hemos usado que T v Bin(n, p).
Qn
Teorema 4.19. T es suficiente para θ si y solo si L(x̃|θ) = i=1 f (xi |θ) = g T (x̃), θ h(x̃)
Demostración. (Caso discreto:)
n
Y n
Y
L(x̃|θ) = pX (xi |θ) = P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ) =
i=1 i=1
Pθ (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(x̃)g(T (x̃, θ))
Veamos el recı́proco, supongamos que P (T = t) > 0.

P (X1 = x1 , . . . , Xn = xn , T = t)
P (X1 = x1 , . . . , Xn = xn |T = t) =
P (T = t)
(
0 si t 6= T (x̃)
= P (X1 =x1 ,...,Xn =xn )
P (T =t) si t = T (x̃)
Para el caso en que t = T (x̃)

P (X1 = x1 , . . . , Xn = xn ) g(T (x̃))h(x̃)
P (X1 = x1 , . . . , Xn = xn |T = t) = P =P .
ỹ:T (ỹ)=t P (X1 = y1 , . . . , Xn = yn ) ỹ:T (ỹ)=t g(T (ỹ), θ)h(ỹ)
28
Observemos que, dado que estamos en el caso T (x̃) = t y g(T (x̃), θ) = g(t, θ) = g(T (ỹ), θ). Por
lo tanto
h(x̃)
P (X1 = x1 , . . . , Xn = xn |T = t) = P .
ỹ:T (ỹ)=t h(ỹ)
Que no depende de θ.
Ejemplo
P 4.20. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ). Estimamos µ y σ 2 , consideremos T (x̃) =
2
P
( xi , xi ) = (T1 , T2 ).
n
Y 1 1
L(x̃|(µ, σ)) = √ exp − 2 (xi − µ)2
i=1
2πσ σ
( n
)
1 1 X 2
= exp − 2 (xi − µ)
(2π)n/2 σ n 2σ i=1
( n n
)
2 −n
X X
2 2
= (2πσ ) 2 exp xi − 2µ xi + nµ
i=1 i=1

−n 1
σ −n exp − 2 T2 − 2µT1 + nµ2 .

= (2π) 2
2σ
Por lo tanto si definimos

n 1
h(x̃) = (2π)− 2 y g T (x̃), (µ, σ 2 ) = σ −n exp − 2 T2 − 2µT1 + nµ2 .

2σ
De donde T es suficiente.
Observación 4.21. Siempre existe un estimador suficiente, basta tomar T (x̃) = x̃ y h constante.
Esto significa que tener toda la muestra es suficiente.
Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).
Q 1

b−a si a < xi < b
L x̃|(a, b) =
0 si no
(b − a)n si

a < xi < b
=
0 si no
(b − a)n si

a < x1:i ; xn:n < b
=
0 si no
(b − a)n si

a < T1 ; T2 < b
=
0 si no
Luego T (x̃) = (T1 , T2 ) es suficiente.

Observación 4.23. Si T es fuciente, el E.M.V. es función de un estimador suficiente, ya que
en este caso L(x̃|θ) = g(T (x̃), θ)h(x̃), y, al maximizar en θ como h no varı́a, podemos maximizar
solamente en g(T (x̃), θ)
Definición 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para
todo T 0 estimador suficiente, T es función de T 0 .
Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ), si T es un estimador que cumple:
L(x̃|θ)
no depende de θ ⇔ T (x̃) = T (ỹ)
L(ỹ|θ)
entonces T es suficiente minimal.
29
Demostración. Veamos primero que T es suficiente, podemos escribir, tomando ỹ tal que T (ỹ) =
T (x̃)
L(x̃|θ)
L(x̃|θ) = L(ỹ|θ) = h(x̃)L(ỹ|θ) = h(x̃)g T (x̃), θ) .
L(ỹ|θ)
Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la función de
verosimilitud.
Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(x̃|θ) = g 0 T 0 (x̃), θ h0 (x̃).

Sea x̃ y ỹ, T 0 (x̃) = T 0 (ỹ) entonces
L(x̃|θ) g 0 (T 0 (x̃), θ)h0 (x̃) h0 (x̃)

= 0 0 = ,
L(ỹ|θ) g (T (ỹ), θ)h0 (ỹ) h0 (ỹ)
que no depende de θ, entonces, usando el directo de nuestra hipótesis tenemos que T (x̃) = T (ỹ).
Hemos demostrado que cada ves que T 0 (x̃) = T 0 (ỹ) entonces T (x̃) = T (ỹ). Veamos que esto implica
que T = f (T 0 ). Definimos para z ∈
/ Im(T 0 ) f (z) cualquier cosa, y para z ∈ Im(T 0 ) entonces
0
z = T (x) y f (z) := T (x).
Definición 4.26. Estadı́stico Completo: T se dice completo si toda vez que tenga una función
g tal que Eθ g(T ) = 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s.
Ejemplo 4.27. Sea X1 , . . . , Xn M.A.S. de X v U (0, θ) veamos que θ̂ = xn:n es completo.

+∞ θ θ
tn−1 1
Z Z Z
n
E(g(T )) = g(t)fT (t)dt = g(t)n n−1 dt = n tn−1 g(t)dt,
−∞ 0 θ θ θ 0
Rθ
luego E(g(T )) = 0 si y solo si 0 tn−1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es
derivable c.s., θn−1 g(θ) = 0 entonces g(θ) = 0 para todo θ.
Definición 4.28. función de Pérdida: Sea (H) y L : (H) × (H) −→ R que verifica
i) L(u, v) = L(v, u) para todo u, v ∈ (H).
ii) L(u, v) = 0 si y solo si u = v.
iii) L es convexa, es decir,
para todo p, q ∈ (H) × (H) L(λp + (1 − λ)q) ≤ λL(p) + (1 − λ)L(q).
se denomina función de pérdida.

Observación 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo
Definición 4.30. función de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) y θ ∈ (H) des-
conocida, dado T (X1 , . . . , Xn ) estimador de θ y L una función de perdida, definimos la función de
riesgo
R(θ, T ) = E L(θ, T ) .
Definición 4.31. Estimador de riesgo mı́nimo, uniformemente entre los insesgados: T
es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que
R(θ, T ) ≤ R(θ, T 0 ) ∀ θ ∈ (H).
Teorema 4.32. Rao-Blackwell: Si σ(X1 , . . . , Xn ) es insesgado y T (X1 , . . . , Xn ) es suficiente,

entonces
η(X1 , . . . , Xn ) = E σ(X1 , . . . , Xn )|T (X1 , . . . , Xn ) ,
entonces
R(θ, η) ≤ R(θ, σ).
30
Demostración.

R(θ, η) = E L(θ, η) = E L(θ, E(σ|T )) = E L(E(θ, σ|T ))

≤ E E(L(θ, σ)|T ) = E L(θ, σ) .
Donde hemos usado la desigualdad de Jensen.
Observación 4.33. En la demostración anterior, la hipótesis de que T es suficiente es necesaria
para que η sea un estimador de θ.
Observación 4.34. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ.

Lema 4.35. Sea T suficiente, y ψ T (X 1 , . . . , Xn ) tal que si
f T (X1 , . . . , Xn ) es una función de
T insesgada entonces ψ T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces ψ(T ) es uniformemente
de mı́nimo riesgo entre los insesgados.
Demostración. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), sea
η = E(σ|T ) es una función de T y es insesgado entonces por hipótesis f (T ) = ψ(T ) c.s.. Entonces
η = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ es
uniformemente de mı́nimo riesgo.
Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) ψ(T (X1 , . . . , Xn )) son insesgados entonces en-
tonces
f (T (X1 , . . . , Xn )) = ψ(T (X1 , . . . , Xn )) c.s.
Demostración. E(f (T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) =
f (T ) − ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s..
Teorema 4.37.
1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniforme-
mente entre los insesgados.
2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre
los insesgados.
Demostración.
1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f (T ) es insesgado, por el Lema
4.36 f (T ) = ψ(T ) c.s., entonces, por el Lema 4.35 ψ(T ) minimiza el riesgo uniformemente
entre los insesgados.
2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior.
Ejemplo 4.38. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Entonces p̂ = Xn es uniformemente de

mı́nimo riesgo entre los insesgados. Como ya vimos p̂ es insesgado y suficiente como ya vimos, veamos
que es completo.
X
0 = E(g(p̂)) = g(x)P (X1 = x1 , . . . , Xn = xn )
x1 ,...,xn ∈{0,1}
n
X X k
= g pk (1 − p)n−k
n
k=0 x1 +···+xn =k
n
X k
= g k
p (1 − p)n−k Ank = 0 ∀p
n
k=0
X k p k k!
= (1 − p)n g .
n 1−p (n − k)!
31
Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitas
raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.
32
Capı́tulo 5
Estimacin por intervalos de

confianza
Definición 5.1. Intervalo de confianza: Dada X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ desco-

nocido, θ ∈ R. Un intervalo de confianza al nivel 1 − α con α ∈ (0, 1) es

I = L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) ,
donde L y U son estimadores y P (θ ∈ I) = 1 − α.

Ejemplo 5.2. Construccin de intervalos de confianza: Sea X v N (µ, σ 2 ) con σ 2 conocido,
tomamos θ = µ. Buscamos un intervalo de la forma

X n − k, X n + k .
Debemos hallar k tal que P (µ ∈ I) = 1 − α, entonces
1 − α =P (X n − k ≤ µ ≤ X n + k)
=P (µ − k ≤ X n ≤ µ + k)

µ+k−µ µ−k−µ
=Φ √ −Φ √
σ/ n σ/ n
√ √
nk − nk
=Φ −Φ
σ σ
√
nk
=2Φ − 1,
σ
donde en la tercer igualdad hemos usado que X v N (µ, σ 2 /µ) y en la ltima la paridad de Φ. Por lo
tanto obtuvimos que
√ √
nk nk
1 − α/2 = Φ entonces = φ−1 (1 − α/2),
σ σ
y por lo tanto tomamos
σ
k = √ Φ−1 (1 − α/2).
n
Notacin: Anotaremos Zp = Φ−1 (p), con esta notacin el intervalo de confianza del ejemplo
anterior es σ σ
X n − √ Z1−α/2 , X n + √ Z1−α/2 .
n n
33
Capı́tulo 5. Estimacin por intervalos de confianza
Ejemplo 5.3. Se X v N (µ, σ 2 ) con σ 2 desconocido, y θ = µ, buscamos un intervalo de la forma

X n − kSn , X n + kSn .
√
n|X n − µ| √

P (µ ∈ I) = P |X n − µ| ≤ kSn = P ≤ nk .
Sn
Recordemos que √
n(X n − µ)
v Tn−1 ,
Sn
entonces
√ √
P (µ ∈ I) =P − nk ≤ T ≤ nk
√ √
=FT ( nk) − FT (− nk)
√
=2FT ( nk) − 1 = 1 − α,
donde hemos usado la simetra de F . Despejando obtenemos

FT−1 (1 − α/2) t1−α/2 (n − 1)
k= √ = √ ,
n n
donde usamos la notacin FT−1 (p) = tp (n − 1) donde n − 1 son los grados de libertad. Por lo tanto el
intervalo de confianza para µ al nivel 1 − α es

Sn Sn
I = X n − √ t1−α/2 (n − 1), X n + √ t1−α/2 (n − 1) .
n n
c.s.
Obervemos que como Sn −→ σ entonces
√
n(X n − µ) d
Tn = −→ N (0, 1), tp (n − 1) → Zp .
Sn
Ejemplo 5.4. Si X ∈ L2 cualquiera con E(X) = µ y V ar(X) = σ 2 , si n es grande, en vista de las
observaciones anteriores, un intervalo de confianza aproximado, para µ al nivel 1 − α es

Sn Sn
X n − √ Z1−α/2 , X n + √ Z1−α/2 .
n n
Ejemplo 5.5. Si X v N (µ, σ 2 ) con µ desconocido, tomamos θ = σ 2 , busquemos a y b tal que
P aSn2 ≤ σ 2 ≤ bSn2 = 1 − α,

Recordemos que
Sn2
(n − 1) v χ2n−1 ,
σ2
entonces
(n − 1)Sn2

(n − 1) n−1 n−1 n−1
P (σ 2 /b ≤ Sn2 ≤ σ 2 /a) = P ≤ 2
≤ =F −F ,
b σ a a b
Basta elegir a tal que F ((n − 1)/a) = 1α/2 y b tal que F ((n − 1)/b) = α/2, de donde
n−1 n−1
a= b= ,
χ21−α/2 (n − 1) χ2α/2 (n
− 1)
donde hemos usado la notacin Fχ−1 2

2 (p) = χp (n − 1), para la distribucin χ
2
con (n − 1) grados de
libertad. Luego el intervalo es
" #
n−1 n − 1
I= S2 , .
χ21−α/2 (n − 1) n χ2α/2 (n − 1)
34
Capı́tulo 5. Estimacin por intervalos de confianza
Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos θ = p, si aproximamos usando el T.C.L. es
facil ver, como σ 2 = p(1 − p) y Sn = X n (1 − Xn ), nos queda el intervalo
 q q 
Xn (1 − Xn ) Xn (1 − Xn )
I = Xn − √ Z1−α/2 , Xn + √ Z1−α/2 
n n
Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuando
σ 2 = f (µ). Consideremos X1 , . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C 1 . Si g 0 (µ) 6= 0, veamos
√ d
que n(g(Xn − g(µ)) −→ N (0, (σg 0 (µ))2 ) :
√ √ √
n(g(Xn − g(µ)) = ng 0 (Cn )(Xn − µ) = g 0 (Cn ) n(Xn − µ),
c.s. √ d
con Cn ∈ [Xn , µ] o Cn ∈ [µ, Xn ], sabemos que g 0 (Cn ) −→ g 0 (µ) y n(Xn − µ) −→ N (0, σ 2 ), por lo
tanto usando el lema de Slutsky
35
Capı́tulo 6
Pruebas de hipótesis
Supongamos que queremos saber si una moneda está balanceada o no. Se tira 100 veces y
obtenemos 54 caras, debemos tomar una decisión entre
H0 : p = 1/2 donde p = P (cara)

H1 : p 6= 1/2.
Definición 6.1. Test de hipótesis: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) con θ desconocido, un

test de hipótesis es decidir entre 2 hipótesis;
H0 : θ ∈ A hipótesis nula
H1 : θ ∈ B hipótesis alternativa
donde suponemos que A, B ⊂ (H) y A ∩ B = ∅.

Definición 6.2. Región Crı́tica: La región critica, que anotaremos como RC ⊂ Rn con n el
tamaño de la muestra, es la zona de rechazo de H0 .
Definición 6.3. Regla de decisión: Si (x1 , . . . , xn ) ∈ RC entonces rechazo H0 , en caso contrario
si (x1 , . . . , xn ) ∈
/ RC no rechazo H0 (acepto H0 ).
Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar
RC = (x1 , . . . , xn ) ∈ {0, 1}n ⊂ Rn : |Xn − 1/2| ≥ k

Definición 6.5. Errores de tipo 1 y 2:
* error tipo 1: rechazar H0 siendo cierta

* error tipo 2: aceptar H0 siendo falsa, H1 es cierta.
Definición 6.6. Significación de una prueba:

α = sup Pθ (X1 , . . . , Xn ) ∈ RC = P ( error tipo 1 ).
θ∈A
Definición 6.7. Probabilidad del error tipo 2: definimos, para θ ∈ B

β(θ) = PH1 (X1 , . . . , Xn ) ∈
/ RC = P ( error tipo 2 ).
Definición 6.8. Potencia de la prueba: se define como

π(θ) = P (X1 , . . . , Xn ) ∈ RC ∀θ
36
Capı́tulo 6. Pruebas de hipótesis
Observación 6.9. π(θ) = 1−β(θ) si θ ∈ B y π(θ) ≤ α si θ ∈ A. En particualr si A es θ0 π(θ0 ) = α.

Ejemplo 6.10. Para el caso de la moneda, si tomamos α = 0,05 es decir el 5 %, entonces σ 2 = 1/4.
α = P1/2 (X1 , . . . , Xn ) ∈ [1/2 − k, 1/2 + k]c

= P1/2 Xn ∈ [1/2 − k, 1/2 + k]c

= P 20(Xn − 1/2) ∈ [−20k, 20k]c

= 1 − Φ(20k) + Φ(−20k) = 2 − 2Φ(20k)

√
donde hemos usado la aproximación de 100 σ (Xn − 1/2) por una N (0, 1). Obtenemos entonces 20k =
Z0,975 de donde k = 0,098. Tenemos entonces la región crı́tica
RC = (x1 , . . . , xn ) ∈ Rn : |xn − 1/2| ≥ 0,098 .

Como |0, 54 − 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %.

Observación 6.11. La decisión depende fuertemente del nivel al que trabajo. Concretamente si
elegimos α = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0 siempre acpeto H0 .
Calculemos β(p) con p ∈ H1 = {1/2}c con
β(p) = Pp (RC c )
= Pp (|Xn − 1/2| < 0,098)
= P (0,402 < Xn < 0,598)
   
∼ 0,598 − p  0,402 − p 
= Φ √ − Φ √
p(1−p) p(1−p)
100 100

Donde hemos usado que Xn v N p, p(1−p)
100 .
Observación 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el error
de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observación 6.13. En general, uno define la región crı́tica a partir de un estimador insesgado
RC = {|θ̂ − θ0 | ≥ k}.
Observación 6.14. Al permitir variar el tamaño de la muestra uno puede fijar los errores α y β y
hallar un n que verifique las igualdades.
Observación 6.15. Como el error de tipo 1 es más grave, al rechazar H0 uno debe estar seguro
(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia empı́rica
para decir que H0 es falso. No es que se acepte H0 .
6.1. Región Crı́tica Óptima, Teorema de Neyman-Pearson

Teorema 6.16. Neyman-Pearson: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) absolutamente con-
tinua, y el test
H0 : θ = θ0
H1 : θ = θ1
( n
)
Y f (xi , θ1 )
Sea Sk = ≥ k , si k es tal que
i=1
f (xi |θ0 )

PH0 (Sk ) = PH0 (X1 , . . . , Xn ) ∈ Sk = α,
entonces Sk es entre todas las RC de nivel α la que tiene menor β (máxima potencia).
37
Demostración. Sea β = Pθ1 (Skc ) y β0 = Pθ1 (S0c ) donde S0 es otra RC de nivel α, entonces
β − β0 = Pθ1 (Skc ) − Pθ1 (S0c )

Z Y n Z n
Y
= f (xi |θ1 )dx1 . . . dxn − f (xi |θ1 )dx1 . . . dxn
Skc i=1 S0c i=1
Z n
Y Z n
Y
= f (xi |θ1 )dx1 . . . dxn − f (xi |θ1 )dx1 . . . dxn
Skc \S0c i=1 S0c ∩Sk i=1
"Z n Z n
#
Y Y
≤k f (xi |θ0 )dx1 . . . dxn − f (xi |θ0 )dx1 . . . dxn
Skc \S0c i=1 S0c ∩Sk i=1
"Z n Z n
#
Y Y
=k f (xi |θ0 )dx1 . . . dxn − f (xi |θ0 )dx1 . . . dxn
Skc i=1 S0c i=1
k Pθ0 (Skc ) − Pθ0 (S0c ) = k[1 − α − (1 − α)] = 0.

=
Luego β ≤ β0 , como β0 es arbitrario β es mı́nimo.

Ejemplo 6.17. Hallar la forma de la RC óptima para el caso X v N (µ, 1) y el problema
H0 : µ = µ0
H1 : µ = µ1
n n
Y f (xi |µ1 ) Y 1 2
+ 12 (xi −µ0 )2 1
Pn 2 2 1
Pn
xi +n(µ21 −µ20 )
= e− 2 (xi −µ1 ) = e− 2 i=1 (xi −µ) +(xi −µ0 ) = e− 2 (2µ0 −2µ1 ) i=1
i=1
f (xi |µ0 ) i=1
n n
Y f (xi |µ0 ) X
≥ k̂ ⇔ (µ1 − µ0 ) xi + n(µ21 − µ20 ) ≥ k̂
i=1
f (xi |µ1 ) i=1
⇔ n(µ1 − µ0 )xn + n(µ21 − µ20 ) ≥ k̂

k̂
⇔ (µ1 − µ0 )xn ≥ − (µ21 − µ20 ) = k̃.
n
n o
k̃
Por lo tanto la región crı́tica es: Si µ0 > µ1 RC = (x1 , . . . , xn ) ∈ Rn : xn ≤ µ0 −µ1
n o
k̃
y si µ1 > µ0 la región crı́tica es RC = (x1 , . . . , xn ) ∈ Rn : xn ≥ µ0 −µ 1
Ejemplo 6.18. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y el problema
H0 : µ = µ0
H1 : µ = µ1
con µ0 < µ1 . Vamos a hallar la RC óptima. Como es óptima, del ejemplo anterior sabemos que
tiene la forma {xn ≥ k}, vamos a hallar k tal que P (RC) = α.
√

Xn − µ0
PH0 (Xn ≥ k) = 1 − PH0 (Xn ≤ k) = 1 − PH0 √ ≤ n(k − µ0 ) =
1/ n
√
1−Φ n(k − µ0 ) = α.
√ Z1−α
Luego si despejamos obtenemos n(k − µ0 ) = Z1−α entonces k = µ0 + √ .
n
38
Observación 6.19. Si fuese
H0 : µ = µ0
H1 : µ > µ1
Resulta una RC óptima de la misma forma (observar que el hecho de que H1 : µ = µ1 se usa sólo
cuando µ1 − µ > 0). En este caso decimos que es una RC uniformemente óptima o uniformemente
de máxima potencia.
Observación 6.20. Si fuese
H0 : µ ≤ µ0
H1 : µ > µ1
Resulta la misma region crı́tica que en el caso anterior. Observemos ademas que se calcula α =
sup PH0 (Xn ≥ k) la función Pµ∈H0 (Xn ≥ k) crece con µ y el supremo es en µ0 .
Corolario 6.21. Corolario de Neyman-Pearson, en las hipótesis del teorema, α + β ≤ 1
Demostración.
Z n
Y Z n
Y
c
β = PH1 (S ) = f (xi |θ1 )dx1 . . . dxn ≤ k f (xi |θ0 )dx1 . . . dxn =
S c i=1 S c i=1
n
Z Y

k 1− f (xi |θ1 )dx1 . . . dxn = k(1 − α),
S i=1
si k ≤ 1 entonces β ≤ 1 − α de donde α + β ≤ 1,
si k ≥ 1
n
Z Y n
Z Y
1 − β = PH1 (S) = f (xi |θ1 )dx1 . . . dxn ≥ k f (xi |θ0 )dx1 . . . dxn = kα,
S i=1 S i=1
como k ≥ 1 entonces 1 − β ≥ kα ≥ α de donde α + β ≤ 1.

Teorema 6.22. Consideremos X1 , . . . , Xn una M.A.S. de X v FX (x|θ) absolutamente continua, y
la prueba
H0 : µ = µ0
H1 : µ = µ1
n
!
Y f (Xi |θ1 )
y k = kn es tal que PH0 ≥ kn = α entonces βn → 0.
i=1
f (Xi |θ0 )
n
! n
Y f (Xi |θ1 ) X f (Xi |θ1 )
Demostración. log = log y por la L.F.G.N.
i=1
f (Xi |θ0 ) i=1
f (Xxi |θ0 )
n
!
1 Y f (Xi |θ1 ) c.s. f (X|θ1 )
log −→E log
n i=1
f (Xi |θ0 ) f (X|θ0 )

f (X|θ1 )
< log E
f (X|θ0 )
Z
f (x|θ1 )
= log f (x|θ0 )dx = log(1) = 0.
f (x|θ0 )
39
Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente cóncava), y
en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0 . Tenemos entonces que
n
X f (Xi |θ1 ) c.s.
log −→ −∞.
i=1
f (Xi |θ0 )
Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0
n !
X f (Xi |θ1 )
P log < −m ≥ 1 − ε = 1 − α.
i=1
f (Xi |θ0 )
Llamemos ( )
n
Y f (Xi |θ1 )
Sn = ≥ kn
i=1
f (Xi |θ)
y ( )
n
X f (Xi |θ)
An,m log < −m .
i=1
f (Xi |θ)
Si tomamos ω ∈ An,m ∩ Sn entonces
n
X f (Xi (ω)|θ1 )
log(Kn ) ≤ log < −m,
i=1
f (Xi (ω)|θ0 )
luego, tenemos que ∀ m ∈ N, ∃n0 tal que ∀n ≥ n0 log(kn ) < −m de donde kn → 0.

Observemos que Sn ∩ ARn,mQ6= ∅ ya que P (SnR) +QP (An,m ) > α + 1 − α > 1, luego, se intersectan.
c
Como βn = PH1 (Snc ) = S c f (xi |θ)dx ≤ kn n f (xi |θ)dx → 0.
n
Corolario 6.23. Consideremos el caso particular
H0 : θ = θ0
H1 : θ = θ1
nQ o
n f (xi |θ1 )
Sea Sn = i=1 f (xi |θ0 ) ≥ 1 entonces αn + βn → 0

Pn i |θ1 ) P
Demostración. Si H0 es cierto entonces i=1 log ff (X (Xi |θ0 ) −→ −∞, de donde αn = PH0 (Sn ) =
P
n f (Xi |θ1 ) n
PH 0 i=1 log f (Xi |θ0 ) ≥ 0 −→ 0.

Pn (Xi |θ0 ) P
Si H1 es cierto entonces i=1 log ff (X i |θ1 )
−→ −∞.
n !
X f (Xi |θ1 )
β n = PH 1 log ≤0 −→ 0.
i=1
f (Xi |θ0 )
6.2. Familias con cociente de verosimilitud monótono

Definición 6.24. Familia con C.V.M.: Una familia de densidades f (·|θ) con θ ∈ (H) ⊂ R tiene
C.V.M. si Qn
L(x̃|θ) i=1 f (xi |θ)

0
= Qn 0
= g T (x̃) ,
L(x̃|θ ) i=1 f (xi |θ )
donde g : R −→ R es estrictamente creciente, θ > θ0 , y T = Tn es un estimador. Observemos que g
depende de n de θ y de θ0
40
Ejemplo 6.25. f (·|θ) es una familia exponencial (para θ ∈ (H) ⊂ R) si

n
Y
f (xi |θ) = Cn eQ(θ)t(x̃) h(x̃) con Cn (θ) > 0,
i=1
si Q es estrictamente creciente la familia tiene C.V.M.:
L(x̃|θ) Cn (θ) eQ(θ)t(x̃) h(x̃) Cn (θ) t(x̃) Q(θ)−Q(θ0 )

= = e = g(t(x̃))
L(x̃|θ0 ) Cn (θ0 ) eQ(θ0 )t(x̃) h(x̃) Cn (θ0 )

(θ) s Q(θ)−Q(θ 0 )
con g(s) = CCnn(θ 0) e , luego, g es una función creciente de s.
Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (·|θ) perteneciente a una familia con
C.V.M, sea T (x̃) absolutamente continua y θ ∈ (H) ⊂ R, consideremos
H0 : θ ≤ θ 0
H1 : θ > θ 0
Si R = {x̃ ∈ Rn : T (x̃) ≥ k} donde k es tal que R sea R.C. de nivel α, entonces R es R.C.
uniformemente de máxima potencia.
Demostración. En el conjutno {θ : θ ≤ θ0 } ⊂ (H) defino αk (θ) = α(θ) = Pθ (R). Probaremos
que α es creciente y por lo tanto supθ∈H0 α(θ) = α(θ0 ), de donde el k de la hipótesis es tal que
Pθ0 (T (x̃) ≥ k) = α. Consideremos la prueba
H0 : θ = θ 0
H1 : θ = θ00
Con θ00 > θ0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la
región crı́tica óptima ( n )
Y f (xi |θ00 )
0)
≥ k = {T (x̃) ≥ g −1 (k 0 )},
0
i=1
f (x i |θ
en esta igualdad hemos usado que g es creciente, llamemos k 00 = g −1 (k 0 ). Para esta prueba α+β ≤ 1,
α = Pθ0 ({T (x̃ ≥ k)}) = α(θ0 ) y β = Pθ00 ({T (x̃) ≥ k 00 }c ) = 1 − Pθ00 ({T (x̃) ≥ k 00 }) = 1 − α(θ00 ).
Entonces α(θ0 ) + 1 − α(θ00 ) ≤ 1 y por lo tanto α(θ0 ) ≤ α(θ00 ). Como θ0 y θ00 son arbitrarios se deduce
que α creciente.
Veamos ahora que R es óptima, es decir, uniformemente de máxima potencia. Supongamos por
absurdo, que existe otra S RC de nivel α tal que existe θ̂ > θ0 y βS (θ̂) < βR (θ̂), sabemos que
supθ≤θ0 αS (θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS (θ0 ) ≤ α.
Consideremos la prueba
H0 : θ = θ 0
H1 : θ > θ 0 (6.1)
Sea S 0 = {T (x̃) ≥ k} con k 0 tal que αS 0 (θ0 ) = αS (θ0 ), (tal k 0 existe porque hemos supuesto que
T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por
el teorema de Neyman Person que S 0 es uniformemente de máxima potencia para la prueba 6.1.
Entonces βS 0 (θ) ≤ βS (θ) ∀θ ≥ θ0 . En particular βS 0 (θ̂) ≤ βS (θ̂). Como αS (θ0 ) ≤ α = αR (θˆ0 ) o
lo que es lo mismo Pθ0 (T (x̃) ≥ k 0 ) ≤ Pθ0 (T (x̃ ≥ k) obtenemos que k ≤ k 0 , pero esto contradice
βS 0 (θ̂) ≤ βS (θ̂) ya que esto es equivalente a que Pθ̂ ({T (x̃) ≥ k 0 }c ) < Pθ̂ ({T (x̃) ≥ k}c ) ya que esto
implica k ≥ k 0 .
41
6.3. Método de la razón de verosimilitud para RC:

Consideremos X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ ∈ (H) ⊂ Rk y la prueba
H0 : θ ∈ A ⊂ (H)
H1 : θ ∈
/A
Planteamos una RC de la forma

n supθ∈A L(x̃|θ)
R = x̃ ∈ R : ≤k .
supθ∈H L(x̃|θ)
Observemos que para hipótesis simples H0 : θ = θ0 y H1 : θ = θ1 se obtiene
n
Y
sup L(x̃|θ) = L(x̃|θ0 ) = f (xi |θ0 )
θ∈A i=1
y
 n
Y
 L(x̃|θ0 ) = f (xi |θ0 ) de donde R = ∅



sup L(x̃|θ) = i=1
n
θ∈(H)  Y
 L(x̃|θ1 ) =

 f (xi |θ1 )
i=1
Entonces, la RC de de la razón de verosimilitud queda
( n
)
n
Y f (xi |θ0 )
x̃ ∈ R : ≤k
i=1
f (xi |θ1 )
que es la RCO del teorema de Neyman Pearson.
Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y la prueba
H0 : µ = µ0
H1 : µ 6= µ0
Hallaremos la RC de la razon de verosimilitud. Tenemos que
sup L(x̃|µ) = L(x̃|x)
µ∈R
y ( )
n n
1 1X 2 n 2
L(x̃|µ) = √ exp − x − µ exp{nµx}
2π 2 i=1 i 2
entonces
nµ2
0
L(x̃|θ0 ) e− 2 +nµ0 x nµ2
− 2 0 +nµ0 x− nx
2 n 2
= 2 = e 2 = e− 2 (µ0 −x)
L(x̃|x) −
e 2
nx
+nx2
si planteamos la región critica

L(x̃|θ0 ) n
≤ k ⇔ − (x − µ0 )2 ≤ L(k) = k 0 ⇔ |x − µ0 | ≥ k 00
L(x̃|x) 2
por lo tanto la región crı́tica es de la forma
RC = {x̃ ∈ Rn : |x − µ0 | ≥ k}
Proposición 6.28. Consideremos la prueba
H0 : θ ∈ A ⊂ (H)
H1 : θ ∈
/A
supθ∈A L(x̃|θ) supθ∈A g(T (x̃), θ)h(x̃) supθ∈A g(T (x̃), θ)
α(x̃) = = = = β(T (x̃))
supθ∈(H) L(x̃|θ) supθ∈(H) g(T (x̃), θ)h(x̃) supθ∈(H) g(T (x̃, θ))
42
6.4. Pruebas de Bondad de ajuste

Se tiene una M.A.S. X1 , . . . , Xn de X v FX desconocida. Dada F0 una distribución, (conocida
o no) se queire tomar una decisión acerca de si X distribuye como F0 o no, es decir,
H0 : FX = F0
H1 : FX 6= F0
6.4.1. Test de χ2 :
Consideremos la prueba
H 0 : FX = F0
H1 : FX 6= F0
Dado k ∈ N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai−1 , ai ], I1 = (−∞, a1 ] y Ik = (ak , +∞]

tal que Ii ∩ Ij = ∅ si i 6= j, y ∪ki=1 Ii = R. Si H0 es cierto P (X ∈ Ij ) = F0 (aj ) − F0 (aj−1 ) = F0 (Ij ),
c.s.
dada X1 , . . . , Xn M.A.S. de X definimos Fn∗ la distribución empı́rica, sabemos que Fn∗ (Ij ) −→
FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en
Pk
el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj − Ej )2 . Es razonable entonces construir
la RC = {T ≥ k}. P
(a −E )2 d
Si definimos Tn = j
Ej
j
, bajo la hipótesis H0 , se prueba que Tn −→ χ2k−1 . Luego si α =
PH0 (Tn ≥ k), se aproxima con la distribución de una χ2k−1 y se halla un k aproximado.
6.4.2. Test de Kolmogorov-Smirnov

Consideremos
H0 : FX = F0 completamente conocidaH1 ; FX 6= F0
tomemos RC = {supx∈R |Fn∗ (x) − F0 (x)| ≥ k}, por Gilvenco−Cantelli Fn∗ converge uniformemente
a F0 (x). Para conocer la distribución de supx∈R |Fn∗ (x) − F0 (x)| tneemos el siguiente teorema.
Teorema 6.29. Kolmogorov: Si Dn = supx∈R |Fn∗ (x) − F0 (x)| entonces, si F0 es continua
∞
√ X 2 2
(−1)n−1 e−2n z

lı́m P nDn ≤ z = 1 − 2
n→+∞
n=1
Definición 6.30. Dada una prueba de hipótesis
H0 : θ ∈ A
H1 : θ ∈
/A
cuya región crı́tica sea RC = {T ≥ k} con T = T (X1 , . . . , Xn ) estimador de θ, el p − valor es

sup P T (X̃) ≥ T (x̃)
θ∈A
Ejemplo 6.31. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1), consideremos la prueba
H0 : µ = µ0 = 0
H1 : µ 6= µ0 = 0
Sabemos que RC = {|xn ≥ k} entonces T (X) = |Xn | el p − valor es

√ √ √
PH0 (|Xn ≥ |x) = 1 − PH0 (|Xn | ≤ |x|) = 1 − Φ( n|x|) + Φ(− n|x|) = 2 1 − Φ( n|x|)
43
Proposición 6.32. Si los supremos se realizan en un mismo θ0 ∈ A, α < p − valor ⇔ no rechazo

H0 al nivel α.

Demostración. Si α < p − valor entonces hallamos k tal que α = supθ∈A P ( T (X̃ ≥ k) ,

α = sup P T (X̃) ≥ k < sup P T (X̃ ≥ T (x̃)
θ∈A θ∈A

α = sup P T (X̃) ≥ k < Pθ0 P T (X̃) ≥ T (x̃)
θ0
de donde T (x̃) < k por lo tanto x̃ ∈

/ RC y no rechado H0 . El razonamiento es análogo si α >
p − valor.
Observación 6.33. La propiedad se cumple si H0 es simple (θ = θ0 ), o en el caso de concientes

de verosimilitud monótonos.
6.5. Análisis de Varianza, (ANOVA)

Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v
N (θi , σ 2 ) para todo i, j. Queremos testear si los θi son todos iguales o no. El supuesto de que σ 2
es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para
cada i ∈ {1, . . . , k} definimos
n
1 X
Yi = Yij ,
ni j=1
y
i n
1 X
Si2 = (Yij − Yij )2 .
ni − 1 j=1
Sabemos que
(ni − 1) 2
Yi v N (θi , σ 2 /ni ) Si v χ2ni −1
σ2
Observación 6.34. Si A = {a = (a1 , . . . , ak ) ∈ Rk :
P
ai = 0} entonces
X
θ1 = · · · = θk ⇔ ∀a ∈ A, ai θi = 0
Demostración. El directo es inmediato, veamos el recı́proco, tomemos a1 = 1, a2 = −1, a3 = · · · =

ak = 0 entonces θ1 − θ2 = 0 y ası́ sucesivamente θ1 = · · · = θk .
Pk
Observación 6.35. Si defino Sp2 = N 1−k i=1 (ni − 1)Sik con N =
P
ni . entonces
k
N − k 2 X (ni − 1) 2
Sp = Si v χ2N −k .
σ2 i=1
σ 2
Además !
k k Pk 2 2
i=1 ai σ
X X
ai Yi v N ai θi , .
i=1 i=1
ni
Se puede demostrar que Sp2 y

P
ai Yi son independientes, luego, si recordamos que si X v N (0, 1)
es independiente de χ2n entonces
X
p v tn
χ2n /n
44
obtenemos que
k
X X k
ai Yi − a i θi Xk
i=1 √
Pk
i=1 ai (Yi − θi )
σ 2
i=1 ai /ni i=1
q = qP v tN −k
(N −K) 2 k 2 /n
σ 2 S p /(N − k) Sp a
i=1 i i
Supongamos que a ∈ A fijo, y α ∈ (0, 1) tenemos

X
H0 : ai θi = 0
H1 : no H0
Consideremos la región crı́tica,

( P )
| ai Yi |
RC = pP >m ,
Sp ai /ni
P !
| ai Yi |
α = PH0 (RC) = PH0 pP >k ,
Sp ai /ni
como estamos bajo H0 si utilizamos la observación anterior
α = 1 − P (−m < T < m), con T v tN −k ,
y por lo tanto 1 − α/2 = F (m), k = t1−α/2 (N − k).

Nos planteamos ahora la siguiente prueba
H0 : θ 1 = · · · = θ k
H1 : noH0
y esto es si y solo si
X
H0 : ai θi = 0 ∀a ∈ A
H1 : noH0
P
ai Yi 2
Tomo el estadı́stico Ta = pP 2 , resulta natural plantear la región crı́tica RC = sup Ta > k .
Sp ai /ni a∈A
DebemosP
entonces hallar la distribución de sup a∈A aT bajo la hipótesis H 0 cierto. Llamemos Ci = Yi
ni Ci
y Ci = N .
2 P ai √ 2
√ (Ci − C) ni
P
1 a i C i n
sup Ta2 =
i
sup P = sup P ,
a∈A Sp a∈A ai /ni a∈A ai /ni
P
donde hemos usado que ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz
P ai √ 2
√ (Ci − C) ni
P 2
ai /ni ni (Ci − C)2
P
ni X
sup P ≤ sup P = ni (Ci − C)2 .
a∈A ai /ni a∈A ai /ni
Obtuvimos
P una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci −C) es claro
que ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
Pk Pk
ni (Yi − Y )2 ni Yi
sup Ta2 = i=1
donde Y = i=1
,
a∈A Sp2 N
45
recordemos que
χ2n /n
v F (n, m),
χ2m /m
k
X
se puede demostrar que ni (Yi − Yi )2 v χ2k−1 y por lo tanto
i=1
σ 2 χ2k−1 χ2k−1 /(k − 1)

sup 2 2
> cte ⇔ v F (k − 1, N − k) ≥ cte/(k − 1).
a∈A σ χN −k /(N − k) χ2N −k /(N − k)
Planteamos
cte
α = PH0 (RC) = 1 − PH0 F (k − 1, N − k) ≤ entonces cte = F1−α (k − 1, N − k)(k − 1).
k−1
Finalmente, obtuvimos la región crı́tica
( k
)
1 X 2
RC = ni (Yi − Yi ) ≥ F1−α (k − 1, N − k)(k − 1) .
Sp i=1
46
Capı́tulo 7
Modelos Lineales
7.1. Variable Normal Multivariada

Definición 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el vector de medias µ =
(µ1 , . . . , µn ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es
 
V ar(X1 ) cov(X1 X2 ) . . . cov(X1 Xn )
 cov(X2 X1 ) V ar(X2 ) 
Σn×n = 
 
.. .. .. 
 . . . 
cov(Xn X1 ) ... V ar(Xn )
Anotamos µ = E(X) y V ar(X) = σn×n .
Observación 7.2. Veamos algunas propiedades
1) Si A ∈ Mk×n es constante entonces E(AX) = AE(X).

2) V ar(AX) = AΣn×n At .
3) Si X ∈ Rn es un vector aleatorio A es una matriz k × n y b un vector k × 1 constante entonces
E(AX + b) = AE(X) + b y V ar(AX + b) = AΣX At .
4) Si X es un vector aleatorio en Rn , σX es semidefinida positiva.

Demostración.

2) Es inmediato a partir de observar que V ar(X) = E (X − E(X))(X − E(X))t .
que para todo λ = (λ1 , . . . , λn ) ∈ Rn entonces λΣλt ≥ 0, y esto se sigue de

4) Tenemos que ver P
t
que λΣλ = V ar( λi Xi ).
Definición 7.3. Normal tı́pica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribución
normal tı́pica en Rn si las Ui v N (0, 1) y son independientes.
Observación 7.4. La densidad conjunta de U es
1 2
e− 2 kxk
fU (x) = n .
(2π) 2
47
Capı́tulo 7. Modelos Lineales
Definición 7.5. Normal multivariada Decimos que X tiene distribución normal multivariada si
existe una matris n × k C y un vector µ n × 1 tal que X = CU + µ.
Observación 7.6. Observemos que si X tiene distribución normal multivariada entonces E(X) = µ
y ΣX = CC t
Proposición 7.7. Veamos algunas propiedades de la normal multivariada
1) Si Cn×n es invertible, X es absolutamente coninua y
1 t −1
e− 2 (x−µ) Σ (x−µ)
fX (x) = Σ = CC t .
(2π)n/2 | det Σ|1/2
Demostración. X = CU + µ = g(U ), g : Rn −→ Rn es invertible ya que C lo es.

1 1
fX (x) = fg(U ) (x) = fU ((g −1 (x)) = fU (C −1 (x − µ))
| det Jg (g −1 (x))| | det C|
1 −1 t −1
e− 2 (x−µ)(C ) C (x−µ)
=
(2π)n/2 | det Σ|1/2
2) La distribución normal tı́pica es invariante bajo tranformaciones ortogonales. De hecho es

la única distribución que depende solamente de la norma, y que es invariante bajo trans-
formaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo
transformaciones ortogonales se sigue de la definición y de la propiedad anterior.
3) Si X es normal multivariada, entonces AX + b tambien lo es, con Am×n y bm×1 constantes.
4) Si X = CU + µ y C es sobreyectiva entonces X es absolutamente continua.
Definición 7.8. Normal multivariada degenerada: Si X = CU + µ con U normal tı́pica,
decimos que es degenerada si C no es sobreyectiva
Observación 7.9. Si X es degenerada entonces no es absolutamente conitnua.
Demostración. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre
si y solo si det(CC t ) = det(Σ) = 0, si det(Σ) = 0 entonces tΣtt = V ar(tX) = 0 entonces tX es c.s.
constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al
integrarla en S obtendrı́amos que deberı́a dar 1 porque X esta contenida ahi, pero 0 porque S tiene
medida nula, absurdo.
Observación 7.10. Si X v N (µ, Σ) cualquier subvector de X tambien es normal multivariado.
Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A
adecuadamente.
Observación 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (µ, Σ) entonces si cov(Xi , Yj ) = 0 ∀i, j enont-
ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.
Demostración. Si Σ es invertible, entonces
Σ−1

0
Σ−1 = X
0 Σ−1
Y
y es fácil ver que fX,Y (x) = gX (x)gY (y).

Si Σ no es invertible, y ΣY si, entonces (X1 , . . . , Xk ) ∈ S, variedad lineal de dimensión α − k,
supongamos que S esta generado por X1 , . . . , Xα entonces
(X1 , . . . , Xα , Y1 , . . . , Ym ) está en las hipótesis anteriores y por lo tanto son independientes, de donde
(X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que ΣY tampoco es invertible es análogo.
48
7.2. Modelos Lineales

Se desea estimar Y = g(X1 , . . . , Xk ), se observan medidas de las variables X1 , . . . , Xk y se desea
estimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entonces
g(x̃) = g(x̃, θ) = θ1 X1 + · · · + θk Xk , θ = (θ1 , . . . , θk ). Para estimar g estimamos θ. Se plantea
entonces      
Y1 X11 X12 . . . X1k θ1
 ..   . .. ..   .. 
 .  =  .. . .   . 
Yn Xn1 Xn2 ... Xnk θk
Se observan n muestras de Y ,
 
X11 X12 ... X1k
 .. .. ..
X= . ,

. .
Xn1 Xn2 ... Xnk
es la matriz de diseño (constante y conocida).
En el modelo lineal planteamos Y = Xθ + e donde, X es una matriz de diseño, y

     
Y1 θ1 e1
Y =  ...  θ =  ...  e =  ...  ,
     
Yn θk en
e aleatorio (vector de errores).

Ejemplo 7.12. Análisis de varianza: Yij = θi + eij , en este caso la matrix X es un vector n × 1
con entradas todas iguales a 1.
Ejemplo 7.13. Modelo lineal simple: Y = α + βX + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y
θ = (α, β), y como matriz de diseño la matriz
 
1 X1
 1 X2 
X= . ,
 
 .. 
1 Xn
lo que se busca es entonces ajustar una recta a los datos.

Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma análoga al ejemplo anterior, si
Y = α + β1 x + β2 x2 + · · · + βk xk + e, planteamos la matriz de diseño
1 X1 X12 . . . X1k
 
X =  ... ..
.
 
.
1 Xn Xn2 ... Xnk
Observación 7.15. Observemos que, en vistas del ejemplo anterior, la función y = g(x1 , . . . , xn , θ)
es lineal en θ pero no en x̃ = (x1 , . . . , xn ), podrı́a ser x3 = cos(x1 ) etc.
7.3. Hipótesis del modelo

1) Rango(g(X)) = k.
2) Los errores tienen media 0, E(ei ) = 0 para todo i.
49
3) Homocedasticidad: V ar(ei ) = σ 2 para todo i.

3’) cov(ei , ej ) = 0 para todo i 6= j.
4) el vector e de errores tiene distribución N (0, σ 2 I) en este caso se cumplen 2), 3) y 30 )
Para estimar θ ∈ Rk se utiliza el método de los mı́nimos cuadrados, consiste en hallar θ ∈ Rk

donde se realize
mı́n kY − Xθk.
θ∈Rk
Teorema 7.16. Bajo la hipótesis 1 se cumple que (X t X)−1 X t Y es el estimador por mı́nimos
cuadrados de θ.
Demostración. Sea θ̂ el valor donde se obtiene el mı́nimo, es decir
kY − X θ̂k2 ≤ kY − Xθk2 ∀θ ∈ Rk ,
si consideramos la multiplicación por X como una transformación lineal de Rk en Rn entonces X θ̂

es la proyección de Y sobre la imagen de X, entonces Y − X θ̂⊥Xθ para todo θ ∈ Rk , esto es
0 = (Xθ)t (Y − X θ̂), o lo que es lo mismo
θt X t Y = θt X t X θ̂ ∀θ ∈ Rk ,
luego las transformaciones lineales X t Y y X t Xθ son iguales, de donde θ̂ = (X t X)−1 X t Y .

Teorema 7.17.
a) Bajo las hipótesis 1) y 2), θ̂ es insesgado.
b) Bajo las hipótesis 1), 2) y 3), Σθ̂ = σ 2 (X t X)−1 .
Demostración.
a) E(θ̂) = (X t X)−1 X t E(Y ) = (X t X)−1 X t Xθ = θ.
b) Σθ̂ = Σ(X t X)−1 X t e+θ = (X t X)−1 X t (σ 2 Id)X(X t X)−1 , donde usamos que ΣAX+C = AσX At ,
finalmente se obtiene, Σθ̂ = σ 2 (X t X)−1 , ya que transponer e invertir conmutan.
Teorema 7.18. Bajo las hipótesis 1) a 4) el E.M.V. de θ coincide con el de mı́nimos cuadrados y
además el E.M.V. de σ es n1 kY − X θ̂k.
.
Teorema 7.19. Bajo las hipótesis 1) a 4) θ̂ es insesgado de mı́nima varianza, uniformemente.
Demostración. Veamos que es suficiente:

1 1
L(y1 , . . . , yn |θ, σ 2 ) = (2πσ 2 )−n/2 exp − 2 kY − X θ̂k2 exp − 2 kX θ̂ − Xθk2 = h(ỹ)g(θ̂, θ)
2σ 2σ
donde hemos usado que Y − X θ̂ es perpendicular a X θ̂ − Xθ. Es fácil ver que es completo y por lo
tanto minimiza el riesgo uniformemente entre los insesgados, considerando como función de riesgo
kk2 .
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribu-
ción Noramal), entonces θ̂ es uniformemente de minima varianza entre los estimadores lineales e
insesgados, (es decir los ˜
ˆ= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):
50
nσ̂ 2 kY − X θ̂k2
a) 2
= v χ2(n−k)
σ σ2
nσ̂ 2 kY − X θ̂k
b) s2 = = es insesgado (de donde σ̂ 2 es asintóticamente insesgado).
n−k n−k
kX(θ̂ − θ)k2
c) v F (k, n − k)
ks2
λ1 (θ̂1 − θ1 ) + λ(θ̂2 − θ2 ) + · · · + λn (θ̂n − θn )
d) p v tn−k ∀λ ∈ Rn
s λt (X t X)−1 λ
Demostración. a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base
ortonormal
Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal
que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base canónica, B
es ortogonal y
Y = BZ de donde Z = B −1 Y = B t Y v N (B t Xθ, B t σ 2 IdB) y por lo tanto Z es normal
multivariado y ΣZ = σ 2 Id, además Zi son variables aleatorias independientes con distribución
N (γ1 , σ 2 ).
2 2
X n Xk Xn n
X
2
Zi2 ,

kY − X θ̂k = Z i vi − Z j vj = Z i vi =

i=1 j=1 k=1 i=k+1
n 2
kY − X θ̂k2 X Zi
=
σ2 σ
i=k+1
Zi
v N (γi , 1),
σ2
Pn demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ S
bastaria entones
y E(Y ) = i=1 γi vi .
!
2 1 σ2 kY − X θ̂k
b) E(s ) = E kY − X θ̂k) = E = σ2
n−k n−k σ2
2
Xk k
X Xk
2
c) kX θ̂ − Xθk = Z i vi − γ i vi = (Zi − γi )2 . entonces

i=1 i=1 i=1
P Zi −γi 2
kX θ̂X − θk σ χ2k /k
= v 2 v F (k, n − k).
ks2 k 1 χn−k /(n − k)
σ 2 n−k kY − X θ̂k
d) λ1 (θ̂1 − θ1 ) + · · · + λn (θ̂n − θn ) = λt (θ̂ − θ), como θ̂ v N (θ, σ 2 (X t X)−1 ), entonces λt (θ̂ − θ) v

N (0, λt σ 2 (X t X)−1 λ),
t
t √ λ (θ̂−θ)
λ (θ̂ − θ) σ λ(X t X)−1 λ
p = s ,
s λt (X t X)−1 λ σ
por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
kY − Xθk2 depende de Zk+1 , . . . , Zn y X θ̂ de Zk+1 , . . . , Zk .
51
7.4. Aplicación
Construcción de intervalos de confianza para λt θ. Consideremos
I = λt θ̂ − ks, λt θ̂ + ks ,

! !
λt (θ̂ − θ) λ t
(θ̂ − θ) k
1 − α = P (λt θ ∈ I) = P ≤k =P p t t ≤ p t t −1 ,

s s λ (X X)−1 λ λ (X X) λ
p
de donde, por la parte d) k = t1−α/2 (n − k) λt (X t X)−1 λ.
Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1 .
52

Notas de Estadistica PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Notas de Estadistica PDF

Uploaded by

Copyright:

Available Formats

Notas para el curso de

dictado por Juan Kalemkerian 1

2. Muestreo aleatorio simple 8

3. Teorı́a de la Estimación, métodos de estimación 15

5. Estimacin por intervalos de confianza 33

1.1. Esperanza Condicional

como la función de Y que verifica

Observación 1.2. E(X|Y ) está bien definido

3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ).

7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).

usando la linealidad de la esperanza el último término es

que, por definición de esperanza condicional, es igual a

2) La demostración necesita de conceptos del análisis real.

3) Es consecuencia inmediata de 2).

8) Basta tomar en la definición B = R.

Proposición 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces

FX|Y =y (x) := P (X ≤ x|Y = y) := E(I( −∞,x] (x)|Y = y).

Definición 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos

P (X ∈ [a, b]|Y ) := E(I[a,b] (X)|Y ).

Demostración. Sabemos que

queremos demostrar que

Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces

Luego, la tésis es consecuencia de la unicidad.

Proposición 1.8. Fórmula de la distribución conjunta: Dadas X, Y v.a. se tiene que

Definición 1.9. Distribución condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0

1.2. Nociones de convergencia de variables aletorias

Muestreo aleatorio simple

2.1. Algunas definiciones previas

donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .

2.2. Muestreo en poblaciones normales

Observación 2.7. Tres propiedades importantes de la distribución Gamma son:

2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+

Observación 2.9. Se puede demostrar que

Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces

X12 + · · · + Xk2 = k(X1 , . . . , Xk )k2 v χ2k

Definición 2.11. Distribución T-Student con k grados de libertad: Sean X v N (0, 1) e

Observación 2.12. Se verifica que

Demostración. Tomemos el vector (X, Y ), su densidad es

Sea g : Rk × R+ −→ Rk × R+ tal que

tenemos entonces que g(X, Y ) = (U, V )

por otro lado sabemos que

Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ), entonces

por hipótesis de inducción (n − 2)Sn−1 v χn−2 , además n−1

4) Es inmediato a partir de 1,2 y 3.

hemos escrito entonces Sn2 en función de X2 − Xn , . . . , Xn − Xn , basta demostrar entonces que

Por lo tanto factorizamos respecto de y1 , iterando, son independientes.

Observación 2.15. Distribución F de Fisher: Sea X v χ2n e Y v χ2m independientes, la

Observación 2.17. Si Z v F (n, m) entonces

Demostración. La demostración se sigue de la parte 3) y 2) del teorema 2.14

2.3. Estadı́sticos de Orden para una M.A.S.

se tiene entonces que X1:n ≤ · · · ≤ Xn:n

entonces, derivando y usando q = 1 − p

Teorı́a de la Estimación, métodos

3.1. Algunas definiciones previas

3.2. Método de los momentos

Como (H) = {(a, b) ∈ R2 : a < b} descartamos soluciones y nos queda

Teorema 3.6. Método de los momentos, existencia de solución: Si F : (H) ⊂ Rk −→ Rk

de donde θ̂ es fuertemente consistente.

3.3. Método de Máxima Verosimilitud

con xi ≥ 0 ∀i, derivando obtenemos

Como la función 1/bn es decreciente obtenemos que b̂ = xn:n = máx{x1 , . . . , xn }.

Principio de invarianza del E.M.V.: Supongamos que tenemos un parámetro θ ∈ (H) y

Entonces g(θ̂) es E.M.V. de g(θ).