You are on page 1of 52

Notas para el curso de

Introducción a la Estadı́stica,

dictado por Juan Kalemkerian 1


en la Facultad de Ciencias, el segundo semestre de 2008.

Los errores que puedan contener son total responsabilidad de quien las transcribe
Por sugerencias y correcciones: acholaquidis@cmat.edu.uy
Índice general

1. Introducción 3
1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . . 6

2. Muestreo aleatorio simple 8


2.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Estadı́sticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . . 13

3. Teorı́a de la Estimación, métodos de estimación 15


3.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2. Método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Método de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. método de estimación por cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5. Estimación de la función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6. Convergencia casi segura de Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 23

4. Evaluación de Estimadores 24

5. Estimacin por intervalos de confianza 33

6. Pruebas de hipótesis 36
6.1. Región Crı́tica Óptima, Teorema de Neyman-Pearson . . . . . . . . . . . . . . . . . 37
6.2. Familias con cociente de verosimilitud monótono . . . . . . . . . . . . . . . . . . . . 40
6.3. Método de la razón de verosimilitud para RC: . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.1. Test de χ2 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.5. Análisis de Varianza, (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7. Modelos Lineales 47
7.1. Variable Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.4. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2
Capı́tulo 1

Introducción

Este capı́tulo pretende introducir los conceptos de esperanza condicional, ası́ como las nociones
de convergencia de variables aletorias, que serán necesarios para los siguientes capı́tulos. Se asumira
que el lector está familiarizado con los conceptos básicos de la probabilidad, correspondientes a un
primer curso introductorio, no ası́ los del análisis real.

1.1. Esperanza Condicional



Definición 1.1. Dado Ω, A, P un espacio de probabilidad, y X, Y : Ω → R variables aleatorias,
definimos la Esperanza Condicional de X dado Y que anotaremos

E X|Y ,

como la función de Y que verifica


 
E XIY (B) = E E(X|Y )IY (B)

para todo B perteneciente a la sigma álgebra de borel de R, que anotaremos de aquı́ en mas como
B(R)

Observación 1.2. E(X|Y ) está bien definido


existencia: Se sigue del Teorema de Radon-Nikodym
unicidad: Supongamos que α(Y ) y β(Y ) cumplen
 
E XIY (B) = E α(Y )IY (B) ∀B ∈ B(R)

= E β(Y )IY (B) .

Consideremos B = {α(Y ) > β(Y )}, sabemos que 0 = E (α(Y ) − β(Y ))IY (B) , como (α(Y ) −
β(Y ))IY (B) ≥ 0 y su esperanza es 0 entonces (α(Y ) − β(Y ))IY (B) = 0 c.s.. De forma
totalmente análoga, tomando B̂ = {β(Y ) > α(Y )}, obtenemos que (β(Y ) − α(Y ))IY (B̂) =
0, c.s., de donde se sigue que α = β c.s.

Proposición 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z serán
variables aleatorias a valores reales y a, b números reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X ≥ 0 c.s. entonces E(X|Y ) ≥ 0 c.s..

3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ).

3
Capı́tulo 1. Introducción

4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.

7) E(Xg(Y )|Y ) = g(Y )E(X|Y ).



8) E E(X|Y ) = E(X).
Demostración.
1) Por la unicidad, basta demostrar que, para todo B ∈ B(R)
 
E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) ,

usando la linealidad de la esperanza el último término es


 
aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) ,

que, por definición de esperanza condicional, es igual a


 
aE XIB (Z) + bE Y IB (Z) .

2) La demostración necesita de conceptos del análisis real.

3) Es consecuencia inmediata de 2).


4) Es consecuencia inmediata de la unicidad.
  
6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la inde-
pendencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de
cualquier variable.
5) Es una consecuencia inmediata de 6).
7) La demostración necesita de conceptos del análisis real.

8) Basta tomar en la definición B = R.

Proposición 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces


 
ϕ E(X) ≤ E ϕ(X)
 
ϕ E(X|Y ) ≤ E ϕ(X)|Y

Recordemos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1],
y que si ϕ es C 2 , ϕ es convexa si y solo si ϕ00 (x) ≤ 0 ∀x.
Definición 1.5. Distribución Condicional: Dadas X, Y v.a., definimos

FX|Y =y (x) := P (X ≤ x|Y = y) := E(I( −∞,x] (x)|Y = y).

Definición 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos

P (X ∈ [a, b]|Y ) := E(I[a,b] (X)|Y ).

Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el
caso continuo.

4
Capı́tulo 1. Introducción

Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m ∈ N , defini-
mos la probabilidad condicional en el sentido usual, como

PX,Y (x, y)
PX|Y =y (x) = P (X = x|Y = y) = ∀x ∈ Rec(X), ∀y ∈ Rec(Y ),
PY (y)
entonces X
E(X|Y ) = xPX|Y (x),
x∈Rec(X)

Demostración. Sabemos que


X 1 X
xPX|Y =y (x) = xPX,Y (x, y) =: α(Y )(y),
PY (y)
x∈Rec(X) x∈Rec(X)

queremos demostrar que


 
1 X 
E xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,
PY (Y )
x∈Rec(X)

 
1 X X
E xPX,Y (x, Y )IB (Y ) = α(y)PY (y)
PY (Y )
x∈Rec(X) y∈Rec(Y )∩B
X X
= xPX,Y (x, y)IB (Y )
y∈Rec(Y ) x∈Rec(X)

= E XIB (Y ) .

Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces


Z +∞
fX,Y (x, Y )
E(X|Y ) = x dx
−∞ fY (Y )

Demostración.
Z +∞  Z +∞ Z +∞ 
fX,Y (x, Y ) fXY (x, y)
E x dxIB (Y ) = x IB (y)dx fy (y)dy
−∞ fY (Y ) −∞ −∞ fy (y)
Z +∞ Z +∞
= xIB (y)fX,Y (x, y)dxdy
−∞ −∞
= E(XIB (Y )).

Luego, la tésis es consecuencia de la unicidad.

Proposición 1.8. Fórmula de la distribución conjunta: Dadas X, Y v.a. se tiene que


Z y
FX,Y (x, y) = FX|Y =t (x)dFy (t)
−∞

5
Capı́tulo 1. Introducción

Demostración.

FXY (x, y) = P (X ≤ x, Y ≤ y) = E I(−∞,x] (X)I(−∞,y] (Y )
  
= E E I(−∞,x] (X)I(−∞,y] (Y ) Y
Z +∞
= I(−∞,y] (t)FX|Y =t (x)dFY (t)
−∞
Z y
= FX|Y =t (x)dFY (t)
−∞

Definición 1.9. Distribución condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0


definimos
P (X ≤ x ∩ A)
FX|A = P (X ≤ x|A) =
P (A)
Definición 1.10. Esperanza condicionada a un conjunto:
Z +∞
E(X|A) = xdFX|A (x) A ∈ A, P (A) 6= 0
−∞

1.2. Nociones de convergencia de variables aletorias



Definición 1.11. Convergencia en probabilidad y casi segura: Dado Ω, A, P espacio de
probabilidad, {Xn } una sucesión de v.a. y X una v.a. decimos que
P
1) Xn converge a X en probabilidad, y anotamos Xn −→ X si

lı́m P |Xn − X| ≤ ε = 1
n→+∞

c.s.
2) Xn converge a X casi seguramente, y anotamos Xn −→ X si
 
P lı́m Xn = X = 1
n→+∞


 1.12. Convergencia en distribución: Sean Xn v.a. en Ωn , An , Pn y X v.a. en
Definición
Ω, A, P , decimos que Xn converge en distribución a X y anotamos

d
Xn −→ X si lı́m FXn (x) = FX (x) ∀x punto de continuidad de FX
n→+∞

Proposición 1.13. Relación entre convergencias: Si {Xn } y X son v.a. sobre Ω, A, P enton-
ces
c.s. P d
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.
Observación 1.14. Todos los recı́procos de la proposición anterior son falsos.

Teorema 1.15. Ley Fuerte de los grandes números: Sean {Xn } v.a. sobre Ω, A, P y Xn
independientes idénticamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces

X1 + · · · + Xn c.s.
Xn = −→ µ
n

6
Capı́tulo 1. Introducción

Teorema 1.16. Teorema Central del Lı́mite: Sean {Xn } definidas en Ω, A, P v.a. i.i.d. en
L2 entonces
Xn − µ d
√ −→ N (0, 1).
σ/ n
Donde N (0, 1) denota la distribución normal con esperanza 0 y varianza 1.
2
Observación 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribución N (µ, σn ) donde
µ = E(Xn ) y σ 2 = V ar(Xn )

7
Capı́tulo 2

Muestreo aleatorio simple

2.1. Algunas definiciones previas



Definición 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en Ω, A, P
son una aleatoria simple si son independientes idénticamente distribuidas (i.i.d.) con distribución
igual a la de X.

Definición 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos
X1 + . . . , Xn
1) Media Muestral: Xn = .
n
n
1 X
2) Varianza Muestra Sn2 = (Xi − Xn )2
n − 1 i=1
n
1 X 2
Observación 2.3. Sn2 = Xi2 − nXn
n − 1 i=1
c.s.
Observación 2.4. Si X ∈ L1 , Xn −→ µ = E(X) por L.F.G.N.
c.s.
Observación 2.5. Si X ∈ L2 , Sn2 −→ σ 2 = V ar(X).
Demostración. !
n
n 1X 2 2 c.s.
Sn2 = X − Xn → E(X 2 ) − µ2 = σ 2 ,
n−1 n i=1 i

donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .

2.2. Muestreo en poblaciones normales


Definición 2.6. Distribución Gamma: Decimos que X tiene distribución Gamma(α, λ) si su
densidad es
α

 λ
xα−1 e−λx si x > 0
fX (x) = Γ(α)
 0 si x = 0

Observación 2.7. Tres propiedades importantes de la distribución Gamma son:


1) Si X v Gamma(α, λ) entonces E(X) = α/λ y V ar(X) = α/λ2 .

8
Capı́tulo 2. Muestreo aleatorio simple

2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+


β, λ).
3) Si α = 1, Gamma(1, λ) = Exp(λ).
Definición 2.8. Distribución Chi cuadrado con k grados de libertad: Decimos que X v χ2k
si X v Gamma(k/2, 1/2) es decir si

xk/2−1 e−x/2
fX (x) = I(0,+∞)
Γ(k/2)2k/2

Observación 2.9. Se puede demostrar que

E(χ2k ) = k
V ar(χ2k ) = 2k

Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces

X12 + · · · + Xk2 = k(X1 , . . . , Xk )k2 v χ2k

que Xi2 v
Demostración. Por la propiedad 2) de las distribuciónes Gamma, es suficiente√demostrar √
2 2
χ1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X ≤ t) = P (|X| ≤ t) = P (− t ≤ X ≤

t) =
Z √t Z √t Z t
1 − 1 s2 1 − 1 s2 1 1 1

√ e 2 ds = 2 √ e 2 ds = √ e− 2 u √ ,
− t 2π 0 2π 2π 0 u
2
donde en la primera igualdad hemos usado √ que la función e−1/2x es par, y en la seguna hemos
2
hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que
1
e− 2 u
√ √ ,
2π u

es la densidad de χ21 pero esto se sigue de que Gamma(1/2) = π.

9
Capı́tulo 2. Muestreo aleatorio simple

Definición 2.11. Distribución T-Student con k grados de libertad: Sean X v N (0, 1) e


Y v χ2k independientes, la distribución de
X
Tk = p ,
Y /n

se llama distribución T − Student con k grados de libertad. Decimos que la variable Tk tiene
distribución T − Student no central, con parámetro de no centralidad µ > 0 si
X +µ
Tk = p
Y /k

Observación 2.12. Se verifica que


E(Tk ) = 0
V ar(Tk ) = k/(k − 2) para k > 2.
Teorema 2.13. Sea T v Tk , entonces la densidad es

Γ( k+1
2 )
fT (t) = √  k+1
t2
kπΓ( k2 ) 1 + k
2

Demostración. Tomemos el vector (X, Y ), su densidad es


k y
−1 − 2
1 1 2 y2 e
fX,Y (x, y) = √ e− 2 x k k I(0,+∞) (y).
2π Γ( 2 )2 2

Sea g : Rk × R+ −→ Rk × R+ tal que


!
x  p 
g(x, y) = p , y , g es biyectiva y g −1 (u, v) = u v/k, v ,
y/k

tenemos entonces que g(X, Y ) = (U, V )

I(0,+∞) (v)
fg(x,y) (u, v) = fU,V (u, v) = fX,Y g −1 (u, v)


det Jg g −1 (u, v)

donde !
√1 √u √1
k2 v
p
y/k y det Jg (x, y) = k/y,
0 1
luego, sustituyendo
1 2 k v √
1 e− 2k u v v 2 −1 e− 2 v
fU,V (u, v) = √ I(0,+∞) (v) √ ,
2π Γ( k2 )2k/2 k
como T = U tenemos que
Z +∞ Z +∞
1 u2
“ ”
k−1 −v + 12
fU (u) = fU,V (u, v)dv = √ k v 2 e 2k
dv,
−∞ 2kπΓ(k/2)2 2 0

por otro lado sabemos que


Z +∞ Z +∞
λα Γ(α)
xα−1 e−λx dx = 1 entonces xα−1 e−λx dx = α ,
Γ(α) 0 0 λ
k+1 u2 1
si tomamos entonces α = 2 x=v yλ= 2k + 2 se concluye la tesis.

10
Capı́tulo 2. Muestreo aleatorio simple

Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ), entonces


σ2
 
1) Xn v N µ, .
n
2) Xn y Sn2 son independientes.
n−1 2
3) S v χ2n−1 .
σ2 n
√ (Xn − µ)
4) n v Tn .
Sn
Demostración.
1) es inmediato
3) tomemos σ = 1, por inducción en n, para n = 2 tenemos que
 2  2
2 X1 + X2 X1 + X2
S2 = X1 − + X2 −
2 2
 2  2  2
X1 − X2 X2 − X1 X1 − X2
= + = √ v χ21 ,
2 2 2
n−1
supongamos cierto para n−1. Vamos a usar la igualdad (n−1)Sn2 = (n−2)Sn−1
2
+ (Xn −
n
Xn−1 )2 , como estamos tomando σ = 1 tenemos que ver que (n − 1)Sn2 v χ2n−1 o lo que es lo
mismo (n − 2)Sn−12
+ n−1 2
n (Xn − Xn−1 ) v χn−1 ,
2

por hipótesis de inducción (n − 2)Sn−1 v χn−2 , además n−1


2 2 2
n (Xn − Xn ) es independiente de
2 2 2
(n − 2)Sn−1 pues Xn es independiente de Sn−1 por la parte 2), y Xn es independiente de Sn−1
2
pues Sn−1 depende sólo de X1 , . . . , Xn y la muestra son un M.A.S.
Basta entonces ver que n−1 2
n (Xn − Xn ) v χ1 ,
2

   
1 n n−1
Xn − Xn−1 v N 0, 1 + = N 0, ⇒ (Xn − Xn−1 )2 v χ21 ,
n−1 n−1 n
y, como la suma de χ2 es tiene distribución χ2 con la suma de los grados tenemos que χ2n−2 +
χ21 v χ2n−1 .

11
Capı́tulo 2. Muestreo aleatorio simple

4) Es inmediato a partir de 1,2 y 3.


2)
n
1 X
Sn2 = (X1 − Xn )2 + (Xi − Xn )2

n−1 i=2
n n
1 X
2
X
(Xi − Xn )2 ,

= ( Xi − Xn ) +
n − 1 i=2 i=2

hemos escrito entonces Sn2 en función de X2 − Xn , . . . , Xn − Xn , basta demostrar entonces que


Xn es independiente de X2 − Xn , . . . , Xn − Xn .
Consideremos Y1 = Xn , Y2 = X2 − Xn , . . . , Yn = Xn − Xn , y1 = xn , y2 = x2 − xn , . . . , yn =
xn − xn y y = g(x1 , . . . , xn ) entonces
 1 1 1

n n ... n
 −1 1 − 1 ... − n1 
 n n
Jg =  . .

..
 .. . 
1 1 1
−n −n ... 1 − n

Es fácil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz
triangular superior con diagonal 1/n, 1, . . . , 1.
x2 = y2 + y1 , . . . , xn = yn + y1 de donde
!
X
−1
g (y) = − yi − y1 , y2 + y1 , . . . , yn + y1 ,
2

entonces
1
fY (y) = fX (g −1 (y)
| det Jg (g −1 (y))|
( !)
n 1 2
X X
2
X
2 2
= exp − y1 − 2y1 yi + ( yi ) + (yi + 2y1 yi + y1 )
(2π)n/2 2 2 2 2
( !)
n n n o 1 X X
= exp − y12 exp − ( yi ) 2 + yi2 .
(2π)n/2 2 2 2 2

Por lo tanto factorizamos respecto de y1 , iterando, son independientes.

Observación 2.15. Distribución F de Fisher: Sea X v χ2n e Y v χ2m independientes, la


distribución de
X/n
Y /m
se denomina distribución F de Fisher de parámetros n y m, y la anotamos F (n, m).
A modo de motivación geométrica de la distribución F de Fisher, vamos a enunciar el siguiente
teorema.
Teorema 2.16. Sea A el ángulo que forma un vector X v N (0, σ 2 ) en Rd con un subespacio R de
dimensión ρ, entonces
ρ
tan2 (A) v F (d − ρ, ρ)
d−ρ

12
Capı́tulo 2. Muestreo aleatorio simple

Observación 2.17. Si Z v F (n, m) entonces


n
Γ n+m
  n
2 n 2 w 2 −1
fZ (w) =  n+m I(0,+∞) (w)
Γ n2 Γ m
 
2
m n
1+ m w 2
2
Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (µX , σX ) y Y1 , . . . , Yn M.A.S. de Y v N (µY , σY2 )
X e Y independientes, entonces
2 2
SX /σX
2 2 v F (n − 1, m − 1)
SY /σY

Demostración. La demostración se sigue de la parte 3) y 2) del teorema 2.14

2.3. Estadı́sticos de Orden para una M.A.S.


Definición 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos

X1:n = mı́n{X1 , . . . , Xn }

X2:n = mı́n {X1 , . . . , Xn } \ {X1:n }
..
.

Xn:n = mı́n {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }

se tiene entonces que X1:n ≤ · · · ≤ Xn:n


Teorema 2.20. Distribución de los percentiles: Sea X1 , . . . , Xn una M.A.S. de X absoluta-
mente continua, entonces
n! j−1 n−j
fXj:n (x) = fX (x) FX (x) 1 − FX (x)
(j − 1)!(n − j)!

Demostración. FXj:n = P (Xj:n ≤ x) es decir, que al menos j variables sean menores o iguales
uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces
Y v Bin(n, p) con p = FX (x).
n n
X X k n−k
P (Xj:n ≤ x) = P (Y ≥ j) = P (Y = k) = Ckn FX (x) 1 − FX (x)
k=j k=j

entonces, derivando y usando q = 1 − p


n
X n!  
fXj:n (x) = kpk−1 fX (x)q n−k − fX (x)(n − k)q n−k−1 pk
(n − k)!k!
k=j
 
n n−1
X 1 X 1
= fX (x)n!  pk−1 q n−k − pk q n−k−1 
(n − k)!(k − 1)! (n − k − 1)!k!
k=j k=j
 
n n
X 1 X 1
= fX (x)n!  pk−1 q n−k − pk−1 q n−k 
(n − k)!(k − 1)! (n − k)!(k − 1)!
k=j k=j+1
1
= fX (x)n! pj−1 q n−j
(n − j)!(j − 1)!

13
Capı́tulo 2. Muestreo aleatorio simple

n−1 n−1
Observación 2.21. fXmax (x) = nfX (x) FX (x) y fXmin (x) = nfX (x) 1 − FX (x)
Γ(α + β) α−1
Definición 2.22. Si X tiene densidad f (x) = x (1 − x)β−1 I(0,1) (x) decimos que X v
Γ(α)Γ(β)
Beta(α, β)
αβ
Observación 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) = .
(α + β)2 (α + β + 1)
Observación 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n − j + 1).

14
Capı́tulo 3

Teorı́a de la Estimación, métodos


de estimación

3.1. Algunas definiciones previas


Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|θ) donde θ ∈ Rk es un
parámetro desconocido.
Definición 3.1. Sea θ̂ : Rn −→ Rk medible, independiente de θ, entonces θ̂(X1 , . . . , Xn ) : Ω −→ Rk
es un estimador de θ.
Ejemplo 3.2. Si X v N (µ, σ 2 ) y θ = (µ, σ 2 ) entonces si definimos
n
!
x1 + · · · + xn 1 X x1 + · · · + xn
θ̂(x1 , . . . , xn ) = , xi − : Rn −→ R2
n n − 1 i=1 n

entonces
θ̂(X1 , . . . , Xn ) = (Xn , Sn2 )
es un estimador de θ.
Observemos que si bien θ es un vector, θ̂ es un vector aleatorio a valores en Rk .
Definición 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|θ) y θ̂ es un estimador, decimos que
P c.s.
θ̂ es debilmente consistente si θ̂ −→ θ. Decimos que es fuertemente consistente si θ̂ −→ θ
Ejemplo 3.4. Si X v N (µ, σ 2 ) y θ̂ = (Xn , Sn2 ) entonces θ̂ es fuertemente consistente.
Notación: Anotamos como (H) al conjunto de valores posibles, que puede tomar el parámetro
θ. Por ejemplo si X v N (µ, σ 2 ) θ = (µ, σ 2 ) entonces (H) = R × R+ .

3.2. Método de los momentos


Si X1 , . . . , Xn es una M.A.S. de X v F (X|θ) y θ = (θ1 , . . . , θk ) ∈ Rk y X ∈ L1 . Consideremos
el sistema 
 E(X) =


Xn
n

 1X 2
E(X 2 ) = Xi


n i



.. ..


 . .
 n

 k 1X k
 E(X ) = Xi


n i

15
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos
muestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de las
k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solución
ni ser única. Observemos que por la ley fuerte, los estiamdores que se despejan para cada θi son
consistentes.

Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el método de los momentos
es 
1/2(b − a) = P Xn
1/12(b − a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2
Si despejamos b en la primer ecuación y sustituimos en la segunda obtenemos las soluciones
q q
a = Xn ± 3(M2 − Xn ), b = Xn ± 3(M2 − Xn )

Como (H) = {(a, b) ∈ R2 : a < b} descartamos soluciones y nos queda


q q
â = Xn − 3(M2 − Xn ), b̂ = Xn + 3(M2 − Xn ).

Teorema 3.6. Método de los momentos, existencia de solución: Si F : (H) ⊂ Rk −→ Rk


es tal que F (θ1 , . . . , θn ) = (E(X), E(X2 ), . . . , E(X k )), entonces, si F es inyectiva, F −1 y F son
continuas y si Xn , M2 , . . . , Mk ∈ F (H) c.s. entonces los estimadores por momentos convergen c.s.
a θ1 , . . . , θ k .
Demostración. F (θ1 , . . . , θn ) = (M1 , . . . , Mk ) entonces (θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ), como
c.s.
M1 = Xn −→ E(X)
..
.
1 X k c.s.
Mk = Xi −→ E(X k )
n i

y F −1 es continua entonces
c.s.
(θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ) −→ F −1 E(X), . . . , E(X k )


= F −1 F (θ1 , . . . , θk ) = (θ1 , . . . , θk ),


de donde θ̂ es fuertemente consistente.

3.3. Método de Máxima Verosimilitud


Definición 3.7. Función de Verosimilitud: Dada una M.A.S. de X v F (X|θ) θ ∈ (H) ⊂ Rk
n
Y
L(θ, x̃) = fX (xi |θ) si X es absolutamente continua
i=1
Yn
L(θ, x̃) = pX (xi |θ) si es discreta
i=1

El método consiste entonces en hallar θ ∈ (H) donde se realice máxθ∈(H) L(θ, x̃), dicho θ̂ es el
estimador de máxima verosimilitud (E.M.V.) de θ. El método no asegura la existencia y/o unicidad
de θ̂.

16
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp(λ) entonces la función de verosimilitud para
λ es
Yn X
L(λ) = λ exp{−λxi } = λn exp{−λ xi },
i=1 i

con xi ≥ 0 ∀i, derivando obtenemos


( !)
X X
0 n−1
L (λ) = λ exp −λ xi n−λ xi ,
i i

n 1
y por lo tanto, como λ 6= 0, si hacemos L0 (λ) = 0 obtenemos λ = P = , es fácil ver, mirando
i xi Xn
el signo de L0 (λ) que es un máximo.
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la función de verosimilitud
es entonces
1 1
n
( (
Y 1 si 0 < x1 , . . . , x n < b si b > máx{x1 , . . . , xn }
L(b) = I[0,b] (xi ) = b n = bn
i=1
b 0 si no 0 si no

Como la función 1/bn es decreciente obtenemos que b̂ = xn:n = máx{x1 , . . . , xn }.


Observación 3.10. Interpretación del método: Para el caso discreto, si tenemos X1 , . . . , Xn
una M.A.S. y X v pX (X|θ) entonces
n
Y n
Y
L(θ|x̃) = pX (xi |θ) = P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ),
i=1 i=1

esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en función de θ. El método busca
maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el θ que haga que la
muestra sea más probable.

Principio de invarianza del E.M.V.: Supongamos que tenemos un parámetro θ ∈ (H) y


g : (H) → R, y que estamos interesados en estimar g(θ) por el método de máxima verosimilitud, es
decir queremos encontrar M̂ = g(θ̃) que haga que la muestra sea más probable. Queremos maximizar
entonces
L∗ (M |x̃) = sup L(θ|x̃),
{θ:g(θ)=M }

Veremos que si M̂ = E.M.V. de g(θ), es decir donde se realiza el máximo de L∗ entonces M̂ = g(θ̂)
siendo θ̂ = E.M.V de θ. En efecto:

L∗ (M̂ |x̃) = sup L∗ (M |x̃) = sup sup L(θ|x̃) = sup L(θ, x̃) = L(θ̂|x̃)
M M {θ:g(θ)=M } θ∈(H)

y
L∗ (g(θ̂), x̃) = sup L(θ|x̃) = L(θ̂|x̃).
{θ:g(θ)=g(θ̂)}

Entonces g(θ̂) es E.M.V. de g(θ).


Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es p̂ = Xn , como σ 2 = p(1 − p) = g(p)
por el Principio de Invarianza σ̂ 2 = g(p̂) = p̂(1 − p̂).
P
Observación 3.12. Si h(θ) = log(L(θ)) = log(fX (xi |θ) podemos, dado que log(x) es una función
creciente, tomar el θ que maximiza h(θ)

17
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|θ) y θ ∈ (H) ⊂ R donde
(H) es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ (H), si
h(θ) = log(L(θ)) es derivable como función de θ y además f (x|θ) = f (x|θ0 ) implica θ = θ0 c.s.
entonces
∂ c.s.
∃θˆn ∈ (H) tal que h(θˆn ) = 0 y θˆn −→ θ0
∂θ
Demostración.
n n n  
X X X f (xi |θ0 )
h(θ0 ) − h(θ0 − δ) = log((f (xi |θ0 )) − log((f (xi |θ0 − δ))) = log
i=1 i=1 i=1
f (xi |θ0 − δ)

entonces
    
h(θ0 − δ) − h(θ0 ) 1X f (xi |θ0 − δ) L.F.G.N. f (xi |θ0 − δ)
= log −→ E log c.s.,
n n f (xi |θ0 ) f (xi |θ0 )

como − log es una función convexa, usando la desigualdad de Jensen y la inyectividad.


     
f (xi |θ0 − δ) f (xi |θ0 − δ)
E log < log E ,
f (xi |θ0 ) f (xi |θ0 )

por otro lado


  +∞ +∞
f (xi |θ0 − δ) f (x|θ0 − δ)
Z Z
E = f (x|θ0 )dx = f (x|θ0 )dx = 1.
f (xi |θ0 ) −∞ f (x|θ0 ) −∞

Luego el lı́mite anterior es negativo. Lo mismo para θ0 − δ. Definamos


  
n h(θ0 ± δ) − h(θ0 ) c.s. f (xi |θ0 ± δ) o
Aδ = ω ∈ Ω : −→ E log <0 .
n f (xi |θ0 )

Por la L.F.G.N. P (Aδ ) = 1. Fijado ω ∈ Aj existe n0 = n0 (ω, δ) tal que h(θ0 ) > h(θ0 ± δ) ∀n ≥ n0 ,

existe θˆn tal que h(θˆn ) = 0. Definamos
∂θ
n ∂ o
Bδ = ω ∈ Ω : ∃θˆn ∈ (θ0 − δ, θ0 + δ) y h(θˆn ) = 0 .
∂θ
Como Aδ ⊂ Bδ tenemos que P (Bδ ), si tomamos δ = 1/n,

!
\
P B1/n = 1.
i=1

c.s.
La sucesión θˆn verifica θˆn −→ θ0 y es cero de ∂
∂θ h.

Observación 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V.


P d d
Lema 3.15. Lema de Slutsky: Si Xn −→ c y Yn −→ Y con c constante entonces Xn +Yn −→ c+Y
d
y Xn Yn −→ cY .
d P
Recordemos que Xn −→ c ⇔ Xn −→ c.

Teorema 3.16. Normalidad asintótica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|θ),
supongamos que existe δ > 0 tal que (θ0 −δ, θ0 +δ) ∈ (H), si se cumplen, para todo θ ∈ (θ0 −δ, θ0 +δ)
∂ c.s.
1) ∃{θn } variables aleatorias tal que h(θn ) = 0 ∀n y θn −→ θ0
∂θ

18
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

∂3
 
2) E h(θ|x̃) ≤ M (X̃) con E(M (X̃)) < ∞.
∂θ3
!

∂θ f (x|θ)
3) E = 0.
f (x|θ)

∂2
!
∂θ 2 f (x|θ)
4) E = 0.
f (x|θ)
!2

∂θ f (x|θ)
5) i(θ) := E > 0, el número i se denomina número de información de Fischer.
f (x|θ)

Entonces

 
 d 1
n θn − θ0 −→ N 0,
i(θ0 )
Demostración. La demostración será una consecuencia de dos afirmaciones:
1 ∂
Afirmación 1: √ h(θ0 ) → N (0, i(θ0 ))
n ∂θ
√ 1 ∂ P
Afirmación 2: n(θn − θ0 ) − √ h(θ0 ) −→ 0.
ni(θ0 ) ∂θ
Veamos primero cómo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la
tesis. En efecto, podemos escribir
√ √
 
1 ∂ 1 ∂
n(θn − θ0 ) = n(θn − θ0 ) − √ h(θ0 ) + √ h(θ0 )
ni(θ0 ) ∂θ ni(θ0 ) ∂θ
Veamos la demostración de la Afirmación 1:
∂ n ∂ n
1 ∂ 1 X ∂θ f (xi |θ0 ) √ 1 X ∂θ f (xi |θ0 ) √
√ h(θ0 ) = √ = n = nZ n .
n ∂θ n i=1 f (xi |θ0 ) n i=1 f (xi |θ0 )

E(Zi ) = 0 por la hipótesis 3) y V ar(Zi ) = E(Zi2 ) − E 2 (Zi ) = i(θ) > 0 por la hipótesis 5). Luego,
√ d
si aplicamos el T.C.L. tenemos que nZ n −→ N (0, i(θ0 )). Lo que concluye la demostración de la
afirmación 1.

Veamos la demostración de la Afirmación 2: podemos escribir, usando el desarrollo de Taylor y


la hipótesis 1,

∂ ∂ ∂2 ∂3 (θn − θ0 )2
0= h(θn ) = h(θ0 ) + 2 h(θ0 )(θn − θ0 ) + 3 h(θˆn )
∂θ ∂θ ∂θ ∂θ 2

donde θˆn ∈ [θ0 , θn ], despejando obtenemos



− ∂θ h(θn )
θn − θ0 =
∂2
2 h(θ0 ) +
∂3 ˆ (θn −θ0 )
3 h(θn )
∂θ ∂θ 2

y √

√ 1 ∂ − ∂θ h(θn ) n 1 ∂
n(θn − θ0 ) − √ h(θ0 ) = 2 (θ −θ )
−√ h(θ0 ) =
ni(θ0 ) ∂θ ∂ ∂ 3
ˆ n 0 ni(θ0 ) ∂θ
∂θ 2 h(θ0 ) + ∂θ 3 h(θn ) 2
" #
1 ∂ −1 1
√ h(θ0 ) − (3.1)
n ∂θ 1 ∂2 1 ∂3 ˆ (θn −θ0 ) i(θ0 )
n ∂θ 2 h(θ0 ) + n ∂θ 3 h(θn ) 2

19
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

1 ∂ d
Nuevamente, como √ h(θ0 ) −→ N (0, i(θ0 )), por el lema de Slutsky, la afirmación 2 queda
n ∂θ
demostrada si probamos que la expresión entre [] tiende en probabilidad a 0 (o lo que es lo mismo,
en distribución a 0).
Sabemos que
1 ∂3 (θn − θ0 ) P
h(θˆn ) −→ 0,
n ∂θ3 2
P P
donde hemos usado que si Xn −→ 0 y si E(Yn ) ≤ k ∀n entonces Xn Yn −→ 0.
 2   2
∂ ∂
|θ − |θ
n
! n
2 ∂ f (x|θ ) f (x ) f (x )
∂θ f (xi |θ0 )
1 ∂ 1 X ∂ 1 X ∂θ 2 0 i 0 ∂θ i 0
h(θ0 ) = = 2 .
n ∂θ2 n i=1 ∂θ f (xi |θ0 ) n i=1

f (xi |θ0 )

Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la
hipótesis 4:   
∂2 !2
 ∂θ2 f (x |θ
i 0 ) f (x |θ )
i 0  ∂
f (x|θ)
E 2  − E ∂θ = −i(θ0 )
f (x|θ)

f (x|θ0 )
de donde se concluye que la expresión entre [] en 3.1. converge en probabilidad a 0 como querı́amos
demostrar.
Observación 3.17. Sobre las hipótesis del teorema anterior
1) Es la tésis del Teorema 3.13.
!
∂ Z +∞ ∂ Z +∞
∂θ f (x|θ) ∂θ f (x|θ) ∂
3) E = f (x|θ)dx = f (x|θ)dx, observemos que si pudiera-
f (x|θ) −∞ f (x|θ) −∞ ∂θ
Z +∞
∂ ∂
mos aplicar convergencia dominada f (x|θ)dx = 1 = 0.
∂θ −∞ ∂θ
4) Análogo a 3).

∂θ f (x|θ)
5) Por 3), 5) es pedir que no sea constante.
f (x|θ)

3.4. método de estimación por cuantiles


Definición 3.18. Cuantil o percentil p: Sea X v.a., dado p ∈ (0, 1) el cuantil p es

xp = ı́nf x ∈ R : FX (x) ≥ p

Observación 3.19. xp existe, y es mı́nimo


Demostración. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es
tal que F (xn ) ≥ p y xn → p, como F es continua por derecha

lı́m F (xn ) = F (lı́m xn ) = F (xp ) ≥ p.


n n

Definición 3.20. Percentil empı́rico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra


ordenada X1∗ = X1:n ≤ · · · ≤ Xn∗ = Xn:n , entonces
 ∗
Xnp si np ∈ N
X̂p = ∗
X[np]+1 si np ∈/N

20
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

Pk
El método consiste en plantear la función g(θ) = i=1 (Xˆpi − xpi )2 donde los pi y k son cuales-
quiera. Lo que se busca es el mı́nimo de g(θ). El argumento que minimiza g(θ) sera θ̂ y dependerá de
los cuantiles empı́ricos Xˆpi .
1
Ejemplo 3.21. Si X v (µ, σ 2 ), entonces fX (x|µ, σ 2 ) =  .
x−µ 2

πσ 1 + σ
Es fácil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ 2 ) por el método
de cuantiles. Tomamos k = 4, Q1 = X̂0,25 , Q2 = X̂0,5 y Q3 = X̂0,75 , estimadores de los cuartiles.
Entonces, la función a minimizar es

g(µ, σ 2 ) = (Q1 − x0,25 )2 + (Q2 − x0,5 )2 + (Q3 − x0,75 )2

Calculemos los cuartiles x0,25 , x0,5 y x0,75 en función de µ y σ.


 
2 1 1 x−µ
FX (x|µ, σ ) = + arctan
2 π σ
 
x−µ π
Si hacemos FX (x|µ, σ 2 ) = 0,25 entonces arctan = − de donde x = µ − σ. Análogamente
σ 4
x0,5 = µ y x0,75 = µ + σ (estos valores se calculan facilmente a partir de x0,25 usando la paridad de
fX ). Luego, la función a minimizar resulta entonces

g(µ, σ 2 ) = (Q1 − µ + σ)2 + (Q2 − µ)2 + (Q3 − µ − σ)2

Derivando esta función respecto de µ y de σ, el gradiente resultante se anula en


Q1 + Q2 + Q3 Q3 − Q1
µ̂ = σ̂ =
3 2

3.5. Estimación de la función de Distribución


Definición 3.22. Distribución Empı́rica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es
desconocida, la distribución empı́rica se define como
n
1X
Fn∗ (x) = I(−∞,x] (Xi )
n i=1

Observemos que en cada x nos da la proporción de observaciones menores o iguales que x, y que,
para x y n fijos, Fn∗ (x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de Fn∗
son n , y de tamaño 1/n.
c.s.
Proposición 3.23. Fn∗ (x) −→ F (x) ∀x ∈ R.
Demostración. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) con
p = FX (x).
Teorema 3.24. Teorema fundamental de la Estadı́stica, Glivenko-Cantelli, 1937: Sea
X1 , . . . , Xn una M.A.S. de X v FX entonces
c.s.
kFn∗ − FX k∞ = sup Fn∗ (x) − FX (x) −→ 0

x∈R
.
Demostración. Para la demostración vamos a necesitar el siguiente lema:

Lema 3.25. Yn = supx∈R Fn∗ (x) − FX (X) es una v.a., es decir, es medible.

21
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

Demostración. Basta demostrar que {Yn ≤ δ} ∈ A f orallδ.

{Yn ≤ δ} = |Fn∗ (x) − FX (x)| ≤ δ ∀x ∈ R = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ ∀x ∈ R


 
\
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ

=
x∈R

Basta demostrar que


\ \
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ

x∈R x∈Q

Fijemos x ∈ R, dado ε > 0 ∃y ∈ Q, y ≥ x tal que


1) Fn∗ (y) − Fn∗ (x) ≤ ε pues Fn∗ es continua por derecha.
2) F (y) − F (x) ≤ ε pues F es continua por derecha.

3) F (y) − δ ≤ Fn∗ (y) ≤ F (y) + δ.


Podemos escribir entonces
x≤y 3 1 x≤y 3 2
F (x) − δ − ε ≤ F (y) − δ − ε ≤ Fn∗ (y) − ε ≤ Fn∗ (x) ≤ Fn∗ (y) ≤ F (y) + δ ≤ F (x) + ε + δ

y por lo tanto
F (x) − δ − ε ≤ Fn∗ (x) ≤ F (x) + ε + δ ∀ε > 0
entonces
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ.
lo cual concluye la demostración del lema.
Veamos la demostración del teorema, para el caso continuo, dado x ∈ R sea Ax = {ω ∈ Ω :
lı́mn Fn∗ (x) =
 F (x)}. Por la proposición anterior sabemos que P (Ax ) = 1 para todo x. Luego
T
P x∈Q Ax = 1.
Sea A := x∈Q Ax , basta ver que A ⊂ {ω ∈ Ω : lı́mn supx∈R |Fn∗ (x) − FX (x)|0}. Sea ε > 0.
T
Como lı́mx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε.
Como lı́mx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1 − F (x) < ε.
Como F es uniformemente continua en [k1 , k2 ] existe k1 ≤ x2 < . . . < xm ≤ k2 ∈ Q tal que
F (xk+1 ) − F (xk ) < ε para todo k = 2, . . . , m − 1.
Luego si tomamos −∞ = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < +∞ = xm+2 se verifica
que F (xk+1 ) − F (xk ) < ε para todo k = 0, . . . , m + 1. Si x ∈ R existe k ∈ {0, . . . , m + 2} tal que
xk ≤ x ≤ xk+1 entonces
1 2
Fn∗ (x) ≤ Fn∗ (xk+1 ) ≤ F (xk+1 ) + ε F (x) + ε + ε = F (x) + 2ε,

donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0 , que no
depende de x. La desigualdad 2 se sigue de que F (xk+1 ) ≤ F (xk ) + ε ≤ F (x) + ε. Razonando de
forma análoga llegamos a que, para n > n1 , para todo x tenemos que

F (x) − 2ε ≤ Fn∗ (x) ≤ F (x) + 2ε

de donde
lı́m sup |Fn∗ − F | = 0.
n→+∞

22
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación

3.6. Convergencia casi segura de Percentiles


Teorema 3.26. Dado p ∈ (0, 1) tal que ∀ε > 0 F (xp + ε) > p entonces el percentil empı́rico
c.s.
Xˆp,n x p .
Demostración. Observemos que
1

n np = p si np ∈ N
Fn∗ (Xˆp,n ) = 1 .
n ([np] + 1) → p si np ∈
/N
n n
dado ε > 0 sabemos que Fn∗ (xp + ε) −→ F (xp + ε) > p c.s. y Fn∗ (Xˆp.n ) −→ p por lo tanto ∀n ≥ n0 se
c.s. n
cumple que Fn∗ (Xˆp,n ) < Fn∗ (xp + ε), de donde Xˆp,n < xp + ε. Además Fn∗ (xp − ε) F (xp − ε) < p
c.s
y, razonando de forma análoga xp − ε < xp . Por lo tanto X̂p,n −→ xp .

23
Capı́tulo 4

Evaluación de Estimadores

Definición 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) y T = Tn (X1 , . . . , Xn )


estimador de g(θ) con g a valores reales, conocida. Decimos que

Tn es insesgado si E(Tn ) = g(θ) ∀θ ∈ (H)


n
Tn es asintóticamente insesgado si E(Tn ) −→ g(θ)

Definición 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )−g(θ)
2
Definición 4.3. Error cuadrático medio: Se define E.C.M (Tn ) = E Tn − g(θ)
Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar
estimadores con E.C.M. mı́nimo.

Definición 4.4. Estimador de mı́nima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2 ,
decimos que es insesgado en θ0 ∈ (H), de varianza mı́nima si
i) Tn es insesgado en θ0
ii) Si Tn0 ∈ L2 es insesgado en θ0 V arθ0 (Tn ) ≤ V arθ0 (Tn0 ).
 R
Observación 4.5. Eθ Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|θ)
Observación 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mı́nima
varianza.
Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo si
Eθ0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que Eθ (f ) = 0.
Demostración. Para demostrar el teorema será necesario el siguiente lema
Lema 4.8. Tn es insesgado de mı́nima varianza en θ0 si y solo si Tn es insesgado y V arθ0 (Tn ) ≤
V arθ0 (Tn + λf ) para todo λ ∈ R , para todo f tal que Eθ0 (f ) = 0.
Demostración. Veamos el directo, sea λ y f tal que Eθ0 (f ) = 0, Tn0 = Tn + λf es insesgado pues
E(Tn + λf ) = E(Tn ) + λE(f ) = E(Tn ) = g(θ). Como Tn es de mı́nima varianza V arθ0 (Tn ) ≤
V arθ0 (Tn0 ).
Para demostrar el recı́proco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 − Tn ), tomemos
f = Tn0 − Tn y λ = 1 entonces E(f ) = 0, luego, por hipótesis

V arθ0 (Tn ) ≤ V arθ0 (Tn + λf ) = V arθ0 (Tn0 ).

24
Capı́tulo 4. Evaluación de Estimadores

Veamos ahora la demostración del teorema. Por el lema basta ver que V arθ (Tn ) ≤ V arθ0 (Tn +λf )
si y solo si Eθ0 (f Tn ) = 0.

V arθ0 (Tn + λf ) = V ar(Tn ) + λ2 V (f ) + 2λcov(Tn , f ) ≥ V arθ0 (Tn ) ∀λ ∈ R


⇔λ2 V arθ0 (f ) + 2λcov(Tn , f ) ≥ 0 ∀λ ∈ R
⇔p(λ) = λ2 V arθ0 2λcov(Tn , f ) ≥ 0 ⇔ cov(Tn , f ) = 0,

de lo contrario p tendrá 2 raices.

cov(Tn , f ) = E(Tn f ) − E(Tn )E(f ) = 0 ⇔ E(Tn f ) = 0.

Definición 4.9. Estimador insesgado de mı́nima varianza uniformemente: Tn es estimador


I.M.V.U. si es insesgado de varianza mı́nima ∀θ ∈ (H).
Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(λ), θ = 1/λ. Un estimador de θ es Xn , veamos
c.s.
que es de mı́nima varianza. Sabemos que Xn −→ E(X) = 1/λ = θ. Si f es tal que E(f ) = 0 para
todo θ. Z X
E(f ) = f (x1 , . . . , xn )λn exp{−λ xi }dx1 . . . dxn = 0
[0,+∞)n

entonces Z X
f (x1 , . . . , xn ) exp{−λ xi }dx1 . . . dxn = 0 ∀λ ∈ R.
[0,+∞)n

Veamos que E(f Xn ) = 0.


Z n
1 X  n X
E(f Xn ) = f (x1 , . . . , xn ) xi λ exp{−λ xi }dx1 . . . dxn = 0
[0,+∞)n n i=1
Z n
1 X  X
⇔ f (x1 , . . . , xn ) xi exp{−λ xi }dx1 . . . dxn = 0
[0,+∞)n n i=1
Z
∂  X 
⇔ f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0
[0,+∞)n ∂λ
Z
∂  X 
⇔ f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0
∂λ [0,+∞)n

Ejemplo 4.11. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamos


que es de mı́nima varianza, sea f tal que E(f ) = 0

X n
Y
E(f ) = f (x1 , . . . , xn ) p(xi |p)
(x1 ,...,xn )∈{0,1}n i=1
X P P
xi
= f (x1 , . . . , xn )p (1 − p)n− xi

(x1 ,...,xn )∈{0,1}n


n
X X P P
xi
= f (x1 , . . . , xn )p (1 − p)n− xi

k=0 x1 +···+xn =k
n
" #
X X
= f (x1 , . . . , xn ) pk (1 − p)n−k = 0
k=0 x1 +···+xn =k

25
Capı́tulo 4. Evaluación de Estimadores

Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus
coeficientes son nulos. Luego si calculamos
n
!
X X k k
E(f Xn ) = f (x1 , . . . , xn ) p (1 − p)n−k = 0
n
k=0 x1 +···+xn =k

Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1 , . . . , Xn M.A.S. de X v fX (x|θ). Si Tn


es un estimador insesgado de g(θ). Asumiremos que estamos en las hipótesis de derivación dentro
de la integral, es decir que
Z n
!
∂ ∂ Y
E(Tn ) = Tn fX (xi |θ) dx1 . . . dxn
∂θ Rn ∂θ i=1

y
Z n Z n
∂ Y ∂ Y
fX (xi |θ)dxi = fX (xi |θ)dxi ,
∂θ Rn i=1 Rn ∂θ i=1
entonces
g 0 (θ)

V ar(Tn ) ≥  ∂
2 .
∂θ f (x|θ)
nE f (x|θ)

Además, el igual se da si y solo si existe λ = λ(n, θ) tal que


n ∂
c.s. ∂θ f (xi |θ)
X
Tn (X1 , . . . , Xn ) − g(θ) = λ .
i=1
f (xi |θ)

Demostración.
Z n
0 ∂ ∂ Y
g (θ) = E(Tn ) = Tn (x1 , . . . , xn ) fX (x|θ)dx1 . . . dxn
∂θ ∂θ Rn i=1
Z " n
#
∂ Y
= Tn (x1 , . . . , xn ) fX (xi |θ) dx1 . . . dx n
Rn ∂θ i=1
Z n
∂ Y
= Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ)dx1 . . . dxn
Rn ∂θ i=1
r ∂
Qn
fX (xi |θ)
Z
 Yn
= Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ) pQni=1
∂θ
dx1 . . . dxn
i=1 fX (xi |θ)
Rn i=1

26
Capı́tulo 4. Evaluación de Estimadores

entonces, si aplicamos la desigualdad de Cauchy-Schwartz


n ∂
Qn 2
∂θQ i=1 fX (xi |θ)
Z Z
2 2 Y
g 0 (θ) ≤ Tn − g(θ) fX (xi |θ) n
Rn i=1 Rn i=1 fX (xi |θ)

Qn 2
∂θQ i=1 fX (xi |θ)
Z
=V (Tn ) n
Rn i=1 fX (xi |θ)

Q n 2 !2
∂θQ i=1 f X (x i |θ)
=V (Tn )E n
i=1 fX (xi |θ)
n
!2
∂ Y
=V (Tn )E log fX (xi |θ)
∂θ i=1
 2

=V (Tn )E log(fX (xi |θ))
∂θ
!2
X ∂ f (xi |θ)
∂θ
=V (Tn )E .
f (xi |θ)


∂θ f (xi |θ)
Definamos g(Xi ) = .
f (xi |θ)
X 2 X X X
g 2 (Xi ) + 2 g(Xi )g(Xj ) = nE g(Xi )2 + 2
  
E g(Xi ) = E E g(Xi )g(Xj ) .
i6=j i6=j
 
Basta ver
 que E g(X
 i )g(Xj ) = 0 para todo i 6
= j. Como son independientes E g(Xi )g(Xj ) =
E g(Xi ) E g(Xj ) .

∂θ f (xi |θ)
Z
E(g(Xi )) = f (xi |θ)dx
R f (xi |θ)
Z

= f (xi |θ)dx = 0.
R ∂θ

Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,
por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1 , . . . , xn tal que

Q
qY
∂θ fX (xi |θ)
(Tn − g(θ)) fX (xi |θ) = λ pQ
fX (xi |θ)

y esto sucede si y solo si



Q
∂θQ fX (xi |θ) ∂  Y  X ∂ 
Tn − g(θ) =λ =λ log fX (xi |θ) = λ log fX (xi |θ)
fX (xi |θ) ∂θ ∂θ

∂θ fX (xi |θ)
X

fX (xi |θ)

Definición 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g(θ) y cumple el


igual en la desigualdad de Cramer-Rao se dice que es eficiente
Observación 4.14. Si θ̂ es un estimador de θ, θ̂ es eficiente si y solo si
i) θ̂ es insesgado

27
Capı́tulo 4. Evaluación de Estimadores

1
ii) V ar(θ̂) =  ∂
2
∂θ f (x|θ)
nE f (x|θ)

Observación 4.15. Observemos que si θ̂ es eficiente, es de mı́nima varianza (entre el conjunto de


estimadores que estan el las hipótesis del Teorema de Cramer-Rao). Podria no existir un estimador
eficiente, además, existen estimadores de mı́nima varianza que no cumplen la igualdad.
Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y además

!2 2 !
∂p p(x|p)

1 −1 1 1
nE =n 2
p+ (1 − p) = n = ,
p(x|p) p 1−p p(1 − p) V ar(X)

por lo tanto p̂ = Xn es eficiente. Como Xˆn es eficiente es de mı́nima varianza varianza ya que X es
de recorrido finito.
Definición 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|θ) y T (X1 , . . . , Xn )
estimador, decimos que T es suficiente para θ si y solo si FX1 ,...,Xn |T no depende de θ.
Pn
Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador
suficiente para estimar p.
Demostración.
P (X1 , . . . , Xn , T = t)
pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) = =
P (T = t)
( P
0 si t 6= xi
P (X1 =x1 )...P (Xn =xn ) P
P (T =t) si t = xi
P P
xi
p (1 − p)n− xi
= n
Ct pt (1 − p)n−t
1
= n.
Ct
Que no depende de p, hemos usado que T v Bin(n, p).
Qn 
Teorema 4.19. T es suficiente para θ si y solo si L(x̃|θ) = i=1 f (xi |θ) = g T (x̃), θ h(x̃)
Demostración. (Caso discreto:)
n
Y n
Y
L(x̃|θ) = pX (xi |θ) = P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ) =
i=1 i=1
Pθ (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(x̃)g(T (x̃, θ))

Veamos el recı́proco, supongamos que P (T = t) > 0.


P (X1 = x1 , . . . , Xn = xn , T = t)
P (X1 = x1 , . . . , Xn = xn |T = t) =
P (T = t)
(
0 si t 6= T (x̃)
= P (X1 =x1 ,...,Xn =xn )
P (T =t) si t = T (x̃)

Para el caso en que t = T (x̃)


P (X1 = x1 , . . . , Xn = xn ) g(T (x̃))h(x̃)
P (X1 = x1 , . . . , Xn = xn |T = t) = P =P .
ỹ:T (ỹ)=t P (X1 = y1 , . . . , Xn = yn ) ỹ:T (ỹ)=t g(T (ỹ), θ)h(ỹ)

28
Capı́tulo 4. Evaluación de Estimadores

Observemos que, dado que estamos en el caso T (x̃) = t y g(T (x̃), θ) = g(t, θ) = g(T (ỹ), θ). Por
lo tanto
h(x̃)
P (X1 = x1 , . . . , Xn = xn |T = t) = P .
ỹ:T (ỹ)=t h(ỹ)

Que no depende de θ.
Ejemplo
P 4.20. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ). Estimamos µ y σ 2 , consideremos T (x̃) =
2
P
( xi , xi ) = (T1 , T2 ).
n  
Y 1 1
L(x̃|(µ, σ)) = √ exp − 2 (xi − µ)2
i=1
2πσ σ
( n
)
1 1 X 2
= exp − 2 (xi − µ)
(2π)n/2 σ n 2σ i=1
( n n
)
2 −n
X X
2 2
= (2πσ ) 2 exp xi − 2µ xi + nµ
i=1 i=1
 
−n 1
σ −n exp − 2 T2 − 2µT1 + nµ2 .

= (2π) 2

Por lo tanto si definimos
 
n 1
h(x̃) = (2π)− 2 y g T (x̃), (µ, σ 2 ) = σ −n exp − 2 T2 − 2µT1 + nµ2 .
 

De donde T es suficiente.
Observación 4.21. Siempre existe un estimador suficiente, basta tomar T (x̃) = x̃ y h constante.
Esto significa que tener toda la muestra es suficiente.
Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).
 Q 1

b−a si a < xi < b
L x̃|(a, b) =
0 si no
(b − a)n si

a < xi < b
=
0 si no
(b − a)n si

a < x1:i ; xn:n < b
=
0 si no
(b − a)n si

a < T1 ; T2 < b
=
0 si no

Luego T (x̃) = (T1 , T2 ) es suficiente.


Observación 4.23. Si T es fuciente, el E.M.V. es función de un estimador suficiente, ya que
en este caso L(x̃|θ) = g(T (x̃), θ)h(x̃), y, al maximizar en θ como h no varı́a, podemos maximizar
solamente en g(T (x̃), θ)
Definición 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para
todo T 0 estimador suficiente, T es función de T 0 .
Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ), si T es un estimador que cumple:
L(x̃|θ)
no depende de θ ⇔ T (x̃) = T (ỹ)
L(ỹ|θ)
entonces T es suficiente minimal.

29
Capı́tulo 4. Evaluación de Estimadores

Demostración. Veamos primero que T es suficiente, podemos escribir, tomando ỹ tal que T (ỹ) =
T (x̃)
L(x̃|θ) 
L(x̃|θ) = L(ỹ|θ) = h(x̃)L(ỹ|θ) = h(x̃)g T (x̃), θ) .
L(ỹ|θ)
Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la función de
verosimilitud.
Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(x̃|θ) = g 0 T 0 (x̃), θ h0 (x̃).


Sea x̃ y ỹ, T 0 (x̃) = T 0 (ỹ) entonces

L(x̃|θ) g 0 (T 0 (x̃), θ)h0 (x̃) h0 (x̃)


= 0 0 = ,
L(ỹ|θ) g (T (ỹ), θ)h0 (ỹ) h0 (ỹ)

que no depende de θ, entonces, usando el directo de nuestra hipótesis tenemos que T (x̃) = T (ỹ).
Hemos demostrado que cada ves que T 0 (x̃) = T 0 (ỹ) entonces T (x̃) = T (ỹ). Veamos que esto implica
que T = f (T 0 ). Definimos para z ∈
/ Im(T 0 ) f (z) cualquier cosa, y para z ∈ Im(T 0 ) entonces
0
z = T (x) y f (z) := T (x).
Definición 4.26.  Estadı́stico Completo: T se dice completo si toda vez que tenga una función
g tal que Eθ g(T ) = 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s.

Ejemplo 4.27. Sea X1 , . . . , Xn M.A.S. de X v U (0, θ) veamos que θ̂ = xn:n es completo.


+∞ θ θ
tn−1 1
Z Z Z
n
E(g(T )) = g(t)fT (t)dt = g(t)n n−1 dt = n tn−1 g(t)dt,
−∞ 0 θ θ θ 0

luego E(g(T )) = 0 si y solo si 0 tn−1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es
derivable c.s., θn−1 g(θ) = 0 entonces g(θ) = 0 para todo θ.
Definición 4.28. función de Pérdida: Sea (H) y L : (H) × (H) −→ R que verifica
i) L(u, v) = L(v, u) para todo u, v ∈ (H).
ii) L(u, v) = 0 si y solo si u = v.
iii) L es convexa, es decir,

para todo p, q ∈ (H) × (H) L(λp + (1 − λ)q) ≤ λL(p) + (1 − λ)L(q).

se denomina función de pérdida.


Observación 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo
Definición 4.30. función de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) y θ ∈ (H) des-
conocida, dado T (X1 , . . . , Xn ) estimador de θ y L una función de perdida, definimos la función de
riesgo 
R(θ, T ) = E L(θ, T ) .
Definición 4.31. Estimador de riesgo mı́nimo, uniformemente entre los insesgados: T
es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que

R(θ, T ) ≤ R(θ, T 0 ) ∀ θ ∈ (H).

Teorema 4.32. Rao-Blackwell: Si σ(X1 , . . . , Xn ) es insesgado y T (X1 , . . . , Xn ) es suficiente,


entonces 
η(X1 , . . . , Xn ) = E σ(X1 , . . . , Xn )|T (X1 , . . . , Xn ) ,
entonces
R(θ, η) ≤ R(θ, σ).

30
Capı́tulo 4. Evaluación de Estimadores

Demostración.
  
R(θ, η) = E L(θ, η) = E L(θ, E(σ|T )) = E L(E(θ, σ|T ))
 
≤ E E(L(θ, σ)|T ) = E L(θ, σ) .
Donde hemos usado la desigualdad de Jensen.
Observación 4.33. En la demostración anterior, la hipótesis de que T es suficiente es necesaria
para que η sea un estimador de θ.
Observación 4.34. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ.
 
Lema 4.35. Sea T suficiente, y ψ T (X  1 , . . . , Xn ) tal que si
 f T (X1 , . . . , Xn ) es una función de
T insesgada entonces ψ T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces ψ(T ) es uniformemente
de mı́nimo riesgo entre los insesgados.
Demostración. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), sea
η = E(σ|T ) es una función de T y es insesgado entonces por hipótesis f (T ) = ψ(T ) c.s.. Entonces
η = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ es
uniformemente de mı́nimo riesgo.
Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) ψ(T (X1 , . . . , Xn )) son insesgados entonces en-
tonces
f (T (X1 , . . . , Xn )) = ψ(T (X1 , . . . , Xn )) c.s.
Demostración. E(f (T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) =
f (T ) − ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s..
Teorema 4.37.
1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniforme-
mente entre los insesgados.
2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre
los insesgados.
Demostración.
1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f (T ) es insesgado, por el Lema
4.36 f (T ) = ψ(T ) c.s., entonces, por el Lema 4.35 ψ(T ) minimiza el riesgo uniformemente
entre los insesgados.
2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior.

Ejemplo 4.38. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Entonces p̂ = Xn es uniformemente de


mı́nimo riesgo entre los insesgados. Como ya vimos p̂ es insesgado y suficiente como ya vimos, veamos
que es completo.
X
0 = E(g(p̂)) = g(x)P (X1 = x1 , . . . , Xn = xn )
x1 ,...,xn ∈{0,1}
n  
X X k
= g pk (1 − p)n−k
n
k=0 x1 +···+xn =k
n  
X k
= g k
p (1 − p)n−k Ank = 0 ∀p
n
k=0
X  k   p k k!
= (1 − p)n g .
n 1−p (n − k)!

31
Capı́tulo 4. Evaluación de Estimadores

Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitas
raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.

32
Capı́tulo 5

Estimacin por intervalos de


confianza

Definición 5.1. Intervalo de confianza: Dada X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ desco-


nocido, θ ∈ R. Un intervalo de confianza al nivel 1 − α con α ∈ (0, 1) es
 
I = L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) ,

donde L y U son estimadores y P (θ ∈ I) = 1 − α.


Ejemplo 5.2. Construccin de intervalos de confianza: Sea X v N (µ, σ 2 ) con σ 2 conocido,
tomamos θ = µ. Buscamos un intervalo de la forma
 
X n − k, X n + k .

Debemos hallar k tal que P (µ ∈ I) = 1 − α, entonces

1 − α =P (X n − k ≤ µ ≤ X n + k)
=P (µ − k ≤ X n ≤ µ + k)
   
µ+k−µ µ−k−µ
=Φ √ −Φ √
σ/ n σ/ n
√   √ 
nk − nk
=Φ −Φ
σ σ
√ 
nk
=2Φ − 1,
σ

donde en la tercer igualdad hemos usado que X v N (µ, σ 2 /µ) y en la ltima la paridad de Φ. Por lo
tanto obtuvimos que
√  √
nk nk
1 − α/2 = Φ entonces = φ−1 (1 − α/2),
σ σ
y por lo tanto tomamos
σ
k = √ Φ−1 (1 − α/2).
n
Notacin: Anotaremos Zp = Φ−1 (p), con esta notacin el intervalo de confianza del ejemplo
anterior es  σ σ 
X n − √ Z1−α/2 , X n + √ Z1−α/2 .
n n

33
Capı́tulo 5. Estimacin por intervalos de confianza

Ejemplo 5.3. Se X v N (µ, σ 2 ) con σ 2 desconocido, y θ = µ, buscamos un intervalo de la forma


 
X n − kSn , X n + kSn .
√
n|X n − µ| √


P (µ ∈ I) = P |X n − µ| ≤ kSn = P ≤ nk .
Sn
Recordemos que √
n(X n − µ)
v Tn−1 ,
Sn
entonces
√ √ 
P (µ ∈ I) =P − nk ≤ T ≤ nk
√ √
=FT ( nk) − FT (− nk)

=2FT ( nk) − 1 = 1 − α,

donde hemos usado la simetra de F . Despejando obtenemos


FT−1 (1 − α/2) t1−α/2 (n − 1)
k= √ = √ ,
n n
donde usamos la notacin FT−1 (p) = tp (n − 1) donde n − 1 son los grados de libertad. Por lo tanto el
intervalo de confianza para µ al nivel 1 − α es
 
Sn Sn
I = X n − √ t1−α/2 (n − 1), X n + √ t1−α/2 (n − 1) .
n n
c.s.
Obervemos que como Sn −→ σ entonces

n(X n − µ) d
Tn = −→ N (0, 1), tp (n − 1) → Zp .
Sn
Ejemplo 5.4. Si X ∈ L2 cualquiera con E(X) = µ y V ar(X) = σ 2 , si n es grande, en vista de las
observaciones anteriores, un intervalo de confianza aproximado, para µ al nivel 1 − α es
 
Sn Sn
X n − √ Z1−α/2 , X n + √ Z1−α/2 .
n n
Ejemplo 5.5. Si X v N (µ, σ 2 ) con µ desconocido, tomamos θ = σ 2 , busquemos a y b tal que
P aSn2 ≤ σ 2 ≤ bSn2 = 1 − α,


Recordemos que
Sn2
(n − 1) v χ2n−1 ,
σ2
entonces
(n − 1)Sn2
     
(n − 1) n−1 n−1 n−1
P (σ 2 /b ≤ Sn2 ≤ σ 2 /a) = P ≤ 2
≤ =F −F ,
b σ a a b
Basta elegir a tal que F ((n − 1)/a) = 1α/2 y b tal que F ((n − 1)/b) = α/2, de donde
n−1 n−1
a= b= ,
χ21−α/2 (n − 1) χ2α/2 (n
− 1)

donde hemos usado la notacin Fχ−1 2


2 (p) = χp (n − 1), para la distribucin χ
2
con (n − 1) grados de
libertad. Luego el intervalo es
" #
n−1 n − 1
I= S2 , .
χ21−α/2 (n − 1) n χ2α/2 (n − 1)

34
Capı́tulo 5. Estimacin por intervalos de confianza

Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos θ = p, si aproximamos usando el T.C.L. es
facil ver, como σ 2 = p(1 − p) y Sn = X n (1 − Xn ), nos queda el intervalo
 q q 
Xn (1 − Xn ) Xn (1 − Xn )
I = Xn − √ Z1−α/2 , Xn + √ Z1−α/2 
n n

Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuando
σ 2 = f (µ). Consideremos X1 , . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C 1 . Si g 0 (µ) 6= 0, veamos
√ d
que n(g(Xn − g(µ)) −→ N (0, (σg 0 (µ))2 ) :
√ √ √
n(g(Xn − g(µ)) = ng 0 (Cn )(Xn − µ) = g 0 (Cn ) n(Xn − µ),
c.s. √ d
con Cn ∈ [Xn , µ] o Cn ∈ [µ, Xn ], sabemos que g 0 (Cn ) −→ g 0 (µ) y n(Xn − µ) −→ N (0, σ 2 ), por lo
tanto usando el lema de Slutsky

35
Capı́tulo 6

Pruebas de hipótesis

Supongamos que queremos saber si una moneda está balanceada o no. Se tira 100 veces y
obtenemos 54 caras, debemos tomar una decisión entre

H0 : p = 1/2 donde p = P (cara)


H1 : p 6= 1/2.

Definición 6.1. Test de hipótesis: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) con θ desconocido, un


test de hipótesis es decidir entre 2 hipótesis;

H0 : θ ∈ A hipótesis nula
H1 : θ ∈ B hipótesis alternativa

donde suponemos que A, B ⊂ (H) y A ∩ B = ∅.


Definición 6.2. Región Crı́tica: La región critica, que anotaremos como RC ⊂ Rn con n el
tamaño de la muestra, es la zona de rechazo de H0 .
Definición 6.3. Regla de decisión: Si (x1 , . . . , xn ) ∈ RC entonces rechazo H0 , en caso contrario
si (x1 , . . . , xn ) ∈
/ RC no rechazo H0 (acepto H0 ).
Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar

RC = (x1 , . . . , xn ) ∈ {0, 1}n ⊂ Rn : |Xn − 1/2| ≥ k




Definición 6.5. Errores de tipo 1 y 2:

* error tipo 1: rechazar H0 siendo cierta


* error tipo 2: aceptar H0 siendo falsa, H1 es cierta.
Definición 6.6. Significación de una prueba:

α = sup Pθ (X1 , . . . , Xn ) ∈ RC = P ( error tipo 1 ).
θ∈A

Definición 6.7. Probabilidad del error tipo 2: definimos, para θ ∈ B



β(θ) = PH1 (X1 , . . . , Xn ) ∈
/ RC = P ( error tipo 2 ).

Definición 6.8. Potencia de la prueba: se define como



π(θ) = P (X1 , . . . , Xn ) ∈ RC ∀θ

36
Capı́tulo 6. Pruebas de hipótesis

Observación 6.9. π(θ) = 1−β(θ) si θ ∈ B y π(θ) ≤ α si θ ∈ A. En particualr si A es θ0 π(θ0 ) = α.


Ejemplo 6.10. Para el caso de la moneda, si tomamos α = 0,05 es decir el 5 %, entonces σ 2 = 1/4.
α = P1/2 (X1 , . . . , Xn ) ∈ [1/2 − k, 1/2 + k]c


= P1/2 Xn ∈ [1/2 − k, 1/2 + k]c




= P 20(Xn − 1/2) ∈ [−20k, 20k]c




= 1 − Φ(20k) + Φ(−20k) = 2 − 2Φ(20k)



donde hemos usado la aproximación de 100 σ (Xn − 1/2) por una N (0, 1). Obtenemos entonces 20k =
Z0,975 de donde k = 0,098. Tenemos entonces la región crı́tica
RC = (x1 , . . . , xn ) ∈ Rn : |xn − 1/2| ≥ 0,098 .


Como |0, 54 − 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %.


Observación 6.11. La decisión depende fuertemente del nivel al que trabajo. Concretamente si
elegimos α = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0 siempre acpeto H0 .
Calculemos β(p) con p ∈ H1 = {1/2}c con
β(p) = Pp (RC c )
= Pp (|Xn − 1/2| < 0,098)
= P (0,402 < Xn < 0,598)
   
∼ 0,598 − p  0,402 − p 
= Φ √ − Φ √
p(1−p) p(1−p)
100 100
 
Donde hemos usado que Xn v N p, p(1−p)
100 .

Observación 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el error
de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observación 6.13. En general, uno define la región crı́tica a partir de un estimador insesgado
RC = {|θ̂ − θ0 | ≥ k}.
Observación 6.14. Al permitir variar el tamaño de la muestra uno puede fijar los errores α y β y
hallar un n que verifique las igualdades.
Observación 6.15. Como el error de tipo 1 es más grave, al rechazar H0 uno debe estar seguro
(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia empı́rica
para decir que H0 es falso. No es que se acepte H0 .

6.1. Región Crı́tica Óptima, Teorema de Neyman-Pearson


Teorema 6.16. Neyman-Pearson: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) absolutamente con-
tinua, y el test
H0 : θ = θ0
H1 : θ = θ1
( n
)
Y f (xi , θ1 )
Sea Sk = ≥ k , si k es tal que
i=1
f (xi |θ0 )

PH0 (Sk ) = PH0 (X1 , . . . , Xn ) ∈ Sk = α,
entonces Sk es entre todas las RC de nivel α la que tiene menor β (máxima potencia).

37
Capı́tulo 6. Pruebas de hipótesis

Demostración. Sea β = Pθ1 (Skc ) y β0 = Pθ1 (S0c ) donde S0 es otra RC de nivel α, entonces

β − β0 = Pθ1 (Skc ) − Pθ1 (S0c )


Z Y n Z n
Y
= f (xi |θ1 )dx1 . . . dxn − f (xi |θ1 )dx1 . . . dxn
Skc i=1 S0c i=1
Z n
Y Z n
Y
= f (xi |θ1 )dx1 . . . dxn − f (xi |θ1 )dx1 . . . dxn
Skc \S0c i=1 S0c ∩Sk i=1
"Z n Z n
#
Y Y
≤k f (xi |θ0 )dx1 . . . dxn − f (xi |θ0 )dx1 . . . dxn
Skc \S0c i=1 S0c ∩Sk i=1
"Z n Z n
#
Y Y
=k f (xi |θ0 )dx1 . . . dxn − f (xi |θ0 )dx1 . . . dxn
Skc i=1 S0c i=1

k Pθ0 (Skc ) − Pθ0 (S0c ) = k[1 − α − (1 − α)] = 0.


 
=

Luego β ≤ β0 , como β0 es arbitrario β es mı́nimo.


Ejemplo 6.17. Hallar la forma de la RC óptima para el caso X v N (µ, 1) y el problema

H0 : µ = µ0
H1 : µ = µ1

n n
Y f (xi |µ1 ) Y 1 2
+ 12 (xi −µ0 )2 1
Pn 2 2 1
Pn
xi +n(µ21 −µ20 )
= e− 2 (xi −µ1 ) = e− 2 i=1 (xi −µ) +(xi −µ0 ) = e− 2 (2µ0 −2µ1 ) i=1

i=1
f (xi |µ0 ) i=1

n n
Y f (xi |µ0 ) X
≥ k̂ ⇔ (µ1 − µ0 ) xi + n(µ21 − µ20 ) ≥ k̂
i=1
f (xi |µ1 ) i=1

⇔ n(µ1 − µ0 )xn + n(µ21 − µ20 ) ≥ k̂



⇔ (µ1 − µ0 )xn ≥ − (µ21 − µ20 ) = k̃.
n
n o

Por lo tanto la región crı́tica es: Si µ0 > µ1 RC = (x1 , . . . , xn ) ∈ Rn : xn ≤ µ0 −µ1
n o

y si µ1 > µ0 la región crı́tica es RC = (x1 , . . . , xn ) ∈ Rn : xn ≥ µ0 −µ 1

Ejemplo 6.18. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y el problema

H0 : µ = µ0
H1 : µ = µ1

con µ0 < µ1 . Vamos a hallar la RC óptima. Como es óptima, del ejemplo anterior sabemos que
tiene la forma {xn ≥ k}, vamos a hallar k tal que P (RC) = α.


 
Xn − µ0
PH0 (Xn ≥ k) = 1 − PH0 (Xn ≤ k) = 1 − PH0 √ ≤ n(k − µ0 ) =
1/ n
√ 
1−Φ n(k − µ0 ) = α.
√ Z1−α
Luego si despejamos obtenemos n(k − µ0 ) = Z1−α entonces k = µ0 + √ .
n

38
Capı́tulo 6. Pruebas de hipótesis

Observación 6.19. Si fuese

H0 : µ = µ0
H1 : µ > µ1

Resulta una RC óptima de la misma forma (observar que el hecho de que H1 : µ = µ1 se usa sólo
cuando µ1 − µ > 0). En este caso decimos que es una RC uniformemente óptima o uniformemente
de máxima potencia.
Observación 6.20. Si fuese

H0 : µ ≤ µ0
H1 : µ > µ1

Resulta la misma region crı́tica que en el caso anterior. Observemos ademas que se calcula α =
sup PH0 (Xn ≥ k) la función Pµ∈H0 (Xn ≥ k) crece con µ y el supremo es en µ0 .
Corolario 6.21. Corolario de Neyman-Pearson, en las hipótesis del teorema, α + β ≤ 1
Demostración.
Z n
Y Z n
Y
c
β = PH1 (S ) = f (xi |θ1 )dx1 . . . dxn ≤ k f (xi |θ0 )dx1 . . . dxn =
S c i=1 S c i=1
n
Z Y

k 1− f (xi |θ1 )dx1 . . . dxn = k(1 − α),
S i=1

si k ≤ 1 entonces β ≤ 1 − α de donde α + β ≤ 1,
si k ≥ 1
n
Z Y n
Z Y
1 − β = PH1 (S) = f (xi |θ1 )dx1 . . . dxn ≥ k f (xi |θ0 )dx1 . . . dxn = kα,
S i=1 S i=1

como k ≥ 1 entonces 1 − β ≥ kα ≥ α de donde α + β ≤ 1.


Teorema 6.22. Consideremos X1 , . . . , Xn una M.A.S. de X v FX (x|θ) absolutamente continua, y
la prueba

H0 : µ = µ0
H1 : µ = µ1
n
!
Y f (Xi |θ1 )
y k = kn es tal que PH0 ≥ kn = α entonces βn → 0.
i=1
f (Xi |θ0 )
n
! n  
Y f (Xi |θ1 ) X f (Xi |θ1 )
Demostración. log = log y por la L.F.G.N.
i=1
f (Xi |θ0 ) i=1
f (Xxi |θ0 )

n
!   
1 Y f (Xi |θ1 ) c.s. f (X|θ1 )
log −→E log
n i=1
f (Xi |θ0 ) f (X|θ0 )
  
f (X|θ1 )
< log E
f (X|θ0 )
Z 
f (x|θ1 )
= log f (x|θ0 )dx = log(1) = 0.
f (x|θ0 )

39
Capı́tulo 6. Pruebas de hipótesis

Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente cóncava), y
en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0 . Tenemos entonces que
n  
X f (Xi |θ1 ) c.s.
log −→ −∞.
i=1
f (Xi |θ0 )

Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0
n   !
X f (Xi |θ1 )
P log < −m ≥ 1 − ε = 1 − α.
i=1
f (Xi |θ0 )

Llamemos ( )
n
Y f (Xi |θ1 )
Sn = ≥ kn
i=1
f (Xi |θ)
y ( )
n  
X f (Xi |θ)
An,m log < −m .
i=1
f (Xi |θ)
Si tomamos ω ∈ An,m ∩ Sn entonces
n  
X f (Xi (ω)|θ1 )
log(Kn ) ≤ log < −m,
i=1
f (Xi (ω)|θ0 )

luego, tenemos que ∀ m ∈ N, ∃n0 tal que ∀n ≥ n0 log(kn ) < −m de donde kn → 0.


Observemos que Sn ∩ ARn,mQ6= ∅ ya que P (SnR) +QP (An,m ) > α + 1 − α > 1, luego, se intersectan.
c
Como βn = PH1 (Snc ) = S c f (xi |θ)dx ≤ kn n f (xi |θ)dx → 0.
n

Corolario 6.23. Consideremos el caso particular

H0 : θ = θ0
H1 : θ = θ1
nQ o
n f (xi |θ1 )
Sea Sn = i=1 f (xi |θ0 ) ≥ 1 entonces αn + βn → 0
 
Pn i |θ1 ) P
Demostración. Si H0 es cierto entonces i=1 log ff (X (Xi |θ0 ) −→ −∞, de donde αn = PH0 (Sn ) =
P   
n f (Xi |θ1 ) n
PH 0 i=1 log f (Xi |θ0 ) ≥ 0 −→ 0.
 
Pn (Xi |θ0 ) P
Si H1 es cierto entonces i=1 log ff (X i |θ1 )
−→ −∞.

n   !
X f (Xi |θ1 )
β n = PH 1 log ≤0 −→ 0.
i=1
f (Xi |θ0 )

6.2. Familias con cociente de verosimilitud monótono


Definición 6.24. Familia con C.V.M.: Una familia de densidades f (·|θ) con θ ∈ (H) ⊂ R tiene
C.V.M. si Qn
L(x̃|θ) i=1 f (xi |θ)

0
= Qn 0
= g T (x̃) ,
L(x̃|θ ) i=1 f (xi |θ )
donde g : R −→ R es estrictamente creciente, θ > θ0 , y T = Tn es un estimador. Observemos que g
depende de n de θ y de θ0

40
Capı́tulo 6. Pruebas de hipótesis

Ejemplo 6.25. f (·|θ) es una familia exponencial (para θ ∈ (H) ⊂ R) si


n
Y
f (xi |θ) = Cn eQ(θ)t(x̃) h(x̃) con Cn (θ) > 0,
i=1

si Q es estrictamente creciente la familia tiene C.V.M.:

L(x̃|θ) Cn (θ) eQ(θ)t(x̃) h(x̃) Cn (θ) t(x̃) Q(θ)−Q(θ0 )



= = e = g(t(x̃))
L(x̃|θ0 ) Cn (θ0 ) eQ(θ0 )t(x̃) h(x̃) Cn (θ0 )

(θ) s Q(θ)−Q(θ 0 )
con g(s) = CCnn(θ 0) e , luego, g es una función creciente de s.

Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (·|θ) perteneciente a una familia con
C.V.M, sea T (x̃) absolutamente continua y θ ∈ (H) ⊂ R, consideremos

H0 : θ ≤ θ 0
H1 : θ > θ 0

Si R = {x̃ ∈ Rn : T (x̃) ≥ k} donde k es tal que R sea R.C. de nivel α, entonces R es R.C.
uniformemente de máxima potencia.
Demostración. En el conjutno {θ : θ ≤ θ0 } ⊂ (H) defino αk (θ) = α(θ) = Pθ (R). Probaremos
que α es creciente y por lo tanto supθ∈H0 α(θ) = α(θ0 ), de donde el k de la hipótesis es tal que
Pθ0 (T (x̃) ≥ k) = α. Consideremos la prueba

H0 : θ = θ 0
H1 : θ = θ00

Con θ00 > θ0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la
región crı́tica óptima ( n )
Y f (xi |θ00 )
0)
≥ k = {T (x̃) ≥ g −1 (k 0 )},
0

i=1
f (x i |θ

en esta igualdad hemos usado que g es creciente, llamemos k 00 = g −1 (k 0 ). Para esta prueba α+β ≤ 1,
α = Pθ0 ({T (x̃ ≥ k)}) = α(θ0 ) y β = Pθ00 ({T (x̃) ≥ k 00 }c ) = 1 − Pθ00 ({T (x̃) ≥ k 00 }) = 1 − α(θ00 ).
Entonces α(θ0 ) + 1 − α(θ00 ) ≤ 1 y por lo tanto α(θ0 ) ≤ α(θ00 ). Como θ0 y θ00 son arbitrarios se deduce
que α creciente.
Veamos ahora que R es óptima, es decir, uniformemente de máxima potencia. Supongamos por
absurdo, que existe otra S RC de nivel α tal que existe θ̂ > θ0 y βS (θ̂) < βR (θ̂), sabemos que
supθ≤θ0 αS (θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS (θ0 ) ≤ α.
Consideremos la prueba

H0 : θ = θ 0
H1 : θ > θ 0 (6.1)

Sea S 0 = {T (x̃) ≥ k} con k 0 tal que αS 0 (θ0 ) = αS (θ0 ), (tal k 0 existe porque hemos supuesto que
T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por
el teorema de Neyman Person que S 0 es uniformemente de máxima potencia para la prueba 6.1.
Entonces βS 0 (θ) ≤ βS (θ) ∀θ ≥ θ0 . En particular βS 0 (θ̂) ≤ βS (θ̂). Como αS (θ0 ) ≤ α = αR (θˆ0 ) o
lo que es lo mismo Pθ0 (T (x̃) ≥ k 0 ) ≤ Pθ0 (T (x̃ ≥ k) obtenemos que k ≤ k 0 , pero esto contradice
βS 0 (θ̂) ≤ βS (θ̂) ya que esto es equivalente a que Pθ̂ ({T (x̃) ≥ k 0 }c ) < Pθ̂ ({T (x̃) ≥ k}c ) ya que esto
implica k ≥ k 0 .

41
Capı́tulo 6. Pruebas de hipótesis

6.3. Método de la razón de verosimilitud para RC:


Consideremos X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ ∈ (H) ⊂ Rk y la prueba
H0 : θ ∈ A ⊂ (H)
H1 : θ ∈
/A
Planteamos una RC de la forma
 
n supθ∈A L(x̃|θ)
R = x̃ ∈ R : ≤k .
supθ∈H L(x̃|θ)
Observemos que para hipótesis simples H0 : θ = θ0 y H1 : θ = θ1 se obtiene
n
Y
sup L(x̃|θ) = L(x̃|θ0 ) = f (xi |θ0 )
θ∈A i=1
y
 n
Y
 L(x̃|θ0 ) = f (xi |θ0 ) de donde R = ∅



sup L(x̃|θ) = i=1
n
θ∈(H)  Y
 L(x̃|θ1 ) =

 f (xi |θ1 )
i=1
Entonces, la RC de de la razón de verosimilitud queda
( n
)
n
Y f (xi |θ0 )
x̃ ∈ R : ≤k
i=1
f (xi |θ1 )
que es la RCO del teorema de Neyman Pearson.
Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y la prueba
H0 : µ = µ0
H1 : µ 6= µ0
Hallaremos la RC de la razon de verosimilitud. Tenemos que
sup L(x̃|µ) = L(x̃|x)
µ∈R
y ( )
 n n
1 1X 2 n 2
L(x̃|µ) = √ exp − x − µ exp{nµx}
2π 2 i=1 i 2
entonces
nµ2
0
L(x̃|θ0 ) e− 2 +nµ0 x nµ2
− 2 0 +nµ0 x− nx
2 n 2
= 2 = e 2 = e− 2 (µ0 −x)
L(x̃|x) −
e 2
nx
+nx2

si planteamos la región critica


L(x̃|θ0 ) n
≤ k ⇔ − (x − µ0 )2 ≤ L(k) = k 0 ⇔ |x − µ0 | ≥ k 00
L(x̃|x) 2
por lo tanto la región crı́tica es de la forma
RC = {x̃ ∈ Rn : |x − µ0 | ≥ k}
Proposición 6.28. Consideremos la prueba
H0 : θ ∈ A ⊂ (H)
H1 : θ ∈
/A
supθ∈A L(x̃|θ) supθ∈A g(T (x̃), θ)h(x̃) supθ∈A g(T (x̃), θ)
α(x̃) = = = = β(T (x̃))
supθ∈(H) L(x̃|θ) supθ∈(H) g(T (x̃), θ)h(x̃) supθ∈(H) g(T (x̃, θ))

42
Capı́tulo 6. Pruebas de hipótesis

6.4. Pruebas de Bondad de ajuste


Se tiene una M.A.S. X1 , . . . , Xn de X v FX desconocida. Dada F0 una distribución, (conocida
o no) se queire tomar una decisión acerca de si X distribuye como F0 o no, es decir,

H0 : FX = F0
H1 : FX 6= F0

6.4.1. Test de χ2 :
Consideremos la prueba

H 0 : FX = F0
H1 : FX 6= F0

Dado k ∈ N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai−1 , ai ], I1 = (−∞, a1 ] y Ik = (ak , +∞]


tal que Ii ∩ Ij = ∅ si i 6= j, y ∪ki=1 Ii = R. Si H0 es cierto P (X ∈ Ij ) = F0 (aj ) − F0 (aj−1 ) = F0 (Ij ),
c.s.
dada X1 , . . . , Xn M.A.S. de X definimos Fn∗ la distribución empı́rica, sabemos que Fn∗ (Ij ) −→
FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en
Pk
el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj − Ej )2 . Es razonable entonces construir
la RC = {T ≥ k}. P
(a −E )2 d
Si definimos Tn = j
Ej
j
, bajo la hipótesis H0 , se prueba que Tn −→ χ2k−1 . Luego si α =
PH0 (Tn ≥ k), se aproxima con la distribución de una χ2k−1 y se halla un k aproximado.

6.4.2. Test de Kolmogorov-Smirnov


Consideremos

H0 : FX = F0 completamente conocidaH1 ; FX 6= F0

tomemos RC = {supx∈R |Fn∗ (x) − F0 (x)| ≥ k}, por Gilvenco−Cantelli Fn∗ converge uniformemente
a F0 (x). Para conocer la distribución de supx∈R |Fn∗ (x) − F0 (x)| tneemos el siguiente teorema.
Teorema 6.29. Kolmogorov: Si Dn = supx∈R |Fn∗ (x) − F0 (x)| entonces, si F0 es continua

√ X 2 2
(−1)n−1 e−2n z

lı́m P nDn ≤ z = 1 − 2
n→+∞
n=1

Definición 6.30. Dada una prueba de hipótesis

H0 : θ ∈ A
H1 : θ ∈
/A

cuya región crı́tica sea RC = {T ≥ k} con T = T (X1 , . . . , Xn ) estimador de θ, el p − valor es



sup P T (X̃) ≥ T (x̃)
θ∈A

Ejemplo 6.31. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1), consideremos la prueba

H0 : µ = µ0 = 0
H1 : µ 6= µ0 = 0

Sabemos que RC = {|xn ≥ k} entonces T (X) = |Xn | el p − valor es


√ √ √ 
PH0 (|Xn ≥ |x) = 1 − PH0 (|Xn | ≤ |x|) = 1 − Φ( n|x|) + Φ(− n|x|) = 2 1 − Φ( n|x|)

43
Capı́tulo 6. Pruebas de hipótesis

Proposición 6.32. Si los supremos se realizan en un mismo θ0 ∈ A, α < p − valor ⇔ no rechazo


H0 al nivel α.

Demostración. Si α < p − valor entonces hallamos k tal que α = supθ∈A P ( T (X̃ ≥ k) ,
 
α = sup P T (X̃) ≥ k < sup P T (X̃ ≥ T (x̃)
θ∈A θ∈A
 
α = sup P T (X̃) ≥ k < Pθ0 P T (X̃) ≥ T (x̃)
θ0

de donde T (x̃) < k por lo tanto x̃ ∈


/ RC y no rechado H0 . El razonamiento es análogo si α >
p − valor.

Observación 6.33. La propiedad se cumple si H0 es simple (θ = θ0 ), o en el caso de concientes


de verosimilitud monótonos.

6.5. Análisis de Varianza, (ANOVA)


Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v
N (θi , σ 2 ) para todo i, j. Queremos testear si los θi son todos iguales o no. El supuesto de que σ 2
es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para
cada i ∈ {1, . . . , k} definimos
n
1 X
Yi = Yij ,
ni j=1
y
i n
1 X
Si2 = (Yij − Yij )2 .
ni − 1 j=1

Sabemos que

(ni − 1) 2
Yi v N (θi , σ 2 /ni ) Si v χ2ni −1
σ2
Observación 6.34. Si A = {a = (a1 , . . . , ak ) ∈ Rk :
P
ai = 0} entonces
X
θ1 = · · · = θk ⇔ ∀a ∈ A, ai θi = 0

Demostración. El directo es inmediato, veamos el recı́proco, tomemos a1 = 1, a2 = −1, a3 = · · · =


ak = 0 entonces θ1 − θ2 = 0 y ası́ sucesivamente θ1 = · · · = θk .
Pk
Observación 6.35. Si defino Sp2 = N 1−k i=1 (ni − 1)Sik con N =
P
ni . entonces

k
N − k 2 X (ni − 1) 2
Sp = Si v χ2N −k .
σ2 i=1
σ 2

Además !
k k Pk 2 2
i=1 ai σ
X X
ai Yi v N ai θi , .
i=1 i=1
ni

Se puede demostrar que Sp2 y


P
ai Yi son independientes, luego, si recordamos que si X v N (0, 1)
es independiente de χ2n entonces
X
p v tn
χ2n /n

44
Capı́tulo 6. Pruebas de hipótesis

obtenemos que
k
X X k
ai Yi − a i θi Xk
i=1 √
Pk
i=1 ai (Yi − θi )
σ 2
i=1 ai /ni i=1
q = qP v tN −k
(N −K) 2 k 2 /n
σ 2 S p /(N − k) Sp a
i=1 i i

Supongamos que a ∈ A fijo, y α ∈ (0, 1) tenemos


X
H0 : ai θi = 0
H1 : no H0

Consideremos la región crı́tica,


( P )
| ai Yi |
RC = pP >m ,
Sp ai /ni
P !
| ai Yi |
α = PH0 (RC) = PH0 pP >k ,
Sp ai /ni
como estamos bajo H0 si utilizamos la observación anterior

α = 1 − P (−m < T < m), con T v tN −k ,

y por lo tanto 1 − α/2 = F (m), k = t1−α/2 (N − k).


Nos planteamos ahora la siguiente prueba

H0 : θ 1 = · · · = θ k
H1 : noH0

y esto es si y solo si
X
H0 : ai θi = 0 ∀a ∈ A
H1 : noH0
P  
ai Yi 2
Tomo el estadı́stico Ta = pP 2 , resulta natural plantear la región crı́tica RC = sup Ta > k .
Sp ai /ni a∈A
DebemosP
entonces hallar la distribución de sup a∈A aT bajo la hipótesis H 0 cierto. Llamemos Ci = Yi
ni Ci
y Ci = N .
2 P ai √ 2
√ (Ci − C) ni
P
1 a i C i n
sup Ta2 =
i
sup P = sup P ,
a∈A Sp a∈A ai /ni a∈A ai /ni
P
donde hemos usado que ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz
P ai √ 2
√ (Ci − C) ni
P 2
ai /ni ni (Ci − C)2
P
ni X
sup P ≤ sup P = ni (Ci − C)2 .
a∈A ai /ni a∈A ai /ni

Obtuvimos
P una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci −C) es claro
que ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
Pk Pk
ni (Yi − Y )2 ni Yi
sup Ta2 = i=1
donde Y = i=1
,
a∈A Sp2 N

45
Capı́tulo 6. Pruebas de hipótesis

recordemos que
χ2n /n
v F (n, m),
χ2m /m
k
X
se puede demostrar que ni (Yi − Yi )2 v χ2k−1 y por lo tanto
i=1

σ 2 χ2k−1 χ2k−1 /(k − 1)


sup 2 2
> cte ⇔ v F (k − 1, N − k) ≥ cte/(k − 1).
a∈A σ χN −k /(N − k) χ2N −k /(N − k)

Planteamos
cte 
α = PH0 (RC) = 1 − PH0 F (k − 1, N − k) ≤ entonces cte = F1−α (k − 1, N − k)(k − 1).
k−1
Finalmente, obtuvimos la región crı́tica
( k
)
1 X 2
RC = ni (Yi − Yi ) ≥ F1−α (k − 1, N − k)(k − 1) .
Sp i=1

46
Capı́tulo 7

Modelos Lineales

7.1. Variable Normal Multivariada


Definición 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el vector de medias µ =
(µ1 , . . . , µn ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es
 
V ar(X1 ) cov(X1 X2 ) . . . cov(X1 Xn )
 cov(X2 X1 ) V ar(X2 ) 
Σn×n = 
 
.. .. .. 
 . . . 
cov(Xn X1 ) ... V ar(Xn )

Anotamos µ = E(X) y V ar(X) = σn×n .

Observación 7.2. Veamos algunas propiedades

1) Si A ∈ Mk×n es constante entonces E(AX) = AE(X).


2) V ar(AX) = AΣn×n At .
3) Si X ∈ Rn es un vector aleatorio A es una matriz k × n y b un vector k × 1 constante entonces

E(AX + b) = AE(X) + b y V ar(AX + b) = AΣX At .

4) Si X es un vector aleatorio en Rn , σX es semidefinida positiva.


Demostración.

2) Es inmediato a partir de observar que V ar(X) = E (X − E(X))(X − E(X))t .

que para todo λ = (λ1 , . . . , λn ) ∈ Rn entonces λΣλt ≥ 0, y esto se sigue de


4) Tenemos que ver P
t
que λΣλ = V ar( λi Xi ).

Definición 7.3. Normal tı́pica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribución
normal tı́pica en Rn si las Ui v N (0, 1) y son independientes.
Observación 7.4. La densidad conjunta de U es
1 2
e− 2 kxk
fU (x) = n .
(2π) 2

47
Capı́tulo 7. Modelos Lineales

Definición 7.5. Normal multivariada Decimos que X tiene distribución normal multivariada si
existe una matris n × k C y un vector µ n × 1 tal que X = CU + µ.
Observación 7.6. Observemos que si X tiene distribución normal multivariada entonces E(X) = µ
y ΣX = CC t
Proposición 7.7. Veamos algunas propiedades de la normal multivariada
1) Si Cn×n es invertible, X es absolutamente coninua y
1 t −1
e− 2 (x−µ) Σ (x−µ)
fX (x) = Σ = CC t .
(2π)n/2 | det Σ|1/2

Demostración. X = CU + µ = g(U ), g : Rn −→ Rn es invertible ya que C lo es.


1 1
fX (x) = fg(U ) (x) = fU ((g −1 (x)) = fU (C −1 (x − µ))
| det Jg (g −1 (x))| | det C|
1 −1 t −1
e− 2 (x−µ)(C ) C (x−µ)
=
(2π)n/2 | det Σ|1/2

2) La distribución normal tı́pica es invariante bajo tranformaciones ortogonales. De hecho es


la única distribución que depende solamente de la norma, y que es invariante bajo trans-
formaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo
transformaciones ortogonales se sigue de la definición y de la propiedad anterior.
3) Si X es normal multivariada, entonces AX + b tambien lo es, con Am×n y bm×1 constantes.
4) Si X = CU + µ y C es sobreyectiva entonces X es absolutamente continua.
Definición 7.8. Normal multivariada degenerada: Si X = CU + µ con U normal tı́pica,
decimos que es degenerada si C no es sobreyectiva
Observación 7.9. Si X es degenerada entonces no es absolutamente conitnua.
Demostración. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre
si y solo si det(CC t ) = det(Σ) = 0, si det(Σ) = 0 entonces tΣtt = V ar(tX) = 0 entonces tX es c.s.
constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al
integrarla en S obtendrı́amos que deberı́a dar 1 porque X esta contenida ahi, pero 0 porque S tiene
medida nula, absurdo.
Observación 7.10. Si X v N (µ, Σ) cualquier subvector de X tambien es normal multivariado.
Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A
adecuadamente.
Observación 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (µ, Σ) entonces si cov(Xi , Yj ) = 0 ∀i, j enont-
ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.
Demostración. Si Σ es invertible, entonces
Σ−1
 
0
Σ−1 = X
0 Σ−1
Y

y es fácil ver que fX,Y (x) = gX (x)gY (y).


Si Σ no es invertible, y ΣY si, entonces (X1 , . . . , Xk ) ∈ S, variedad lineal de dimensión α − k,
supongamos que S esta generado por X1 , . . . , Xα entonces
(X1 , . . . , Xα , Y1 , . . . , Ym ) está en las hipótesis anteriores y por lo tanto son independientes, de donde
(X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que ΣY tampoco es invertible es análogo.

48
Capı́tulo 7. Modelos Lineales

7.2. Modelos Lineales


Se desea estimar Y = g(X1 , . . . , Xk ), se observan medidas de las variables X1 , . . . , Xk y se desea
estimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entonces
g(x̃) = g(x̃, θ) = θ1 X1 + · · · + θk Xk , θ = (θ1 , . . . , θk ). Para estimar g estimamos θ. Se plantea
entonces      
Y1 X11 X12 . . . X1k θ1
 ..   . .. ..   .. 
 .  =  .. . .   . 
Yn Xn1 Xn2 ... Xnk θk
Se observan n muestras de Y ,
 
X11 X12 ... X1k
 .. .. ..
X= . ,

. .
Xn1 Xn2 ... Xnk

es la matriz de diseño (constante y conocida).

En el modelo lineal planteamos Y = Xθ + e donde, X es una matriz de diseño, y


     
Y1 θ1 e1
Y =  ...  θ =  ...  e =  ...  ,
     

Yn θk en

e aleatorio (vector de errores).


Ejemplo 7.12. Análisis de varianza: Yij = θi + eij , en este caso la matrix X es un vector n × 1
con entradas todas iguales a 1.
Ejemplo 7.13. Modelo lineal simple: Y = α + βX + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y
θ = (α, β), y como matriz de diseño la matriz
 
1 X1
 1 X2 
X= . ,
 
 .. 
1 Xn

lo que se busca es entonces ajustar una recta a los datos.


Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma análoga al ejemplo anterior, si
Y = α + β1 x + β2 x2 + · · · + βk xk + e, planteamos la matriz de diseño

1 X1 X12 . . . X1k
 

X =  ... ..
.
 
.
1 Xn Xn2 ... Xnk

Observación 7.15. Observemos que, en vistas del ejemplo anterior, la función y = g(x1 , . . . , xn , θ)
es lineal en θ pero no en x̃ = (x1 , . . . , xn ), podrı́a ser x3 = cos(x1 ) etc.

7.3. Hipótesis del modelo


1) Rango(g(X)) = k.
2) Los errores tienen media 0, E(ei ) = 0 para todo i.

49
Capı́tulo 7. Modelos Lineales

3) Homocedasticidad: V ar(ei ) = σ 2 para todo i.


3’) cov(ei , ej ) = 0 para todo i 6= j.
4) el vector e de errores tiene distribución N (0, σ 2 I) en este caso se cumplen 2), 3) y 30 )

Para estimar θ ∈ Rk se utiliza el método de los mı́nimos cuadrados, consiste en hallar θ ∈ Rk


donde se realize
mı́n kY − Xθk.
θ∈Rk

Teorema 7.16. Bajo la hipótesis 1 se cumple que (X t X)−1 X t Y es el estimador por mı́nimos
cuadrados de θ.
Demostración. Sea θ̂ el valor donde se obtiene el mı́nimo, es decir

kY − X θ̂k2 ≤ kY − Xθk2 ∀θ ∈ Rk ,

si consideramos la multiplicación por X como una transformación lineal de Rk en Rn entonces X θ̂


es la proyección de Y sobre la imagen de X, entonces Y − X θ̂⊥Xθ para todo θ ∈ Rk , esto es
0 = (Xθ)t (Y − X θ̂), o lo que es lo mismo

θt X t Y = θt X t X θ̂ ∀θ ∈ Rk ,

luego las transformaciones lineales X t Y y X t Xθ son iguales, de donde θ̂ = (X t X)−1 X t Y .


Teorema 7.17.
a) Bajo las hipótesis 1) y 2), θ̂ es insesgado.
b) Bajo las hipótesis 1), 2) y 3), Σθ̂ = σ 2 (X t X)−1 .
Demostración.
a) E(θ̂) = (X t X)−1 X t E(Y ) = (X t X)−1 X t Xθ = θ.
b) Σθ̂ = Σ(X t X)−1 X t e+θ = (X t X)−1 X t (σ 2 Id)X(X t X)−1 , donde usamos que ΣAX+C = AσX At ,
finalmente se obtiene, Σθ̂ = σ 2 (X t X)−1 , ya que transponer e invertir conmutan.

Teorema 7.18. Bajo las hipótesis 1) a 4) el E.M.V. de θ coincide con el de mı́nimos cuadrados y
además el E.M.V. de σ es n1 kY − X θ̂k.
.
Teorema 7.19. Bajo las hipótesis 1) a 4) θ̂ es insesgado de mı́nima varianza, uniformemente.
Demostración. Veamos que es suficiente:
   
1 1
L(y1 , . . . , yn |θ, σ 2 ) = (2πσ 2 )−n/2 exp − 2 kY − X θ̂k2 exp − 2 kX θ̂ − Xθk2 = h(ỹ)g(θ̂, θ)
2σ 2σ

donde hemos usado que Y − X θ̂ es perpendicular a X θ̂ − Xθ. Es fácil ver que es completo y por lo
tanto minimiza el riesgo uniformemente entre los insesgados, considerando como función de riesgo
kk2 .
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribu-
ción Noramal), entonces θ̂ es uniformemente de minima varianza entre los estimadores lineales e
insesgados, (es decir los ˜
ˆ= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):

50
Capı́tulo 7. Modelos Lineales

nσ̂ 2 kY − X θ̂k2
a) 2
= v χ2(n−k)
σ σ2
nσ̂ 2 kY − X θ̂k
b) s2 = = es insesgado (de donde σ̂ 2 es asintóticamente insesgado).
n−k n−k
kX(θ̂ − θ)k2
c) v F (k, n − k)
ks2
λ1 (θ̂1 − θ1 ) + λ(θ̂2 − θ2 ) + · · · + λn (θ̂n − θn )
d) p v tn−k ∀λ ∈ Rn
s λt (X t X)−1 λ
Demostración. a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base
ortonormal
Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal
que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base canónica, B
es ortogonal y
Y = BZ de donde Z = B −1 Y = B t Y v N (B t Xθ, B t σ 2 IdB) y por lo tanto Z es normal
multivariado y ΣZ = σ 2 Id, además Zi son variables aleatorias independientes con distribución
N (γ1 , σ 2 ).
2 2
X n Xk Xn n
X
2
Zi2 ,

kY − X θ̂k = Z i vi − Z j vj = Z i vi =


i=1 j=1 k=1 i=k+1

n  2
kY − X θ̂k2 X Zi
=
σ2 σ
i=k+1

Zi
v N (γi , 1),
σ2
Pn demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ S
bastaria entones
y E(Y ) = i=1 γi vi .
!
2 1 σ2 kY − X θ̂k
b) E(s ) = E kY − X θ̂k) = E = σ2
n−k n−k σ2
2
Xk k
X Xk
2
c) kX θ̂ − Xθk = Z i vi − γ i vi = (Zi − γi )2 . entonces


i=1 i=1 i=1

P  Zi −γi 2
kX θ̂X − θk σ χ2k /k
= v 2 v F (k, n − k).
ks2 k 1 χn−k /(n − k)
σ 2 n−k kY − X θ̂k

d) λ1 (θ̂1 − θ1 ) + · · · + λn (θ̂n − θn ) = λt (θ̂ − θ), como θ̂ v N (θ, σ 2 (X t X)−1 ), entonces λt (θ̂ − θ) v


N (0, λt σ 2 (X t X)−1 λ),
t
t √ λ (θ̂−θ)
λ (θ̂ − θ) σ λ(X t X)−1 λ
p = s ,
s λt (X t X)−1 λ σ

por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
kY − Xθk2 depende de Zk+1 , . . . , Zn y X θ̂ de Zk+1 , . . . , Zk .

51
Capı́tulo 7. Modelos Lineales

7.4. Aplicación
Construcción de intervalos de confianza para λt θ. Consideremos

I = λt θ̂ − ks, λt θ̂ + ks ,
 

! !
λt (θ̂ − θ) λ t
(θ̂ − θ) k
1 − α = P (λt θ ∈ I) = P ≤k =P p t t ≤ p t t −1 ,

s s λ (X X)−1 λ λ (X X) λ
p
de donde, por la parte d) k = t1−α/2 (n − k) λt (X t X)−1 λ.
Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1 .

52

You might also like