Professional Documents
Culture Documents
Introducción a la Estadı́stica,
Los errores que puedan contener son total responsabilidad de quien las transcribe
Por sugerencias y correcciones: acholaquidis@cmat.edu.uy
Índice general
1. Introducción 3
1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . . 6
4. Evaluación de Estimadores 24
6. Pruebas de hipótesis 36
6.1. Región Crı́tica Óptima, Teorema de Neyman-Pearson . . . . . . . . . . . . . . . . . 37
6.2. Familias con cociente de verosimilitud monótono . . . . . . . . . . . . . . . . . . . . 40
6.3. Método de la razón de verosimilitud para RC: . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.1. Test de χ2 : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.5. Análisis de Varianza, (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7. Modelos Lineales 47
7.1. Variable Normal Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.2. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3. Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.4. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2
Capı́tulo 1
Introducción
Este capı́tulo pretende introducir los conceptos de esperanza condicional, ası́ como las nociones
de convergencia de variables aletorias, que serán necesarios para los siguientes capı́tulos. Se asumira
que el lector está familiarizado con los conceptos básicos de la probabilidad, correspondientes a un
primer curso introductorio, no ası́ los del análisis real.
para todo B perteneciente a la sigma álgebra de borel de R, que anotaremos de aquı́ en mas como
B(R)
Proposición 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z serán
variables aleatorias a valores reales y a, b números reales.
1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).
2) Si X ≥ 0 c.s. entonces E(X|Y ) ≥ 0 c.s..
3
Capı́tulo 1. Introducción
4) E(X|X) = X.
5) E(a|Y ) = a.
6) E(X|Y ) = E(X) si X e Y son independientes.
Recordemos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1],
y que si ϕ es C 2 , ϕ es convexa si y solo si ϕ00 (x) ≤ 0 ∀x.
Definición 1.5. Distribución Condicional: Dadas X, Y v.a., definimos
Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el
caso continuo.
4
Capı́tulo 1. Introducción
Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m ∈ N , defini-
mos la probabilidad condicional en el sentido usual, como
PX,Y (x, y)
PX|Y =y (x) = P (X = x|Y = y) = ∀x ∈ Rec(X), ∀y ∈ Rec(Y ),
PY (y)
entonces X
E(X|Y ) = xPX|Y (x),
x∈Rec(X)
1 X X
E xPX,Y (x, Y )IB (Y ) = α(y)PY (y)
PY (Y )
x∈Rec(X) y∈Rec(Y )∩B
X X
= xPX,Y (x, y)IB (Y )
y∈Rec(Y ) x∈Rec(X)
= E XIB (Y ) .
Demostración.
Z +∞ Z +∞ Z +∞
fX,Y (x, Y ) fXY (x, y)
E x dxIB (Y ) = x IB (y)dx fy (y)dy
−∞ fY (Y ) −∞ −∞ fy (y)
Z +∞ Z +∞
= xIB (y)fX,Y (x, y)dxdy
−∞ −∞
= E(XIB (Y )).
5
Capı́tulo 1. Introducción
Demostración.
FXY (x, y) = P (X ≤ x, Y ≤ y) = E I(−∞,x] (X)I(−∞,y] (Y )
= E E I(−∞,x] (X)I(−∞,y] (Y ) Y
Z +∞
= I(−∞,y] (t)FX|Y =t (x)dFY (t)
−∞
Z y
= FX|Y =t (x)dFY (t)
−∞
c.s.
2) Xn converge a X casi seguramente, y anotamos Xn −→ X si
P lı́m Xn = X = 1
n→+∞
1.12. Convergencia en distribución: Sean Xn v.a. en Ωn , An , Pn y X v.a. en
Definición
Ω, A, P , decimos que Xn converge en distribución a X y anotamos
d
Xn −→ X si lı́m FXn (x) = FX (x) ∀x punto de continuidad de FX
n→+∞
Proposición 1.13. Relación entre convergencias: Si {Xn } y X son v.a. sobre Ω, A, P enton-
ces
c.s. P d
Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X.
Observación 1.14. Todos los recı́procos de la proposición anterior son falsos.
Teorema 1.15. Ley Fuerte de los grandes números: Sean {Xn } v.a. sobre Ω, A, P y Xn
independientes idénticamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces
X1 + · · · + Xn c.s.
Xn = −→ µ
n
6
Capı́tulo 1. Introducción
Teorema 1.16. Teorema Central del Lı́mite: Sean {Xn } definidas en Ω, A, P v.a. i.i.d. en
L2 entonces
Xn − µ d
√ −→ N (0, 1).
σ/ n
Donde N (0, 1) denota la distribución normal con esperanza 0 y varianza 1.
2
Observación 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribución N (µ, σn ) donde
µ = E(Xn ) y σ 2 = V ar(Xn )
7
Capı́tulo 2
Definición 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos
X1 + . . . , Xn
1) Media Muestral: Xn = .
n
n
1 X
2) Varianza Muestra Sn2 = (Xi − Xn )2
n − 1 i=1
n
1 X 2
Observación 2.3. Sn2 = Xi2 − nXn
n − 1 i=1
c.s.
Observación 2.4. Si X ∈ L1 , Xn −→ µ = E(X) por L.F.G.N.
c.s.
Observación 2.5. Si X ∈ L2 , Sn2 −→ σ 2 = V ar(X).
Demostración. !
n
n 1X 2 2 c.s.
Sn2 = X − Xn → E(X 2 ) − µ2 = σ 2 ,
n−1 n i=1 i
8
Capı́tulo 2. Muestreo aleatorio simple
xk/2−1 e−x/2
fX (x) = I(0,+∞)
Γ(k/2)2k/2
E(χ2k ) = k
V ar(χ2k ) = 2k
que Xi2 v
Demostración. Por la propiedad 2) de las distribuciónes Gamma, es suficiente√demostrar √
2 2
χ1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X ≤ t) = P (|X| ≤ t) = P (− t ≤ X ≤
√
t) =
Z √t Z √t Z t
1 − 1 s2 1 − 1 s2 1 1 1
√
√ e 2 ds = 2 √ e 2 ds = √ e− 2 u √ ,
− t 2π 0 2π 2π 0 u
2
donde en la primera igualdad hemos usado √ que la función e−1/2x es par, y en la seguna hemos
2
hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que
1
e− 2 u
√ √ ,
2π u
√
es la densidad de χ21 pero esto se sigue de que Gamma(1/2) = π.
9
Capı́tulo 2. Muestreo aleatorio simple
se llama distribución T − Student con k grados de libertad. Decimos que la variable Tk tiene
distribución T − Student no central, con parámetro de no centralidad µ > 0 si
X +µ
Tk = p
Y /k
Γ( k+1
2 )
fT (t) = √ k+1
t2
kπΓ( k2 ) 1 + k
2
I(0,+∞) (v)
fg(x,y) (u, v) = fU,V (u, v) = fX,Y g −1 (u, v)
det Jg g −1 (u, v)
donde !
√1 √u √1
k2 v
p
y/k y det Jg (x, y) = k/y,
0 1
luego, sustituyendo
1 2 k v √
1 e− 2k u v v 2 −1 e− 2 v
fU,V (u, v) = √ I(0,+∞) (v) √ ,
2π Γ( k2 )2k/2 k
como T = U tenemos que
Z +∞ Z +∞
1 u2
“ ”
k−1 −v + 12
fU (u) = fU,V (u, v)dv = √ k v 2 e 2k
dv,
−∞ 2kπΓ(k/2)2 2 0
10
Capı́tulo 2. Muestreo aleatorio simple
1 n n−1
Xn − Xn−1 v N 0, 1 + = N 0, ⇒ (Xn − Xn−1 )2 v χ21 ,
n−1 n−1 n
y, como la suma de χ2 es tiene distribución χ2 con la suma de los grados tenemos que χ2n−2 +
χ21 v χ2n−1 .
11
Capı́tulo 2. Muestreo aleatorio simple
Es fácil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz
triangular superior con diagonal 1/n, 1, . . . , 1.
x2 = y2 + y1 , . . . , xn = yn + y1 de donde
!
X
−1
g (y) = − yi − y1 , y2 + y1 , . . . , yn + y1 ,
2
entonces
1
fY (y) = fX (g −1 (y)
| det Jg (g −1 (y))|
( !)
n 1 2
X X
2
X
2 2
= exp − y1 − 2y1 yi + ( yi ) + (yi + 2y1 yi + y1 )
(2π)n/2 2 2 2 2
( !)
n n n o 1 X X
= exp − y12 exp − ( yi ) 2 + yi2 .
(2π)n/2 2 2 2 2
12
Capı́tulo 2. Muestreo aleatorio simple
X1:n = mı́n{X1 , . . . , Xn }
X2:n = mı́n {X1 , . . . , Xn } \ {X1:n }
..
.
Xn:n = mı́n {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }
Demostración. FXj:n = P (Xj:n ≤ x) es decir, que al menos j variables sean menores o iguales
uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces
Y v Bin(n, p) con p = FX (x).
n n
X X k n−k
P (Xj:n ≤ x) = P (Y ≥ j) = P (Y = k) = Ckn FX (x) 1 − FX (x)
k=j k=j
13
Capı́tulo 2. Muestreo aleatorio simple
n−1 n−1
Observación 2.21. fXmax (x) = nfX (x) FX (x) y fXmin (x) = nfX (x) 1 − FX (x)
Γ(α + β) α−1
Definición 2.22. Si X tiene densidad f (x) = x (1 − x)β−1 I(0,1) (x) decimos que X v
Γ(α)Γ(β)
Beta(α, β)
αβ
Observación 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) = .
(α + β)2 (α + β + 1)
Observación 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n − j + 1).
14
Capı́tulo 3
entonces
θ̂(X1 , . . . , Xn ) = (Xn , Sn2 )
es un estimador de θ.
Observemos que si bien θ es un vector, θ̂ es un vector aleatorio a valores en Rk .
Definición 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|θ) y θ̂ es un estimador, decimos que
P c.s.
θ̂ es debilmente consistente si θ̂ −→ θ. Decimos que es fuertemente consistente si θ̂ −→ θ
Ejemplo 3.4. Si X v N (µ, σ 2 ) y θ̂ = (Xn , Sn2 ) entonces θ̂ es fuertemente consistente.
Notación: Anotamos como (H) al conjunto de valores posibles, que puede tomar el parámetro
θ. Por ejemplo si X v N (µ, σ 2 ) θ = (µ, σ 2 ) entonces (H) = R × R+ .
15
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos
muestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de las
k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener solución
ni ser única. Observemos que por la ley fuerte, los estiamdores que se despejan para cada θi son
consistentes.
Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el método de los momentos
es
1/2(b − a) = P Xn
1/12(b − a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2
Si despejamos b en la primer ecuación y sustituimos en la segunda obtenemos las soluciones
q q
a = Xn ± 3(M2 − Xn ), b = Xn ± 3(M2 − Xn )
y F −1 es continua entonces
c.s.
(θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ) −→ F −1 E(X), . . . , E(X k )
= F −1 F (θ1 , . . . , θk ) = (θ1 , . . . , θk ),
El método consiste entonces en hallar θ ∈ (H) donde se realice máxθ∈(H) L(θ, x̃), dicho θ̂ es el
estimador de máxima verosimilitud (E.M.V.) de θ. El método no asegura la existencia y/o unicidad
de θ̂.
16
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp(λ) entonces la función de verosimilitud para
λ es
Yn X
L(λ) = λ exp{−λxi } = λn exp{−λ xi },
i=1 i
n 1
y por lo tanto, como λ 6= 0, si hacemos L0 (λ) = 0 obtenemos λ = P = , es fácil ver, mirando
i xi Xn
el signo de L0 (λ) que es un máximo.
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la función de verosimilitud
es entonces
1 1
n
( (
Y 1 si 0 < x1 , . . . , x n < b si b > máx{x1 , . . . , xn }
L(b) = I[0,b] (xi ) = b n = bn
i=1
b 0 si no 0 si no
esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en función de θ. El método busca
maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el θ que haga que la
muestra sea más probable.
Veremos que si M̂ = E.M.V. de g(θ), es decir donde se realiza el máximo de L∗ entonces M̂ = g(θ̂)
siendo θ̂ = E.M.V de θ. En efecto:
L∗ (M̂ |x̃) = sup L∗ (M |x̃) = sup sup L(θ|x̃) = sup L(θ, x̃) = L(θ̂|x̃)
M M {θ:g(θ)=M } θ∈(H)
y
L∗ (g(θ̂), x̃) = sup L(θ|x̃) = L(θ̂|x̃).
{θ:g(θ)=g(θ̂)}
17
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|θ) y θ ∈ (H) ⊂ R donde
(H) es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ (H), si
h(θ) = log(L(θ)) es derivable como función de θ y además f (x|θ) = f (x|θ0 ) implica θ = θ0 c.s.
entonces
∂ c.s.
∃θˆn ∈ (H) tal que h(θˆn ) = 0 y θˆn −→ θ0
∂θ
Demostración.
n n n
X X X f (xi |θ0 )
h(θ0 ) − h(θ0 − δ) = log((f (xi |θ0 )) − log((f (xi |θ0 − δ))) = log
i=1 i=1 i=1
f (xi |θ0 − δ)
entonces
h(θ0 − δ) − h(θ0 ) 1X f (xi |θ0 − δ) L.F.G.N. f (xi |θ0 − δ)
= log −→ E log c.s.,
n n f (xi |θ0 ) f (xi |θ0 )
Por la L.F.G.N. P (Aδ ) = 1. Fijado ω ∈ Aj existe n0 = n0 (ω, δ) tal que h(θ0 ) > h(θ0 ± δ) ∀n ≥ n0 ,
∂
existe θˆn tal que h(θˆn ) = 0. Definamos
∂θ
n ∂ o
Bδ = ω ∈ Ω : ∃θˆn ∈ (θ0 − δ, θ0 + δ) y h(θˆn ) = 0 .
∂θ
Como Aδ ⊂ Bδ tenemos que P (Bδ ), si tomamos δ = 1/n,
∞
!
\
P B1/n = 1.
i=1
c.s.
La sucesión θˆn verifica θˆn −→ θ0 y es cero de ∂
∂θ h.
Teorema 3.16. Normalidad asintótica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|θ),
supongamos que existe δ > 0 tal que (θ0 −δ, θ0 +δ) ∈ (H), si se cumplen, para todo θ ∈ (θ0 −δ, θ0 +δ)
∂ c.s.
1) ∃{θn } variables aleatorias tal que h(θn ) = 0 ∀n y θn −→ θ0
∂θ
18
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
∂3
2) E h(θ|x̃) ≤ M (X̃) con E(M (X̃)) < ∞.
∂θ3
!
∂
∂θ f (x|θ)
3) E = 0.
f (x|θ)
∂2
!
∂θ 2 f (x|θ)
4) E = 0.
f (x|θ)
!2
∂
∂θ f (x|θ)
5) i(θ) := E > 0, el número i se denomina número de información de Fischer.
f (x|θ)
Entonces
√
d 1
n θn − θ0 −→ N 0,
i(θ0 )
Demostración. La demostración será una consecuencia de dos afirmaciones:
1 ∂
Afirmación 1: √ h(θ0 ) → N (0, i(θ0 ))
n ∂θ
√ 1 ∂ P
Afirmación 2: n(θn − θ0 ) − √ h(θ0 ) −→ 0.
ni(θ0 ) ∂θ
Veamos primero cómo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la
tesis. En efecto, podemos escribir
√ √
1 ∂ 1 ∂
n(θn − θ0 ) = n(θn − θ0 ) − √ h(θ0 ) + √ h(θ0 )
ni(θ0 ) ∂θ ni(θ0 ) ∂θ
Veamos la demostración de la Afirmación 1:
∂ n ∂ n
1 ∂ 1 X ∂θ f (xi |θ0 ) √ 1 X ∂θ f (xi |θ0 ) √
√ h(θ0 ) = √ = n = nZ n .
n ∂θ n i=1 f (xi |θ0 ) n i=1 f (xi |θ0 )
E(Zi ) = 0 por la hipótesis 3) y V ar(Zi ) = E(Zi2 ) − E 2 (Zi ) = i(θ) > 0 por la hipótesis 5). Luego,
√ d
si aplicamos el T.C.L. tenemos que nZ n −→ N (0, i(θ0 )). Lo que concluye la demostración de la
afirmación 1.
∂ ∂ ∂2 ∂3 (θn − θ0 )2
0= h(θn ) = h(θ0 ) + 2 h(θ0 )(θn − θ0 ) + 3 h(θˆn )
∂θ ∂θ ∂θ ∂θ 2
y √
∂
√ 1 ∂ − ∂θ h(θn ) n 1 ∂
n(θn − θ0 ) − √ h(θ0 ) = 2 (θ −θ )
−√ h(θ0 ) =
ni(θ0 ) ∂θ ∂ ∂ 3
ˆ n 0 ni(θ0 ) ∂θ
∂θ 2 h(θ0 ) + ∂θ 3 h(θn ) 2
" #
1 ∂ −1 1
√ h(θ0 ) − (3.1)
n ∂θ 1 ∂2 1 ∂3 ˆ (θn −θ0 ) i(θ0 )
n ∂θ 2 h(θ0 ) + n ∂θ 3 h(θn ) 2
19
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
1 ∂ d
Nuevamente, como √ h(θ0 ) −→ N (0, i(θ0 )), por el lema de Slutsky, la afirmación 2 queda
n ∂θ
demostrada si probamos que la expresión entre [] tiende en probabilidad a 0 (o lo que es lo mismo,
en distribución a 0).
Sabemos que
1 ∂3 (θn − θ0 ) P
h(θˆn ) −→ 0,
n ∂θ3 2
P P
donde hemos usado que si Xn −→ 0 y si E(Yn ) ≤ k ∀n entonces Xn Yn −→ 0.
2 2
∂ ∂
|θ − |θ
n
! n
2 ∂ f (x|θ ) f (x ) f (x )
∂θ f (xi |θ0 )
1 ∂ 1 X ∂ 1 X ∂θ 2 0 i 0 ∂θ i 0
h(θ0 ) = = 2 .
n ∂θ2 n i=1 ∂θ f (xi |θ0 ) n i=1
f (xi |θ0 )
Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la
hipótesis 4:
∂2 !2
∂θ2 f (x |θ
i 0 ) f (x |θ )
i 0 ∂
f (x|θ)
E 2 − E ∂θ = −i(θ0 )
f (x|θ)
f (x|θ0 )
de donde se concluye que la expresión entre [] en 3.1. converge en probabilidad a 0 como querı́amos
demostrar.
Observación 3.17. Sobre las hipótesis del teorema anterior
1) Es la tésis del Teorema 3.13.
!
∂ Z +∞ ∂ Z +∞
∂θ f (x|θ) ∂θ f (x|θ) ∂
3) E = f (x|θ)dx = f (x|θ)dx, observemos que si pudiera-
f (x|θ) −∞ f (x|θ) −∞ ∂θ
Z +∞
∂ ∂
mos aplicar convergencia dominada f (x|θ)dx = 1 = 0.
∂θ −∞ ∂θ
4) Análogo a 3).
∂
∂θ f (x|θ)
5) Por 3), 5) es pedir que no sea constante.
f (x|θ)
20
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
Pk
El método consiste en plantear la función g(θ) = i=1 (Xˆpi − xpi )2 donde los pi y k son cuales-
quiera. Lo que se busca es el mı́nimo de g(θ). El argumento que minimiza g(θ) sera θ̂ y dependerá de
los cuantiles empı́ricos Xˆpi .
1
Ejemplo 3.21. Si X v (µ, σ 2 ), entonces fX (x|µ, σ 2 ) = .
x−µ 2
πσ 1 + σ
Es fácil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ 2 ) por el método
de cuantiles. Tomamos k = 4, Q1 = X̂0,25 , Q2 = X̂0,5 y Q3 = X̂0,75 , estimadores de los cuartiles.
Entonces, la función a minimizar es
Observemos que en cada x nos da la proporción de observaciones menores o iguales que x, y que,
para x y n fijos, Fn∗ (x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de Fn∗
son n , y de tamaño 1/n.
c.s.
Proposición 3.23. Fn∗ (x) −→ F (x) ∀x ∈ R.
Demostración. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) con
p = FX (x).
Teorema 3.24. Teorema fundamental de la Estadı́stica, Glivenko-Cantelli, 1937: Sea
X1 , . . . , Xn una M.A.S. de X v FX entonces
c.s.
kFn∗ − FX k∞ = sup Fn∗ (x) − FX (x) −→ 0
x∈R
.
Demostración. Para la demostración vamos a necesitar el siguiente lema:
Lema 3.25. Yn = supx∈R Fn∗ (x) − FX (X) es una v.a., es decir, es medible.
21
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
x∈R x∈Q
y por lo tanto
F (x) − δ − ε ≤ Fn∗ (x) ≤ F (x) + ε + δ ∀ε > 0
entonces
F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ.
lo cual concluye la demostración del lema.
Veamos la demostración del teorema, para el caso continuo, dado x ∈ R sea Ax = {ω ∈ Ω :
lı́mn Fn∗ (x) =
F (x)}. Por la proposición anterior sabemos que P (Ax ) = 1 para todo x. Luego
T
P x∈Q Ax = 1.
Sea A := x∈Q Ax , basta ver que A ⊂ {ω ∈ Ω : lı́mn supx∈R |Fn∗ (x) − FX (x)|0}. Sea ε > 0.
T
Como lı́mx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε.
Como lı́mx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1 − F (x) < ε.
Como F es uniformemente continua en [k1 , k2 ] existe k1 ≤ x2 < . . . < xm ≤ k2 ∈ Q tal que
F (xk+1 ) − F (xk ) < ε para todo k = 2, . . . , m − 1.
Luego si tomamos −∞ = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < +∞ = xm+2 se verifica
que F (xk+1 ) − F (xk ) < ε para todo k = 0, . . . , m + 1. Si x ∈ R existe k ∈ {0, . . . , m + 2} tal que
xk ≤ x ≤ xk+1 entonces
1 2
Fn∗ (x) ≤ Fn∗ (xk+1 ) ≤ F (xk+1 ) + ε F (x) + ε + ε = F (x) + 2ε,
donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0 , que no
depende de x. La desigualdad 2 se sigue de que F (xk+1 ) ≤ F (xk ) + ε ≤ F (x) + ε. Razonando de
forma análoga llegamos a que, para n > n1 , para todo x tenemos que
de donde
lı́m sup |Fn∗ − F | = 0.
n→+∞
22
Capı́tulo 3. Teorı́a de la Estimación, métodos de estimación
23
Capı́tulo 4
Evaluación de Estimadores
Definición 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )−g(θ)
2
Definición 4.3. Error cuadrático medio: Se define E.C.M (Tn ) = E Tn − g(θ)
Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar
estimadores con E.C.M. mı́nimo.
Definición 4.4. Estimador de mı́nima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2 ,
decimos que es insesgado en θ0 ∈ (H), de varianza mı́nima si
i) Tn es insesgado en θ0
ii) Si Tn0 ∈ L2 es insesgado en θ0 V arθ0 (Tn ) ≤ V arθ0 (Tn0 ).
R
Observación 4.5. Eθ Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|θ)
Observación 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de mı́nima
varianza.
Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo si
Eθ0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que Eθ (f ) = 0.
Demostración. Para demostrar el teorema será necesario el siguiente lema
Lema 4.8. Tn es insesgado de mı́nima varianza en θ0 si y solo si Tn es insesgado y V arθ0 (Tn ) ≤
V arθ0 (Tn + λf ) para todo λ ∈ R , para todo f tal que Eθ0 (f ) = 0.
Demostración. Veamos el directo, sea λ y f tal que Eθ0 (f ) = 0, Tn0 = Tn + λf es insesgado pues
E(Tn + λf ) = E(Tn ) + λE(f ) = E(Tn ) = g(θ). Como Tn es de mı́nima varianza V arθ0 (Tn ) ≤
V arθ0 (Tn0 ).
Para demostrar el recı́proco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 − Tn ), tomemos
f = Tn0 − Tn y λ = 1 entonces E(f ) = 0, luego, por hipótesis
24
Capı́tulo 4. Evaluación de Estimadores
Veamos ahora la demostración del teorema. Por el lema basta ver que V arθ (Tn ) ≤ V arθ0 (Tn +λf )
si y solo si Eθ0 (f Tn ) = 0.
entonces Z X
f (x1 , . . . , xn ) exp{−λ xi }dx1 . . . dxn = 0 ∀λ ∈ R.
[0,+∞)n
X n
Y
E(f ) = f (x1 , . . . , xn ) p(xi |p)
(x1 ,...,xn )∈{0,1}n i=1
X P P
xi
= f (x1 , . . . , xn )p (1 − p)n− xi
k=0 x1 +···+xn =k
n
" #
X X
= f (x1 , . . . , xn ) pk (1 − p)n−k = 0
k=0 x1 +···+xn =k
25
Capı́tulo 4. Evaluación de Estimadores
Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus
coeficientes son nulos. Luego si calculamos
n
!
X X k k
E(f Xn ) = f (x1 , . . . , xn ) p (1 − p)n−k = 0
n
k=0 x1 +···+xn =k
y
Z n Z n
∂ Y ∂ Y
fX (xi |θ)dxi = fX (xi |θ)dxi ,
∂θ Rn i=1 Rn ∂θ i=1
entonces
g 0 (θ)
V ar(Tn ) ≥ ∂
2 .
∂θ f (x|θ)
nE f (x|θ)
Demostración.
Z n
0 ∂ ∂ Y
g (θ) = E(Tn ) = Tn (x1 , . . . , xn ) fX (x|θ)dx1 . . . dxn
∂θ ∂θ Rn i=1
Z " n
#
∂ Y
= Tn (x1 , . . . , xn ) fX (xi |θ) dx1 . . . dx n
Rn ∂θ i=1
Z n
∂ Y
= Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ)dx1 . . . dxn
Rn ∂θ i=1
r ∂
Qn
fX (xi |θ)
Z
Yn
= Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ) pQni=1
∂θ
dx1 . . . dxn
i=1 fX (xi |θ)
Rn i=1
26
Capı́tulo 4. Evaluación de Estimadores
∂
∂θ f (xi |θ)
Definamos g(Xi ) = .
f (xi |θ)
X 2 X X X
g 2 (Xi ) + 2 g(Xi )g(Xj ) = nE g(Xi )2 + 2
E g(Xi ) = E E g(Xi )g(Xj ) .
i6=j i6=j
Basta ver
que E g(X
i )g(Xj ) = 0 para todo i 6
= j. Como son independientes E g(Xi )g(Xj ) =
E g(Xi ) E g(Xj ) .
∂
∂θ f (xi |θ)
Z
E(g(Xi )) = f (xi |θ)dx
R f (xi |θ)
Z
∂
= f (xi |θ)dx = 0.
R ∂θ
Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz,
por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1 , . . . , xn tal que
∂
Q
qY
∂θ fX (xi |θ)
(Tn − g(θ)) fX (xi |θ) = λ pQ
fX (xi |θ)
27
Capı́tulo 4. Evaluación de Estimadores
1
ii) V ar(θ̂) = ∂
2
∂θ f (x|θ)
nE f (x|θ)
por lo tanto p̂ = Xn es eficiente. Como Xˆn es eficiente es de mı́nima varianza varianza ya que X es
de recorrido finito.
Definición 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|θ) y T (X1 , . . . , Xn )
estimador, decimos que T es suficiente para θ si y solo si FX1 ,...,Xn |T no depende de θ.
Pn
Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador
suficiente para estimar p.
Demostración.
P (X1 , . . . , Xn , T = t)
pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) = =
P (T = t)
( P
0 si t 6= xi
P (X1 =x1 )...P (Xn =xn ) P
P (T =t) si t = xi
P P
xi
p (1 − p)n− xi
= n
Ct pt (1 − p)n−t
1
= n.
Ct
Que no depende de p, hemos usado que T v Bin(n, p).
Qn
Teorema 4.19. T es suficiente para θ si y solo si L(x̃|θ) = i=1 f (xi |θ) = g T (x̃), θ h(x̃)
Demostración. (Caso discreto:)
n
Y n
Y
L(x̃|θ) = pX (xi |θ) = P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ) =
i=1 i=1
Pθ (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(x̃)g(T (x̃, θ))
28
Capı́tulo 4. Evaluación de Estimadores
Observemos que, dado que estamos en el caso T (x̃) = t y g(T (x̃), θ) = g(t, θ) = g(T (ỹ), θ). Por
lo tanto
h(x̃)
P (X1 = x1 , . . . , Xn = xn |T = t) = P .
ỹ:T (ỹ)=t h(ỹ)
Que no depende de θ.
Ejemplo
P 4.20. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ). Estimamos µ y σ 2 , consideremos T (x̃) =
2
P
( xi , xi ) = (T1 , T2 ).
n
Y 1 1
L(x̃|(µ, σ)) = √ exp − 2 (xi − µ)2
i=1
2πσ σ
( n
)
1 1 X 2
= exp − 2 (xi − µ)
(2π)n/2 σ n 2σ i=1
( n n
)
2 −n
X X
2 2
= (2πσ ) 2 exp xi − 2µ xi + nµ
i=1 i=1
−n 1
σ −n exp − 2 T2 − 2µT1 + nµ2 .
= (2π) 2
2σ
Por lo tanto si definimos
n 1
h(x̃) = (2π)− 2 y g T (x̃), (µ, σ 2 ) = σ −n exp − 2 T2 − 2µT1 + nµ2 .
2σ
De donde T es suficiente.
Observación 4.21. Siempre existe un estimador suficiente, basta tomar T (x̃) = x̃ y h constante.
Esto significa que tener toda la muestra es suficiente.
Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b).
Q 1
b−a si a < xi < b
L x̃|(a, b) =
0 si no
(b − a)n si
a < xi < b
=
0 si no
(b − a)n si
a < x1:i ; xn:n < b
=
0 si no
(b − a)n si
a < T1 ; T2 < b
=
0 si no
29
Capı́tulo 4. Evaluación de Estimadores
Demostración. Veamos primero que T es suficiente, podemos escribir, tomando ỹ tal que T (ỹ) =
T (x̃)
L(x̃|θ)
L(x̃|θ) = L(ỹ|θ) = h(x̃)L(ỹ|θ) = h(x̃)g T (x̃), θ) .
L(ỹ|θ)
Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la función de
verosimilitud.
Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(x̃|θ) = g 0 T 0 (x̃), θ h0 (x̃).
que no depende de θ, entonces, usando el directo de nuestra hipótesis tenemos que T (x̃) = T (ỹ).
Hemos demostrado que cada ves que T 0 (x̃) = T 0 (ỹ) entonces T (x̃) = T (ỹ). Veamos que esto implica
que T = f (T 0 ). Definimos para z ∈
/ Im(T 0 ) f (z) cualquier cosa, y para z ∈ Im(T 0 ) entonces
0
z = T (x) y f (z) := T (x).
Definición 4.26. Estadı́stico Completo: T se dice completo si toda vez que tenga una función
g tal que Eθ g(T ) = 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s.
30
Capı́tulo 4. Evaluación de Estimadores
Demostración.
R(θ, η) = E L(θ, η) = E L(θ, E(σ|T )) = E L(E(θ, σ|T ))
≤ E E(L(θ, σ)|T ) = E L(θ, σ) .
Donde hemos usado la desigualdad de Jensen.
Observación 4.33. En la demostración anterior, la hipótesis de que T es suficiente es necesaria
para que η sea un estimador de θ.
Observación 4.34. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ.
Lema 4.35. Sea T suficiente, y ψ T (X 1 , . . . , Xn ) tal que si
f T (X1 , . . . , Xn ) es una función de
T insesgada entonces ψ T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces ψ(T ) es uniformemente
de mı́nimo riesgo entre los insesgados.
Demostración. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), sea
η = E(σ|T ) es una función de T y es insesgado entonces por hipótesis f (T ) = ψ(T ) c.s.. Entonces
η = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ es
uniformemente de mı́nimo riesgo.
Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) ψ(T (X1 , . . . , Xn )) son insesgados entonces en-
tonces
f (T (X1 , . . . , Xn )) = ψ(T (X1 , . . . , Xn )) c.s.
Demostración. E(f (T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) =
f (T ) − ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s..
Teorema 4.37.
1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniforme-
mente entre los insesgados.
2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre
los insesgados.
Demostración.
1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f (T ) es insesgado, por el Lema
4.36 f (T ) = ψ(T ) c.s., entonces, por el Lema 4.35 ψ(T ) minimiza el riesgo uniformemente
entre los insesgados.
2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior.
31
Capı́tulo 4. Evaluación de Estimadores
Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitas
raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.
32
Capı́tulo 5
1 − α =P (X n − k ≤ µ ≤ X n + k)
=P (µ − k ≤ X n ≤ µ + k)
µ+k−µ µ−k−µ
=Φ √ −Φ √
σ/ n σ/ n
√ √
nk − nk
=Φ −Φ
σ σ
√
nk
=2Φ − 1,
σ
donde en la tercer igualdad hemos usado que X v N (µ, σ 2 /µ) y en la ltima la paridad de Φ. Por lo
tanto obtuvimos que
√ √
nk nk
1 − α/2 = Φ entonces = φ−1 (1 − α/2),
σ σ
y por lo tanto tomamos
σ
k = √ Φ−1 (1 − α/2).
n
Notacin: Anotaremos Zp = Φ−1 (p), con esta notacin el intervalo de confianza del ejemplo
anterior es σ σ
X n − √ Z1−α/2 , X n + √ Z1−α/2 .
n n
33
Capı́tulo 5. Estimacin por intervalos de confianza
Recordemos que
Sn2
(n − 1) v χ2n−1 ,
σ2
entonces
(n − 1)Sn2
(n − 1) n−1 n−1 n−1
P (σ 2 /b ≤ Sn2 ≤ σ 2 /a) = P ≤ 2
≤ =F −F ,
b σ a a b
Basta elegir a tal que F ((n − 1)/a) = 1α/2 y b tal que F ((n − 1)/b) = α/2, de donde
n−1 n−1
a= b= ,
χ21−α/2 (n − 1) χ2α/2 (n
− 1)
34
Capı́tulo 5. Estimacin por intervalos de confianza
Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos θ = p, si aproximamos usando el T.C.L. es
facil ver, como σ 2 = p(1 − p) y Sn = X n (1 − Xn ), nos queda el intervalo
q q
Xn (1 − Xn ) Xn (1 − Xn )
I = Xn − √ Z1−α/2 , Xn + √ Z1−α/2
n n
Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuando
σ 2 = f (µ). Consideremos X1 , . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C 1 . Si g 0 (µ) 6= 0, veamos
√ d
que n(g(Xn − g(µ)) −→ N (0, (σg 0 (µ))2 ) :
√ √ √
n(g(Xn − g(µ)) = ng 0 (Cn )(Xn − µ) = g 0 (Cn ) n(Xn − µ),
c.s. √ d
con Cn ∈ [Xn , µ] o Cn ∈ [µ, Xn ], sabemos que g 0 (Cn ) −→ g 0 (µ) y n(Xn − µ) −→ N (0, σ 2 ), por lo
tanto usando el lema de Slutsky
35
Capı́tulo 6
Pruebas de hipótesis
Supongamos que queremos saber si una moneda está balanceada o no. Se tira 100 veces y
obtenemos 54 caras, debemos tomar una decisión entre
H0 : θ ∈ A hipótesis nula
H1 : θ ∈ B hipótesis alternativa
36
Capı́tulo 6. Pruebas de hipótesis
Observación 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el error
de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave.
Observación 6.13. En general, uno define la región crı́tica a partir de un estimador insesgado
RC = {|θ̂ − θ0 | ≥ k}.
Observación 6.14. Al permitir variar el tamaño de la muestra uno puede fijar los errores α y β y
hallar un n que verifique las igualdades.
Observación 6.15. Como el error de tipo 1 es más grave, al rechazar H0 uno debe estar seguro
(tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia empı́rica
para decir que H0 es falso. No es que se acepte H0 .
37
Capı́tulo 6. Pruebas de hipótesis
Demostración. Sea β = Pθ1 (Skc ) y β0 = Pθ1 (S0c ) donde S0 es otra RC de nivel α, entonces
H0 : µ = µ0
H1 : µ = µ1
n n
Y f (xi |µ1 ) Y 1 2
+ 12 (xi −µ0 )2 1
Pn 2 2 1
Pn
xi +n(µ21 −µ20 )
= e− 2 (xi −µ1 ) = e− 2 i=1 (xi −µ) +(xi −µ0 ) = e− 2 (2µ0 −2µ1 ) i=1
i=1
f (xi |µ0 ) i=1
n n
Y f (xi |µ0 ) X
≥ k̂ ⇔ (µ1 − µ0 ) xi + n(µ21 − µ20 ) ≥ k̂
i=1
f (xi |µ1 ) i=1
H0 : µ = µ0
H1 : µ = µ1
con µ0 < µ1 . Vamos a hallar la RC óptima. Como es óptima, del ejemplo anterior sabemos que
tiene la forma {xn ≥ k}, vamos a hallar k tal que P (RC) = α.
√
Xn − µ0
PH0 (Xn ≥ k) = 1 − PH0 (Xn ≤ k) = 1 − PH0 √ ≤ n(k − µ0 ) =
1/ n
√
1−Φ n(k − µ0 ) = α.
√ Z1−α
Luego si despejamos obtenemos n(k − µ0 ) = Z1−α entonces k = µ0 + √ .
n
38
Capı́tulo 6. Pruebas de hipótesis
H0 : µ = µ0
H1 : µ > µ1
Resulta una RC óptima de la misma forma (observar que el hecho de que H1 : µ = µ1 se usa sólo
cuando µ1 − µ > 0). En este caso decimos que es una RC uniformemente óptima o uniformemente
de máxima potencia.
Observación 6.20. Si fuese
H0 : µ ≤ µ0
H1 : µ > µ1
Resulta la misma region crı́tica que en el caso anterior. Observemos ademas que se calcula α =
sup PH0 (Xn ≥ k) la función Pµ∈H0 (Xn ≥ k) crece con µ y el supremo es en µ0 .
Corolario 6.21. Corolario de Neyman-Pearson, en las hipótesis del teorema, α + β ≤ 1
Demostración.
Z n
Y Z n
Y
c
β = PH1 (S ) = f (xi |θ1 )dx1 . . . dxn ≤ k f (xi |θ0 )dx1 . . . dxn =
S c i=1 S c i=1
n
Z Y
k 1− f (xi |θ1 )dx1 . . . dxn = k(1 − α),
S i=1
si k ≤ 1 entonces β ≤ 1 − α de donde α + β ≤ 1,
si k ≥ 1
n
Z Y n
Z Y
1 − β = PH1 (S) = f (xi |θ1 )dx1 . . . dxn ≥ k f (xi |θ0 )dx1 . . . dxn = kα,
S i=1 S i=1
H0 : µ = µ0
H1 : µ = µ1
n
!
Y f (Xi |θ1 )
y k = kn es tal que PH0 ≥ kn = α entonces βn → 0.
i=1
f (Xi |θ0 )
n
! n
Y f (Xi |θ1 ) X f (Xi |θ1 )
Demostración. log = log y por la L.F.G.N.
i=1
f (Xi |θ0 ) i=1
f (Xxi |θ0 )
n
!
1 Y f (Xi |θ1 ) c.s. f (X|θ1 )
log −→E log
n i=1
f (Xi |θ0 ) f (X|θ0 )
f (X|θ1 )
< log E
f (X|θ0 )
Z
f (x|θ1 )
= log f (x|θ0 )dx = log(1) = 0.
f (x|θ0 )
39
Capı́tulo 6. Pruebas de hipótesis
Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente cóncava), y
en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0 . Tenemos entonces que
n
X f (Xi |θ1 ) c.s.
log −→ −∞.
i=1
f (Xi |θ0 )
Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0
n !
X f (Xi |θ1 )
P log < −m ≥ 1 − ε = 1 − α.
i=1
f (Xi |θ0 )
Llamemos ( )
n
Y f (Xi |θ1 )
Sn = ≥ kn
i=1
f (Xi |θ)
y ( )
n
X f (Xi |θ)
An,m log < −m .
i=1
f (Xi |θ)
Si tomamos ω ∈ An,m ∩ Sn entonces
n
X f (Xi (ω)|θ1 )
log(Kn ) ≤ log < −m,
i=1
f (Xi (ω)|θ0 )
H0 : θ = θ0
H1 : θ = θ1
nQ o
n f (xi |θ1 )
Sea Sn = i=1 f (xi |θ0 ) ≥ 1 entonces αn + βn → 0
Pn i |θ1 ) P
Demostración. Si H0 es cierto entonces i=1 log ff (X (Xi |θ0 ) −→ −∞, de donde αn = PH0 (Sn ) =
P
n f (Xi |θ1 ) n
PH 0 i=1 log f (Xi |θ0 ) ≥ 0 −→ 0.
Pn (Xi |θ0 ) P
Si H1 es cierto entonces i=1 log ff (X i |θ1 )
−→ −∞.
n !
X f (Xi |θ1 )
β n = PH 1 log ≤0 −→ 0.
i=1
f (Xi |θ0 )
40
Capı́tulo 6. Pruebas de hipótesis
Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (·|θ) perteneciente a una familia con
C.V.M, sea T (x̃) absolutamente continua y θ ∈ (H) ⊂ R, consideremos
H0 : θ ≤ θ 0
H1 : θ > θ 0
Si R = {x̃ ∈ Rn : T (x̃) ≥ k} donde k es tal que R sea R.C. de nivel α, entonces R es R.C.
uniformemente de máxima potencia.
Demostración. En el conjutno {θ : θ ≤ θ0 } ⊂ (H) defino αk (θ) = α(θ) = Pθ (R). Probaremos
que α es creciente y por lo tanto supθ∈H0 α(θ) = α(θ0 ), de donde el k de la hipótesis es tal que
Pθ0 (T (x̃) ≥ k) = α. Consideremos la prueba
H0 : θ = θ 0
H1 : θ = θ00
Con θ00 > θ0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la
región crı́tica óptima ( n )
Y f (xi |θ00 )
0)
≥ k = {T (x̃) ≥ g −1 (k 0 )},
0
i=1
f (x i |θ
en esta igualdad hemos usado que g es creciente, llamemos k 00 = g −1 (k 0 ). Para esta prueba α+β ≤ 1,
α = Pθ0 ({T (x̃ ≥ k)}) = α(θ0 ) y β = Pθ00 ({T (x̃) ≥ k 00 }c ) = 1 − Pθ00 ({T (x̃) ≥ k 00 }) = 1 − α(θ00 ).
Entonces α(θ0 ) + 1 − α(θ00 ) ≤ 1 y por lo tanto α(θ0 ) ≤ α(θ00 ). Como θ0 y θ00 son arbitrarios se deduce
que α creciente.
Veamos ahora que R es óptima, es decir, uniformemente de máxima potencia. Supongamos por
absurdo, que existe otra S RC de nivel α tal que existe θ̂ > θ0 y βS (θ̂) < βR (θ̂), sabemos que
supθ≤θ0 αS (θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS (θ0 ) ≤ α.
Consideremos la prueba
H0 : θ = θ 0
H1 : θ > θ 0 (6.1)
Sea S 0 = {T (x̃) ≥ k} con k 0 tal que αS 0 (θ0 ) = αS (θ0 ), (tal k 0 existe porque hemos supuesto que
T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por
el teorema de Neyman Person que S 0 es uniformemente de máxima potencia para la prueba 6.1.
Entonces βS 0 (θ) ≤ βS (θ) ∀θ ≥ θ0 . En particular βS 0 (θ̂) ≤ βS (θ̂). Como αS (θ0 ) ≤ α = αR (θˆ0 ) o
lo que es lo mismo Pθ0 (T (x̃) ≥ k 0 ) ≤ Pθ0 (T (x̃ ≥ k) obtenemos que k ≤ k 0 , pero esto contradice
βS 0 (θ̂) ≤ βS (θ̂) ya que esto es equivalente a que Pθ̂ ({T (x̃) ≥ k 0 }c ) < Pθ̂ ({T (x̃) ≥ k}c ) ya que esto
implica k ≥ k 0 .
41
Capı́tulo 6. Pruebas de hipótesis
42
Capı́tulo 6. Pruebas de hipótesis
H0 : FX = F0
H1 : FX 6= F0
6.4.1. Test de χ2 :
Consideremos la prueba
H 0 : FX = F0
H1 : FX 6= F0
H0 : FX = F0 completamente conocidaH1 ; FX 6= F0
tomemos RC = {supx∈R |Fn∗ (x) − F0 (x)| ≥ k}, por Gilvenco−Cantelli Fn∗ converge uniformemente
a F0 (x). Para conocer la distribución de supx∈R |Fn∗ (x) − F0 (x)| tneemos el siguiente teorema.
Teorema 6.29. Kolmogorov: Si Dn = supx∈R |Fn∗ (x) − F0 (x)| entonces, si F0 es continua
∞
√ X 2 2
(−1)n−1 e−2n z
lı́m P nDn ≤ z = 1 − 2
n→+∞
n=1
H0 : θ ∈ A
H1 : θ ∈
/A
H0 : µ = µ0 = 0
H1 : µ 6= µ0 = 0
43
Capı́tulo 6. Pruebas de hipótesis
Sabemos que
(ni − 1) 2
Yi v N (θi , σ 2 /ni ) Si v χ2ni −1
σ2
Observación 6.34. Si A = {a = (a1 , . . . , ak ) ∈ Rk :
P
ai = 0} entonces
X
θ1 = · · · = θk ⇔ ∀a ∈ A, ai θi = 0
k
N − k 2 X (ni − 1) 2
Sp = Si v χ2N −k .
σ2 i=1
σ 2
Además !
k k Pk 2 2
i=1 ai σ
X X
ai Yi v N ai θi , .
i=1 i=1
ni
44
Capı́tulo 6. Pruebas de hipótesis
obtenemos que
k
X X k
ai Yi − a i θi Xk
i=1 √
Pk
i=1 ai (Yi − θi )
σ 2
i=1 ai /ni i=1
q = qP v tN −k
(N −K) 2 k 2 /n
σ 2 S p /(N − k) Sp a
i=1 i i
H0 : θ 1 = · · · = θ k
H1 : noH0
y esto es si y solo si
X
H0 : ai θi = 0 ∀a ∈ A
H1 : noH0
P
ai Yi 2
Tomo el estadı́stico Ta = pP 2 , resulta natural plantear la región crı́tica RC = sup Ta > k .
Sp ai /ni a∈A
DebemosP
entonces hallar la distribución de sup a∈A aT bajo la hipótesis H 0 cierto. Llamemos Ci = Yi
ni Ci
y Ci = N .
2 P ai √ 2
√ (Ci − C) ni
P
1 a i C i n
sup Ta2 =
i
sup P = sup P ,
a∈A Sp a∈A ai /ni a∈A ai /ni
P
donde hemos usado que ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz
P ai √ 2
√ (Ci − C) ni
P 2
ai /ni ni (Ci − C)2
P
ni X
sup P ≤ sup P = ni (Ci − C)2 .
a∈A ai /ni a∈A ai /ni
Obtuvimos
P una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci −C) es claro
que ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz
se da en ese caso).
Pk Pk
ni (Yi − Y )2 ni Yi
sup Ta2 = i=1
donde Y = i=1
,
a∈A Sp2 N
45
Capı́tulo 6. Pruebas de hipótesis
recordemos que
χ2n /n
v F (n, m),
χ2m /m
k
X
se puede demostrar que ni (Yi − Yi )2 v χ2k−1 y por lo tanto
i=1
Planteamos
cte
α = PH0 (RC) = 1 − PH0 F (k − 1, N − k) ≤ entonces cte = F1−α (k − 1, N − k)(k − 1).
k−1
Finalmente, obtuvimos la región crı́tica
( k
)
1 X 2
RC = ni (Yi − Yi ) ≥ F1−α (k − 1, N − k)(k − 1) .
Sp i=1
46
Capı́tulo 7
Modelos Lineales
Definición 7.3. Normal tı́pica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribución
normal tı́pica en Rn si las Ui v N (0, 1) y son independientes.
Observación 7.4. La densidad conjunta de U es
1 2
e− 2 kxk
fU (x) = n .
(2π) 2
47
Capı́tulo 7. Modelos Lineales
Definición 7.5. Normal multivariada Decimos que X tiene distribución normal multivariada si
existe una matris n × k C y un vector µ n × 1 tal que X = CU + µ.
Observación 7.6. Observemos que si X tiene distribución normal multivariada entonces E(X) = µ
y ΣX = CC t
Proposición 7.7. Veamos algunas propiedades de la normal multivariada
1) Si Cn×n es invertible, X es absolutamente coninua y
1 t −1
e− 2 (x−µ) Σ (x−µ)
fX (x) = Σ = CC t .
(2π)n/2 | det Σ|1/2
48
Capı́tulo 7. Modelos Lineales
Yn θk en
1 X1 X12 . . . X1k
X = ... ..
.
.
1 Xn Xn2 ... Xnk
Observación 7.15. Observemos que, en vistas del ejemplo anterior, la función y = g(x1 , . . . , xn , θ)
es lineal en θ pero no en x̃ = (x1 , . . . , xn ), podrı́a ser x3 = cos(x1 ) etc.
49
Capı́tulo 7. Modelos Lineales
Teorema 7.16. Bajo la hipótesis 1 se cumple que (X t X)−1 X t Y es el estimador por mı́nimos
cuadrados de θ.
Demostración. Sea θ̂ el valor donde se obtiene el mı́nimo, es decir
kY − X θ̂k2 ≤ kY − Xθk2 ∀θ ∈ Rk ,
θt X t Y = θt X t X θ̂ ∀θ ∈ Rk ,
Teorema 7.18. Bajo las hipótesis 1) a 4) el E.M.V. de θ coincide con el de mı́nimos cuadrados y
además el E.M.V. de σ es n1 kY − X θ̂k.
.
Teorema 7.19. Bajo las hipótesis 1) a 4) θ̂ es insesgado de mı́nima varianza, uniformemente.
Demostración. Veamos que es suficiente:
1 1
L(y1 , . . . , yn |θ, σ 2 ) = (2πσ 2 )−n/2 exp − 2 kY − X θ̂k2 exp − 2 kX θ̂ − Xθk2 = h(ỹ)g(θ̂, θ)
2σ 2σ
donde hemos usado que Y − X θ̂ es perpendicular a X θ̂ − Xθ. Es fácil ver que es completo y por lo
tanto minimiza el riesgo uniformemente entre los insesgados, considerando como función de riesgo
kk2 .
Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribu-
ción Noramal), entonces θ̂ es uniformemente de minima varianza entre los estimadores lineales e
insesgados, (es decir los ˜
ˆ= CY ).
Teorema 7.21. Bajo los supuestos 1) a 4):
50
Capı́tulo 7. Modelos Lineales
nσ̂ 2 kY − X θ̂k2
a) 2
= v χ2(n−k)
σ σ2
nσ̂ 2 kY − X θ̂k
b) s2 = = es insesgado (de donde σ̂ 2 es asintóticamente insesgado).
n−k n−k
kX(θ̂ − θ)k2
c) v F (k, n − k)
ks2
λ1 (θ̂1 − θ1 ) + λ(θ̂2 − θ2 ) + · · · + λn (θ̂n − θn )
d) p v tn−k ∀λ ∈ Rn
s λt (X t X)−1 λ
Demostración. a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base
ortonormal
Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal
que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base canónica, B
es ortogonal y
Y = BZ de donde Z = B −1 Y = B t Y v N (B t Xθ, B t σ 2 IdB) y por lo tanto Z es normal
multivariado y ΣZ = σ 2 Id, además Zi son variables aleatorias independientes con distribución
N (γ1 , σ 2 ).
2
2
X n Xk
Xn
n
X
2
Zi2 ,
kY − X θ̂k =
Z i vi − Z j vj
=
Z i vi
=
i=1 j=1
k=1 i=k+1
n 2
kY − X θ̂k2 X Zi
=
σ2 σ
i=k+1
Zi
v N (γi , 1),
σ2
Pn demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ S
bastaria entones
y E(Y ) = i=1 γi vi .
!
2 1 σ2 kY − X θ̂k
b) E(s ) = E kY − X θ̂k) = E = σ2
n−k n−k σ2
2
Xk k
X
Xk
2
c) kX θ̂ − Xθk =
Z i vi − γ i vi
= (Zi − γi )2 . entonces
i=1 i=1 i=1
P Zi −γi 2
kX θ̂X − θk σ χ2k /k
= v 2 v F (k, n − k).
ks2 k 1 χn−k /(n − k)
σ 2 n−k kY − X θ̂k
por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que
kY − Xθk2 depende de Zk+1 , . . . , Zn y X θ̂ de Zk+1 , . . . , Zk .
51
Capı́tulo 7. Modelos Lineales
7.4. Aplicación
Construcción de intervalos de confianza para λt θ. Consideremos
I = λt θ̂ − ks, λt θ̂ + ks ,
! !
λt (θ̂ − θ) λ t
(θ̂ − θ) k
1 − α = P (λt θ ∈ I) = P ≤k =P p t t ≤ p t t −1 ,
s s λ (X X)−1 λ λ (X X) λ
p
de donde, por la parte d) k = t1−α/2 (n − k) λt (X t X)−1 λ.
Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1 .
52