Professional Documents
Culture Documents
1
2 Capı́tulo 4. Modelo de muestreo aleatorio
4.1.1. Estadı́sticos
Para los propósitos de este curso, interesará considerar (y analizar) variables
aleatorias que se escriben como funciones de las variables de la muestra X.
Cualquier función (medible) H definida en Rn y con valores en R aplicada a
(X1 , X2 , . . . , Xn ) define un estadı́stico T ,
T = H(X1 , X2 , . . . , Xn ) ,
de la variable X. Todo estadı́stico T es asimismo una variable aleatoria.
1 2
n
(4.2) S2 = Xj − X .
n−1
j=1
1
n
X= Xj .
n
j=1
Proposición 4.1 Para cualquier variable aleatoria con E(X 2 ) < +∞ se tiene que
1
E(X) = E(X) y V(X) = V(X).
n
1
n
1
E(X) = E(Xj ) = nE(X) = E(X) ;
n n
j=1
1
n
1 1
V(X) = 2 V(Xj ) = 2 nV(X) = V(X).
n n n
j=1
(Aquı́, por cierto, habrı́a bastado con que las variables Xj fueran incorreladas).
Obsérvese que, por lo tanto, X toma los valores 0, 1/n, 2/n, . . . , 1 con las mismas
probabilidades con las que nX toma los valores 0, 1, . . . , n.
Más generalmente, si X es una binomial bin(m, p), entonces nX ∼ bin(nm, p),
esto es,
nm k
P(nX = k) = p (1 − p)nm−k para cada k = 0, 1, . . . , nm,
k
de manera que X toma los valores los valores 0, 1/n, 2/n, . . . , m con las mismas
probabilidades con las que nX toma los valores 0, 1, . . . , nm. ♣
λk
P(X = k) = e−λ para cada k = 0, 1, 2 . . . ,
k!
entonces la variable nX es poiss(nλ), es decir,
(λn)k
P(nX = k) = e−λn para cada k = 0, 1, 2 . . . ,
k!
y por tanto X toma los valores 0, 1/n, 2/n, 3/n, . . . con las mismas probabilidades
Ê
(escritas arriba) con las que nX toma los valores 0, 1, 2, 3 . . . . ♣
Nota 4.2.1. La observación usada antes (el que nX ∼ poiss(nλ)) se deduce de que, si X ∼ poiss(μ)
e Y ∼ poiss(ν), y son independientes, entonces X + Y es poiss(μ + ν).
Veamos por qué. Para cada entero k ≥ 0 se tiene que
k
k
P(X + Y = k) = P(X = j, Y = k − j) = P(X = j) P(Y = k − j)
j=0 j=0
k
μj −ν ν k−j 1 k j k−j
k
1
= e−μ e = e−μ−ν μ ν = e−(μ+ν) (μ + ν)k .
j=0
j! (k − j)! k! j=0 j k!
Ê
particular la proposición 2.13. ♣
Nota 4.2.2. Como caso particular del ejemplo anterior, si tomamos λ = 1/2, entonces nX es una
variable Γ(1/2, 2n/2), es decir, una χ22n . Esto supone que la suma de n exponenciales independientes
de parámetro λ = 1/2 se distribuye de la misma manera que la suma de 2n normales estándar al
cuadrado independientes. Asombroso.
P(48 % ≤ X ≤ 52 %).
V(X) 15
P(48 % ≤ X ≤ 52 %) = P(|X− 12 | ≤ 2
100 ) = 1−P(|X− 12 | > 2
100 ) ≥ 1− 2
= ,
(2/100) 16
que sólo nos dirı́a que la probabilidad en cuestión es, al menos, de un 93.75 %. ♣
≤ i=1 ≤
i=1
875/3 875/3 875/3
≈ Φ(0.5855) − Φ(−1.7566) = 72.091 % − 3.949 % = 68.142 %.
Nota 4.2.3. En estos dos ejemplos hemos utilizado valores especı́ficos de la función Φ de distri-
bución de la normal estándar. En Excel, los valores de Φ(x) se pueden calcular con la instrucción
=distr.norm.estand(x).
o también como
n
(4.8) n(n − 1)S = (n − 1)
2
Xj2 − Xi Xj .
j=1 i=j
nS 2 = XT Ωn X,
4.3.1. Media de S 2
Proposición 4.3 Para cualquier variable X con E(X 2 ) < +∞ se tiene que
E(S 2 ) = V(X) .
Nota 4.3.1.
De hecho, por la desigualdad
de Jensen (teorema 2.1), E(S)2 < E(S 2 ) = V(X), ası́ que
E(S) < V(X). La desigualdad E(S) < V(X) es igualdad sólo si S 2 es constante. Pero esto sólo
ocurre si X es constante. (Una forma de comprobar esto último es apelando al corolario 4.5.)
2
(n − 1)E(S 2 ) = n E(X 2 ) − n E(X ) ,
2 1
E(X ) = V(X) + E(X)2 = V(X) + E(X)2 ,
n
y, finalmente, que
E(S 2 ) = V(X) .
n
n(n − 1)E(S 2 ) = (n − 1) E(Xi2 ) − E(Xi · Xj )
i=1 i=j
1
n
T2 = (Xj − μ)2 .
n j=1
n
nT 2 = Xj2 − nμ2 ,
j=1
ası́ que nE(T 2 ) = nE(X 2 ) − nμ2 = nV(X), y por tanto E(T 2 ) = V(X).
4.3.2. Varianza de S 2
Arrancamos con la expresión de la varianza de S 2 para variables tipificadas:
Proposición 4.4 Si X es una variable tipificada (es decir, E(X) = 0 y E(X 2 ) =
V(X) = 1) con E(X 4 ) < +∞, entonces
1 n−3
V(S 2 ) = E(X 4 ) − .
n n(n − 1)
Ê Nota 4.3.3. En la expresión anterior suponemos que n ≥ 2. Nótese cómo de ella se deduce, de
pasada, que E(X 4 ) > (n − 3)/(n − 1) para todo n ≥ 2 si la variable X está tipificada. Obsérvese
que (n − 3)/(n − 1) tiende a 1 cuando n → ∞.
Solo resta calcular E(S 4 ). En este cálculo usamos la expresión dada en (4.8),
n
n(n − 1)S 2 = (n − 1) Xj2 − Xi Xj .
j=1 i=j
los únicos sumandos que sobreviven son aquellos en los que se multiplican términos
Xi Xj con Xi Xj , o términos Xi Xj con Xj Xi . Por tanto,
2
E Xi Xj = 2n(n − 1)E(X 2 )2 = 2n(n − 1).
i=j
pues en todos los términos que aparecen hay (al menos) un factor E(Xi ), que es 0.
Poniendo todo esto junto obtenemos que
n2 (n − 1)2 E(S 4 ) = (n − 1)2 nE(X 4 ) + (n − 1)2 n(n − 1) + 2n(n − 1) ,
es decir,
1 (n − 1)2 + 2
E(S 4 ) = E(X 4 ) + .
n n(n − 1)
Ahora bien, E(S 2 ) = V(X) = 1, ası́ que
1 (n − 1)2 + 2 1 n−3
V(S 2 ) = E(X 4 ) + − 1 = E(X 4 ) − .
n n(n − 1) n n(n − 1)
4.3.4. Distribución de S 2
Determinar explı́citamente la distribución de la variable S 2 es, salvo en algún
caso particular, una tarea complicada.
de manera que n(n − 1)S 2 = Z(n − Z), donde Z = nX es una bin(n, p).
Es decir, la variable S 2 toma los valores j(n − j)/(n(n − 1)) con probabilidades
j(n − j) n j
P S =2
= p (1 − p)n−j j = 0, 1, 2, . . . , n.
n(n − 1) j ♣
M = máx{X1 , X2 , . . . , Xn } y m = mı́n{X1 , X2 , . . . , Xn }.
Por lo tanto, en el caso de que X sea una variable continua, se tiene que la función
de densidad del máximo es, para t ∈ R,
Ê
Consúltese también el ejercicio 4.5 para el caso de los estadı́sticos de orden.
Nota 4.4.1. Existe también un resultado asintótico, paralelo al teorema del lı́mite central, para
máximos y para mı́nimos. Para el máximo, por ejemplo, afirma que si la sucesión de máximos (de
muestras aleatorias cada vez mayores), convenientemente normalizada, converge en distribución,
entonces solo puede hacerlo a tres posibles distribuciones, conocidas como de Gumbel, de Fréchet y
de Weibull. En concreto, reza ası́. Sea F la función de distribución de la X de referencia y llamemos
Mn = máx(X1 , . . . , Xn ). Si existen un par de sucesiones de números an > 0 y bn tales que
M − b
n n
≤ x = P(Mn ≤ an x + b) = F n (an x + bn ) −−−→ G(x)
d
P cuando n → ∞
an
para cada x ∈ R, donde G(x) es una función de distribución no degenerada, entonces G ha de ser
una de las tres siguientes:
−x −α α
Λ(x) = ee ; Φα (x) = e−x , x ≥ 0; Ψα (x) = e−(−x) , x < 0
(Gumbel) (Fréchet) (Weibull)
Nótese cómo, a diferencia del teorema del lı́mite central, la convergencia en distribución de los
máximos normalizados no está garantizada.
En otras palabras, FX (β) = 1, pero FX (r) < 1, para todo r < β. Obsérvese que β
puede ser +∞, como por ejemplo en el caso de la normal.
Para cada r < β,
lı́m P(r < M ≤ β) = 1 .
n→∞
X ∼ N (μ, σ 2 ),
X ∼ N (μ, σ 2 /n) .
la distribución exacta de S 2 ,
y además, y esto es un hecho crucial (en cuanto a su aplicación práctica) y
asombroso, que X y S 2 son variables aleatorias . . . independientes.
1 1
n n
X= Xi y S2 = (Xi − X)2
n n−1
i=1 i=1
Como la matriz O es ortogonal, resulta que el vector Y también sigue una N (0, I),
por el lema 3.5 (aunque aquı́ podrı́amos haber hecho la comprobación a mano, con el
cambio de variables correspondiente). En particular Y1 e Y2 son normales estándar
independientes.
Pero como
1
X = √ Y1 y S 2 = Y22
2
deducimos, de una tacada, que X ∼ N (0, 1/2), que S 2 ∼ χ21 (pues es una normal
estándar al cuadrado), y que X y S 2 son variables independientes.
La generalización de este argumento da lugar al siguiente teorema:
una N (0, 1/n) llevarı́a a que X fuera una N (μ, σ 2 /n), por (), y si (n−1)SY2 ∼ χ2n−1 ,
entonces tendrı́amos que (n − 1)SX 2 /σ 2 seguirı́a también una χ2
n−1 , por (). Ası́ que,
como afirmábamos, basta probar 2) y 3) para el caso tipificado.
Digamos entonces que X es una normal estándar, y consideremos la muestra
X = (X1 , . . . , Xn )T , que sigue una N (0, I), con I la matriz identidad n × n.
Sea A una matriz n × n ortogonal, cuya primera fila es
1 1 1
√ √ ··· √
n n n
Esta fila es un vector de Rn de módulo 1. El resto de las filas de la matriz A se
pueden obtener por ortonormalización de Gram–Schmidt de la base formada por esa
primera fila y n − 1 vectores de la base canónica.
Sea Z el vector columna aleatorio dado por
Z = AX .
es decir,
n
(n − 1)S 2 = Zj2 ,
j=2
Ê Nota 4.5.1. Supongamos que X es normal estándar. El teorema 4.7 nos da la distribución de S 2 y
nos dice que (n − 1)S 2 es χ2n−1 , y, por tanto, que
de manera que
2
V(S 2 ) = ,
n−1
Por otro lado, la proposición 4.4 (válida en general, no sólo cuando X es normal) nos dice
(usando que, para una variable X normal estándar, E(X 4 ) = 3) que
1 n−3 3 n−3 2
V(S 2 ) = E(X 4 ) − = − = ,
n n(n − 1) n n(n − 1) n−1
como tenı́a que ser.
X −μ
1.- √ = Y ∼ N (0, 1) es normal estándar;
σ/ n
2.- (n − 1)S 2 /σ 2 = Zn−1 es una χ2n−1 ,
Ası́ que √
X −μ (X − μ)/(σ/ n) Y
√ = =
X −μ
√ ∼ stu(n − 1),
S/ n
X−μ
es decir, la variable √
S/ n
se distribuye como una t de Student con n − 1 grados de
libertad.