Muestreo

Capı́tulo 4
Modelo de muestreo aleatorio
4.1. Muestreo aleatorio y estadı́sticos . . . . . . . . . . . . . . . . . . 2

4.1.1. Estadı́sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.2. Sobre la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2.1. Media y varianza de X . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4.2.2. Concentración de X alrededor de E(X) . . . . . . . . . . . . . 5
4.2.3. Distribución (exacta y/o aproximada) de X . . . . . . . . . . 5
4.3. Sobre la cuasivarianza muestral . . . . . . . . . . . . . . . . . . . . 9
4.3.1. Media de S 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2
4.3.2. Varianza de S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3.3. Concentración de S 2 alrededor de σ 2 . . . . . . . . . . . . . . . 13
2
4.3.4. Distribución de S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4. Sobre máximos y mı́nimos . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4.1. Concentración del máximo/mı́nimo . . . . . . . . . . . . . . . . . 15
4.5. Muestreo aleatorio de variables normales . . . . . . . . . . . . 15
4.5.1. Distribución (conjunta) de X y S 2 cuando X es normal . 16
En este capı́tulo presentamos la modelación probabilista del muestreo aleatorio, y

estudiamos las propiedades de los estadı́sticos más relevantes asociados a una muestra
aleatoria: la media muestral y la (cuasi)varianza muestral, junto con un breve análisis
del máximo y el mı́nimo. El resultado más relevante del capı́tulo es el teorema 4.7
de Fisher-Cochran, que analiza el caso del muestreo aleatorio de normales.
1
2 Capı́tulo 4. Modelo de muestreo aleatorio
4.1. Muestreo aleatorio y estadı́sticos

Decimos que la variable aleatoria Y es un clon de la variable aleatoria X si X
e Y tienen la misma distribución; esto es, si para cualquier boreliano A de R,
P(X ∈ A) = P(Y ∈ A).
Por supuesto, si Y es un clon de X, entonces X es un clon de Y .
En particular, si Y es un clon de X, las variables X e Y tienen la misma función
de distribución:
FX ≡ FY .
d
Escribiremos habitualmente que X = Y .
Por muestra aleatoria de tamaño n de la variable X entendemos un vector
(X1 , . . . , Xn ) en el que cada Xj es un clon de X y además las X1 , . . . , Xn son (com-
pletamente) independientes. Denotamos con X al vector (aleatorio) columna
⎛ ⎞
X1
⎜ .. ⎟
X=⎝ . ⎠
Xn
Éste es nuestro modelo para describir procesos de sorteos (independientes) y de

extracción de muestras. El vector X contiene todas las posibles muestras (x1 , . . . , xn )
(de X y de tamaño n), cada una con sus “probabilidades”, que vienen dadas
para el caso en el que X sea una variable continua, por la función de densidad
conjunta de la muestra aleatoria X, que es
*
n
fX (x1 , . . . , xn ) = fX (xi ), para cualquier (x1 , . . . , xn ) ∈ Rn ,
i=1
donde fX es la función de densidad de la variable X de referencia;

y si X es discreta, por la función de masa conjunta de X, que se escribe como
*
n
P(X1 = x1 , . . . , Xn = xn ) = P(X = xi ) para cualquier (x1 , . . . , xn ) ∈ Rn .
i=1
4.1.1. Estadı́sticos
Para los propósitos de este curso, interesará considerar (y analizar) variables
aleatorias que se escriben como funciones de las variables de la muestra X.
Cualquier función (medible) H definida en Rn y con valores en R aplicada a
(X1 , X2 , . . . , Xn ) define un estadı́stico T ,
T = H(X1 , X2 , . . . , Xn ) ,
de la variable X. Todo estadı́stico T es asimismo una variable aleatoria.
notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

4.1. Muestreo aleatorio y estadı́sticos 3
En lo que sigue, el tamaño de la muestra aleatoria será siempre un genérico n. No

reflejaremos ese n en el sı́mbolo que represente al estadı́stico (y por tanto escribire-
mos, por ejemplo, T en lugar de Tn ). Más adelante, por ejemplo en el apartado 5.4,
analizaremos el comportamiento de estadı́sticos cuando el tamaño de la muestra
crece, y será necesario precisar algo más la notación.
Los estadı́sticos más habituales son:
La media muestral, que se denota por X:
1
n
X1 + X2 + · · · + Xn
(4.1) X= = Xj .
n n
j=1
La cuasivarianza muestral, que se denota por S 2 (y requiere n ≥ 2):
1 2
n
(4.2) S2 = Xj − X .
n−1
j=1
Nótese que en S 2 se divide por n − 1, y no por el tamaño de la muestra n.

La variable S 2 es una función de las Xi bastante más complicada que la X.
Concretamente, desarrollando cuadrados,
1 - 2 . 1
n n
2 1
2
S = Xj − n X = Xj2 − Xi Xj .
n−1 n n(n − 1)
j=1 j=1 i=j
√
La cuasidesviación tı́pica muestral es el estadı́stico S = S2.
La varianza muestral,
1 2
n
(4.3) D2 = Xj − X ,
n
j=1
aparecerá ocasionalmente. Obsérvese que ahora se divide

√ por n, y no por n − 1.
La desviación tı́pica muestral es el estadı́stico D 2 .
Otros estadı́sticos usuales (y de interés):
máximo: máx (X1 , X2 , . . . , Xn );
mı́nimo: mı́n (X1 , X2 , . . . , Xn );
rango: máx (X1 , X2 , . . . , Xn ) − mı́n (X1 , X2 , . . . , Xn );
estadı́sticos de orden: para cada entero 1 ≤ r ≤ n, el estadı́stico de or-
den Xn,r se obtiene al ordenar la muestra (X1 , X2 , . . . , Xn ):
Xn,1 ≤ Xn,1 ≤ · · · ≤ Xn,n ,
y tomar el valor que ocupa la posición r-ésima en esta ordenación de menor
a mayor. Por ejemplo, Xn,1 es el mı́nimo y Xn,n es el máximo; Xn,2 serı́a el
segundo más pequeño.

Importa recalcar que:
los estadı́sticos son variables aleatorias;

en el cálculo de cualquier estadı́stico interviene tan sólo la muestra aleato-
ria (X1 , . . . , Xn ) de X, y no interviene ningún parámetro de la distribución
especı́fica a la que se aplica.
Interesa entender las propiedades probabilistas de estos estadı́sticos, en particular

su distribución (valores/probabilidades, o función de densidad); o con miras menos
ambiciosas, sus medias y varianzas. Nos centramos aquı́ en el análisis de la media
muestral X y de la cuasivarianza muestral S 2 , con una breve excursión adicional por
el mundo de los máximos y mı́nimos muestrales.
4.2. Sobre la media muestral

Partimos de una muestra aleatoria X = (X1 , . . . , Xn )T de tamaño n de la varia-
ble X. La variable media muestral viene dada por
1
n
X= Xj .
n
j=1
4.2.1. Media y varianza de X

Para cualquier variable X, la media y la varianza de la variable aleatoria X se
expresan directamente en términos de la media y la varianza de la variable X.
Proposición 4.1 Para cualquier variable aleatoria con E(X 2 ) < +∞ se tiene que
1
E(X) = E(X) y V(X) = V(X).
n
Demostración. Por un lado,
1
n
1
E(X) = E(Xj ) = nE(X) = E(X) ;
n n
j=1
y, por otro, usando la independencia,
1
n
1 1
V(X) = 2 V(Xj ) = 2 nV(X) = V(X).
n n n
j=1
(Aquı́, por cierto, habrı́a bastado con que las variables Xj fueran incorreladas).

4.2. Sobre la media muestral 5
4.2.2. Concentración de X alrededor de E(X)

La desigualdad de Chebyshev para una variable aleatoria Y con E(Y 2 ) < +∞
nos dice que, para cualquier ε > 0,
V(Y )
P |Y − E(Y )| ≥ ε ≤ .
ε2
Aplicada a la media muestral X, la desigualdad de Chebyshev, nos dice que
V(X)
(4.4) P |X − E(X)| ≥ ε ≤ ,
nε2
es decir, que los valores de X se concentran en torno a E(X) para n grande. La
desigualdad anterior cuantifica cuán probable es que X se aleje del valor de la me-
dia E(X) de X.
Una escritura alternativa de (4.4) es la siguiente:

1
(4.5) P |X − E(X)| ≥ ε V(X) ≤ 2 ,
nε
en la que registramos la magnitud de las desviaciones en torno a la media en la escala
“natural”, la de la desviación tı́pica.
De (4.4) se deduce la ley débil de los grandes números (para variables tales que
E(X 2 ) < +∞): para todo ε > 0 se tiene que

lı́m P |X − E(X)| ≥ ε = 0 .
n→∞
4.2.3. Distribución (exacta y/o aproximada) de X

En ciertas ocasiones, para determinados tipos de variables X, es posible obtener
la distribución completa de la variable X, lo que permite responder de manera exacta
a cuestiones sobre concentración de los valores de X.
Ejemplo 4.2.1. Bernoulli y binomial.
Si X es una ber(p), entonces nX = X1 + · · · + Xn es bin(n, p). Es decir,

n k
P(nX = k) = p (1 − p)n−k para cada k = 0, 1, . . . , n.
k
Obsérvese que, por lo tanto, X toma los valores 0, 1/n, 2/n, . . . , 1 con las mismas
probabilidades con las que nX toma los valores 0, 1, . . . , n.
Más generalmente, si X es una binomial bin(m, p), entonces nX ∼ bin(nm, p),
esto es,

nm k
P(nX = k) = p (1 − p)nm−k para cada k = 0, 1, . . . , nm,
k
de manera que X toma los valores los valores 0, 1/n, 2/n, . . . , m con las mismas
probabilidades con las que nX toma los valores 0, 1, . . . , nm. ♣

Ejemplo 4.2.2. Poisson.

Si X es una poiss(λ) con λ > 0, esto es,
λk
P(X = k) = e−λ para cada k = 0, 1, 2 . . . ,
k!
entonces la variable nX es poiss(nλ), es decir,
(λn)k
P(nX = k) = e−λn para cada k = 0, 1, 2 . . . ,
k!
y por tanto X toma los valores 0, 1/n, 2/n, 3/n, . . . con las mismas probabilidades
Ê
(escritas arriba) con las que nX toma los valores 0, 1, 2, 3 . . . . ♣
Nota 4.2.1. La observación usada antes (el que nX ∼ poiss(nλ)) se deduce de que, si X ∼ poiss(μ)
e Y ∼ poiss(ν), y son independientes, entonces X + Y es poiss(μ + ν).
Veamos por qué. Para cada entero k ≥ 0 se tiene que

k
k
P(X + Y = k) = P(X = j, Y = k − j) = P(X = j) P(Y = k − j)
j=0 j=0

k
μj −ν ν k−j 1 k j k−j
k
1
= e−μ e = e−μ−ν μ ν = e−(μ+ν) (μ + ν)k .
j=0
j! (k − j)! k! j=0 j k!
En el segundo paso hemos usado la independencia, y en el último hemos aplicado el binomio de

Newton.
Ejemplo 4.2.3. Geométrica y binomial negativa.

Si X es una geo(p), entonces la suma nX es una binomial negativa binneg(n, p).
Una binneg(n, p) cuenta el número de lanzamientos (de una moneda con proba-
bilidad de cara p) hasta obtener n caras.
De hecho, una geo(p) es una binneg(1, p) y si X e Y son, respectivamente,
binneg(k, p) y binneg(m, p) (mismo parámetro p) e independientes, entonces X +Y
es una binneg(k + m, p). Por tanto, además, si X es binneg(m, p), entonces nX es
binneg(nm, p). Véanse los detalles en el ejercicio 4.3. ♣
Ejemplo 4.2.4. Exponencial y Gamma.
Si X es Exp(λ) con λ > 0, entonces nX es una variable Γ(λ, n).
Esto se sigue de que X es Γ(λ, 1) y que, por tanto, nX es Γ(λ, n).
En general, si X es Γ(λ, t), entonces nX es Γ(λ, nt). Véase la sección 2.3.3, y en
Ê
particular la proposición 2.13. ♣
Nota 4.2.2. Como caso particular del ejemplo anterior, si tomamos λ = 1/2, entonces nX es una
variable Γ(1/2, 2n/2), es decir, una χ22n . Esto supone que la suma de n exponenciales independientes
de parámetro λ = 1/2 se distribuye de la misma manera que la suma de 2n normales estándar al
cuadrado independientes. Asombroso.

4.2. Sobre la media muestral 7
El caso en el que X es una variable normal es sin duda el más relevante.

Ejemplo 4.2.5. Normal.
Si X es N (μ, σ 2 ), entonces nX es una variable N (nμ, nσ 2 ) y, de hecho,
σ2
X ∼ N μ, .
n
Esto se sigue de la proposición 2.8. ♣
Salvo en estos ejemplos particulares, el cálculo de la distribución de X suele ser
extremadamente difı́cil.
Ejemplo 4.2.6. Lanzamiento de dados.
El experimento consiste en lanzar un dado (regular) n veces. Cada lanzamiento
es una variable X que toma los valores 1, 2, . . . , 6 con probabilidad 1/6 cada uno de
ellos. Interesa entender X, o quizás nX.
Digamos, por ejemplo, que n = 100. La variable nX toma valores entre 6 y 600.
¿Pero cuál es la probabilidad de obtener, por ejemplo, una suma total entre 320
y 360? Parece un cálculo inabordable, incluso en este caso en el que la distribución
de base es uniforme, y por tanto el cálculo es pura combinatoria. ♣
Sin embargo, disponemos de ese asombroso y maravilloso resultado conocido
como el teorema del lı́mite central1 , y que en su versión más habitual dice que, si
X1 , X2 , . . . es una sucesión de variables
idénticas (con varianza finita) e independien-
tes, entonces, la variable suma ni=1 Xi (o quizás la variable promedio) tiende en
distribución, tras la pertinente tipificación, y cuando n → ∞, a una normal estándar.
Para ulteriores referencias, recogemos este resultado en el siguiente:
Teorema 4.2 (del lı́mite central) Sea X1 , X2 , . . . una sucesión de variables alea-
torias idénticas e independientes. Cada Xj es un clon de una cierta variable X con
E(X 2 ) < +∞. Llamemos E(X) = μ y V(X) = σ 2 . Entonces
√ d
n |X − μ| −−→ N (0, σ 2 ) cuando n → ∞.
d
El sı́mbolo −−→ indica convergencia en distribución.
Una manera alternativa de escribir el resultado anterior, que quizás le resulte
más familiar al lector, es la siguiente:
X − E(X) X − E(X) d
=
−−−→ N (0, 1) cuando n → ∞,
σ(X) V(X)/n
que nos dice que la función de distribución de la versión tipificada de X tiende,
cuando n → ∞, a la función de distribución Φ de la normal estándar: para cada
t ∈ R,
X − E(X)
P
≤ t −→ Φ(t) cuando n → ∞.
V(X)/n
1
O teorema central del lı́mite, en función de la religión que profese.

En la expresión anterior solo intervienen E(X) y V(X), y no la distribución explı́cita

de X. Aunque, claro, se trata de un resultado asintótico.
Le habremos de sacar mucho jugo a este teorema más adelante. Por ahora, una
par de aplicaciones directas.
Ejemplo 4.2.7. Lanzamos la moneda (regular) 10 000 veces. Queremos estimar la

probabilidad de que el promedio de caras obtenido esté entre el 48 % y el 52 %.
La variable X de referencia es una ber(1/2), de media E(X) = 1/2 y varianza
V(X) = 1/4. La variable promedio X tiene media E(X) = 1/2 y varianza V(X) =
1/40 000.
La pregunta del enunciado se refiere a la probabilidad
P(48 % ≤ X ≤ 52 %).
La distribución de X es conocida (ejemplo 4.2.1), y esta probabilidad se puede calcu-

lar sumando probabilidades de la bin(10 000, 1/2). Un cálculo computacionalmente
exigente.
Alternativa (y aproximadamente), podemos proceder como sigue:
P(48 % ≤ X ≤ 52 %) = P(−2 % ≤ X − E(X) ≤ 2 %)

−2 % X − E(X) −2 %
=P
≤
≤
1/40000 V(X)/10000 1/40000

≈ P(−4 ≤ N (0, 1) ≤ 4) = Φ(4) − Φ(−4) = 99.994 %.
Por cierto, la estimación que se obtiene usando Chebyshev serı́a
V(X) 15
P(48 % ≤ X ≤ 52 %) = P(|X− 12 | ≤ 2
100 ) = 1−P(|X− 12 | > 2
100 ) ≥ 1− 2
= ,
(2/100) 16
que sólo nos dirı́a que la probabilidad en cuestión es, al menos, de un 93.75 %. ♣
Ejemplo 4.2.8. Lanzamiento de dados, segunda parte.

Retomamos el ejemplo 4.2.6. Para calcular la probabilidad de que tras n = 100
lanzamientos de un dado regular obtengamos una suma total de puntos entre 320 y
360 procedemos como sigue. Calculamos primero E(X) = 7/2 y V(X) = 35/12, de
manera que E(nX) = 350 y V(nX) = 875/3. Luego,
100
10
100
30 Xi − 350
P 320 ≤ Xi ≤ 360 = P −

≤ i=1 ≤
i=1
875/3 875/3 875/3
≈ Φ(0.5855) − Φ(−1.7566) = 72.091 % − 3.949 % = 68.142 %.
Aquı́ estamos suponiendo que n = 100 es lo suficientemente grande como que el

teorema del lı́mite central se pueda aplicar. ♣

Ê
4.3. Sobre la cuasivarianza muestral 9
Nota 4.2.3. En estos dos ejemplos hemos utilizado valores especı́ficos de la función Φ de distri-
bución de la normal estándar. En Excel, los valores de Φ(x) se pueden calcular con la instrucción
=distr.norm.estand(x).
4.3. Sobre la cuasivarianza muestral

Partimos, de nuevo, de una muestra aleatoria X = (X1 , . . . , Xn )T de tamaño n
de la variable X.
La variable cuasivarianza muestral
1
n
(4.6) S2 = (Xi − X)2
n−1
i=1
es un estadı́stico más complejo que X y, en general, la información de que se dispone

sobre S 2 es más pobre.
Podemos escribir S 2 en la forma alternativa

n
2
(4.7) (n − 1)S =2
Xj2 − nX ,
j=1
o también como

n
(4.8) n(n − 1)S = (n − 1)
2
Xj2 − Xi Xj .
j=1 i=j
En forma matricial, esta última expresión se escribe
nS 2 = XT Ωn X,
donde Ωn es la matriz simétrica (semidefinida positiva, pues S 2 ≥ 0) con coeficientes

1, si i = j ,
ωi,j =
−1/(n − 1) , si i = j .
4.3.1. Media de S 2
Proposición 4.3 Para cualquier variable X con E(X 2 ) < +∞ se tiene que
E(S 2 ) = V(X) .
La proposición 4.3 muestra por qué en S 2 se divide por n − 1 y no por n.

Conviene remarcar, y lo remarcamos, que
para el estadı́stico D 2 (varianza muestral), que se define como S 2 , pero divi-
diendo por n en lugar de n − 1, se tiene que E(D 2 ) = n−1 2
n E(S ) < V(X);

y que E(S) = V(X).

Ê
Nota 4.3.1.

De hecho, por la desigualdad
de Jensen (teorema 2.1), E(S)2 < E(S 2 ) = V(X), ası́ que
E(S) < V(X). La desigualdad E(S) < V(X) es igualdad sólo si S 2 es constante. Pero esto sólo
ocurre si X es constante. (Una forma de comprobar esto último es apelando al corolario 4.5.)
Demostración de la proposición 4.3. Usando (4.7) se tiene que
2
(n − 1)E(S 2 ) = n E(X 2 ) − n E(X ) ,
que podemos expresar en términos sólo de X usando que
2 1
E(X ) = V(X) + E(X)2 = V(X) + E(X)2 ,
n
para obtener que

1
(n − 1)E(S 2 ) = n E(X 2 ) − n V(X) + E(X)2
n
= n E(X 2 ) − E(X)2 ) − V(X) = (n − 1)V(X) ,
y, finalmente, que
E(S 2 ) = V(X) .
Partiendo de (4.8) en lugar de (4.7), la prueba es más directa (algebraicamente):

n
n(n − 1)E(S 2 ) = (n − 1) E(Xi2 ) − E(Xi · Xj )
i=1 i=j
= (n − 1)n E(X ) − n(n − 1) E(X)2 = n(n − 1) V(X) ,

2
donde hemos usado la independencia de las Xi (para escribir que E(Xi · Xj ) =

E(Xi ) E(Xj )) y que todas las Xi con clones de X.
Ê Nota 4.3.2. Contraviniendo la definición de estadı́stico (pues usaremos en su definición el valor de

un parámetro), supongamos que μ = E(X) es dada y pongamos
1
n
T2 = (Xj − μ)2 .
n j=1
Obsérvese que se divide por n y no por n − 1. Se tiene

n
nT 2 = Xj2 − nμ2 ,
j=1
ası́ que nE(T 2 ) = nE(X 2 ) − nμ2 = nV(X), y por tanto E(T 2 ) = V(X).

4.3. Sobre la cuasivarianza muestral 11
4.3.2. Varianza de S 2
Arrancamos con la expresión de la varianza de S 2 para variables tipificadas:
Proposición 4.4 Si X es una variable tipificada (es decir, E(X) = 0 y E(X 2 ) =
V(X) = 1) con E(X 4 ) < +∞, entonces
1 n−3
V(S 2 ) = E(X 4 ) − .
n n(n − 1)
Ê Nota 4.3.3. En la expresión anterior suponemos que n ≥ 2. Nótese cómo de ella se deduce, de
pasada, que E(X 4 ) > (n − 3)/(n − 1) para todo n ≥ 2 si la variable X está tipificada. Obsérvese
que (n − 3)/(n − 1) tiende a 1 cuando n → ∞.
De la proposición 4.4, como comprobaremos en un momento, se obtiene la fórmula

general:
Corolario 4.5 Para cualquier variable X con E(X 4 ) < +∞ se tiene que
1 n−3 2
V(S 2 ) = E (X − E(X))4 − E (X − E(X))2 .
n n(n − 1)
De esta última identidad se obtiene inmediatamente:
Corolario 4.6 Si n ≥ 3, entonces para cualquier variable aleatoria X con E(X 4 ) <
+∞ se tiene que
1
V(S 2 ) ≤ E (X − E(X))4 .
n
De este corolario deduciremos un resultado de concentración de S 2 (en torno
a σ 2 ) en la sección 4.3.3 siguiente.
Demostración del corolario 4.5. Sea Y la versión tipificada de X, es decir,
Y := (X − μ)/σ, donde μ = E(X) y σ 2 = V(X). Obsérvese que X = σY + μ, y
también que X = σ Y + μ.
Esto nos dice que
2
SX ≡ σ 2 SY2 .
Por tanto, aplicando la proposición 4.4,
1 n−3 1 1 n−3
V(SX2
) = σ 4 V(SY2 ) = σ 4 E(Y 4 )− = σ 4 E((X −μ)4 ) 4 − .
n n(n − 1) n σ n(n − 1)

Demostración de la proposición 4.4. La variable X está tipificada: E(X) = 0
y V(X) = E(X 2 ) = 1. Queremos calcular
V(S 2 ) = E(S 4 ) − E(S 2 )2 = E(S 4 ) − V(X)2 = E(S 4 ) − 1,
donde hemos aplicado la proposición 4.3 y el que X está tipificada.

Solo resta calcular E(S 4 ). En este cálculo usamos la expresión dada en (4.8),

n
n(n − 1)S 2 = (n − 1) Xj2 − Xi Xj .
j=1 i=j
Hemos de elevar al cuadrado y aplicar esperanzas:

0 n 2 1
n (n − 1) E(S ) = E (n − 1)
2 2 4
Xj −
2
Xi Xj
j=1 i=j
Pero no desarrollamos completamente el cuadrado de la derecha sino que an-

ticiparemos aquellos sumandos del desarrollo que, como E(X) = 0 y las Xj son
independientes, sabemos que al tomar esperanzas se anularán.
a) El término con el cuadrado de la primera suma:
-
n 2 . -
n 2 .
E (n − 1) 2
Xj = (n − 1) E
2
Xj2
j=1 j=1

= (n − 1) 2
nE(X ) + n(n − 1)E(X )
4 2 2
= (n − 1)2 nE(X 4 ) + (n − 1)2 n(n − 1).
b) El término con el cuadrado de la segunda suma: al desarrollar

2
E Xi Xj ,
i=j
los únicos sumandos que sobreviven son aquellos en los que se multiplican términos
Xi Xj con Xi Xj , o términos Xi Xj con Xj Xi . Por tanto,
2
E Xi Xj = 2n(n − 1)E(X 2 )2 = 2n(n − 1).
i=j
c) Por último, los términos cruzados:

n
E (n − 1) Xj2 · Xi Xj = 0,
j=1 i=j
pues en todos los términos que aparecen hay (al menos) un factor E(Xi ), que es 0.
Poniendo todo esto junto obtenemos que
n2 (n − 1)2 E(S 4 ) = (n − 1)2 nE(X 4 ) + (n − 1)2 n(n − 1) + 2n(n − 1) ,
es decir,
1 (n − 1)2 + 2
E(S 4 ) = E(X 4 ) + .
n n(n − 1)
Ahora bien, E(S 2 ) = V(X) = 1, ası́ que
1 (n − 1)2 + 2 1 n−3
V(S 2 ) = E(X 4 ) + − 1 = E(X 4 ) − .
n n(n − 1) n n(n − 1)

4.4. Sobre máximos y mı́nimos 13
4.3.3. Concentración de S 2 alrededor de σ 2

Sea X una variable aleatoria X con E(X 4 ) < +∞, y denotemos por μ = E(X) y
por σ 2 = V(X). Entonces, como E(S 2 ) = σ 2 , la desigualdad de Chebyshev aplicada
a S 2 nos dice que para todo ε > 0 se tiene, usando el corolario 4.6, que

2 V(S 2 ) E (X − μ)4
(4.9) P |S − σ | ≥ ε ≤
2
≤
ε2 nε2
(compárese con (4.4)), y, en particular que, para todo ε > 0,

lı́m P |S 2 − σ 2 | ≥ ε = 0 .
n→∞
Una versión alternativa de (4.9) serı́a:

1
P |S 2 − σ 2 | ≥ ε E((X − μ)4 ) ≤ 2 ,
nε
en la que se exhibe la unidad “natural” de desviación de S 2 en torno a su media σ 2 ,
que es ahora la raı́z cuadrada del cuarto momento (compárese con (4.5)).
4.3.4. Distribución de S 2
Determinar explı́citamente la distribución de la variable S 2 es, salvo en algún
caso particular, una tarea complicada.
Ejemplo 4.3.1. Veamos el caso en el que X es ber(p).

Sabemos que nX ∼ bin(n, p). Pero como además en este caso X 2 también es
ber(p), resulta que

n
2
n
2 2
(n − 1)S 2 = Xj2 − nX = Xj − nX = nX − nX = nX(1 − X) ,
j=1 j=1
de manera que n(n − 1)S 2 = Z(n − Z), donde Z = nX es una bin(n, p).
Es decir, la variable S 2 toma los valores j(n − j)/(n(n − 1)) con probabilidades

j(n − j) n j
P S =2
= p (1 − p)n−j j = 0, 1, 2, . . . , n.
n(n − 1) j ♣
Más adelante determinaremos también la distribución de S 2 en el caso en el

que X sea una variable normal (véase el teorema 4.7).
4.4. Sobre máximos y mı́nimos

Dada una muestra aleatoria (X1 , . . . , Xn ) de X, consideramos los estadı́sticos
M = máx{X1 , X2 , . . . , Xn } y m = mı́n{X1 , X2 , . . . , Xn }.

En cuanto a la función de distribución del máximo, para t ∈ R,
FM (t) = P(M ≤ t) = P(máx(X1 , . . . , Xn ) ≤ t) = P(X1 ≤ t, . . . , Xn ≤ t)

(4.10) = P(X1 ≤ t) · · · P(Xn ≤ t) = P(X ≤ t)n = FX (t)n
Por lo tanto, en el caso de que X sea una variable continua, se tiene que la función
de densidad del máximo es, para t ∈ R,
(4.11) fM (t) = n FX (t)n−1 fX (t)
Para el cálculo análogo correspondiente al estadı́stico del mı́nimo, conviene pasar

al complementario y argumentar como sigue:
P(m > t) = P(mı́n(X1 , . . . , Xn ) > t) = P(X1 > t, . . . , Xn > t)
= P(X1 > t) · · · P(Xn > t) = P(X > t)n = (1 − FX (t))n ,
lo que nos da que
(4.12) Fm (t) = 1 − (1 − FX (t))n
para t ∈ R, y derivando, para el caso de X continua, que
(4.13) fm (t) = n (1 − FX (t))n−1 fX (t)
Obsérvese cómo en este caso es sencillo obtener la distribución del máximo o

el mı́nimo, y no tanto los momentos (digamos, media y varianza). Por ejemplo, la
media de la variable máximo se calcuları́a como
! ∞
E(M ) = n t FX (t)n−1 fX (t) dt,
−∞
que puede (suele) ser una integral complicada.
Ê
Consúltese también el ejercicio 4.5 para el caso de los estadı́sticos de orden.
Nota 4.4.1. Existe también un resultado asintótico, paralelo al teorema del lı́mite central, para
máximos y para mı́nimos. Para el máximo, por ejemplo, afirma que si la sucesión de máximos (de
muestras aleatorias cada vez mayores), convenientemente normalizada, converge en distribución,
entonces solo puede hacerlo a tres posibles distribuciones, conocidas como de Gumbel, de Fréchet y
de Weibull. En concreto, reza ası́. Sea F la función de distribución de la X de referencia y llamemos
Mn = máx(X1 , . . . , Xn ). Si existen un par de sucesiones de números an > 0 y bn tales que
M − b
n n
≤ x = P(Mn ≤ an x + b) = F n (an x + bn ) −−−→ G(x)
d
P cuando n → ∞
an
para cada x ∈ R, donde G(x) es una función de distribución no degenerada, entonces G ha de ser
una de las tres siguientes:
−x −α α
Λ(x) = ee ; Φα (x) = e−x , x ≥ 0; Ψα (x) = e−(−x) , x < 0
(Gumbel) (Fréchet) (Weibull)
Nótese cómo, a diferencia del teorema del lı́mite central, la convergencia en distribución de los
máximos normalizados no está garantizada.

4.5. Muestreo aleatorio de variables normales 15
4.4.1. Concentración del máximo/mı́nimo

Sea X una variable aleatoria. Sea β el supremo (esencial) de X, es decir,
P(X ≤ β) = 1 y P(X ≤ r) < 1 para todo r < β.
En otras palabras, FX (β) = 1, pero FX (r) < 1, para todo r < β. Obsérvese que β
puede ser +∞, como por ejemplo en el caso de la normal.
Para cada r < β,
lı́m P(r < M ≤ β) = 1 .
n→∞
Esto se sigue de que
P(r < M ≤ β) = 1 − P(M ≤ r) = 1 − FM (r) = 1 − FX (r)n ,
y de que FX (r) < 1.

Si β es finito, escribimos entonces que, para todo ε > 0,
lı́m P(β − ε < M ≤ β) = 1 .

n→∞
Esto es, el máximo muestral se concentra alrededor del supremo (esencial) de X.

Análogamente, se tiene que el mı́nimo se concentra alrededor del ı́nfimo esencial α
definido por
P(X ≤ r) = 0 para todo r < α y P(X ≤ α) > 0.
Aquı́, α podrı́a ser −∞.
4.5. Muestreo aleatorio de variables normales

Tratamos aquı́, para el caso en el que
X ∼ N (μ, σ 2 ),
la distribución exacta de los estadı́sticos X y S 2 .

Recordemos que ya conocemos la distribución exacta de X:
X ∼ N (μ, σ 2 /n) .
Vamos a obtener ahora:
la distribución exacta de S 2 ,
y además, y esto es un hecho crucial (en cuanto a su aplicación práctica) y
asombroso, que X y S 2 son variables aleatorias . . . independientes.

Nótese que las variables
1 1
n n
X= Xi y S2 = (Xi − X)2
n n−1
i=1 i=1
dependen (ambas) del mismo conjunto de variables, X1 , . . . , Xn , lo que no sugiere

en absoluto posible independencia.
De hecho, y como piedra de toque, recordamos del ejemplo 4.3.1 que, cuando
X ∼ ber(p), entonces (n − 1)S 2 = nX(1 − X) . ¡Bien lejos de ser independientes!
O, más sencillo, si X es la variable que toma los valores ±1 con probabilidad 1/2
2
entonces (n − 1)S 2 = n − nX .
4.5.1. Distribución (conjunta) de X y S 2 cuando X es normal

Veamos, como ilustración, el caso X ∼ N (0, 1) para una muestra X = (X1 , X2 )T
de tamaño n = 2. El vector X sigue una N (0, I), donde I es la matriz identidad 2×2.
En este caso tenemos que
X1 + X2
X= ,
2
2 2 (X1 − X2 )2
S 2 = X1 − 12 (X1 + X2 ) + X2 − 12 (X1 + X2 ) = .
2
Consideramos ahora el vector aleatorio Y = (Y1 , Y2 )T dado por
√ √
Y1 = √1 (X1 + X2 ),
Y1 1/√2 1/ √2 X1 2
= , es decir,
Y2 1/ 2 −1/ 2 X2 Y2 = √1 (X1 − X2 ).
2
=O
Como la matriz O es ortogonal, resulta que el vector Y también sigue una N (0, I),
por el lema 3.5 (aunque aquı́ podrı́amos haber hecho la comprobación a mano, con el
cambio de variables correspondiente). En particular Y1 e Y2 son normales estándar
independientes.
Pero como
1
X = √ Y1 y S 2 = Y22
2
deducimos, de una tacada, que X ∼ N (0, 1/2), que S 2 ∼ χ21 (pues es una normal
estándar al cuadrado), y que X y S 2 son variables independientes.
La generalización de este argumento da lugar al siguiente teorema:
Teorema 4.7 (Fisher–Cochran) Si X ∼ N (μ, σ 2 ) entonces

1) X es asimismo normal: X es N (μ, σ 2 /n).
2) (n − 1)S 2 /σ 2 es χ2n−1 .
3) X y S 2 son variables aleatorias independientes.

4.5. Muestreo aleatorio de variables normales 17
Demostración. La parte 1) ya es conocida (ejemplo 4.2.5), ası́ que basta probar

los otros dos enunciados.
El argumento tiene dos partes. Primero comprobamos que basta probar el resul-
tado en el caso en el que X es una normal estándar.
Veamos. Dada X ∼ N (μ, σ 2 ), consideramos la variable normal estándar Y =
(X − μ)/σ y la muestra Y = (Y1 , . . . , Yn )T . Obsérvese que
() Y = (X − μ)/σ, y que () (n − 1)SY2 = (n − 1)SX

2
/σ 2 .
La independencia de Y y SY2 nos darı́a la independencia de X y SX 2 . El que Y siguiera
una N (0, 1/n) llevarı́a a que X fuera una N (μ, σ 2 /n), por (), y si (n−1)SY2 ∼ χ2n−1 ,
entonces tendrı́amos que (n − 1)SX 2 /σ 2 seguirı́a también una χ2
n−1 , por (). Ası́ que,
como afirmábamos, basta probar 2) y 3) para el caso tipificado.
Digamos entonces que X es una normal estándar, y consideremos la muestra
X = (X1 , . . . , Xn )T , que sigue una N (0, I), con I la matriz identidad n × n.
Sea A una matriz n × n ortogonal, cuya primera fila es
1 1 1
√ √ ··· √
n n n
Esta fila es un vector de Rn de módulo 1. El resto de las filas de la matriz A se
pueden obtener por ortonormalización de Gram–Schmidt de la base formada por esa
primera fila y n − 1 vectores de la base canónica.
Sea Z el vector columna aleatorio dado por
Z = AX .
Como A es ortogonal, Z es un vector normal estándar: sus componentes son normales

estándar Z1 , Z2 , . . . , Zn independientes. Véase el lema 3.5.
√
Obsérvese que Z1 = n X. De manera que X = √1n Z1 es N (0, 1/n) (ésta es la
parte 1) del teorema, de nuevo.)
Por otro lado, en general, se tiene que

n
2
(n − 1)S 2 = Xj2 − nX .
j=1
Ahora, como A es matriz ortogonal,

n
n
Zj2 = ZT Z = XT AT AX = XT X = Xj2 ,
j=1 j=1
√
de manera que usando que Z1 = n X obtenemos que

n
2
n
n
(n − 1)S = 2
Xj2 − nX = Zj2 − Z12 = Zj2 ,
j=1 j=1 j=2

es decir,

n
(n − 1)S 2 = Zj2 ,
j=2
En consecuencia, y de un sólo golpe, tenemos que
(n − 1)S 2 es una χ2n−1 , pues las Zj son normales estándar independientes;
(n − 1)S 2 y X son independientes, pues la primera depende de Z2 , . . . , Zn y la

segunda de Z1 .
Ê Nota 4.5.1. Supongamos que X es normal estándar. El teorema 4.7 nos da la distribución de S 2 y
nos dice que (n − 1)S 2 es χ2n−1 , y, por tanto, que
(n − 1)2 V(S 2 ) = V(χ2n−1 ) = 2(n − 1) ,
de manera que
2
V(S 2 ) = ,
n−1
Por otro lado, la proposición 4.4 (válida en general, no sólo cuando X es normal) nos dice
(usando que, para una variable X normal estándar, E(X 4 ) = 3) que
1 n−3 3 n−3 2
V(S 2 ) = E(X 4 ) − = − = ,
n n(n − 1) n n(n − 1) n−1
como tenı́a que ser.
Sea ahora X ∼ N (μ, σ 2 ). Entonces, por el teorema 4.7 de Fisher–Cochran,
X −μ
1.- √ = Y ∼ N (0, 1) es normal estándar;
σ/ n
2.- (n − 1)S 2 /σ 2 = Zn−1 es una χ2n−1 ,
3.- además X y Zn−1 son independientes.
Ası́ que √
X −μ (X − μ)/(σ/ n) Y
√ = =
S/ n S/σ Zn−1 /(n − 1)

es una variable t de Student con n − 1 grados de libertad (véase la sección 3.3.3).
Proposición 4.8 Si X ∼ N (μ, σ 2 ), entonces
X −μ
√ ∼ stu(n − 1),
S/ n
X−μ
es decir, la variable √
S/ n
se distribuye como una t de Student con n − 1 grados de
libertad.

Muestreo

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Muestreo

Uploaded by

Copyright:

Available Formats

Capı́tulo 4

Modelo de muestreo aleatorio

4.1. Muestreo aleatorio y estadı́sticos . . . . . . . . . . . . . . . . . . 2

En este capı́tulo presentamos la modelación probabilista del muestreo aleatorio, y

4.1. Muestreo aleatorio y estadı́sticos

Éste es nuestro modelo para describir procesos de sorteos (independientes) y de

donde fX es la función de densidad de la variable X de referencia;

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

En lo que sigue, el tamaño de la muestra aleatoria será siempre un genérico n. No

La cuasivarianza muestral, que se denota por S 2 (y requiere n ≥ 2):

Nótese que en S 2 se divide por n − 1, y no por el tamaño de la muestra n.

aparecerá ocasionalmente. Obsérvese que ahora se divide

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

Importa recalcar que:

los estadı́sticos son variables aleatorias;

Interesa entender las propiedades probabilistas de estos estadı́sticos, en particular

4.2. Sobre la media muestral

4.2.1. Media y varianza de X

Demostración. Por un lado,

y, por otro, usando la independencia,

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

4.2.2. Concentración de X alrededor de E(X)

4.2.3. Distribución (exacta y/o aproximada) de X

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

Ejemplo 4.2.2. Poisson.

En el segundo paso hemos usado la independencia, y en el último hemos aplicado el binomio de

Ejemplo 4.2.3. Geométrica y binomial negativa.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

El caso en el que X es una variable normal es sin duda el más relevante.

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

En la expresión anterior solo intervienen E(X) y V(X), y no la distribución explı́cita

Ejemplo 4.2.7. Lanzamos la moneda (regular) 10 000 veces. Queremos estimar la

La distribución de X es conocida (ejemplo 4.2.1), y esta probabilidad se puede calcu-

P(48 % ≤ X ≤ 52 %) = P(−2 % ≤ X − E(X) ≤ 2 %)

1/40000 V(X)/10000 1/40000

Por cierto, la estimación que se obtiene usando Chebyshev serı́a

Ejemplo 4.2.8. Lanzamiento de dados, segunda parte.

Aquı́ estamos suponiendo que n = 100 es lo suﬁcientemente grande como que el

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

4.3. Sobre la cuasivarianza muestral

es un estadı́stico más complejo que X y, en general, la información de que se dispone

En forma matricial, esta última expresión se escribe

donde Ωn es la matriz simétrica (semideﬁnida positiva, pues S 2 ≥ 0) con coeﬁcientes

La proposición 4.3 muestra por qué en S 2 se divide por n − 1 y no por n.

y que E(S) = V(X).

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

Demostración de la proposición 4.3. Usando (4.7) se tiene que

que podemos expresar en términos sólo de X usando que

para obtener que

Partiendo de (4.8) en lugar de (4.7), la prueba es más directa (algebraicamente):

= (n − 1)n E(X ) − n(n − 1) E(X)2 = n(n − 1) V(X) ,

donde hemos usado la independencia de las Xi (para escribir que E(Xi · Xj ) =

Ê Nota 4.3.2. Contraviniendo la deﬁnición de estadı́stico (pues usaremos en su deﬁnición el valor de

Obsérvese que se divide por n y no por n − 1. Se tiene

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

De la proposición 4.4, como comprobaremos en un momento, se obtiene la fórmula

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

Hemos de elevar al cuadrado y aplicar esperanzas:

Pero no desarrollamos completamente el cuadrado de la derecha sino que an-

b) El término con el cuadrado de la segunda suma: al desarrollar

c) Por último, los términos cruzados:

notas de estadı́stica I – 23 de octubre de 2017 – jose l. fernández y pablo fernández

4.3.3. Concentración de S 2 alrededor de σ 2

y que E(S) = V(X).

() Y = (X − μ)/σ, y que () (n − 1)SY2 = (n − 1)SX