Curso de Inferencia y Decisión

Curso de Inferencia y Decision
Guadalupe Gomez y Pedro Delicado

Departament dEstadstica i Investigacio Operativa
Universitat Polit`ecnica de Catalunya
Enero de 2006
Indice abreviado
Captulo 1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Captulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25
Captulo 3. Estimacion puntual 1: Construccion de estimadores . 45
Captulo 4. Estimacion puntual 2: Evaluacion de estimadores . . . . 87
Captulo 5. Contrastes de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Captulo 6. Estimacion por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183
Captulo 7. Introduccion a la Teora de la Decision . . . . . . . . . . . . . 215
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
i
Indice general
Indice abreviado I
Indice general II
Prologo VII
1. Introduccion 1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3
1.2.2. Distribucion de una variable aleatoria. Funciones de dis-
tribucion, de probabilidad y de densidad . . . . . . . . . . 4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6
1.2.5. Modelo parametrico . . . . . . . . . . . . . . . . . . . . . 7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 12
1.3.1. Familias de localizacion y escala . . . . . . . . . . . . . . 12
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 13
1.4. Muestreo de una distribucion normal . . . . . . . . . . . . . . . . 13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16
1.5. Leyes de los Grandes N umeros y Teorema Central del Lmite . . 18
1.5.1. Leyes de los grandes n umeros . . . . . . . . . . . . . . . . 18
1.5.2. Teorema central del lmite . . . . . . . . . . . . . . . . . . 19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
iv

INDICE GENERAL
2. Principios para reducir los datos 25
2.1. Principio de suciencia . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.1. Estadsticos sucientes r-dimensionales . . . . . . . . . . 31
2.1.2. Estadsticos sucientes minimales . . . . . . . . . . . . . . 32
2.1.3. Estadsticos ancilares . . . . . . . . . . . . . . . . . . . . . 35
2.1.4. Estadsticos completos . . . . . . . . . . . . . . . . . . . . 36
2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 38
3. Estimacion puntual 1: Construccion de estimadores 45
3.1. La funcion de distribucion emprica y el metodo de los momentos 45
3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 47
3.1.2. Principio de sustitucion . . . . . . . . . . . . . . . . . . . 50
3.1.3. El metodo de los momentos . . . . . . . . . . . . . . . . . 51
3.2. Estimadores de maxima verosimilitud . . . . . . . . . . . . . . . 53
3.2.1. Calculo del estimador maximo verosmil . . . . . . . . . . 56
3.2.2. Calculo numerico de los estimadores de maxima verosimi-
litud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2.3. Principio de invariancia del estimador maximo verosmil . 70
3.3. Estimacion Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 71
3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 75
3.3.3. Funciones de perdida . . . . . . . . . . . . . . . . . . . . . 79
3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 80
4. Estimacion puntual 2: Evaluacion de estimadores 87
4.1. Error cuadratico medio . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Eciencia relativa . . . . . . . . . . . . . . . . . . . . . . . 91
4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 94
4.2.1. Teorema de Cramer-Rao. Informacion de Fisher . . . . . . 96
4.2.2. Version multivariante del teorema de Cramer-Rao. . . . . 105
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Schee 108
INDICE GENERAL v
4.3. Comportamiento asintotico . . . . . . . . . . . . . . . . . . . . . 114
4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2. Normalidad asintotica . . . . . . . . . . . . . . . . . . . . 116
4.3.3. Metodo delta . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.3.4. Eciencia relativa asintotica . . . . . . . . . . . . . . . . . 124
4.4. Teora asintotica para el estimador maximo verosmil . . . . . . . 125
5. Contrastes de hipotesis 141
5.1. Deniciones basicas. Contraste de hipotesis simples . . . . . . . . 141
5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148
5.2. Contrastes uniformemente mas potentes . . . . . . . . . . . . . . 149
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150
5.2.2. Razon de verosimilitud monotona. Teorema de Karlin-Rubin152
5.3. Contrastes insesgados. Contrastes localmente mas potentes . . . 155
5.4. Consistencia y eciencia para contrastes . . . . . . . . . . . . . . 157
5.5. Test de la razon de verosimilitudes . . . . . . . . . . . . . . . . . 158
5.5.1. Relacion con el Lema de Neyman-Pearson. . . . . . . . . 159
5.5.2. Propiedades de los contrastes de razon de verosimilitudes 160
5.6. Contrastes relacionados con el de maxima verosimilitud . . . . . 163
5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 163
5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.6.3. Contrastes en presencia de parametros secundarios. . . . . 166
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171
5.7.2. Contraste de dos hipotesis simples. . . . . . . . . . . . . . 172
5.7.3. Contraste de dos hipotesis compuestas. . . . . . . . . . . 173
5.7.4. Contraste de hipotesis nula simple frente a alternativa
compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173
vi

INDICE GENERAL
6. Estimacion por intervalos 183
6.1. Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . 183
6.2. Metodos para construir intervalos de conanza . . . . . . . . . . 185
6.2.1. Inversion de un contraste de hipotesis . . . . . . . . . . . 185
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195
6.3. Evaluacion de estimadores por intervalos . . . . . . . . . . . . . . 196
6.3.1. Intervalos de longitud mnima . . . . . . . . . . . . . . . . 197
6.3.2. Relacion con contrastes de hipotesis y optimalidad . . . . 200
6.4. Intervalos de conanza asintoticos . . . . . . . . . . . . . . . . . 202
6.4.1. Intervalos basados en el estimador de maxima verosimilitud203
6.4.2. Intervalos basados en la funcion score. . . . . . . . . . . . 205
7. Introduccion a la Teora de la Decision 215
7.1. Elementos basicos en un problema de decision . . . . . . . . . . . 215
7.1.1. Comparacion de reglas de decision. . . . . . . . . . . . . . 217
7.2. Teora de la decision e inferencia estadstica . . . . . . . . . . . . 218
7.2.1. Estimacion puntual. . . . . . . . . . . . . . . . . . . . . . 218
7.2.2. Contrastes de hipotesis. . . . . . . . . . . . . . . . . . . . 221
7.2.3. Estimacion por intervalos. . . . . . . . . . . . . . . . . . . 223
7.3. El problema de decision bayesiano . . . . . . . . . . . . . . . . . 225
7.4. Admisibilidad de las reglas de decision . . . . . . . . . . . . . . . 229
7.4.1. Comparacion de reglas de decision. . . . . . . . . . . . . . 229
7.4.2. B usqueda de reglas admisibles y clases completas. . . . . 230
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Referencias 243
Prologo
Este documento es el fruto de nuestra experiencia como docentes de la asig-
natura Inferencia y Decision (Licenciatura en Ciencias y Tecnicas Estadsticas,
Universitat Polit`ecnica de Catalunya) durante los cursos 99-03.
Cuando se preparo por primera vez la docencia de Inferencia y Decisi on se
penso en seguir lo mas elmente posible alg un libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexis-
tencia de libros en castellano o catalan dirigidos especcamente para alumnos
de Inferencia y Decision, se opto por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasio-
nes la necesidad de completarlo con otros libros. Ante esta situacion (ausencia
de textos en castellano y cierta insatisfaccion con el libro elegido) consideramos
conveniente escribir este documento. En el se recogen y amplan los apuntes pre-
parados para las clases teoricas y las listas de problemas resueltas en las clases
practicas.
El objetivo principal de la asignatura Inferencia y Decision es proporcionar
una solida base teorica de los fundamentos de la Inferencia Estadstica y de la
Teora de la Decision. Conamos en que este Curso de Inferencia y Decision
contribuya a lograrlo.
vii
Captulo 1
Introduccion
Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, captulo 3, 5.1, 5.2,
5.4.
En este curso de Inferencia y Decision se desarrollan ideas y herramientas
matematicas que la estadstica utiliza para analizar datos. Se estudiaran tecnicas
para estimar parametros, contrastar hipotesis y tomar decisiones. Es importante
no perder de vista que en la aplicacion de la estadstica se necesita mucho mas
que el conocimiento matematico. La recogida y la interpretacion de los datos es
un arte. Requiere sentido com un y puede llegar a plantear cuestiones losocas.
Ejemplo 1
Se desea estimar la proporcion de estudiantes universitarios que no se duchan
desde hace dos das o mas. Supongamos que podemos entrevistar a 20 estudian-
tes.
Que se entiende por estudiante?
Como se puede asegurar que la muestra sea aleatoria?
Querran contestar a la pregunta? Problema de falta de respuesta (missing
data).
Diran la verdad? Problema de error de medida (measurement error).
Si resulta que entre los 20 estudiantes no hay ninguna mujer, estaremos
satisfechos con el estimador que obtengamos?
Supongamos que p = 5/20. Que valores son plausibles para p?
En este caso el problema se plantea en terminos de la variable aleatoria
X = n umero de personas que no se ducharon ayer ni hoy B(20, p)
1
2 CAP
ITULO 1. INTRODUCCI
ON
y es un ejemplo de estimaci on en un contexto de inferencia parametrica.
. .
Ejemplo 2
Estudio de la aspirina.
Con el n de determinar si la aspirina tiene alg un efecto preventivo en los ataques
cardacos se desarrollo un estudio controlado entre medicos (aproximadamente
22.000) entre 40 y 84 a nos que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco a nos. Los resultados del estudio fueron los siguientes:
Sufren ataques No sufren Ataques por
cardacos ataques cardacos cada 1000 personas
Aspirina 104 10933 9.42
Placebo 189 10845 17.13
Hay suciente evidencia para concluir que la aspirina protege contra los ataque
de corazon? Se plantea aqu un problema de decisi on o el contraste de
una hip otesis.
. .
1.1. Datos y modelos
Los datos que aparecen en los problemas estadsticos pueden suponerse pro-
venientes de un experimento, es decir, son valores en un espacio muestral.
Experimento: Termino de acepcion muy amplia que incluye cualquier proce-
dimiento que produce datos.
Espacio muestral: Conjunto de todos los posibles resultados de un experi-
mento.
Ejemplo 3
Se desea estudiar la proporcion de enfermos que responde positivamente a una
nueva terapia.
Se podra pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tra-
tados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser difcil obtener resultados extrapolables a toda la po-
blacion. Sera mas aconsejable identicar la poblacion a la que esta dirigida la
1.2. VARIABLE ALEATORIA 3
nueva terapia y tratar a un subconjunto aleatorio de tama no n de esa poblacion
relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no respon-
de. En el primer caso el n umero de pacientes es variable y el espacio muestral
debera incluir las secuencias de todas las posibles longitudes (tantas como posi-
bles n umeros de pacientes), mientras que en el segundo caso el espacio muestral
consistira en las secuencias de longitud n.
. .
Denimos un modelo para un experimento como una coleccion de distribu-
ciones de probabilidad sobre el espacio muestral.
Ejemplo 3, pagina 2. Continuacion. Sea p la proporcion de individuos que
responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tama no de la poblacion
de referencia es mucho mas grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
P = {P(X
1
= x
1
, . . . , X
n
= x
n
) =
n
i=1
p
x
i
(1 p)
1x
i
, 0 < p < 1}.
Se trata de un modelo parametrico de dimension nita. El espacio parametrico
es {p : 0 < p < 1} IR.
Los problemas de inferencia en este modelo consistiran en hacer armacio-
nes (en forma de estimacion puntual, estimacion por intervalos o contrastes de
hipotesis) sobre cuan verosmiles son los posibles valores del parametro p.
. .
1.2. Variable aleatoria
1.2.1. Variables y vectores aleatorios
Consideramos un experimento aleatorio cuyos resultados pertenecen al es-
pacio muestral . Modelizamos este proceso suponiendo que existe una terna
(, A, P), donde es el espacio muestral, P() es el conjunto de partes de ,
A P() es una -algebra, y P : A [0, 1] es una medida de probabilidad
que reeja las caractersticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representacion numerica que facilita su tratamiento. Esto se
4 CAP
ITULO 1. INTRODUCCI
ON
hace mediante la denicion de variables aleatorias. Dado un espacio de
probabilidad (, A, P) y el espacio medible (IR, B), donde B es la -algebra de
Borel denida sobre la recta real IR, una variable aleatoria es una funcion
X : IR
medible, es decir, X
1
(B) A para todo B B.
Si el espacio muestral es nito o numerable, diremos que es un espacio
discreto y las variables aleatorias asociadas al experimento normalmente es-
taran denidas como X : Z. Si es no numerable, entonces diremos que
es un espacio continuo y X : IR.
A partir de un mismo experimento se pueden denir diferentes variables
aleatorias. Por ejemplo, si lanzamos dos monedas simultaneamente, el espacio
muestral asociado a este experimento es = {CC, C+, +C, ++}. Se pueden
denir diversas variables aleatorias:
X
1
= n umero de caras, X
2
= n umero de cruces,
X
3
= cuadrado del n umero de caras = X
2
1
, etc.
Usualmente los datos estan modelizados por un vector de variables aleatorias
X
= (X
1
, . . . , X
n
), donde las X
i
toman valores en Z o en IR. A X
le llamare-
mos vector aleatorio o tambien variable aleatoria multidimensional.
1.2.2. Distribucion de una variable aleatoria. Funciones de
distribucion, de probabilidad y de densidad
La realizacion de un experimento aleatorio da lugar a un resultado
que es aleatorio. Por lo tanto X() es un valor de IR tambien aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en IR. A esa medida
de probabilidad se le llama distribuci on de X o ley de X. Una de las formas
de caracterizar la distribucion de una variable aleatoria es dar su funci on de
distribuci on F
X
, que esta denida as:
F
X
(x) = P(X x) = P({ : X() x}) = P(X
1
(, x]).
En el caso de que X sea una variable aleatoria discreta, es decir, en el
caso de que X solo tome una cantidad nita o numerable de valores de IR, su
distribucion tambien puede caracterizarse por su funci on de probabilidad
(o funci on de masa de probabilidad) f
X
, denida como
f
X
: IR [0, 1], f
X
(x) = P(X = x).
Esa funcion solo es no nula en un conjunto nito o numerable. Supondremos en
adelante, sin perdida de generalidad, que ese conjunto esta contenido en Z. A
partir de la funcion de masa de probabilidad se puede calcular la probabilidad
de que la variable aleatoria X tome valores en cualquier elemento A de B:
P(X A) =
xA
f
X
(x).
La funcion de distribucion y la funcion de masa de probabilidad se relacionan
de la siguiente forma:
F
X
(x) =
ux
f
X
(u), f
X
(x) = F
X
(x) F
X
(x
),
donde F
X
(x
) = lm
h0
+ F(x h).
Una clase relevante de variables aleatorias no discretas son las que poseen
funci on de densidad, es decir, aquellas cuya distribucion de probabilidad
puede caracterizarse por una funcion f
X
(x) 0 que cumple que
P(X A) =
_
xA
f
X
(x)dx, para todo A B.
La relacion entre F
X
y f
X
es la siguiente:
F
X
(x) =
_
x
f
X
(u)du, f
X
(x) =
d
dx
F
X
(x)
salvo quizas en un n umero nito de puntos x IR. Las variables aleatorias que
poseen funcion de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aqu nos referiremos a ellas como variables
aleatorias continuas.
1.2.3. Esperanza y varianza
Si se desea describir totalmente la distribucion de probabilidad de una varia-
ble aleatoria X acabamos de ver que podemos dar su funcion de distribucion o
su funcion de masa o de densidad, seg un el caso. Una descripcion parcial puede
efectuarse calculando algunas caractersticas de la variable aleatoria X, como
por ejemplo medidas de posicion o de dispersion. Estudiaremos algunas de ellas.
Se dene la esperanza de una variable aleatoria X como la integral de
Lebesgue de X:
E(X) =
_
X(w)dP(w).
En el caso de variables aleatorias discretas la esperanza puede calcularse como
E(X) =
w
X()P() =
kZ
kP(X = k) =
kZ
kf
X
(k).
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
as:
E(X) =
_
IR
xf
X
(x)dx.
6 CAP
ITULO 1. INTRODUCCI
ON
La esperanza de una variable aleatoria X es una medida de posicion de X: es
el centro de gravedad de la distribucion de probabilidad de X.
Si h es una funcion medible h : IR IR, entonces Y = h(X) es tambien
variable aleatoria y su esperanza se puede calcular a partir de la distribucion de
X:
E(h(X)) =
_
h(X())dP()
que en el caso de que X sea discreta puede reescribirse como
E(h(X)) =
kZ
h(k)f
X
(k).
Si X es una variable aleatoria continua entonces
E(h(X)) =
_
IR
h(x)f
X
(x)dx.
Si existe = E(X) y es nita puede denirse una medida de dispersion de
la variable aleatoria X a partir de una transformacion h de X. Es lo que se
denomina varianza de X y se dene as:
V (X) = E((X )
2
) = E(X
2
)
2
= E(X
2
) (E(X)
2
).
1.2.4. Muestra aleatoria simple
Sea X
= (X
1
, . . . , X
n
) un vector aleatorio. Se dice que sus componentes
(X
1
, . . . , X
n
) son independientes si
P(X
1
x
1
, . . . , X
n
x
n
) = P(X
1
x
1
) P(X
n
x
n
)
para cualesquiera valores x
1
, . . . , x
n
. Si ademas la distribucion de las n variables
aleatorias X
i
es la misma, se dice que X
1
, . . . , X
n
son variables aleatorias
independientes e id enticamente distribuidas, o bien que son v.a.i.i.d o
simplemente i.i.d.
Si X
= (X
1
, . . . , X
n
) y X
1
, . . . , X
n
son i.i.d. con funcion de densidad (en su
caso, de masa) f
X
, la distribucion conjunta de X
viene dada por la funcion de

densidad (en su caso, de masa) conjunta
f
X
( x
) = f
(X
1
,...,X
n
)
(x
1
, . . . , x
n
) = f
X
1
(x
1
) f
X
n
(x
n
) =
n
i=1
f
X
(x
i
).
A un vector X
= (X
1
, . . . , X
n
) de v.a.i.i.d. con distribucion igual a la de
la variable aleatoria X se le denomina tambien muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se de-
sea estudiar la caracterstica X de los individuos de una poblacion de tama no
innito. Denimos el experimento consistente en elegir aleatoriamente un indi-
viduo de la poblacion y llamamos X al valor de la caracterstica de interes en
ese individuo. X es una variable aleatoria. Si denimos un nuevo experimento
consistente en elegir una muestra aleatoria de n individuos y se anota X
i
, el
valor de la caracterstica en el individuo i-esimo, entonces X
= (X
1
, . . . , X
n
)
es una coleccion de n v.a.i.i.d. con distribucion igual a la de la variable aleatoria
X, es decir, X
1
, . . . , X
n
es una m.a.s. de X.
1.2.5. Modelo parametrico
Usualmente la ley de probabilidad de una variable aleatoria se supone pertene-
ciente a un modelo matematico que depende solo de un n umero nito de para-
metros:
f
X
{f(x|) : IR
k
}.
Escribiremos alternativamente f(x; ), f(x|) o f
(x). El conjunto de distribu-

ciones dadas por f
(x), se llama familia param etrica de distribucio-

nes. es el conjunto de parametros.
La correspondiente distribucion conjunta de una muestra aleatoria simple de
X viene dada por la funcion de densidad (o funcion de masa de probabilidad,
seg un el caso)
f
X
( x
|) =
n
i=1
f
(x
i
).
A esta funcion la llamaremos funci on de verosimilitud de la muestra X
.
Utilizaremos este termino para referirnos indistintamente a la funcion de densi-
dad conjunta (si las variables aleatorias son continuas) o a la funcion de masa
conjunta (si son discretas).
Ejemplo 4
Si X N(,
2
),
f
X
(x|,
2
) =
1
2
2
e
1
2
2
(x)
2
.
La distribucion de X es conocida salvo por dos parametros, y
2
. En este caso
k = 2, = (,
2
)
2
y = IR IR
+
IR
2
.
La distribucion conjunta de n v.a.i.i.d. con la misma distribucion es
f
X
( x
|,
2
) =
1
(2
2
)
n
e
1
2
2
n
i=1
(x
i
)
2
=
1
(2
2
)
n
e
1
(2
2
)
n
||x1
n
||
2
donde 1
n
= (1, . . . , 1)
t
IR
n
.
. .
8 CAP
ITULO 1. INTRODUCCI
ON
1.2.6. Sumas de variables aleatorias
Cuando se obtiene una muestra aleatoria simple X
1
, . . . , X
n
normalmente se
calculan a partir de ellas cantidades que resumen los valores observados. Cual-
quiera de estos res umenes se puede expresar como una funcion T(x
1
, . . . , x
n
) de-
nida en el espacio X
n
IR
n
donde estan las imagenes del vector (X
1
, . . . , X
n
).
Esta funcion T puede devolver valores de IR, IR
2
o, en general, IR
k
.
Ejemplo 5
T(X
1
, . . . , X
n
) =
n
i=1
X
i
, X, X + 3, mn{X
1
, . . . , X
n
}
T(X
1
, . . . , X
n
) = (
n
i=1
X
i
,
n
i=1
(X
i
X)
2
)
T(X
1
, . . . , X
n
) = (mn{X
1
, . . . , X
n
},
n
i=1
X
i
,
n
i=1
(X
i
X)
2
)
T(X
1
, . . . , X
n
) = (X
1
, . . . , X
n
)
. .
Las funciones T que dependen de una muestra aleatoria simple X
1
. . . , X
n
se llaman estadsticos. Dependen de los valores observados, pero no de los
parametros desconocidos que determinan la distribucion de X
i
. Cuando un es-
tadstico T es utilizado con el proposito de estimar un parametro diremos que
T es un estimador de .
Ejemplo 6
T(X
1
, . . . , X
n
) = X es un estimador de = E(X).
. .
En inferencia estadstica interesa saber que estadsticos son sucientes para
recoger toda la informacion que la muestra aporta sobre la distribucion de la
variable aleatoria X muestreada. La respuesta depende de la distribucion de X.
Dado que X
= (X
1
, . . . , X
n
) es una variable aleatoria, se tiene que Y =
T(X
1
, . . . , X
n
) sera tambien una variable aleatoria. La ley de probabilidad de Y
se denomina distribuci on en el muestreo de Y (o distribucion muestral).
Los siguientes resultados dan informacion sobre algunas caractersticas de
estadsticos denidos a partir de sumas de variables aleatorias.
Teorema 1 Sean x
1
, . . . , x
n
n n umeros reales, sea x =
1
n
n
i=1
x
i
su media
aritmetica y sea S
2
=
n
i=1
(x
i
x)
2
/(n 1) su varianza muestral.
(a) mn
a
n
i=1
(x
i
a)
2
=
n
i=1
(x
i
x)
2
.
(b) (n 1)S
2
=
n
i=1
(x
i
x)
2
=
n
i=1
x
2
i
nx
2
.
Demostracion:
(a)
n
i=1
(x
i
a)
2
=
n
i=1
(x
i
x +x a)
2
=
n
i=1
(x
i
x)
2
+
n
i=1
(x a)
2
+ 2
n
i=1
(x
i
x)(x a) =
n
i=1
(x
i
x)
2
+
n
i=1
(x a)
2
+ 2(x a)
n
i=1
(x
i
x) =
(observar que

n
i=1
(x
i
x) = 0)
n
i=1
(x
i
x)
2
+
n
i=1
(x a)
2
i=1
(x
i
x)
2
.
Por lo tanto el mnimo se alcanza si a = x.
(b) Trivial.
2
Lema 1 Sea X
1
, . . . , X
n
una muestra aleatoria simple de X y sea g(x) una
funcion tal que E(g(X)) y V (g(X)) existen. Entonces,
(a) E(
n
i=1
g(X
i
)) = nE(g(X)),
(b) V (
n
i=1
g(X
i
)) = nV (g(X)),
Demostracion: (a) Trivial, por propiedades basicas del operador esperanza.
(b) Trivial, observando que las variables aleatorias g(X
i
) son independientes y
aplicando propiedades basicas del operador varianza. 2
Teorema 2 Sea X
1
, . . . , X
n
una muestra aleatoria simple de una poblacion X
con esperanza y varianza
2
< . Sean
X =
1
n
n
i=1
X
i
, S
2
=
1
n 1
n
i=1
(X
i
X)
2
,
la media y la varianza muestrales, respectivamente. Entonces,
10 CAP
ITULO 1. INTRODUCCI
ON
(a) E(X) = ,
(b) V (X) =
2
/n,
(c) E(S
2
) =
2
.
Demostracion: (a), (b) Triviales, por el lema anterior y las propiedades basicas
de la esperanza y la varianza.
(c)
(n 1)S
2
=
n
i=1
X
2
i
nX
2
=(n 1)E(S
2
) = nE(X
2
) nE(X
2
) =
n(V (X) +E(X)
2
) n(V (X) +E(X)
2
) = n
2
+n
2
n
1
n
2
n
2
=
(n 1)
2
=E(S
2
) =
2
.
2
El siguiente resultado expresa la funcion generatriz de momentos (f.g.m.) de
la media muestral en funcion de la f.g.m. de la variable aleatoria muestreada.
Es muy util cuando esta ultima f.g.m. es conocida, porque permite determinar
completamente la distribucion de la media muestral.
Teorema 3 Sea X
1
, . . . , X
n
una muestra aleatoria simple de una poblacion X
con funcion generatriz de momentos M
X
(t). La funcion generatriz de momentos
de X es
M
X
(t) = (M
X
(t/n))
n
.
Demostracion: La f.g.m. de X se dene como M
X
(t) = E(e
tX
) para los valores
de t para los que esa esperanza existe. As,
M
X
(t) = E
_
e
tX
_
= E
_
e
t
n
n
i=1
X
i
_
= E
_
n
i=1
e
t
n
X
i
_
=
(independencia de las v.a. X
i
)
n
i=1
E
_
e
t
n
X
i
_
=
n
i=1
M
X
i
(t/n) =
(las X
i
son identicamente distribuidas)
n
i=1
M
X
(t/n) = (M
X
(t/n))
n
.
2
Ejemplo 7
X
1
, . . . , X
n
m.a.s. de X N(,
2
). Entonces,
M
X
(t) = exp(t +

2
t
2
2
).
As,
M
X
(t) =
_
exp(
t
n
+

2
(t/n)
2
2
)
_
n
= exp(t +

2
t
2
2n
)
y, por tanto, X N(,
2
/n).
. .
Ejemplo 8
X
1
, . . . , X
n
m.a.s. de X (, ). Entonces,
f
X
(x) =
x
1
e
x/
()
, x > 0, E(X) = , V (X) =

2
,
M
X
(t) =
_
1
1 t
_
, t <
1
.
As,
M
X
(t) =
__
1
1 t/n
_
_
n
=
_
1
1 (/n)t
_
n
y, por lo tanto, X (n, /n).
Un caso particular de distribucion gamma es la distribucion exponencial.
Si X es exponencial de media , entonces X (1, ). As que la media de
exponenciales de media sera una (n, /n) que tendra
E(X) = n
n
= , V (X)n
2
n
2
=

2
n
.
. .
Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien
porque la f.g.m resultante no se corresponde con ninguna distribucion conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribucion de la media muestral. En primer lugar, se puede
trabajar con la funcion caracterstica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la funcion de densidad de la suma como
la convolucion de las n funciones de densidad (ver el ejemplo de la distribucion
de Cauchy, Casella-Berger, paginas 210-211).
12 CAP
ITULO 1. INTRODUCCI
ON
1.3. Dos familias de distribuciones importantes
1.3.1. Familias de localizacion y escala
Sea Z una variable aleatoria con distribucion conocida. A la coleccion de
distribuciones de probabilidad de las variables aleatorias X que se pueden denir
de la forma
X = +Z, , IR > 0
se la denomina familia de localizaci on y escala construida a partir de la
distribucion de Z.
En particular, si Z es variable aleatoria absolutamente continua con funcion
de densidad f(x), la familia de funciones de densidad
_
f(x|, ) =
1
f
_
x
_
: IR, > 0
_
forman la familia de localizaci on y escala de f(x).
El parametro de escala dilata la distribucion si > 1 y la contrae si < 1.
El parametro de posicion traslada la densidad || unidades a la derecha (si
> 0) o a la izquierda (si < 0).
Proposicion 1
(a) Z f(x) X = Z + f(x|, ).
(b) X f(x|, )
X
f(x).
Demostracion: Trivial, aplicando la formula de la funcion de densidad de la
transformacion biyectiva de una variable aleatoria univariante. 2
Ejemplo 9
Las siguientes son algunas de las familias de distribuciones usuales que son de
localizacion y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribucion uniforme U(a, b) tambien es una familia
de localizacion y escala. En este caso = (a + b)/2 y = b a podran servir
como parametros de posicion y escala.
. .
Corolario 1 Sea Z
1
, . . . , Z
n
una m.a.s. de Z f(x) y sea X
1
, . . . , X
n
una
m.a.s. de X f(x|, ). Si la ley de Z es g(z) entonces la ley de X es
1
g
_
x
_
.
Demostracion: Observar que X
i
Z
i
+, luego X Z +. Aplicando la
proposicion anterior se tiene el resultado. 2
1.4. MUESTREO DE UNA DISTRIBUCI
ON NORMAL 13
1.3.2. Familias exponenciales
X pertenece a la familia exponencial si su funcion de densidad o funcion de
masa de probabilidad depende de un parametro IR
p
y puede escribirse
as:
f(x|) = h(x)c() exp
_
_
k
j=1
w
j
()t
j
(x)
_
_
para ciertas funciones h, c, w
j
y t
j
. Si p = k y w
j
() =
j
, j = 1, . . . , p, entonces
diremos que la familia exponencial esta parametrizada de forma natural. En ese
caso, el espacio param etrico natural de esa familia es el conjunto
= { IR
k
:
_

h(x) exp
_
_
k
j=1
j
t
j
(x)
_
_
dx < }.
Si X
1
, . . . , X
n
es muestra aleatoria simple de X, en la familia exponencial,
entonces
f(x
1
, . . . , x
n
|) =
_
n
i=1
h(x
i
)
_
(c())
n
exp
_
_
k
j=1
w
j
()
n
i=1
t
j
(x
i
)
_
_
.
Observar que si denimos T
j
(X
1
, . . . , X
n
) =

n
i=1
t
j
(X
i
), j = 1, . . . , p, en-
tonces la distribucion de (T
1
, . . . , T
k
) viene dada por
f
T
(u
1
, . . . , u
k
|) = H(u
1
, . . . , u
k
) (c())
n
exp
_
_
k
j=1
w
j
()u
j
_
_
,
es decir, T tambien pertenece a la familia exponencial.
Ejemplo 10
Ejemplos de familias exponenciales son estos: binomial, geometrica, Poisson, bi-
nomial negativa, exponencial, normal, gamma, beta.
. .
1.4. Muestreo de una distribucion normal
En el resto del tema supondremos que X
1
, . . . , X
n
es una m.a.s. de una
N(,
2
).
Teorema 4 (Teorema de Fisher) (a) X y S
2
n
son variables aleatorias in-
dependientes.
14 CAP
ITULO 1. INTRODUCCI
ON
(b) X N(,
2
/n).
(c) (n 1)S
2
n
/
2

2
n1
.
Demostracion: Suponemos, sin perdida de generalidad, que = 0 y = 1,
puesto que la familia normal es una familia de posicion y escala.
(b) Se ha demostrado en el ejemplo 7.
(a) Observese que
(n 1)S
2
n
=
n
i=1
(X
i
X)
2
= (X
1
X)
2
+
n
i=2
(X
i
X)
2
=
(como

n
i=1
(X
i
X) = 0)
_
n
i=2
(X
i
X)
_
2
+
n
i=2
(X
i
X)
2
de donde se deduce que S
2
n
es funcion de (X
2
X, . . . , X
n
X). Probaremos
ahora que (X
2
X, . . . , X
n
X) y X son independientes, lo cual implicara que
(a) es cierto.
Hacemos el cambio de variable
y
1
= x
y
2
= x
2
x
.
.
.
y
n
= x
n
x
_
_
=
x
1
= nx
n
i=2
x
i
= x
n
i=2
(x
i
x) = y
1
n
i=2
y
i
x
2
= y
2
+y
1
.
.
.
x
n
= y
n
+y
1
El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable
aleatoria transformada es
f
Y
(y
1
. . . , y
n
) = f
X
(y
1
i=2
y
i
, y
2
+y
1
, . . . , y
n
+y
1
)n =
_
1
2
_
n
nexp
_
1
2
(y
1
i=2
y
i
)
2
1
2
n
i=2
(y
i
+y
1
)
2
_
()
=
n
(
2)
n
exp
_
1
2
ny
2
1
_
exp
_
1
2
_
n
i=2
y
2
i
+ (
n
i=2
y
i
)
2
__
.
Por lo tanto Y
1
es independiente de (Y
2
, . . . , Y
n
) y de aqu se sigue que X es
independiente de S
2
n
.
() Falta por justicar el paso marcado con un ():
(y
1
i=2
y
i
)
2
+
n
i=2
(y
i
+y
1
)
2
=
ON NORMAL 15
y
2
1
+ (
n
i=2
y
i
)
2
2y
1
n
i=2
y
i
+
n
i=2
y
2
i
+ (n 1)y
2
1
+ 2y
1
n
i=2
y
i
=
ny
2
1
+ (
n
i=2
y
i
)
2
+
n
i=2
y
2
i
.
(c) La demostracion de este apartado se seguira mejor despues del apartado
siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.
Denotaremos por X
n
y por S
2
n
, respectivamente, la media muestral y la
varianza muestral calculadas a partir de una muestra de tama no n.
En primer lugar probaremos que se verica la siguiente formula recursiva:
(n 1)S
2
n
= (n 2)S
2
n1
+
n 1
n
(X
n
X
n1
)
2
.
En efecto,
(n 1)S
2
n
=
n
i=1
(X
i
X
n
)
2
=
n1
i=1
(X
i
X
n1
+X
n1
X
n
)
2
+(X
n
X
n
)
2
=
(n 2)S
2
n1
+ (n 1)(X
n1
X
n
)
2
+ (X
n
X
n
)
2
= ()
(teniendo en cuenta que (n 1)X
n1
= nX
n
X
n
=(n 1)(X
n1
X
n
) =
n(X
n
X
n
) y que (n1)(X
n1
X
n
) = (X
n
X
n
) = ((n1)/n)(X
n1
X
n
))
() = (n 2)S
2
n1
+ (n 1)
1
n
2
(X
n1
X
n
)
2
+
(n 1)
2
n
2
(X
n1
X
n
)
2
=
(n 2)S
2
n1
+
n 1
n
(X
n
X
n1
)
2
.
Una vez probada la relacion entre S
2
n
y S
2
n1
probaremos por induccion que
(n 1)S
2
n
/
2

2
n1
.
Para n = 2, la formula recursiva nos da
S
2
2
=
1
2
(X
2
X
1
)
2
.
Como X
1
y X
2
son N(0, 1) independientes, entonces (X
2
X
1
)/
2 N(0, 1)
y de ah que
S
2
2
= ((X
2
X
1
)/
2)
2

2
1
,
con lo que queda probado el resultado para n = 2.
Supongamos que el resultado es cierto para n = k, es decir,
(k 1)S
2
k
/
2

2
k1
.
16 CAP
ITULO 1. INTRODUCCI
ON
Probemos que es tambien cierto para n = k + 1. Observar que
kS
2
k+1
= (k 1)S
2
k
. .
2
k1
+
k
k + 1
(X
k+1
X
k
)
2
.
As, el resultado quedara demostrado si se prueba que (k/(k+1))(X
k+1
X
k
)
2
es
una
2
1
, puesto que esta variable es independiente de S
2
k
, al ser X
k
independiente
de S
2
k
(apartado (a)) y ser X
k+1
independiente de las k primeras observaciones.
Por esta misma razon, X
k+1
N(0, 1) es tambien independiente de X
k

N(0, 1/k). As que
X
k+1
X
k
N
_
0,
k + 1
k
_
=
_
_
k
k + 1
(X
k+1
X
k
)
_
2

2
1
que es precisamente lo que queramos probar. 2
Existen demostraciones alternativas de este teorema basadas en la funcion
generatriz de momentos o en la funcion caracterstica.
1.4.1. Distribuciones asociadas a la normal
En esta seccion se recuerdan las deniciones de las leyes
2
, t de Student
y F de Fisher-Snedecor. Tambien se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la seccion 5.4 de Casella-Berger.
La ley
2
Diremos que X tiene distribuci on

2
con grados de libertad y se denota
X
2
si su funcion de densidad es
f
(x) =
1
(/2)2
/2
x
(/2)1
e
x/2
, 0 < x < ,
es decir, X (/2, 2).
Lema 2 (a) Si X N(,
2
) entonces
(X )
2
2

2
1
.
(b) Si X
1
, . . . , X
n
son variables aleatorias independientes y X
i

2
i
entonces
Y =
n
i=1
X
i

2
,
donde =
n
i=1
i
.
ON NORMAL 17
(c) Sean X
1
, . . . , X
n
variables aleatorias independientes e identicamente dis-
tribuidas seg un una N(0, 1). La variable aleatoria
Y =
n
i=1
X
2
i

2
n
.
(Nota: esta propiedad se usa a veces como denicion de la distribucion
2
).
La ley t
p
Diremos que X sigue una distribuci on t de Student con p grados de
libertad y lo denotaremos X t
p
, si su funcion de densidad es
f
p
(x) =
((p + 1)/2)
(p/2)
1
p
1
(1 +t
2
/p)
(p+1)/2
, < x < .
Si p = 1 se trata de la distribucion de Cauchy.
Lema 3 (a) Z N(0, 1), Y
2
p
, Z e Y independientes, entonces,
X =
Z
_
Y/p
t
p
.
(Nota: esta propiedad se usa a veces como denicion de la distribucion t
de Student.)
(a) Sean X
1
, . . . , X
n
una m.a.s. de una N(,
2
). Entonces
X
S/
n
t
n1
.
La distribucion t de Student no tiene f.g.m. porque no tiene momentos de
todos los ordenes. Si X t
p
entonces solo existen los momentos de orden
estrictamente inferior a p: existe E(X
) para < p.
Si X t
p
, entonces E(X) = 0 si p > 1 y V (X) = p/(p 2) si p > 2.
La ley F
p,q
Diremos que X sigue una distribuci on F con p y q grados de libertad y
lo denotaremos X F
p,q
, si su funcion de densidad es
f
p,q
(x) =

_
p+q
2
_
_
p
2
_
_
q
2
_
_
p
q
_
p/2
x
(p/2)1
_
1 +
p
q
x
_
p+q
2
, 0 < x < .
Lema 4 (a) Si U
2
p
, V
2
q
y U y V son independientes, entonces
X =
U/p
V/q
F
p,q
.
(Nota: esta propiedad se usa a veces como denicion de la distribucion
F.)
18 CAP
ITULO 1. INTRODUCCI
ON
(b) Sean X
1
, . . . , X
n
m.a.s. de N(
X
,
2
X
), Y
1
, . . . , Y
m
m.a.s. de N(
Y
,
2
Y
),
dos muestras independientes. Entonces
S
2
X
/
2
X
S
2
Y
/
2
Y
F
n1,m1
.
(c) Si X F
p,q
, entonces X
1
F
q,p
.
(d) Si X t
p
,entonces X
2
F
1,p
.
(e) Si X F
p,q
, entonces
p
q
X
1 +
p
q
X
Beta
_
p
2
,
q
2
_
.
(f ) Si X F
n1,m1
, entonces
E(X) = E
_

2
n1
/(n 1)
2
m1
/(m1)
_
= E
_
2
n1
n 1
_
E
_
m1
2
m1
_
=
_
n 1
n 1
__
m1
m3
_
=
m1
m3
.
(g) Si las distribuciones de partida tienen simetra esferica, entonces el cocien-
te de las varianzas muestrales sigue una F (Casella-Berger, p. 227).
1.5. Leyes de los Grandes N umeros y Teorema
Central del Lmite
En esta seccion se enuncian dos resultados fundamentales en inferencia es-
tadstica: la Ley Fuerte de los Grandes N umeros y el Teorema Central del Lmite.
Dada una sucesion de variables aleatorias denidas sobre el mismo espacio
muestral, se llaman leyes de los grandes n umeros a los resultados sobre
convergencia de las sucesiones de sus medias aritmeticas a una constante. Se
conoce como problema del lmite central el estudio de la convergencia
debil de la sucesion de medias muestrales centradas y tipicadas a una distri-
bucion no degenerada.
1.5.1. Leyes de los grandes n umeros
Se enuncia a continuacion una version de ley d ebil de los grandes n ume-
ros que establece la convergencia en media cuadratica (y por tanto, en probabili-
dad) de la media aritmetica de una sucesion de variables aleatorias incorreladas.
1.5. LEYES DE LOS GRANDES N
UMEROS Y TEOREMA CENTRAL DEL L
IMITE19
Teorema 5 (Ley debil de los grandes n umeros) Sea {X
n
}
nIN
una suce-
sion de variables aleatorias incorreladas con momentos de segundo orden aco-
tados por una constante C, independiente de n. Sea S
n
=
n
i=1
X
i
. Entonces
E
_
S
n
E(S
n
)
n
2
_
C
n
y, como consecuencia
lm
n
S
n
E(S
n
)
n
= 0
en el sentido de la convergencia en media cuadratica.
La demostracion de este resultado puede verse, por ejemplo, en Sanz (1999).
Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley debil de Bernoulli.
Los resultados que garantizan la convergencia casi segura de la media mues-
tral se conocen como leyes fuertes de los grandes n umeros. Se enuncia
a continuacion una ley fuerte para variables con segundos momentos nitos e
incorreladas.
Teorema 6 (Ley fuerte de los grandes n umeros) Bajo las hipotesis del teo-
rema 5 se tiene que
lm
n
S
n
E(S
n
)
n
= 0
en el sentido de la convergencia casi segura.
En Sanz (1999) puede encontrarse la demostracion de este resultado. En ese
mismo texto se recoge una version mas general de la ley fuerte de los grandes
n umeros, conocida como ley fuerte de los grandes n umeros de Kolmo-
gorov: en el caso i.i.d. basta con que haya eseranza nita para que se de la
convergencia casi segura de la media muestral a la esperanza.
1.5.2. Teorema central del lmite
En esta seccion se presenta el teorema central del lmite de L evy-
Lindeberg, valido para sucesiones de variables aleatorias independientes e
identicamente distribuidas con momento de segundo orden nito.
Teorema 7 (Teorema central del lmite) Sea {X
n
}
nIN
una sucesion de
variables aleatorias independientes e identicamente distribuidas con momento
de segundo orden nito. Sea la esperanza com un y
2
la varianza com un, que
supondremos estrictamente positiva. Sea S
n
=
n
i=1
X
i
. Se tiene que
S
n
n
n

D
Z,
donde Z N(0, 1) y
D
indica convergencia en distribucion.
20 CAP
ITULO 1. INTRODUCCI
ON
Este resultado puede demostrarse utilizando funciones generadoras de moe-
mentos o funciones caractersticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostracion (mas laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una version mas fuerte
del teorema central del lmite.
El Teorema de De Moivre-Laplace, que establece la convergencia debil de la
binomial tipicada a la normal estandar, es una aplicacion directa del teorema
central del lmite de Levy-Lindeberg. Ejemplos del uso habitual de la aproxi-
macion de la binomial por la normal son la estimacion del error de aproximar
la frecuencia relativa por la probabilidad y el calculo de tama nos muestrales en
encuestas.
1.5.3. Versiones multivariantes
Se enuncian a continuacion versiones multivariantes de la ley de los griandes
n umeros y del teorema central del lmite.
Teorema 8 Sea { X
n
}
nIN
una sucesion de variables aleatorias p-dimensionales
independientes e identicamente distribuidas. Sea X
n
el vector p-diemensional
media aritmetica de las n primeras variables:
X
n
=
1
n
n
i=1
X
i
.
Se tiene lo siguiente:
1. Si existe E( X
i
) = , entonces X
n
converge a casi seguramente.
2. Si, ademas, X
i
tiene matriz de varianza y covarianzas nita , entonces
n( X
n
)
D
N
p
(0, ).
La demostracion de este resultado puede encontrarse, por ejemplo, en Arnold
(1990).
Como corolario se puede probar la convergencia de la distribucion multino-
mial (centrada y tipicada) a una normal multivariante (ver Arnold 1990).
1.6. LISTA DE PROBLEMAS 21
1.6. Lista de problemas
Variables aleatorias. Muestras
1. (Casella-Berger, 5.2) Sean X
1
, X
2
. . . v.a.i.i.d. cada una de ellas con den-
sidad f(x). Supongamos que cada X
i
mide la cantidad anual de precipita-
ciones en un determinado emplazamiento. Da la distribucion del n umero
de a nos que transcurren hasta que las lluvias del primer a no, X
1
, son
superadas por primera vez.
1
, . . . , X
n
v.a.i.i.d. con densidad f
X
(x). Sea
X su media muestral. Prueba que
f
X
(x) = nf
X
1
++X
n
(nx).
3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X
1
, . . . , X
n
una muestra
aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
X =
1
n
n
i=1
X
i
, S
2
=
1
n 1
n
i=1
(X
i
X)
2
.
a) Prueba que
S
2
=
1
2n(n 1)
n
i=1
n
j=1
(X
i
X
j
)
2
.
Supongamos que E(X
4
) < . Sean
1
= E(X) y
j
= E((X
1
)
j
),
j = 2, 3, 4.
b) Prueba que
V (S
2
) =
1
n
_
n 3
n 1
2
2
_
.
c) Da la expresion de Cov(X, S
2
) en terminos de
1
, . . . ,
4
. Bajo que con-
diciones son X y S
2
incorreladas?
d) Si la distribucion de X es simetrica respecto de
1
, es posible que la
covarianza de esos estadsticos sea no nula?
e) Si la distribucion de X no es simetrica respecto de
1
, es posible que
la covarianza de esos estadsticos sea nula?
4. (Casella-Berger, 5.16) Llamemos X
n
y S
2
n
a la media y la varianza mues-
trales calculadas a partir de n observaciones X
1
, . . . , X
n
. Supongamos que
se observa un nuevo valor X
n+1
. Demuestra las siguientes formulas recur-
sivas.
a)
X
n+1
=
1
n + 1
(X
n+1
+nX
n
).
22 CAP
ITULO 1. INTRODUCCI
ON
b)
nS
2
n+1
= (n 1)S
2
n
+
n
n + 1
(X
n+1
X
n
)
2
.
1
y X
2
las medias muestrales calculadas a
partir de dos muestras independientes de tama no n de una poblacion con
varianza
2
. Halla el menor valor de n que garantiza que
P
_
|X
1
X
2
| <

5
_
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Lmite. Comenta los resultados obtenidos.
i
N(i, i
2
), i = 1, 2, 3, tres variables aleato-
rias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.
a)
2
3
.
b) t
2
.
c) F
1,2
.
7. (Casella-Berger, 5.36) Sean U
i
, i = 1, 2, . . . , variables aleatorias indepen-
dientes con distribucion U(0, 1). Sea X una variable aleatoria con distri-
bucion
P(X = x) =
1
(e 1)x!
, x = 1, 2, 3, . . .
Da la distribucion de
Z = mn{U
1
, . . . , U
X
}.
Indicaci on: Observar que Z|X = x es el primer estadstico de orden de
una muestra de tama no x de una U(0, 1).
8. (Casella-Berger, 5.37) Sea X
1
, . . . , X
n
una muestra aleatoria simple de una
poblacion con densidad
f
X
(x) =
1
I
(0,)
(x).
Sean X
(1)
, . . . , X
(n)
los estadsticos orden. Prueba que X
(1)
/X
(n)
y X
(n)
son independientes.
9. Demuestra los lemas 2, 3 y 4.
Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo-
nenciales y describe el espacio parametrico natural de cada una de ellas.
a) Familia normal con alguno de los parametros o conocidos.
b) Familia gamma con alguno de los parametros o conocidos.
c) Familia beta con alguno de los parametros o conocidos.
d) Familia Poisson.
e) Binomial negativa con el parametro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en termi-
nos de su espacio parametrico natural con densidad
f(x;
) = h(x)c(
) exp{
k
i=1
i
t
i
(x)}.
Prueba que
E
(t
i
(X)) =

i
log(c(
)).
Indicaci on: Usa el hecho de que para una familia exponencial se tiene
que
j
i
_

(x)dx =
_

j
i
f
(x)dx.
12. Considera la familia de distribuciones normales con media y varianza
2
, donde puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio parametrico natural.
13. Sean X
1
, . . . , X
n
v.a.i.i.d. con distribucion perteneciente a una familia ex-
ponencial expresada en terminos del espacio parametrico natural. Prueba
que la distribucion conjunta de las n variables tambien pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X
1
, . . . , X
n
v.a. independientes
tales que X
i
Poisson(i), > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
1
, . . . , X
n
v.a. independientes
tales que X
i
N(i, 1), R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
1
, . . . , X
n
v.a. independientes
tales que X
i
Exp(1/(i)), E(X
i
) = i, > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.
Familias de localizacion y escala
17. (Casella-Berger, 3.31) Considera la funcion de densidad
f(x) =
63
4
(x
6
x
8
), 1 < x < 1.
Dibuja el graco de
1
f
_
x
_
para los siguientes valores de y en el mismo sistema de ejes cartesianos.
24 CAP
ITULO 1. INTRODUCCI
ON
a) = 0, = 1.
b) = 3, = 1.
c) = 3, = 2.
18. (Casella-Berger, 3.32) Muestra que si f(x) es una funcion de densidad
simetrica alrededor de 0, entonces la mediana de la densidad
1
f
_
x
_
es .
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f(z). Se
dene z
como un n umero que satisface que

= P(Z > z
) =
_

z
f(z)dz.
Sea X una variable aleatoria con densidad en la familia de localizacion y
escala de f
1
f
_
x
_
y sea x
= + z
. Prueba que P(X > x
) = . (Nota: As, los valo-

res de x
se calculan facilmente para cualquier miembro de la familia de

localizacion y escala si se dispone de una tabla de valores z
.)
20. (Casella-Berger, 3.34) Considera la distribucion de Cauchy, con densidad
f(x) =
1
(1 +x
2
)
, x IR,
y la familia de localizacion y escala denida a partir de ella: X tiene
distribucion de Cauchy con parametros y si su densidad es
f(x; , ) =

(
2
+ (x )
2
)
, x IR.
No existen la esperanza ni la varianza de estas distribuciones, luego
y
2
no son la media y la varianza. No obstante, tienen un importante
signicado.
a) Prueba que es la mediana de X.
b) Prueba que y + son los cuartiles primero y tercero, respec-
tivamente, de X.
21. (Casella-Berger, 3.35) Sea f(x) una funcion de densidad con media y
varianza
2
. Indica como crear una familia de localizacion y escala basada
en f(x) tal que la densidad estandar de la familia, f
(x), tenga esperanza

0 y varianza 1.
Captulo 2
Principios para reducir los
datos
Referencias: Casella-Berger, captulo 6. En algunos puntos se han
seguido tambien Cristobal (1992) (captulo 7), Schervish (1995)
(captulo 2) y Garca-Nogales (1998) (captulo 3).
El uso de cualquier estadstico T( X
) implica una reduccion de los datos

muestrales. Sea X
= (X
1
, . . . , X
n
) una muestra aleatoria simple (un vector
aleatorio) y sean x
= (x
1
, . . . , x
n
), y
= (y
1
, . . . , y
n
) muestras observadas (rea-
lizaciones de X
). Si decidimos usar el estadstico T( X
) en vez de toda la mues-

tra, seran tratadas igual dos muestras observadas cualesquiera x
, y
, siempre
que T( x
) = T( y
). Es decir, al usar el estadstico T, en lugar de toda la mues-

tra, se pierde informacion. Se plantea as el problema de buscar estadsticos T
tales que la informacion que se pierde al usarlos sea irrelevante para los nes
que nos hayamos marcado.
Dado el espacio muestral X, la imagen de mediante el vector aleatorio
X
, reducir los datos en terminos de un estadstico T es equivalente a dar

una particion de X. En efecto, sea T = {t : t = T(x), para alg un x X}, la
imagen de X mediante el estadstico T. Entonces {A
t
= T
1
(t) : t T } es una
particion de X inducida por T. Al observar x
y limitarnos a registrar el valor

de T( x
), podremos saber que hemos observado un elemento de A

T( x
)
, pero
desconoceremos cual de ellos.
Ejemplo 11
Se lanza una moneda n veces y se anota cada vez X
i
= 1 si sale cara y X
i
= 0
si sale cruz. El espacio muestral es
X = { x
= (x
1
, . . . , x
n
) : x
i
{0, 1}}.
25
26 CAP
ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

Se dene T( x
) =
n
i=1
x
i
. Entonces
T = {0, 1, 2, . . . , n}.
El estadstico T ha creado una particion en X de forma que todas aquellas
secuencias de resultados con igual n umero de unos estan en la misma clase:
A
t
= { x
= (x
1
, . . . , x
n
) T :
n
i=1
x
i
= t}.
No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.
. .
En este tema estudiaremos dos principios para reducir los datos que garan-
tizan que en el proceso de reduccion no se pierde informacion relevante sobre
los aspectos en estudio de la variable aleatoria de interes. Estos principios son
el principio de suciencia y el principio de verosimilitud. A ellos puede a nadirse
el principio de invariancia, que no trataremos aqu (puede consultarse la seccion
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene dis-
tribucion perteneciente a una familia parametrica:
X {f(x|), IR
k
}.
Se supondra ademas que se toma una muestra aleatoria simple de X y que a
partir de ella se calculan estadsticos.
2.1. Principio de suciencia
Un estadstico T es suciente para un parametro si captura toda la in-
formacion que sobre contiene la muestra. Cualquier informacion adicional (es
decir, aparte del valor del estadstico T) que la muestra pueda aportar, no pro-
porciona informacion relevante sobre . Estas consideraciones se concretan en
el siguiente principio:
Principio de suciencia:
Si T es un estadstico suciente para , cualquier inferencia sobre ha de de-
pender de la muestra X
= (X
1
, . . . , X
n
) solo a traves del valor T( X
). Es decir,
si x
e y
son tales que T( x
) = T( y
), entonces la inferencia que se haga sobre

sera la misma tanto si se observa x
como si se observa y
.
Formalmente, diremos que un estadstico T es suficiente para si la dis-
tribucion condicionada de X
dado el valor T( X
), no depende de .
Veamos, en el caso discreto, que la informacion que sobre un parametro
aporta un estadstico suciente es toda la informacion que aportara la muestra
2.1. PRINCIPIO DE SUFICIENCIA 27
completa. En primer lugar, si t es uno de los posibles valores de T( X
), es decir,
si P
(T( X
) = t) > 0, entonces
P
( X
= x
|T( X
) = t) =
_
P
( X
= x
|T( X
) = T( x
)) si T( x
) = t
0 si T( x
) = t
As que solo son de interes las probabilidades condicionadas P
( X
= x
|T( X
) =
T( x
)). Si T es suciente estas probabilidades no dependen de , luego,

P
( X
= x
|T( X
) = T( x
)) = P( X
= x
|T( X
) = T( x
))
para todo . En este sentido entendemos que T captura toda la informacion
sobre .
Supongamos que dos cientcos se interesan por la variable aleatoria X cuya
distribucion depende del parametro desconocido . Supongamos ademas que el
primer cientco observa toda una muestra x
de X, mientras que el segundo

solo puede estudiar el fenomeno a traves de una revista que publica el valor del
estadstico suciente T( x
). La cuestion relevante entonces es saber si ambos

cientcos tienen o no la misma informacion sobre . Veamos que as es.
Como P( X
= x
|T( X
) = T( x
)) no depende de , esta distribucion con-

dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cientcos conocen
P( X
= y
|T( X
) = T( x
)), para todo y A

T( x
)
= {y : T( y
) = T( x
)}.
Si el segundo cientco quisiera, podra generar un vector aleatorio Y
siguiendo
esa distribucion y se satisfara que
P( Y
= y
|T( X
) = T( x
)) = P( X
= y
|T( X
) = T( x
)), para todo y A

T( x
)
Por lo tanto X e Y tendran la misma distribucion condicionada a que T( X
) =
T( x
). Ademas, ambas variables tienen la misma distribucion incondicional:

P
( X
= x
) = P
( X
= x
, T( X
) = T( x
)) =
(porque { X
= x
} {T( X
) = T( x
)})
P
( X
= x
|T( X
) = T( x
))P
(T( X
) = T( x
)) =
P
( Y
= x
|T( X
) = T( x
))P
(T( X
) = T( x
)) =
P
( Y
= x
, T( X
) = T( x
)) =
(teniendo en cuenta que { Y
= x
} {T( X
) = T( x
)})
P
( Y
= x
)
28 CAP

Por lo tanto el segundo cientco ha podido observar una variable aleatoria
Y
que tiene la misma distribucion que la variable aleatoria X
que observo el
primer cientco, y ambos cientcos obtienen el mismo valor del estadstico T
a partir de sus respectivas observaciones. Por lo tanto, ambos cientcos tienen
la misma informacion.
Teorema 9 Si f( x
|) es la verosimilitud de un vector aleatorio X
y q(t|) es
la verosimilitud (funcion de densidad o de masa) de un estadstico T( X
), se
tiene la siguiente equivalencia. T( X
) es un estadstico suciente para si y

solo si para cada x
del espacio muestral X el cociente

f( x
|)
q(T( x
)|)
no depende de .
Demostracion: Haremos la prueba para el caso discreto. El caso continuo no
presenta dicultades adicionales.
Veamos primero que si f( x
|)/q(T( x
)|) no depende de entonces T es

suciente. Como ya se vio anteriormente,
P
( X
= x
|T( X
) = t) =
_
P
( X
= x
|T( X
) = T( x
)) si T( x
) = t
0 si T( x
) = t
Luego si T( x
) = t la funcion de masa de probabilidad condicionada vale 0 y,

no depende de . En el otro caso,
P
( X
= x
|T( X
) = T( x
)) =
P
( X
= x
, T( X
) = T( x
))
P
(T( X
) = T( x
))
=
P
( X
= x
)
P
(T( X
) = T( x
))
=
f( x
|)
q(T( x
)|)
que tampoco depende de , de donde se sigue que T es suciente.
Para probar el recproco, basta con leer la igualdad anterior en orden inverso,
f( x
|)
q(T( x
)|)
= P
( X
= x
|T( X
) = T( x
)),
que no depende de si T es suciente. 2
Ejemplo 12
Sea X
= (X
1
, . . . , X
n
) muestra aleatoria simple de X Bern(), 0 < < 1. El
estadstico T( X
) = X
1
+ +X
n
B(n, ) es suciente para :
f( x
|)
q(T( x
)|)
=
n
i=1
x
i
(1 )
1x
i
_
n
t
_
t
(1 )
nt
=
(donde se ha denido t =
n
i=1
x
i
)
t
(1 )
nt
_
n
t
_
t
(1 )
nt
=
1
_
n
t
_
que no depende de .
. .
Ejemplo 13
Sea X
= (X
1
, . . . , X
n
) muestra aleatoria simple de X N(,
2
),
2
conocido.
El estadstico T(X) = X N(,
2
/n) es suciente para :
f( x
|)
q(T( x
)|)
=
(2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
)
2
_
n
1/2
(2
2
)
1/2
exp
_
n
2
2
(x )
2
_ =
(2
2
)
n/2
exp
_
1
2
2
_
n
i=1
(x
i
x)
2
+n(x )
2
__
n
1/2
(2
2
)
1/2
exp
_
n
2
2
(x )
2
_ =
(2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
x)
2
_
n
1/2
(2
2
)
1/2
=
(2
2
)
(n1)/2
n
1/2
exp
_
1
2
2
n
i=1
(x
i
x)
2
_
,
que no depende de .
. .
El teorema 9 es util para comprobar si un estadstico es suciente, pero no lo
es para buscar estadsticos sucientes. El siguiente teorema s podra usarse para
este cometido: permite encontrar estadsticos sucientes mediante la inspeccion
de la funcion de densidad o la funcion de masa de probabilidad, seg un el caso.
Teorema 10 (Teorema de Factorizacion) Sea f( x
|) la verosimilitud de
X
= (X
1
, . . . , X
n
). El estadstico T( X
) es suciente para si y solo si existen

funciones g(t|) y h( x
) tales que para cualquier x
X y cualquier la
funcion f( x
|) puede factorizarse as:

f( x
|) = g(T( x
)|)h( x
).
Demostracion: (En el caso discreto). Supongamos primero que T es suciente.
Tomemos g(t|) = P
(T( X
) = t) y h( x
) = P
( X
= x
|T( X
) = T( x
)), que
no depende de al ser T suciente. Con esta eleccion,
f( x
|) = P
( X
= x
) = P
( X
= x
, T( X
) = T( x
)) =
30 CAP

P
( X
= x
|T( X
) = T( x
))P
(T( X
) = t) = g(T( x
)|)h( x
).
Veamos ahora el recproco. Supongamos que f( x
|) = g(T( x
)|)h( x
) y que
q(t|) es la funcion de masa de probabilidad de T( X
). Entonces,
f( x
|)
q(t|)
=
f( x
|)
yA
T( x
)
f(y|)
=
g(T( x
)|)h( x
yA
T( x
)
g(T( y
)|)h( y
)
=
g(T( x
)|)h( x
yA
T( x
)
g(T( x
)|)h( y
)
=
h( x
yA
T( x
)
h( y
)
,
que es independiente de . Luego T es suciente para . 2
(Nota: la demostracion para el caso continuo puede verse, por ejemplo, en
Lehmann 1986 o en Cristobal (1992), p. 173.)
Seg un el Teorema 10, para encontrar un estadstico suciente se factoriza la
funcion de densidad (o la de masa) en dos partes: una, h( x
), que no contenga al
parametro , y la otra que dependa de la muestra solo a traves de una funcion
suya T( x
). El estadstico suciente sera entonces T( X
).
Ejemplo 14
Sea X U{1, 2, . . . , } y X
1
, . . . , X
n
una m.a.s. de X. La funcion de masa de
probabilidad de X es
f(x|) =
1
I
{1,2,...,}
(x)
donde I
A
(x) es la funcion indicatriz del conjunto A, que vale 1 si x A y 0 en
caso contrario.
La verosimilitud de la muestra es
f(x
1
, . . . , x
n
|) =
1
n
n
i=1
I
{1,2,...,}
(x
i
) =
1
n
_
n
i=1
I
IN{0}
(x
i
)
__
n
i=1
I
(,]
(x
i
)
_
=
1
n
_
n
i=1
I
IN{0}
(x
i
)
__
n
i=1
I
[x
i
,)
()
_
=
1
n
I
(m ax{x
i
:1in},)
()
. .
g(t|), donde t=max
i
x
i
_
n
i=1
I
IN{0}
(x
i
)
_
. .
h( x
)
. .
Ejemplo 15
Sea X N(,
2
),
2
conocida. Entonces la verosimilitud de una muestra es
f( x
|) = (2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
x)
2
_
. .
h( x
)
exp
_
n
2
2
(x )
2
_
. .
g(t|), donde t=x
Por lo tanto T( X
) = X es estadstico suciente para .

Observese que

n
i=1
X
i
= nX tambien es estadstico suciente: podra de-
nirse h( x
) como antes y g(t|) = exp

_
(n/(2
2
))(t/n )
2
_
.
. .
En general, si T( X
) es estadstico suciente para y : T S es una

transformacion biyectiva del espacio donde toma valores T, se tiene que S( X
) =
(T( X
)) tambien es estadstico suciente para :

f( x
|) = g(T( x
)|)h( x
) = g(
1
(S( x
))|)h( x
) = g
(S( x
)|)h( x
),
de donde se deduce que S( X
) tambien es estadstico suciente. La funcion

g
(s|) es g
(s|) = g(
1
(s)|).
2.1.1. Estadsticos sucientes r-dimensionales
Hasta ahora hemos visto unicamente estadsticos sucientes con valores rea-
les, es decir, unidimensionales. Sin embargo, en la aplicacion del teorema de
factorizacion puede ocurrir que la funcion g(t|) dependa de la muestra a traves
de mas de una funcion suya. En ese caso la coleccion de esas funciones, digamos
T( X
) = (T
1
( X
), . . . , T
r
( X
)), es un estadstico suciente r-dimensional. Las

deniciones y resultados referentes a la suciencia ya vistos para el caso unidi-
mensional tambien se aplican al caso r-dimensional. Usualmente, si el parametro
es de dimension mayor que 1, entonces tambien lo sera el estadstico suciente.
Ejemplo 16
X
1
, . . . , X
n
m.a.s. de X N(,
2
), ambos parametros desconocidos: =
(,
2
). As,
f( x
|,
2
) = (2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
x)
2
_
exp
_
n
2
2
(x )
2
_
.
Sean T
1
( x
) = x y T
2
( x
) = S
2
= (
n
i=1
(x
i
x)
2
)/(n 1). Entonces,
f( x
|,
2
) = (2
2
)
n/2
exp
_
(n 1)
2
2
T
2
( x
)
_
exp
_
n
2
2
(T
1
( x
) )
2
_
=
32 CAP

g(T
1
( x
), T
2
( x
)|,
2
)
y tomando h( x
) = 1 se tiene la factorizacion de f( x
|,
2
) que implica que
T( X
) = (T
1
( X
), T
2
( X
)) = (X, S
2
) es un estadstico suciente para (,
2
) en
la distribucion normal. Es un estadstico bivariante.
Observese que el hecho de que un estadstico sea o no suciente para un
parametro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar unicamente la media y la
varianza muestral y estar seguros de que tenemos toda la informacion relevante
sobre los parametros desconocidos (,
2
). Sin embargo, si no estamos seguros
de la normalidad de los datos no deberamos conformarnos con conocer unica-
mente la media y la varianza muestral.
. .
2.1.2. Estadsticos sucientes minimales
La factorizacion de la funcion de verosimilitud no es unica y como conse-
cuencia de ello, tampoco es unico el estadstico suciente para un parametro.
Ya vimos que cualquier transformacion biyectiva de un estadstico suciente da
lugar a otro estadstico suciente. Pero a un hay muchos mas estadsticos su-
cientes. Por ejemplo, la muestra completa X
tambien es estadstico suciente

para el parametro:
f( x
|) = g( x
|)h( x
),
donde h( x
) = 1, T( x
) = x
y g( x
|) = f( x
|).
Un estadstico suciente T( X
) se llama minimal si para cualquier otro

estadstico S( X
) se tiene que T( X
) es funcion de S( X
). Es decir, si ocurre
que S( x
) = S( y
) entonces forzosamente se tiene que T( x
) = T( y
). Otra
forma de expresar esto es la siguiente: sea {A
t
: t T } la particion del espacio
muestral inducida por el estadstico T y sea {B
s
: s S} la particion inducida
por S; para casa s S existe un t T tal que B
s
A
t
. La particion inducida
por cualquier estadstico suciente es mas na que la inducida por el estadstico
suciente minimal.
Ejemplo 17
X
1
, . . . , X
n
m.a.s. de X N(,
2
), ambos parametros desconocidos. Hemos
visto en el ejemplo 16 que (T
1
( X
), T
2
( X
)) = (X, S
2
) es un estadstico suciente
para (,
2
).
Suponemos ahora que
2
es conocido. Vimos en el ejemplo 13 que T
1
( X
) =
X es estadstico suciente para . Pero tambien es cierto que (T
1
( X
), T
2
( X
)) =
(X, S
2
) es suciente para . Claramente T
1
( X
) consigue una mejor reduccion

de los datos que (T
1
( X
), T
2
( X
)). Podemos escribir T

1
( X
) como funcion de
(T
1
( X
), T
2
( X
)): T
1
( X
) = (T
1
( X
), T
2
( X
)) donde (a, b) = a.
Dado que tanto T
1
( X
) como (T
1
( X
), T
2
( X
)) son sucientes para , am-

bos contienen la misma informacion sobre . Por lo tanto, la varianza muestral
S
2
= T
2
( X
) no aporta ninguna informacion sobre la media cuando

2
es
conocida.
. .
El siguiente teorema proporciona un metodo para encontrar el estadstico
suciente minimal.
Teorema 11 Sea f
X
( x
|) la funcion de verosimilitud conjunta de X
(dis-
creta o continua). Supongamos que existe una funcion T( x
) tal que para cual-

quier par de elementos del espacio muestral x
, y
, el cociente
f
X
( x
|)
f
X
( y
|)
es constante como funcion de , si y solo si T( x
) = T( y
). Entonces T( x
) es
estadstico suciente minimal para .
Demostracion: Casella-Berger, p. 255 2
Ejemplo 18
Sea X
= (X
1
, . . . , X
n
) m.a.s. de X N(,
2
), ambos parametros des-
conocidos. Sean x
e y
dos muestras observadas y sean (x, S

2
x
), (y, S
2
y
) las
correspondientes medias y varianzas muestrales. Recordando la factorizacion
de f( x
|,
2
) que vimos en el ejemplo 16, se tiene que
f
X
( x
|)
f
X
( y
|)
=
(2
2
)
n/2
exp
_
(n1)
2
2
S
2
x
_
exp
_
n
2
2
(x )
2
_
(2
2
)
n/2
exp
_
(n1)
2
2
S
2
y
_
exp
_
n
2
2
(y )
2
_
=
exp
_
1
2
2
_
n(x )
2
+n(y )
2
(n 1)(S
2
x
S
2
y
)
_
_
=
exp
_
1
2
2
_
n(x
2
y
2
) + 2n(x ) (n 1)(S
2
x
S
2
y
)
_
_
Esta expresion es constante como funcion de (,
2
) si y solo si
n(x
2
y
2
) + 2n(x y) (n 1)(S
2
x
S
2
y
) = 0,
34 CAP

y recordando que S
2
x
=
n
i=1
x
2
i
nx
2
eso ocurrira si y solo si
2n(x y)
n
i=1
x
2
i
+
n
i=1
y
2
i
= 0, para todo ,
pero un polinomio de grado 1 en (el lado izquierdo de la igualdad anterior)
es igual a 0 para todo si y solo si sus dos coecientes son nulos, es decir, si y
solo si
x = y y
n
i=1
x
2
i
=
n
i=1
y
2
i
,
lo que equivale a decir, que
x = y y S
2
x
= S
2
y
.
Concluimos pues que (X, S
2
) es estadstico minimal suciente para (,
2
) cuan-
do muestreamos de una normal.
. .
Ejemplo 19
Sea X
1
, . . . , X
n
m.a.s. de X U[, + 1]. As,
f( x
|) =
n
i=1
I
[,+1]
(x
i
) = I
[max
i
x
i
1,mn
i
x
i
]
().
Por el teorema de factorizacion, (T
1
( X
), T
2
( X
)) = (mn
i
X
i
, max
i
X
i
) es un
estadstico suciente para .
Para dos muestras x
e y, el numerador y el denominador de f( x
|)/f(y|)
seran positivos para los mismo valores de si y solo si mn
i
x
i
= mn
i
y
i
y
max
i
x
i
= max
i
y
i
. En ese caso ademas el cociente valdra 1, independientemente
del valor de . As que el cociente no dependera de si y solo si mn
i
x
i
= mn
i
y
i
y max
i
x
i
= max
i
y
i
, luego (mn
i
X
i
, max
i
X
i
) es un estadstico suciente mini-
mal.
. .
Observese que el estadstico minimal no es unico: cualquier transformacion
biyectiva suya tambien es estadstico minimal suciente.
Se puede probar que siempre existen estadsticos sucientes minimales. Ver,
por ejemplo, el problema 15 del captulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristobal (1992).
2.1.3. Estadsticos ancilares
Se dene un estadstico ancilar como aquel cuya distribucion no de-
pende del parametro . Los estadsticos ancilares son los que resumen la parte
de informacion de la muestra que no recogen los estadsticos minimales su-
cientes. A primera vista, parece que no deben aportar informacion relevante en
la estimacion del parametro de interes . Sin embargo, hay ocasiones en que
en combinacion con otros estadsticos s son utiles en la estimacion de (ver
Casella-Berger, ejemplo 6.1.11).
Ejemplo 20
Sean X
n observaciones i.i.d. de una distribucion uniforme en el intervalo (, +

1), < < . Sean X
(1)
< < X
(n)
los estadsticos de orden de la
muestra.
El estadstico Rango, denido como R = X
(n)
X
(1)
, sigue una distribucion
Beta(n 1, 2), sea cual sea el valor de , por lo que R es un estadstico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de locali-
zacion:
Sean X
observaciones i.i.d. de una familia de localizacion con funcion de distri-

bucion F(x), < < . Sean X
(1)
< < X
(n)
los estadsticos de orden
de la muestra. Entonces la distribucion del rango, denido como R = X
(n)
X
(1)
,
no depende de por lo que es un estadstico ancilar.
. .
Ejemplo 21
Sean X
1
y X
2
observaciones independientes de una distribucion discreta tal que:
P
(X = ) = P
(X = + 1) = P
(X = + 2) =
1
3
donde , el parametro desconocido, es un entero cualquiera.
Sean X
(1)
X
(2)
los estadsticos de orden de la muestra. Puede demostrarse
que (R, M), con R = X
(2)
X
(1)
y M = (X
(1)
+ X
(2)
)/2, es un estadstico
minimal suciente. Dado que es una familia de localizacion R es ancilar.
Sea un punto muestral (r, m), con m entero. Si consideramos solo m, para
que el punto tenga probabilidad positiva es preciso que tome uno de tres
valores posibles: = m, = m 1 o = m 2. Si solo se que M = m, los 3
valores de son posibles. Supongase que sabemos ademas que R = 2. Entonces
forzosamente X
(1)
= m1 y X
(2)
= m+ 1 y, por lo tanto, = m1.
El saber el valor del estadstico ancilar ha aumentado nuestro conocimiento
sobre , a pesar de que solo con el valor de R no habramos tenido ninguna
36 CAP

informacion sobre .
. .
2.1.4. Estadsticos completos
Sea f
T
(t|) la funcion de densidad (o de masa de probabilidad) de un es-
tadstico T. Diremos que la familia de distribuciones {f
T
(t|) : } es com-
pleta si se da la implicacion siguiente:
E
(g(T)) = 0 para todo =P
(g(T) = 0) = 1 para todo .

En ese caso diremos que T es un estadstico completo.
Ejemplo 22
La familia de distribuciones binomiales con n jo es completa. Sea T B(n, p),
0 < p < 1. Sea g una funcion tal que E(g(T)) = 0 para todo p (0, 1). Entonces,
0 = E(g(T)) =
n
t=0
g(t)
_
n
t
_
p
t
(1 p)
nt
= (1 p)
n
n
t=0
g(t)
_
n
t
__
p
1 p
_
t
.
Tenemos entonces que un polinomio de grado n en (p/(1 p)) (0, ) es
identicamente cero. Esto solo es posible si todos sus coecientes son nulos:
g(t)
_
n
t
_
= 0, para todo t 0, 1, . . . , n
de donde se deduce que g(t) = 0 para todo t 0, 1, . . . , n, luego
P
p
(g(T) = 0) = 1, para todo p,
y la familia de distribuciones de T es completa.
. .
La denicion de completitud refuerza la de suciencia en el sentido de que
si un estadstico es suciente y completo entonces, por una parte, es suciente
minimal (el recproco no es cierto) y, por otra, ese estadstico es independiente
de cualquier estadstico ancilar. Es decir, en el caso de que exista un estadstico
suciente y completo s es cierta la idea intuitiva de que los estadstico ancilares
no pueden aportar nada relevante a la estimacion del parametro. Esto no ocurre
si solo se tienen estadsticos sucientes y minimales.
Los siguientes resultados reejan formalmente estas ideas.
Teorema 12 Si T es un estadstico suciente y completo para , entonces T
es suciente minimal.
Demostracion: (Extrada de Cristobal 1992, p. 200.)
Sea S un estadstico suciente para . Entonces, por la ley de la esperanza
iterada,
E
(T E(T/S)) = E
(T) E
(T) = 0, para todo .

Por ser T completo, se tiene que
P
(T E(T/S) = 0) = 1 =T = E(T/S) casi seguro,

luego T es funcion de cualquier estadstico suciente S y, por tanto, es minimal.
2
El recproco no es cierto, como pone de maniesto el siguiente ejemplo
(Cristobal 1992, p. 200).
Ejemplo 23
Sean X N(,
2
X
) e Y N(,
2
Y
) variables aleatorias independientes. Del
teorema 11 se sigue que el estadstico (X, Y , S
2
X
, S
2
Y
) es suciente minimal para
= (,
2
X
,
2
Y
) IR IR
+
IR
+
. Sin embargo no es completo, porque
E
(X Y ) = 0 para todo
y sin embargo P
(X = Y ) = 0, para cualquier .
. .
Teorema 13 (Basu) Si T es un estadstico suciente y completo, y S es un
estadstico ancilar, entonces T y S son independientes.
Demostracion: Ver Casella-Berger, p. 262, o Cristobal (1992), p. 201. 2
Acabaremos esta seccion dando un resultado que permite encontrar estadsti-
cos sucientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.
Teorema 14 Sea X variable aleatoria cuya distribucion pertenece a la familia
exponencial y viene dada por la funcion de densidad (o de masa, seg un el caso)
f(x|) = h(x)c() exp
_
_
k
j=1
j
t
j
(x)
_
_
, = (
1
, . . . ,
k
) IR
k
,
parametrizada de forma natural.
Si el espacio parametrico natural contiene un abierto no vaco de IR
k
,
entonces el estadstico
T( X
) = (T
1
( X
), . . . , T
k
( X
)), donde T
j
( X
) =
n
i=1
t
j
(X
i
),
es estadstico suciente completo (y por lo tanto, minimal).
38 CAP

Demostracion: La prueba de este resultado requiere tecnicas de funciones
analticas complejas. Ver, por ejemplo, la demostracion del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garca-Nogales 1998 o 7.3.7 de
Cristobal 1992. 2
2.2. Principio de verosimilitud
Sea una muestra aleatoria simple X
= (X
1
, . . . , X
n
) de una variable alea-
toria X y supongamos que se ha observado x
. Llamamos funci on de vero-

similitud de la muestra a la funcion de densidad conjunta o a la funcion de
masa de probabilidad conjunta, seg un sea X continua o discreta, entendida esta
como funcion del parametro:
L(| x
) : IR
+
L(| x
) = f( x
|)
La funcion de verosimilitud as denida puede entenderse como un estadstico,
es decir, como una funcion L de la muestra que no depende del parametro:
a cada posible muestra observada x
, la funcion de verosimilitud le asocia un

elemento del conjunto (IR
+
)
de todas las funciones de en IR

+
, precisamente
L(| x
), la funcion de verosimilitud de esa muestra:

L : X (IR
+
)
L(| x
)
As, L( X
) es una funcion aleatoria de en IR. Por lo tanto, la funcion de vero-

similitud es una forma mas de resumir la informacion que la muestra contiene
acerca del parametro. La razon de escribir resumir en cursiva es que pasar de X
(de dimension n) a L( X
) (de dimension igual al cardinal de , normalmente

innito) no siempre se puede entender como un resumen de la informacion.
En esta seccion se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suciencia, entonces la inferencia se debe basar en la fun-
cion de verosimilitud. Esta ultima armacion (la inferencia sobre el parametro
se debe basar unica y exclusivamente en la funcion de verosimilitud) se expre-
sa formalmente en el principio de verosimilitud, que especica como debe
usarse la verosimilitud en la reduccion de la informacion muestral.
Principio de verosimilitud:
Si x
e y
son dos puntos muestrales tales que

L(| x
) = C( x
, y
)L(| y
), para todo ,
donde C( x
, y
) es una funcion que puede depender de x
e y
pero no de ,
entonces la inferencia que se haga sobre sera la misma tanto si se observa x
.
2.2. PRINCIPIO DE VEROSIMILITUD 39
Observese que la verosimilitud de una muestra x
en el caso discreto es la
coleccion de las probabilidades de haber observado x
bajo los diferentes valores

de . As, el cociente de dos valores de la verosimilitud
L(
1
| x
)
L(
2
| x
)
indica cuantas veces mas probable es observar x
bajo
1
que bajo
2
. En el
caso continuo esto es aproximadamente valido, si hablamos de la probabilidad
de observar valores en un entorno de x
en lugar de la probabilidad de observar

x
:
P
1
( X
B( x
, ))
P
2
( X
B( x
, ))

VolumenB( x
, )f( x
|
1
)
VolumenB( x
, )f( x
|
2
)
=
f( x
|
1
)
f( x
|
2
)
.
Si, por ejemplo, f( x
|
1
)/f( x
|
2
) = 2 podemos decir que
1
es mucho mas
plausible (mucho mas verosimil) que
2
. As, la verosimilitud indica como de
plausible es un valor del parametro
1
en terminos relativos (comparada esa
plausibilidad con la de otro valor de
2
).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parametro se debe basar unica
y exclusivamente en la funcion de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizas no exactamente iguales),
los cocientes de verosimilitudes seran iguales si se observa una u otra,
L(
1
| x
)
L(
2
| x
)
=
C( x
, y
)L(
1
| y
)
C( x
, y
)L(
2
| y
)
=
L(
1
| y
)
L(
2
| y
)
,
y por lo tanto, los valores de mas verosmiles seran los mismos si se observa
x
o y
. Como consecuencia, x
e y
deben dar lugar a las mismas inferencias

sobre , como arma el principio de verosimilitud.
El siguiente teorema arma que el principio de suciencia y el de verosimi-
litud son equivalentes.
Teorema 15 El principio de suciencia y el principio de verosimilitud son equi-
valentes.
Demostracion: Suciencia = Verosimilitud.
Veamos que la funcion de verosimilitud, vista como estadstico L( X
), es un
estadstico suciente. En efecto,
f( x
|) = g(L( x
)|)h( x
),
donde h( x
) = 1 y la funcion g(L( x
)|) es la que devuelve el valor de L( x
)
en el punto . Por el teorema de factorizacion L( X
) es estadstico suciente.
Por el principio de suciencia, cualquier inferencia sobre ha de depender de
40 CAP

la muestra X
= (X
1
, . . . , X
n
) solo a traves del valor L( X
), lo cual implica el
principio de verosimilitud.
Verosimilitud = Suciencia.
Consideremos un estadstico suciente T( X
) y dos valores muestrales x
e y
tales que T( x
) = T( y
). Veamos que la inferencia sobre que se derive de x
e y
ha de ser la misma (esta es otra forma de leer el principio de suciencia).

En efecto, se tiene que
L( x
|) = g(T( x
)|)h( x
) = g(T( y
)|)h( x
) =
g(T( y
)|)h( y
)
h( x
)
h( y
)
= C( x
, y
)L( y
|)
de donde se deduce por aplicacion del principio de verosimilitud que la inferencia
que se haga sobre sera la misma tanto si se observa x
.
2
En Casella-Berger, seccion 6.2, puede encontrarse un desarrollo mas deta-
llado sobre las implicaciones que existen entre estos y otros principios de re-
duccion de los datos. Las conclusiones a las que all se llega implican que el
principio de verosimilitud es cierto tambien para inferencias hechas sobre un
mismo parametro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
sera la misma.
Suciencia
1. (Casella-Berger, 6.1) Sea X una observacion de una N(0,
2
). Es |X| un
estadstico suciente?
2. (Casella-Berger, 6.3) Sea X (1/)f((x )/), donde f(t) es la den-
sidad de una exp(1). Sea X
1
, . . . , X
n
una m.a.s. de X. Da un estadstico
bidimensional suciente para (, ).
1
, . . . , X
n
variables aleatorias independen-
dientes con densidades
f
i
(x) =
1
2i
I
(i(1),i(+1))
(x), i = 1, . . . , n,
donde > 0.
a) Encontrar un estadstico suciente para de dimension 2.
b) Dar un estadstico suciente para de dimension 1.
1
, . . . , X
n
una m.a.s. de una (, ). Da un
estadstico bidimensional suciente para (, ).
1
, . . . , X
n
una m.a.s. de una variable aleato-
ria X con funcion de densidad o de probabilidad f(x; ). Prueba que los
estadsticos de orden X
(1)
, . . . , X
(n)
son sucientes para .
1
, . . . , X
n
una m.a.s. de una variable aleato-
ria X. Encontrar estadsticos minimales sucientes para el parametro de
localizacion (< < ) en los siguientes casos.
a) Exponencial: f(x; ) = e
(x)
, x > .
b) Logstica: f(x; ) = e
(x)
/(1 +e
(x)
)
2
.
c) Cauchy: f(x; ) = 1/((1 + (x )
2
)).
d) Doble exponencial (o Laplace): f(x; ) = (1/2)e
|x|
.
7. (Examen parcial 2001) Se considera el siguiente modelo de regresion:
Y
i
= +x
i
+
i
, i = 1, . . . , n,
donde x
1
, . . . , x
n
son cantidades conocidas y
1
, . . . ,
n
son v.a.i.i.d. seg un
una N(0,
2
).
a) Que distribucion tiene Y
i
? Escribe su funcion de densidad f
Y
i
(y).
b) Escribe la funcion de verosimilitud L(y
1
, . . . , y
n
; , ,
2
).
c) Da un estadstico tridimensional suciente para (, ,
2
).
42 CAP

d) Prueba que la distribucion conjunta de (Y
1
, . . . , Y
n
) pertenece a la
familia exponencial.
Completitud
1
, . . . , X
n
m.a.s. de una U[, +1]. En el ejem-
plo 19 se establece que el estadstico T( X
) = (X
(1)
, X
(n)
) es estadstico
minimal suciente para . Prueba ahora que no es completo.
1
, . . . , X
n
una m.a.s. de una N(, a
2
), donde
a > 0 es una constante conocida. Probar que T = (X, S
2
) es estadstico
suciente para pero no es completo.
1
, . . . , X
n
v.a.i.i.d. con distribucion geometri-
ca:
P
(X = x) = (1 )
x1
, x = 1, 2, . . . , 0 < < 1.
a) Probar que T =
n
i=1
X
i
es suciente para y encontrar la distribu-
cion de T.
b) Prueba que T es completo sin usar el resultado general para familias
exponenciales.
11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X
1
, . . . , X
n
v.a.i.i.d.
seg un una ley Poisson(), 0.
a) Probar que el estadstico T =
n
i=1
X
i
es suciente pera .
b) Sin hacer uso del resultado general sobre completitud en familias ex-
ponenciales, probar que la familia de distribuciones de T =
n
i=1
X
i
es completa.
c) Consideremos la siguiente familia de distribuciones:
P = {P
(X = x) : P
(X = x) =
x
e
/x!; x = 0, 1, 2, . . . ; = 0 o = 1}
(Nota: 0
0
= 1, 0! = 1.)
Esta familia es una familia de distribuciones de Poisson con res-
tringido a ser 0 o 1. Probar que la familia P no es completa.
d) Indicar si la siguiente armacion es cierta o falsa y decir por que:
Si la familia de distribuciones P
1
= {f(x; ) :
1
} es completa
y
2

1
, entonces la familia de distribuciones P
2
= {f(x; ) :
2
} es completa.
12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2
con probabilidades dadas por una de las siguientes distribuciones:
P(X = 0) P(X = 1) P(X = 2)
Distribucion 1 p 3p 1 4p 0 < p < 1/4
Distribucion 2 p p
2
1 p p
2
0 < p < 1/2
En cada caso, determina si la familia de distribuciones de X es completa.
13. Considera las variables aleatorias descritas en el problema 14 de la lista
1.6. Encuentra el estadstico minimal suciente para . Es completo?
44 CAP

Captulo 3
Estimacion puntual 1:
Construccion de
estimadores
Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general.
DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia
bayesiana. Garthwaite, Jollife y Jones (1995), seccion 3.4, presenta
metodos de estimadocion no incluidos aqu.
3.1. La funcion de distribucion emprica y el
metodo de los momentos
Sea la variable aleatoria X con funcion de distribucion F. Consideramos una
muestra aleatoria simple de tama no n de X, es decir, X
1
, . . . , X
n
v.a.i.i.d. con
distribucion dada por F. Sea x
1
, . . . , x
n
una realizacion de esa m.a.s.
Se llama funci on de distribuci on emprica a la funcion
F
n
(x) =
1
n
#{x
i
x : i = 1 . . . n} =
1
n
n
i=1
I
(,x]
(x
i
),
que a cada n umero real x le asigna la proporcion de valores observados que son
menores o iguales que x.
Es inmediato comprobar que la funcion F
n
as denida es una funcion de
distribucion:
1. F
n
(x) [0, 1] para todo x IR.
2. F
n
es continua por la derecha.
45
46CAP
ITULO 3. ESTIMACI
ONPUNTUAL 1: CONSTRUCCI
ONDE ESTIMADORES
3. F
n
es no decreciente.
4. lm
x
F
n
(x) = 0.
5. lm
x
F
n
(x) = 1.
Concretamente, F
n
es la funcion de distribucion de una variable aleatoria dis-
creta (que podemos llamar X
e
) que pone masa 1/n en cada uno de los n puntos
x
i
observados:
x
i
x
1
x
2
x
n
p
i
= P(X
e
= x
i
) 1/n 1/n 1/n
A la distribucion de X
e
se le llama distribuci on emprica asociada al conjunto
de valores {x
1
, . . . , x
n
}.
Observese que si jamos el valor de x y dejamos variar la muestra, lo que
obtenemos es una variable aleatoria. En efecto, se tiene entonces que
F
n
(x) =
1
n
n
i=1
I
(,x]
(X
i
),
donde
I
(,x]
(X
i
) =
_
1, si X
i
x
0, si X
i
> x
y, por lo tanto, cada termino I
(,x]
(X
i
) es una variable aleatoria de Bernoulli
con probabilidad de exito
p = P(I
(,x]
(X
i
) = 1) = P(X
i
x) = F(x).
De ah se deduce que F
n
es una variable aleatoria y que nF
n
(x) tiene distribucion
binomial con parametros n y p = F(x).
De lo anterior se sigue que la funcion de distribucion emprica es un proce-
so estocastico: si consideramos un espacio probabilstico (, A, P) donde estan
denidas las sucesiones de variables aleatorias {X
n
}
n1
a partir de las cuales
deniremos la funcion de distribucion emprica, tenemos que
F
n
: (, A, P) (IR, B) [0, 1]
(, x) F
n
(x)() =
1
n
n
i=1
I
(,x]
(X
i
())
Fijado x, F
n
(x)() : (, A, P) [0, 1] es una variable aleatoria. Fijado ,
F
n
()() : IR [0, 1] es una funcion de distribucion (en la notacion usual
se omite la dependencia de ). Por lo tanto, la funcion de distribucion
emprica es una fucnion de distribucion aleatoria.
3.1. LA FUNCI
ONDE DISTRIBUCI
ON EMP
IRICA Y EL M
ETODO DE LOS MOMENTOS47

3.1.1. Teorema de Glivenko-Cantelli
El siguiente teorema recoge algunas de las propiedades de la funcion de
distribucion emprica.
Teorema 16 Sea {X
n
}
n1
, sucesion de variables aleatorias independientes e
identicamente distribuidas denidas en el espacio de probabilidad (, A, P) con
funcion de distribucion com un F. Se denota por F
n
la funcion de distribucion
emprica obtenida de las n primeras variables aleatorias X
1
, . . . , X
n
. Sea x IR.
Se verica lo siguiente:
(a) P(F
n
(x) =
j
n
) =
_
n
j
_
F(x)
j
(1 F(x))
nj
, j = 0, . . . , n.
(b) E(F
n
(x)) = F(x), Var (F
n
(x)) = (1/n)F(x)(1 F(x)).
(c) F
n
(x) F(x) casi seguro.
(d)
n(F
n
(x) F(x))
_
F(x)(1 F(x))

D
Z,
donde Z es una variable aleatoria con distribucion normal estandar y la
convergencia es convergencia en distribucion.
Demostracion: Los apartados (a) y (b) son consecuencia inmediata del hecho
de que nF
n
(x) B(n, p = F(x)). Por otro lado, si denimos Y
i
= I
(,x]
(X
i
),
se tiene que F
n
(x) =

Y
n
, la media aritmetica de las variables aleatorias Y
1
, . . . , Y
n
.
As, el apartado (c) es una aplicacion inmediata de la ley fuerte de los grandes
n umeros y el apartado (d) es consecuencia del teorema central de lmite. 2
El siguiente teorema refuerza el resultado (c) anterior, puesto que arma que
la convergencia de F
n
(x) a F(x) se da uniformemente.
Teorema 17 (Teorema de Glivenko-Cantelli) Sea {X
n
}
n1
una sucesion
de variables aleatorias independientes e identicamente distribuidas denidas en
el espacio de probabilidad (, A, P) con funcion de distribucion com un F. Se
denota por F
n
la funcion de distribucion emprica obtenida de las n primeras
variables aleatorias X
1
, . . . , X
n
. Entonces,
sup
xIR
|F
n
(x) F(x)| 0 casi seguro.
Demostracion: Presentamos aqu la demostracion que hacen Velez y Garca
(1993), p. 36. (otras demostraciones pueden encontrarse en Garca-Nogales 1998,
p. 88, y en Cristobal 1992, p. 66). En el teorema 16 se probo que, por la ley
fuerte de los grandes n umeros, F
n
(x) F(x) casi seguro, es decir, para cada
x IR existe A
x
A tal que P(A
x
) = 1 y lm
n
F
n
(x)() = F(x) si A
x
.
Se ha denotado por F
n
(x)() a la funcion de distribucion emprica obtenida
48CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
al observar X
1
(), . . . , X
n
(), siendo un elemento del espacio . De la ley
fuerte de los grandes n umeros tambien se sigue (tomando ahora I
(,x)
en
vez de I
(,x]
) que para cada x IR, existe B
x
A tal que P(B
x
) = 1
y lm
n
F
n
(x
)() = F(x
) si B
x
, donde g(x
) denota el lmite por la

izquierda de una funcion g en x.
Para cada n umero natural k, y cada j = 1, . . . , k, se consideran los puntos
x
jk
= mn
_
x IR : F(x
)
j
k
F(x)
_
y los sucesos de A siguientes:
A
jk
= A
x
jk
= {w : F
n
(x
jk
) F(x
jk
)}
B
jk
= B
x
jk
= {w : F
n
(x
jk
) F(x
jk
)}
D
k
=
k
j=1
(A
jk
B
jk
), D =
k=1
D
k
.
D
k
es el suceso denido por la condicion de que la funcion de distribucion empri-
ca converja a la teorica para todos los puntos x
jk
(y tambien para los lmites por
la izquierda), para un k jo. D es el suceso en que esto ocurre simultaneamente
para todo k. Seg un la ley fuerte de los grandes n umeros, P(A
jk
) = P(B
jk
) = 1
para todo j y todo k, luego P(D
k
) = 1 para todo k y, por tanto, P(D) = 1.
Observese que si x [x
jk
, x
(j+1)k
), por ser F y F
n
funciones de distribucion
se tiene que
F(x
jk
) F(x) F(x
(j+1)k
), y F
n
(x
jk
) F
n
(x) F
n
(x
(j+1)k
).
Como ademas F(x
(j+1)k
) F(x
jk
) 1/k,
F
n
(x) F(x) F
n
(x
(j+1)k
) F(x
jk
) F
n
(x
(j+1)k
) F(x
(j+1)k
) +
1
k
y
F
n
(x) F(x) F
n
(x
jk
) F(x
(j+1)k
) F
n
(x
jk
) F(x
jk
)
1
k
con lo cual, si
(k)
n
es la mayor entre todas las diferencias |F
n
(x
jk
) F(x
jk
)| y
|F
n
(x
jk
) F(x
jk
)| (para n y k jos), se tiene que
F
n
(x) F(x)
(k)
n
+
1
k
y F
n
(x) F(x)
(k)
n

1
k
As, para cualquier k IN,
sup
xIR
|F
n
(x) F(x)|
(k)
n
+
1
k
.
Observese que si se verica el suceso D, para cualquier k IN y cualquier > 0,
se tiene que
(k)
n
< a partir de un cierto n, de forma que
sup
xIR
|F
n
(x) F(x)| < +
1
k
3.1. LA FUNCI
ONDE DISTRIBUCI
ON EMP
IRICA Y EL M

a partir de cierto n. Por lo tanto,
sup
xIR
|F
n
(x) F(x)|
n
0
siempre que se verique D. Como P(D) = 1, se sigue que
sup
xIR
|F
n
(x) F(x)|
n
0 casi seguro.
2
Observese que seg un el apartado (c) del teorema 16, las distribuciones empri-
cas asociadas a muestras de tama no n convergen debilmente a la distribucion de
probabilidad teorica identicada por F, para casi todas las muestras de tama no
innito que se extraigan de F.

Esta es una de las consecuencias mas importantes
del citado teorema:
la distribucion emprica converge debilmente con probabilidad 1 a la
poblacional cuando el tama no de la muestra tiende a innito:
F
n

D
F, casi seguro.
Esto garantiza la posibilidad de realizar inferencia estadstica: los aspectos pro-
babilsticos de una caracterstica X, medida en una poblacion, se resumen de
forma estilizada en una distribucion de probabilidad F, la cual puede ser apro-
ximada mediante las distribuciones empricas F
n
obtenidas por muestreo de la
poblacion en estudio. El teorema de Glivenko-Cantelli arma que esas aproxi-
maciones son uniformes en x. Por esta razon el teorema de Glivenko-Cantelli
se llama a veces Teorema Fundamental de la Estadstica Matematica: da una
fundamentacion de la inferencia estadstica, cuyo objetivo principal consiste en
extraer informacion sobre F a partir de las observaciones muestrales.
Ejemplo 24
En la gura siguiente se muestra la funcion de distribucion de una variable
aleatoria N(0, 1) y la funcion de distribucion emprica de dos muestras de esa
variable aleatoria una de tama no n = 10 (la mas alejada de la teorica) y la
otra de tama no n = 100. Se aprecia que cuando n crece la proximidad entre la
funcion de distribucion emprica y la teorica es cada vez mayor.
50CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
3 2 1 0 1 2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100
. .
3.1.2. Principio de sustitucion
En esta seccion presentamos una consecuencia importante de la convergencia
de F
n
a F, la denicion de estimadores mediante el principio de sustitucion.
La convergencia de F
n
a F permite construir versiones factibles de carac-
tersticas poblacionales desconocidas. Supongamos que estudiamos una carac-
terstica X en una poblacion y que el resultado de la observacion de X puede ser
modelizado como una variable aleatoria con distribucion desconocida, digamos
F. Muchas de las preguntas relevantes acerca de la caracterstica X podran ser
contestadas si su funcion de distribucion F fuese conocida (por ejemplo el valor
esperado, el n umero de modas de la distribucion o la probabilidad de que X sea
negativa).
Para jar ideas podemos pensar que nos interesa conocer cantidades nume-
ricas (parametros) que dependen unicamente de la funcion de distribucion des-
conocida F:
= (F).
3.1. LA FUNCI
ONDE DISTRIBUCI
ON EMP
IRICA Y EL M

El teorema de Glivenko-Cantelli nos dice que F
n
se acerca a F, a medida que
el tama no muestral crece. As, podemos esperar que tambien se verique que
n
= (F
n
) = (F),
es decir, esperamos que las cantidades numericas calculadas para la distribucion
emprica (estimadores) se aproximen a las cantidades desconocidas a medida
que el tama no muestral crezca. Se puede probar que este resultado es cierto
bajo hipotesis de regularidad bastante generales de las funciones que asignan
n umeros a funciones de distribucion.
Esta forma de obtener estimadores de parametros poblacionales desconocidos
se denomina principio de sustituci on (plug-in principle en ingles). Es un
procedimiento muy general de obtencion de estimadores.
Ejemplo 25
Sea X U(0, ). Se toma una m.a.s. de X de tama no n para estimar . Un
estimador razonable de es el maximo de las observaciones, que es estadstico
minimal suciente para :
2
= max
i
X
i
.
Este es un estimador de basado en el principio de sustitucion. En efecto,

= sup{x IR : F(x) < 1},
y
2
= max
i
X
i
= sup{x IR : F
n
(x) < 1}.
. .
3.1.3. El metodo de los momentos
Una aplicacion del principio de sustitucion es la denicion de los estima-
dores basados en momentos. El momento no centrado de orden k de una
variable aleatoria X con distribucion F se dene como
k
= E
F
(X
k
) =
_
x
k
dF(x).
Si X
e
es una variable aleatoria con funcion de distribucion igual a F
n
, la funcion
de distribucion emprica de una m.a.s. de tama no n de X, se tiene que sus
momentos no centrados (a los que llamaremos m
k,n
) son de la forma
m
k,n
= E
F
n
(X
k
e
) =
_
x
k
dF
n
(x) =
1
n
n
i=1
X
k
i
,
52CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
y se denominan momentos muestrales no centrados de orden k. Por ejemplo,
1
es la esperanza poblacional y m
1,n
la media muestral.
La siguiente proposicion garantiza que los momentos muestrales convergen
a los poblacionales.
Proposicion 2 Sea X variable aleatoria con E(X
2k
) < . Entonces se verica
que m
k,n

k
casi seguro. Ademas,
n(m
k,n
k
)
_
2k
2
k
D
Z,
con Z N(0, 1). Se tiene ademas la convergencia de la distribucion conjunta
de los k primeros momentos muestrales:
n
_
(m
1,n
, . . . , m
k,n
)
t
(
1
, . . . ,
k
)
t
D
N
k
( 0
, ),
donde es una matriz (k k) con elemento (i, j) generico
ij
=
i+j

i
j
.
Demostracion: La demostracion es inmediata. Se basa en la aplicacion de la
ley fuerte de los grandes n umeros y el teorema central del lmite, dado que si
denimos Y
i
= X
k
i
entonces m
k,n
=

Y
n
. La ultima parte se sigue del teorema
central del lmite multivariante. 2
Muchas caractersticas poblacionales de interes se pueden expresar como
funcion de los momentos no centrados de ordenes 1, . . . , k:
= h(
1
, . . . ,
k
).
Por ejemplo, la varianza de X se expresa como
2
= h(
1
,
2
) =
2
2
1
.
El estimador de basado en el principio de sustitucion se conoce como
estimador de los momentos de y sera
n
= h(m
1,n
, . . . , m
k,n
).
Observese que el estimador de los momentos de puede no ser unico, porque
diferentes funciones h pueden conducir al mismo valor .
La siguiente proposicion establece el comportamiento asintotico del estima-
dor de los momentos de .
Proposicion 3 Consideremos la variable aleatoria X con E(X
2k
) < . Sea
= h(
1
, . . . ,
k
). Si h es continua en (
1
, . . . ,
k
), entonces

n
= h(m
1,n
, . . . , m
k,n
)
converge a casi seguro. Ademas, si h es derivable en (
1
, . . . ,
k
), entonces la
distribucion lmite de

n
es normal:
n(
n
)
D
N(0,
2
h,
).
3.2. ESTIMADORES DE M
AXIMA VEROSIMILITUD 53
Demostracion: La demostracion de la convergencia casi segura se sigue di-
rectamente de la de continuidad de h y de la convergencia casi segura de los
momentos muestrales a los poblacionales.
La demostracion de la normalidad asintotica queda pospuesta hasta que se
haya introducido en la seccion 4.3 el metodo delta. 2
Ejemplo 25, pagina 51. Continuacion. Se toma una m.a.s. de X de tama no
n de una U(0, ) para estimar . El estimador de momentos

M
de viene dado
por la sigiente relacion:
E(X) =

2
=m
1,n
=

M
2
=

M
= 2m
1,n
= 2X.
. .
Ejemplo 26
Otros esimadores basados en el metodo de los momentos son los siguientes:
1. Para una variable aleatoria X con varianza nita,

V (X) = (n 1)S
2
n
/n.
2. Si X Exp() con E(X) = 1/, entonces

= 1/X.
3. Si X B(n, p) entonces p = X y

V (X) = p(1 p).
4. Si X Poisson() entonces E(X) = . Por lo tanto

1
= X es estimador
de momentos. Ademas, = V (X) =
2
2
1
. Por tanto,
2
= m
2,n
m
2
1,n
=
(n 1)S
2
n
n
es tambien un estimador basado en momentos. Es preferible
1
porque en
su denicion solo interviene el momento de orden 1.
. .
3.2. Estimadores de maxima verosimilitud
Sea X
= (X
1
, . . . , X
n
) una muestra aleatoria simple de una variable alea-
toria X con funcion de densidad (o de masa de probabilidad) f( x
|), con
= (
1
, . . . ,
k
) IR
k
. Sea X el espacio muestral, es decir, el conjunto
54CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
de todos los posibles valores de X
. Hemos denido la funci on de verosimi-

litud para x
= (x
1
, . . . , x
n
) X como
L(| x
) : IR
+
L(| x
) = f( x
|) =
n
i=1
f(x
i
|)
Para cada muestra x
X, el estimador de m axima verosimilitud

de
es el valor de que hace maxima la verosimilitud L(| x
):
L(
| x
) = max
L(| x
).
Intuitivamente

es el valor del parametro que hace mas verosmil la muestra
observada. Veremos mas adelante que los estimadores de maxima verosimilitud
son muy buenos estimadores y que en general tienen propiedades de optimalidad.
Ademas, en muchas ocasiones el estimador maximo verosmil es el que el sentido
com un nos llevara a proponer.
Ejemplo 27
X exp() =f(x|) = e
x
I
[0,)
(x), > 0.
Se toma una muestra de tama no n = 1 y se observa x = 3. Estudiamos la
funcion de verosimilitud L(|3) = e
3
y buscamos su maximo para > 0.
Buscamos los valores de que anulan la derivada de L(|3):
L
(|3) = e
3
(1 3); L
(|3) = 0 = =
1
3
Como L(|3) 0 y
lm
0
L(|3) = lm
L(|3) = 0
se sigue que el punto crtico de L(|3) es un maximo. As,
=
1
3
.
. .
Ejemplo 28
Nos regalan una bolsa de lacasitos. Nos dicen que la proporcion de caramelos
de cada color es la misma pero no nos dicen de cuantos colores distintos pueden
ser los caramelos. Se trata de estimar por maxima verosimilitud k, el n umero
de colores, a partir de la observacion de n caramelos.
Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde.
Anotamos x
1
= V BV . Si k es el n umero de colores, la probabilidad de observar
dos colores distintos en los tres caramelos es
P(x
1
|k) = L(k|x
1
) =
P(el segundo diferente al primero)P(el tercero es como el primero) =
k 1
k
1
k
=
k 1
k
2
.
Esta funcion de k toma los valores siguientes, y tal como puede apreciarse es
decreciente:
k 2 3 4
(k 1)/k
2
1
4
= 0,25
2
9
= 0,2222
3
16
= 0,1875 (decrece en k)
As, el estimador maximo verosmil de k es
k(V BV ) = 2.
Sacamos otro caramelo y vemos que es de color naranja. Anotamos x
2
=
V BV N. La verosimilitud de la muestra es ahora
L(k|x
2
) = P(x
2
|k) =
k 1
k
1
k
k 2
k
=
(k 1)(k 2)
k
3
cuyos primeros valores son los siguientes:
k 3 4 5 6 7
L(k|x
2
)
2
27
= ,0741
3
32
= ,0938
12
125
= ,096
5
54
= ,0926
30
343
= ,0875
Para k 6 la funcion L(k|x
2
) es decreciente en k. Por tanto el estimador maximo
verosmil de k es
k(V BV N) = 5.
Observese que, pese a haber observado solo cuatro caramelos y a haber visto
unicamente tres colores distintos, el estimador maximo verosmil indica que hay
dos colores que a un no hemos visto.
. .
El problema de hallar el estimador maximo verosmil es un problema de opti-
mizacion. Por lo tanto, todas las tecnicas analticas y numericas de optimizacion
que conocemos pueden resultarnos utiles para estimar por maxima verosimili-
tud. Tambien hay que tener la misma precaucion con lo resultados obtenidos:
hay que comprobar las condiciones de segundo orden para asegurarnos de que
un punto crtico es efectivamente un maximo, puede haber mas de un maximo
56CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
global, puede haber varios maximos locales, el optimo puede estar en la frontera
del espacio parametrico, podemos tener una funcion objetivo (la verosimilitud)
que sea practicamente plana cerca del maximo y esto diculta la b usqueda por
metodos numericos.
Como norma general, si la dimension del espacio parametrico es 1 o 2, es
conveniente hacer un graco de la funcion de verosimilitud frente a los diferentes
valores de los parametros. Esto puede ayudar a detectar algunos de los problemas
que mencionamos antes.
3.2.1. Calculo del estimador maximo verosmil
Si la funcion de verosimilitud L(
| x
) es derivable en
i
, las soluciones de
las ecuaciones de primer orden,
j
L(
|x) = 0, j = 1, . . . , k,
son candidatas a ser el estimador maximo verosmil. Los ceros de las primeras
derivadas no son necesariamente maximos de la funcion de verosimilitud: pueden
ser maximos locales o globales, mnimos locales o globales o puntos de inexion.
Para asegurar que la solucion encontrada es un maximo (local o global) hay que
comprobar que las segundas derivadas sean denidas negativas.
Por otra parte, este procedimientos solo permite localizar extremos en el
interior del espacio parametrico . Podra ser que L(| x
) alcanzase su valor
maximo en la frontera de .
Ejemplo 29
X
1
, . . . , X
n
m.a.s. de X N(, 1), IR:
L(| x
) = (2)
n/2
e
1
2
n
i=1
(x
i
)
2
Calculamos la primera derivada de L respecto a :
d
d
L(| x
) =
n
i=1
(x
i
)L(| x
);
luego
d
d
L(| x
) = 0 =
n
i=1
(x
i
) = 0 = = x.
As pues, = x es un candidato a ser el estimador maximo verosmil. Tenemos
que comprobar que es un maximo global de L(| x
).
En primer lugar, constatamos que x es el unico punto crtico del interior del
espacio parametrico = IR. En segundo lugar, calculamos la derivada segunda:
d
2
d
2
L(| x
)|
=x
=
__
n + (
n
i=1
(x
i
))
2
_
L(| x
)
_
=x
= nL(x| x
) < 0.
As pues, x es un maximo y es el unico extremo del interior del espacio pa-
rametrico.
Por ultimo, analizamos el comportamiento de L(| x
) en la frontera: en este
caso . Vemos que
lm
x
L(| x
) = 0.
Concluimos entonces que = x es el estimador maximo verosmil. La ultima
comprobacion (comportamiento de L(| x
) en ) no es estrictamente necesa-
ria, porque si en +o hubiese un maximo, forzosamente tendra que haber
un mnimo relativo en el interior de = IR (dado que x es maximo relativo) y
eso no ocurre.
. .
En ocasiones es posible buscar el maximo de L(, x
) directamente, usando
propiedades especcas de esa funcion de verosimilitud concreta. Esto puede
ser util si las ecuaciones obtenidas al igualar a cero las derivadas de L resul-
tan complicadas. No hay una metodologa general que seguir y, por tanto, este
procedimiento alternativo requiere mas habilidad que el basado en el calculo de
derivadas. Por ejemplo, se puede probar que hay una cota superior de la vero-
similitud y que esta se alcanza en un valor del parametro. Ello implica que ese
valor es el estimador maximo verosmil.
Ejemplo 29, pagina 56. Continuacion. La verosimilitud es decreciente en
n
i=1
(x
i
)
2
, luego encontrar el estimador maximo verosmil es equivalente a
encontrar el mnimo de

n
i=1
(x
i
)
2
. Observese que, por el Teorema 1,
n
i=1
(x
i
)
2
=
n
i=1
(x
i
x)
2
+ (x )
2
i=1
(x
i
x)
2
.
Ademas, la cota inferior
n
i=1
(x
i
x)
2
se alcanza si hacemos = x. Se concluye
que x es mnimo absoluto de
n
i=1
(x
i
)
2
y, por tanto, es tambien el estimador
maximo verosmil.
. .
Muy a menudo es mas sencillo trabajar con el logaritmo de la verosimilitud
que hacerlo con la propia funcion. Dado que el logaritmo es una funcion estric-
tamente creciente, los extremos de la funcion de verosimilitud se alcanzan en
los mismos puntos (y tienen las mismas caractersticas) en los que se alcancen
los extremos de su logaritmo.
Denotaremos por l (| x
) al logaritmo de la funcion de verosimilitud:

l (| x
) = log L(| x
).
58CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
Ejemplo 30
X
1
, . . . , X
n
muestra aleatoria simple de X Bern(p), p = [0, 1].
L(p| x
) = p
n
i=1
x
i
(1 p)
n
n
i=1
x
i
=
l (p| x
) = (
n
i=1
x
i
) log p + (n
n
i=1
x
i
) log(1 p) =
d
dp
l (p| x
) =
n
i=1
x
i
p

n
n
i=1
x
i
1 p
.
Distinguiremos tres casos, seg un sea el valor de

n
i=1
x
i
. Si suponemos que
0 <
n
i=1
x
i
< n
d
dp
l (p| x
) = 0 =(1p)(
n
i=1
x
i
) = (n
n
i=1
x
i
)p = p =
n
i=1
x
i
n
= x (0, 1).
p =
n
i=1
x
i
n
= x es el unico extremo en el interior de , es decir, en (0, 1). Con
la segunda derivada comprobamos que se trata de un maximo:
d
2
dp
2
l (p| x
)|
p= p
=
_
n
i=1
x
i
p
2

n
n
i=1
x
i
(1 p)
2
_
p= p
=
n p
p
2

n(1 p)
(1 p)
2
= n
1
p(1 p)
< 0.
Concluimos que el unico valor posible del estimador maximo verosmil en (0, 1)
es p, donde la verosimilitud valdra
L( p| x
) =
_
p
1 p
_
n p
(1 p)
n
> 0.
Estudiamos el valor de L(p| x
) en la frontera, es decir, en p = 0 y p = 1:
L(0| x
) = L(1| x
) = 0 < L( p| x
).
Concluimos que p es el estimador maximo verosmil de p, en el caso de que
0 <
n
i=1
x
i
< n.
En segundo lugar, si

n
i=1
x
i
= 0,
L(p| x
) = (1 p)
n
,
funcion decreciente en p, luego el estimador maximo verosmil de p es 0 = x = p.
Por ultimo, si

n
i=1
x
i
= n,
L(p| x
) = p
n
,
funcion creciente en p, luego el estimador maximo verosmil de p es 1 = x = p.
En resumen, el estimador maximo verosmil de p es
p =
n
i=1
x
i
n
.
. .
Es importante asegurarse que el estimador maximo verosmil propuesto perte-
nece al espacio parametrico.
Ejemplo 31
X
1
, . . . , X
n
m.a.s. de X N(, 1), 0.
Ya hemos visto en el ejemplo 29 que si = IR entonces el estimador maximo
verosmil de es = x. Por lo tanto este tambien sera el estimador maximo
verosmil en el presente problema si x 0. En el caso de que x < 0 es inmediato
probar que L(| x
) es funcion decreciente en si > x. Por lo tanto, en este

caso el estimador maximo verosmil de es 0. Resumiendo, el estimador maximo
verosmil de cuando = [0, ) es
=
_
0 si x < 0
x si x 0
. .
Un caso en el que no es posible realizar la optimizacion mediante la igualacion
de las derivadas a cero es aquel en el que el espacio parametrico es discreto.
En este caso a un es posible analizar el problema de forma sistematica.
Si es posible considerar un espacio parametrico
A
mas amplio en el que el
parametro vare de forma continua (por ejemplo, si = IN,
A
podra ser IR
+
o IR) y buscar el estimador maximo verosmil cuando
A
, ese valor puede
ayudarnos a restringir la lista de puntos de que pueden ser estimador maximo
verosmil de .
Ejemplo 32
X
1
, . . . , X
n
m.a.s. de X N(, 1), IN. Como el estimador maximo ve-
rosmil de IR es x y L(| x
) es creciente en (, x) y decreciente en (x, ),

se deduce que los unicos puntos que pueden ser estimador maximo verosmil de
IN son [x] y [x] +1, donde [a] es la parte entera de a, para cualquier a IR.
. .
60CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
Cuando razonamientos de este tipo no son posibles pero el espacio parametri-
co discreto es IN (o en general, si esta totalmente ordenado) es util analizar
los cocientes
L(k + 1| x
)
L(k| x
)
y estudiar para que valores de k estos son menores o mayores que 1. El siguiente
ejemplo responde a este modelo.
Ejemplo 33
Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos
4 caras; cuantas veces la hemos lanzado?
En este caso se tiene X
1
, . . . , X
n
, una m.a.s. de X B(k, p), con p conocido
y k desconocido. La verosimilitud es
L(k| x
) =
n
i=1
_
k
x
i
_
p
x
i
(1 p)
kx
i
= p
nx
(1 p)
n(kx)
n
i=1
k!
x
i
!(k x
i
)!
.
El hecho, por un lado, de que el parametro k sea natural y, por otro, la presencia
de k! y (k x
i
)! en la funcion de verosimilitud, hace difcil la maximizacion de
L.
Si ordenamos los datos x
(1)
x
(2)
. . . x
(n)
, es obvio que k x
(n)
porque
los valores de x
i
oscilan entre 0 y k. Ademas, el estimador maximo verosmil es
un n umero natural k que satisface
L(k| x
)
L(k 1| x
)
1 y
L(k + 1| x
)
L(k| x
)
< 1
Desarrollando,
L(k| x
)
L(k 1| x
)
=
(1 p)
nk
n
i=1
k!
(kx
i
)!
(1 p)
n(k1)
n
i=1
(k1)!
(k1x
i
)!
= (1 p)
n
_
n
i=1
k
k x
i
_
=
(k(1 p))
n
n
i=1
(k x
i
)
1,
y
L(k + 1| x
)
L(k| x
)
=
((k + 1)(1 p))
n
n
i=1
(k + 1 x
i
)
< 1.
As, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a
pedir
(k(1 p))
n
i=1
(k x
i
) y ((k + 1)(1 p))
n
<
n
i=1
(k + 1 x
i
).
Dividiendo por k
n
y (k + 1)
n
, son equivalentes a
(1 p)
n
i=1
(1 (x
i
/k)) y (1 p)
n
<
n
i=1
(1 (x
i
/(k + 1)))
De hecho, queremos encontrar un valor z = 1/k tal que
(1 p)
n
=
n
i=1
(1 zx
i
)
con 0 z 1/x
(n)
, porque k x
(n)
. La funcion g(z) =

n
i=1
(1 zx
i
) es
decreciente en z, g(0) = 1, g(1/x
(n)
) = 0. Por lo tanto la ecuacion
g(z) = (1 p)
n
[0, 1],
tiene solucion unica z. Este valor z no tiene por que ser el inverso de un natural
k, pero s nos permite calcular el estimador maximo verosmil

k de k:
k = max{k IN : k 1/ z}.
Este analisis demuestra que el maximo de L(k| x
) es unico.
Supongamos que p = 0,5, que n = 3 y que hemos observado x
1
= 4, x
2
= 2
y x
3
= 3. Hay que resolver la ecuacion
(1
1
2
)
3
=
1
8
= 0,125 = g(z) = (1 4z)(1 3z)(1 2z) = 1 9z +26z
2
24z
3
en z [0, 1/x
(3)
] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k y
k 4:
k 4 5 6 7 8 9 10
z = 1/k 0.25 0.2 0.1667 0.1429 0.125 0.1111 0.1
g(z) 0 0.048 0.1111 0.1749 0.2344 0.2881 0.336
Observese que g(1/6) < 0,125 < g(1/7). Por lo tanto, z (1/7, 1/6) y
k = max{k IN : k 1/ z} = 6.
. .
Si L(| x
) no puede maximizarse analticamente pueden usarse tecnicas nu-

mericas de optimizacion. Nos referiremos mas adelante a algunas de estas tecni-
cas.
En estos casos es importante comprobar la estabilidad numerica del estima-
dor maximo verosmil encontrado. Es decir, es importante saber si la solucion
cambia solo ligeramente cuando alteramos ligeramente los datos o si, por el
62CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
contrario, cambios peque nos en los datos dan lugar a grandes cambios en las
soluciones. Si este es el caso, podemos deducir que quizas la funcion de verosi-
militud sea practicamente plana en una zona alrededor del maximo y estamos
obteniendo puntos distintos de esa zona. Tambien puede ocurrir que la fun-
cion de verosimilitud tenga m ultiples maximos locales y al perturbar los datos
estemos pasando de uno a otro.
Ejemplo 33, pagina 60. Continuacion. En el ejemplo anterior supongamos
que p tambien fuese desconocido. El estimador maximo verosmil (
k, p) IN
[0, 1] puede encontrarse por optimizacion numerica. Supongamos que n = 5 y
que se observa
x
1
= 16, x
2
= 18, x
3
= 22, x
4
= 25, x
5
= 27.
Entonces el estimador maximo verosmil de k es

k = 99. Se vuelve a realizar el
experimento y solo cambia la ultima observacion:
x
1
= 16, x
2
= 18, x
3
= 22, x
4
= 25, x
5
= 28.
En este caso el maximo se encuentra en

k = 190. Estamos en un caso de un
estimador

k muy inestable. (Vease Casella-Berger, p. 297.)
. .
Estimador maximo verosimil de un parametro multidimensional
La forma de proceder en este caso sigue las pautas expuestas anteriormente.
Veamos un ejemplo en el que el parametro es bidimensional.
Ejemplo 34
X
1
, . . . , X
n
m.a.s. de X N(,
2
(,
2
).
L(,
2
| x
) = (2
2
)
n/2
e
1
2
2
n
i=1
(x
i
)
2
=
l (,
2
| x
) =
n
2
log 2
n
2
log
2
1
2
2
n
i=1
(x
i
)
2
l (,
2
| x
) =
1
n
i=1
(x
i
) = 0
(
2
)
l (,
2
| x
) =
n
2
2
+
1
2
4
n
i=1
(x
i
)
2
= 0
_
=
_
= x

2
=
1
n
n
i=1
(x
i
x)
2
.
Podemos probar que la solucion

= (x,
2
) es maximo global de dos formas.
En primer lugar, como para cualquier = x es

n
i=1
(x
i
)
2
>
n
i=1
(x
i
x)
2
, se tiene que
l (x,
2
| x
) > l (,
2
| x
) para todo
2
.
Ahora solo hay que probar que l (x,
2
| x
) alcanza su maximo como funcion uni-

variante de
2
en
2
. De esta forma hemos reducido el problema bidimensional
a uno unidimensional.
En segundo lugar, podemos probar que (x,
2
) es maximo de l mediante
el calculo de las primeras y segundas derivadas parciales. Hay que comprobar
que el punto anula las primeras derivadas y que la matriz hessiana es denida
negativa, es decir, se ha de vericar lo siguiente:
1.
j
l ((
1
,
2
)| x
1
=x,
2
=
2
= 0, j = 1, 2.
2.
2
j
l ((
1
,
2
)| x
1
=x,
2
=
2
< 0,
al menos para j = 1 o j = 2.
3.
J
(2)
=
2
1
l ((
1
,
2
)| x
)

2
2
l ((
1
,
2
)| x
2
2
l ((
1
,
2
)| x
)

2
2
2
l ((
1
,
2
)| x
1
=x,
2
=
2
> 0
El primer punto ya se comprobo anteriormente, pues (x,
2
) fueron encon-
trados precisamente como los valores que anulaban las primeras derivadas.
Calculemos las segundas derivadas:
2
l ((,
2
)| x
) =
n
2
(
2
)
2
l ((,
2
)| x
) =
n
2
4

1
6
n
i=1
(x
i
)
2
2
()
l ((,
2
)| x
) =
1
4
n
i=1
(x
i
).
Observad que cuando se particularizan estas derivadas segundas en

se obtiene
lo siguiente:
2
l ((,
2
)| x
)|
x,
2 =
n

2
< 0
2
(
2
)
2
l ((,
2
)| x
)|
x,
2 =
n
2
4

1

6
n
2
=
n
2
4
< 0
2
()
l ((,
2
)| x
)|
x,
2 = 0
64CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
As, se verica tambien el segundo punto de la lista anterior. Veamos el tercero,
sobre el signo del determinante de la matriz hessiana:
J
(2)
=
2
0
0
n
2
4
=
n
2
2
6
> 0 para todo
2
Se concluye que (x,
2
) es el maximo de la funcion de verosimilitud.
Para ser estrictos, a un se debera probar que (x,
2
) es el unico punto crti-
co del interior del espacio parametrico (esto es inmediato, porque es la unica
solucion de las condiciones de primer orden) y que el maximo no se alcanza en
la frontera (cuando = ,
2
= 0 o
2
= ). Esto ultimo obligara a la
existencia de otros puntos crticos en el interior del espacio parametrico, lo cual
es absurdo.
En general se intenta probar la condicion de maximo sin recurrir al calculo
de las segundas derivadas.
. .
Estimador maximo verosimil con datos censurados
El siguiente es un ejemplo de estimacion maximo verosmil que se aparta del
marco clasico de observaciones i.i.d.
Ejemplo 35
Sean X
1
, . . . , X
n
muestra aleatoria simple de X exp(). En este contexto el
estimador maximo verosmil de es

= 1/x.
Supongamos que no observamos todas las variables, sino solo las m prime-
ras, y que de las restantes (n m) solo sabemos que toman valores mayores
que T: X
j
> T, j = m + 1, . . . , n. Se dice entonces que esos valores han sido
censurados. En este caso, la verosimilitud es
L(| x
) =
m
i=1
f(x
i
|)
n
i=m+1
(1 F(T|)) =
m
i=1
e
x
i
n
i=,+1
e
T
=
m
e
m
i=1
x
i
e
T(nm)
=
l (| x
) = mlog
m
i=1
x
i
T(n m).
Derivando e igualando a 0:
d
d
l (| x
) =
m
i=1
x
i
T(n m) = 0 =
=
m
m
i=1
x
i
+ (n m)T
.
Comprobamos que es maximo:
d
2
d
2
l (| x
) =
m
2
< 0 para todo .
Concluimos que

es el estimador maximo verosmil de en el caso de datos
censurados.
La variable aleatoria exp() suele modelizar tiempos de vida (o tiempos de
funcionamiento hasta fallar) de individuos o mecanismos. En ese caso es la
tasa de fallo, la cantidad de fallos por unidad de tiempo. Observese que tanto
en el caso usual sin censura como en el caso con censura el inverso del estimador
maximo verosmil de es el cociente de la suma total de los tiempos de vida (o
en funcionamiento) entre el n umero de muertes (o fallos) observadas.
. .
3.2.2. Calculo numerico de los estimadores de maxima ve-
rosimilitud
Como ya se dijo anteriormente, en la practica el calculo del estimador maxi-
mo verosmil se reduce a resolver un problema de optimizacion de una funcion
(en general no lineal) de k variables, posiblemente sujeto a restricciones. Re-
cordaremos en esta seccion algunas tecnicas numericas para llevar a cabo esa
optimizacion. Lo expuesto aqu esta basado en Bertsekas (1999).
Buscaremos el maximo del logaritmo de la verosimilitud, dado que esta fun-
cion es en general mas facil de tratar numericamente que la verosimilitud. Los
algoritmos presentados no contemplan la posibilidad de tener restricciones so-
bre los parametros. Si los parametros estan sujetos a restricciones del tipo cotas
simples (por ejemplo, > 0 en una distribucion gamma) una transformacion
logartmica del parametro transforma el problema en otro sin restricciones en los
parametros (por ejemplo, en la distribucion gamma se reparametriza mediante
= log() y as el nuevo parametro
puede tomar cualquier valor real).

El problema es siempre max
IR
k l (| x
). Como la muestra x
esta ja en
todo el proceso, escribiremos l () en lugar de l (| x
). Llamaremos
al maximo
de l ().
Metodo de Newton-Raphson
Se trata (al igual que los metodos siguientes) de un procedimiento iterativo
que proporciona una sucesion {
n
}
n1
que converge al optimo
.
Consideremos una estimacion inicial
0
de
que puede haber sido obtenida,

por ejemplo, por el metodo de los momentos. El metodo de Newton-Raphson
aproxima la funcion l () en un entorno de
0
por la funcion cuadratica que en
ese punto
0
tiene en com un con l () el valor de la funcion y los valores de
66CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
las dos primeras derivadas. Llamemos

l
0
() a esa funcion cuadratica. De hecho,
l
0
() es el desarrollo en serie de Taylor de orden 2 de l () alrededor de
0
.
Ejemplo 36
Si k = 1,

l
0
() = a +b +c
2
. Los valores de a, b y c se obtienen al resolver el
sistema
_
_
_
l
0
(
0
) = l (
0
)
l
0
(
0
) = l

(
0
)
l
0

(
0
) = l

(
0
)
El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :
l
0
() = l (
0
) + (
0
)l

(
0
) +
1
2
(
0
)
2
l

(
0
).
. .
El primer punto en la sucesion,
1
, es el punto donde se alcanza el maximo
de la funcion cuadratica aproximadora. El proceso se itera y as se construye la
sucesion {
n
}
n1
que, bajo condiciones generales (por ejemplo, si la funcion de
verosimilitud es concava), converge al optimo
0

l
0
()
1
l
1
()
2
l
2
()
3
.
.
.
.
.
.
.
.
.
l
m1
()
m
.
.
.
.
.
.
.
.
.
Veamos que este algoritmo puede resumirse analticamente dando la formula

que permite calcular cada punto de la sucesion en funcion del punto anterior.
Como hemos dicho,

l
m
() es el desarrollo en serie de Taylor de orden 2 de
l () alrededor de
m
:
l
m
() = l (
m
) +l (
m
)
t
(
m
) +
1
2
(
m
)
t
Hl (
m
)(
m
)
donde l (
m
) IR
k
es el vector gradiente de l en
m
, que tiene por componente
j-esima la derivada parcial de l respecto a la coordenada j-esima de calculada
en el punto
m
, y Hl (
m
) es la matriz hessiana de l en
m
, una matriz kk cuyo
elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-esima y
j-esima, calculadas en el punto
m
.
La maximizacion de

l
m
es factible analticamente. Su gradiente es
l
m
() = l (
m
) +Hl (
m
)(
m
).
Igualandolo a 0 se obtiene el punto
m+1
:
l (
m
) +Hl (
m
)(
m
) = 0 =
m+1
=
m
(Hl (
m
))
1
l (
m
).
Este punto
m+1
es maximo de l (
m
) si Hl (
m
) es denida negativa, ya que
H
l
m
() = Hl (
m
).
Pero si
m
esta sucientemente cerca de
y l () es una funcion suave (segundas

derivadas continuas) entonces Hl (
m
) sera denida negativa por serlo Hl (
).
As,
m+1
=
m
(Hl (
m
))
1
l (
m
)
es la formula recursiva que nos da
m+1
en funcion de
m
, m 0. Aplicaremos
la recursion hasta convergencia, es decir, hasta que
||
m+1
m
|| < ,
para un prejado. Una condicion suciente, aunque no necesaria, para que el
algoritmo converja es que l sea concava.
Metodo de los scores de Fisher
Se trata de una modicacion del metodo de Newton-Raphson. En la iteracion
m+1
=
m
(Hl (
m
))
1
l (
m
)
se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo
tanto, su gradiente y su matriz hessiana) depende de y tambien de la muestra
x
observada. Podemos entonces tomar esperanzas:

D = E
m
(Hl (
m
| X
)),
que es la matriz de informacion de Fisher cambiada de signo.
La principal ventaja teorica que se deriva de esta sustitucion es que se garan-
tiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad
(que permiten intercambiar los signos de la derivada y de la integral; en la
seccion 4.2 se volvera sobre esto) se puede probar que
E
(l ()) = 0, y V
(l ()) = E
(l ()l ()
t
) = E(Hl (| X
))
68CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
de donde se deduce que D = E
m
(Hl (
m
| X
)) es denida negativa, lo cual

garantiza la convergencia del algoritmo.
No obstante, es posible que la convergencia del algoritmo modicado sea
mas lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos
converjan.
Una ventaja practica de este algoritmo es que en el calculo de D solo inter-
vienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud)
mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por
contra, ahora hay que calcular una esperanza. En este sentido, sera preferible
uno u otro algoritmo seg un sea la dicultad de calcular
d
ij
= E
_
l
i
l
j
_
y
h
ij
=

2
l
j
.
Al vector gradiente, l (), tambien se le llama vector de scores, lo cual
justica el nombre del algoritmo.
Ejemplo 37
Veamos que en el caso de familias exponenciales parametrizadas de forma na-
tural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no
depende de la muestra observada. La verosimilitud de una muestra es
L(| x
) =
_
n
i=1
h(x
i
)
_
c()
n
exp
_
_
k
j=1
j
T
j
( x
)
_
_
,
donde T
j
( x
) =
n
i=1
t
j
(x
i
), y su logaritmo,
l (| x
) = K +nlog c() +
k
j=1
j
T
j
( x
),
donde K es cierta constante. As,
l ()
j
= n
log c()
j
+T
j
( x
)
y
2
l ()
j
= n
2
log c()
j
que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue
que Hl = E(Hl ) = D.
. .
Metodo de Nelder-Mead
Es un metodo de b usqueda directa que no requiere ni primeras ni segundas
derivadas de la funcion objetivo, solo es necesario poder evaluar la funcion que
queremos maximizar.
En cada iteracion del algoritmo se parte de un conjunto de (k + 1) puntos
de IR
k
,
1
, . . . ,
k+1
,
j
IR
k
, tales que su envoltura convexa tenga interior no
vaco: esos puntos forman un simplex en IR
k
.
El resultado de cada iteracion es otro simplex. Se espera que el volumen del
simplex vaya decreciendo de iteracion en iteracion y que el valor de la funcion
objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La
iteracion tpica del algoritmo de Nelder-Mead es como sigue:
Paso 0 Se parte de
1
, . . . ,
k+1
. Se denen
mn
= arg mn
i=1...k
l (
i
),
max
= arg max
i=1...k
l (
i
),
=
1
k
_
k+1
i=1
mn
_
El punto

es el punto medio de la cara opuesta a
mn
.
Paso 1 Denir
ref
=

+ (

mn
).
Si l (
ref
) > l (
m ax
) = Paso 2. (
ref
es mejor que los otros puntos
del simplex).
Si l (
max
) > l (
ref
) > mn{l (
i
) :
i
=
mn
} = Paso 3.
Si l (
ref
) < mn{l (
i
) :
i
=
mn
} = Paso 4.
Paso 2 Intentar expansion.
exp
=
ref
+ (
ref
new
=
_

exp
si l (
exp
) > l (
ref
)
ref
en otro caso
Sustituir
mn
por
new
en el simplex. Volver al Paso 0 con el nuevo
simplex.
Paso 3 Usar el punto reejado.
new
=
ref
Sustituir
mn
por
new
simplex.
Paso 4 Contraer el simplex.
new
=
_
1
2
(
mn
+

) si l (
mn
) l (
ref
)
1
2
(
ref
+

) si l (
mn
) < l (
ref
)
Sustituir
mn
por
new
simplex.
70CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
En la practica funciona bien si la dimension del espacio parametrico es pe-
que na (k 10), como suele ser el caso en problemas de estimacion por maxima
versimilitud. No hay resultados teoricos sobre la convergencia de este algorit-
mo. Si l () es estrctamente concava, el algoritmo mejora la verosimilitud en
cada iteracion. Esto se entiende en el sentido de que ocurre alguna de estas dos
cosas: en cada iteracion, o bien l (
mn
) crece estrictamente, o bien, la cantidad
de vertices del simplex
i
en los que l (
i
) = l (
mn
) decrece en al menos una
unidad.
3.2.3. Principio de invariancia del estimador maximo ve-
rosmil
Sea X
1
, . . . , X
n
muestra aleatoria simple de X f(x|) y sea

el estimador
maximo verosmil de . Si estamos interesados en estimar una funcion () del
parametro, podemos hacerlo mediante (
).

Este es el resultado que garantiza
el siguiente teorema y se conoce como principio de invariancia.
Teorema 18 (Principio de invariancia) Si

es el estimador maximo ve-
rosmil de , entonces para cualquier funcion () el estimador maximo verosmil
de () es (
).
Demostracion: Supondremos primero que es biyectiva. Denimos
= () =
1
()
y reparametrizamos la verosimilitud usando el nuevo parametro en vez de :
L
(| x
) =
n
i=1
f(x
i
|
1
()) = L(
1
()| x
) =
L
( | x
) = sup
(| x
) = sup
L(
1
()| x
) =
sup
L(| x
) = L(
| x
) = L
((
)| x
).
Por lo tanto el maximo de L
(| x
) se alcanza cuando = (
), luego el esti-
mador maximo verosmil de = () es (
).
Consideramos ahora el caso en que no es biyectiva. En este caso no es
posible denir la verosimilitud L
(| x
) como L(
1
()| x
) porque
1
() no
esta denido unvocamente. Se dene L
(| x
), la verosimilitud inducida
por , como
L
(| x
) = sup
{:()=}
L(| x
).
Con esta denicion se verica que el estimador maximo verosmil de (),

(),
es (
). Efectivamente, sea el estimador maximo verosmil de = (), es

3.3. ESTIMACI
ON BAYESIANA 71
decir, el valor que verica
L
( | x
) = sup
(| x
).
Por denicion de L
,
L
( | x
) = sup
(| x
) = sup
sup
{:()=}
L(| x
) =
sup
L(| x
) = L(
| x
) = sup
{:()=(
)}
L(| x
) = L
((
)| x
),
es decir,
L
( | x
) = L
((
)| x
),
luego el maximo de la verosimilitud en se alcanza si = (
). 2
Ejemplo 38
Si X N(,
2
), el estimador maximo verosmil de
2
es x
2
.
Si X B(n, p), el estimador maximo verosmil de p es p = X/n y el estimador
maximo verosmil de
_
p(1 p) es
_
p(1 p).
. .
3.3. Estimacion Bayesiana
3.3.1. Distribuciones a priori y a posteriori
Consideremos un problema de inferencia estadstica en el que las observacio-
nes se toman de una variable aleatoria X que sigue una distribucion con funcion
de densidad (o funcion de masa de probabilidad) f(x|), con . En ocasio-
nes se dispone de informacion sobre el parametro antes de recoger los datos.
Esta informacion puede ser de tipo historico (si se han realizado experimentos
similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer
que ciertos valores de son mas plausibles que otros).
Una forma de recoger la informacion previa sobre es denir una distribucion
de probabilidad sobre , que se llama distribuci on a priori de , de forma que
las regiones de mas probables a priori sean aquellas que contienen los valores
de mas plausibles seg un la informacion previa existente, antes de observar
ning un valor de X.
El concepto de distribucion a priori es muy controvertido. Algunos estadsti-
cos deenden que en cualquier problema estadstico se puede denir siempre
una ley a priori para . Esta distribucion representa la informacion (historica o
subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas
72CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
de la probabilidad. Por tanto, el parametro es considerado una variable alea-
toria como cualquier otra, con la unica peculiaridad de que no es observable. Lo
que s se observa es la variable aleatoria X condicionada al valor concreto (no
observable) que toma . As pues, el estudio de las observaciones de X aporta
informacion sobre el valor de , informacion que debe combinarse con la distri-
bucion a priori del parametro para modicarla. El resultado de esa actualizacion
de la informacion se plasma de nuevo en una distribucion de probabilidad sobre
: la distribuci on a posteriori de , una vez observada la variable aleatoria
X.

Estos son los planteamientos basicos que conforman el enfoque bayesiano
de la estadstica.
Otros estadsticos creen que en ocasiones no es apropiado hablar de una dis-
tribucion de probabilidad sobre porque es una cantidad ja desconocida
para el investigador. Otro de los aspectos de la inferencia bayesiana que a me-
nudo recibe crticas es el grado de subjetividad a que esta expuesto por el hecho
de que es el experimentador quien dene la distribucion a priori. En cualquier
caso, en lo que hay coincidencia es en que si hay informacion sobre esta tiene
que ser utilizada en la inferencia.
Existen distribuciones a priori no informativas (por ejemplo con den-
sidad o funcion de masa plana en todo ) que se construyen sin usar informacion
a priori y permiten hacer inferencia bayesiana objetiva. Para denirlas a veces
es necesario recurrir a distribuciones a priori impropias (distribuyen una
probabilidad innita sobre ). Pese a su caracter impropio permiten hacer in-
ferencias correctas.
Supondremos aqu que existe informacion previa sobre y que esta se expresa
mediante una distribucion a priori sobre , cuya funcion de densidad o funcion
de masa de probabilidad denotaremos por (). Se toma una muestra aleatoria
simple X
1
, . . . , X
n
de X f(x|). El objetivo es actualizar la distribucion a
priori () con la ayuda de las observaciones x
y teniendo en cuenta la forma

de f(x|), que indica como se distribuye x, condicionada por valores de . Por
el momento, supondremos que tanto X| como tienen funcion de densidad.
La ley conjunta de X
1
, . . . , X
n
se denomina distribuci on muestral (o
verosimilitud de la muestra) dado el valor del parametro:
f( x
|) =
n
i=1
f(x
i
|).
La densidad conjunta de X
y es
f( x
, ) = f( x
|)().
Como consecuencia, la marginal de X
es
m( x
) =
_
f( x
|)()d.
3.3. ESTIMACI
ON BAYESIANA 73
Se dene la distribuci on a posteriori de como la ley condicional de
dadas las observaciones x
de X
, cuya densidad se puede calcular por simple

aplicacion del Teorema de Bayes:
(| x
) =
f( x
|)()
m( x
)
, .
En inferencia bayesiana se usa esta distribucion para realizar inferencias sobre
. Por ejemplo, un estimador puntual de podra ser E(| x
).
La distribucion a posteriori nos informa sobre la verosimilitud relativa de
que el verdadero valor de este en las distintas regiones del espacio parametrico
despues de haber observado X
1
, . . . , X
n
.
Observese que (| x
) es proporcional al producto de la verosimilitud por la

a priori:
(| x
) f( x
|)().
Esta relacion es suciente para calcular (| x
) dado que la restriccion de que

su integral sea 1 permite calcular la constante 1/m( x
).
Ejemplo 39
Sea X el tiempo de vida en horas de un nuevo modelo de lampara uorescente.
Se supone que X exp(), con = E(X) = 1/. La informacion historica
acumulada sobre tiempos de vida de lamparas similares indica que tiene media
aproximadamente 5000 horas. De hecho, la distribucion que se propone como a
priori para es igual a
(
0
,
0
),
con E() =
0
0
= 1/5000 y V () =
0
2
0
= 0,0001, de donde se sigue que
0
= 0,0002 y
0
2
0
= 0,0001 =
0
= 4,
0
= 1/20000.
As, (4, 1/20000) y su funcion de densidad es
() =
20000
4
(4 1)!
3
e
20000
, > 0.
Se hace una prueba de vida en la que se ponen a funcionar 25 lamparas del
nuevo modelo hasta que se funden. Los resultados son estos:
X
1
= x
1
, . . . , X
25
= x
25
,
25
i=1
x
i
= 150000.
As, la verosimilitud es
f(x
1
, . . . , x
25
|) =
25
e
25
i=1
x
i
,
74CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
y la densidad a posteriori de es
(|x
1
, . . . , x
25
) =
f(x
1
, . . . , x
25
|)()
_
o
f(x
1
, . . . , x
25
|)()d
.
El numerador es
f(x
1
, . . . , x
25
|)() =
25
exp{
25
i=1
x
i
}
20000
4
3!

3
e
20000
=
20000
4
6

28
exp{(
25
i=1
x
i
+ 20000)},
y el denominador
m(x
1
, . . . , x
25
) =
_

o
20000
4
6

28
exp{(
25
i=1
x
i
+ 20000)}d.
Si hacemos = 29 y = 1/(
25
i=1
x
i
+ 20000), podemos observar que esa
integral es, salvo constantes, la integral de la funcion de densidad de una variable
aleatoria (, ). Concretamente,
m(x
1
, . . . , x
25
) =
20000
4
6
28!
(
25
i=1
x
i
+ 20000)
29
_

o
f
(,)
()d =
20000
4
6
28!
(
25
i=1
x
i
+ 20000)
29
.
As,
(|x
1
, . . . , x
25
) =
20000
4
6

28
e
(
25
i=1
x
i
+20000)
20000
4
6
28!
(
25
i=1
x
i
+20000)
29
=
(
25
i=1
x
i
+ 20000)
29
28!

28
e
(
25
i=1
x
i
+20000)
de donde se deduce que
|x
1
, . . . , x
25
(29, 1/(
25
i=1
x
i
+ 20000)).
Por lo tanto, un estimador de podra ser
= E(|x
1
, . . . , x
25
) =
29
25
i=1
x
i
+ 20000
=
29
150000 + 20000
,
y, como consequencia, una estimacion de la vida media de las nuevas lamparas
es
=
1
25
i=1
x
i
+ 20000
29
=
150000 + 20000
29
= 5862 horas.
3.3. ESTIMACI
ON BAYESIANA 75
Si usasemos x como estimador de , obtendramos un valor de
x =
150000
25
= 6000 horas.
Por lo tanto, la informacion a priori indica que no se debe ser tan optimista
como se desprende del valor x = 6000: a pesar de que el nuevo dise no de lampa-
ra tiene una vida media superior a las anteriores (la estimacion de es ahora
de 5862 horas, superior a las 5000 horas iniciales) la informacion a priori rebaja
la vida media desde las 6000 horas observadas hasta las 5862.
. .
Observaciones secuenciales
En muchos experimentos (en particular, en muchos ensayos clnicos) las observa-
ciones X
1
, . . . , X
n
se obtienen de forma secuencial. Esta secuenciacion permite
actualizar progresivamente la informacion que se tiene sobre el parametro .
En un principio la informacion a priori sobre es (). Se observa X
1
= x
1
.
Entonces
(|x
1
) f(x
1
|)()
recoge a partir de ese instante la informacion acumulada sobre . Por lo tanto
(|x
1
) act ua como distribucion a priori antes de obtener la segunda observacion.
Cuando se observa X
2
= x
2
,
(|x
1
, x
2
) f(x
2
|)(|x
1
) f(x
2
|)f(x
1
|)().
Tras haber observado X
1
= x
1
, . . . , X
n
= x
n
,
(|x
1
, x
2
, . . . , x
n
) f(x
n
|)(|x
1
, x
2
, . . . , x
n1
)
f(x
n
|) f(x
2
|)f(x
1
|)() = f( x
|)().
Se observa as que la distribucion a posteriori tras haber tomado n observaciones
de X es la misma tanto si se toman estas de forma secuencial como si se toman
simultaneamente.
3.3.2. Distribuciones conjugadas
Sea F la clase de las funciones de densidad (o de masa de probabilidad) de
un modelo parametrico f(x|) indexadas por :
F = {f(x|) : }.
Sea una clase de distribuciones sobre . Se dice que es una familia de
distribuciones conjugadas para F si la distribucion a posteriori de dada
la muestra x
pertenece a para toda muestra x
X, para toda a priori

y para toda verosimilitud f F.
76CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
Teorema 19 Sea X
1
, . . . , X
n
m.a.s. de X Bern(), 0 < < 1. Sea
Beta(, ), > 0, > 0. La ley a posteriori de dadas las observaciones
X
1
= x
1
, . . . , X
n
= x
n
es una
Beta
_
+
n
i=1
x
i
, +n
n
i=1
x
i
_
.
Nota: Recordar que U(0, 1) Beta(1, 1).
Demostracion:
() =
( +)
()()
1
(1 )
1
f(x
i
|) =
x
i
(1 )
1x
i
=f( x
|) =
n
i=1
x
i
(1 )
n
n
i=1
x
i
= L(| x
)
As,
f( x
, ) =
n
i=1
x
i
(1 )
n
n
i=1
x
i
( +)
()()
1
(1 )
1
=
( +)
()()
n
i=1
x
i
+1
(1 )
n
n
i=1
x
i
+1
,
y
m( x
) =
_

0
( +)
()()
n
i=1
x
i
+1
(1 )
n
n
i=1
x
i
+1
d =
( +)
()()
( +
n
i=1
x
i
)(n
n
i=1
x
i
+)
( + +n)

_

0
( + +n)
( +
n
i=1
x
i
)(n
n
i=1
x
i
+)
n
i=1
x
i
+1
(1 )
n
n
i=1
x
i
+1
d
. .
=1
=
( +)
()()
( +
n
i=1
x
i
)(n
n
i=1
x
i
+)
( + +n)
Calculamos ahora la densidad a posteriori:
(| x
) =
()()
( +)
( + +n)
( +
n
i=1
x
i
)(n
n
i=1
x
i
+)
( +)
()()
n
i=1
x
i
+1
(1 )
n
n
i=1
x
i
+1
=
( + +n)
( +
n
i=1
x
i
)(n
n
i=1
x
i
+)
n
i=1
x
i
+1
(1 )
n
n
i=1
x
i
+1
y por lo tanto, | x
tiene distribucion Beta(+
n
i=1
x
i
, +n
n
i=1
x
i
). 2
Teorema 20 Sea X
1
, . . . , X
n
m.a.s. de X Poisson(), 0 < . Sea
(, ), > 0, > 0. La ley a posteriori de dadas las observaciones X
1
=
x
1
, . . . , X
n
= x
n
es una
_
+
n
i=1
x
i
, (
1
+n)
1
_
.
3.3. ESTIMACI
ON BAYESIANA 77
Demostracion: Para ciertas constantes K
1
, K
2
y K
3
, se tiene que
() = K
1
1
e
/
, L(| x
) = K
2
e
n
n
i=1
x
i
=
(| x
) = K
3
e
n
n
i=1
x
i
1
e
/
= K
3
n
i=1
x
i
1
e
(
1
+n)
que corresponde con la densidad de una
_
+
n
i=1
x
i
, (
1
+n)
1
_
. 2
Los valores de las constantes usadas en la demostracion son
K
1
=
1
( 1)!
i
, K
2
=
1
n
i=1
x
i
!
, K
3
=
( +
n
i=1
x
i
1)!
(n + (1/))
+
n
i=1
x
i
,
aunque no es necesario conocerlos para probar el resultado.
Teorema 21 Sea X
1
, . . . , X
n
m.a.s. de X N(,
2
), < < ,
2
> 0
conocido. Sea N(,
2
). La ley a posteriori de dadas las observaciones
X
1
= x
1
, . . . , X
n
= x
n
es una N(
1
,
2
1
) con
1
=

2
+n
2
x
2
+n
2
=

2
2
+n
2
+
n
2
2
+n
2
x,
2
1
=

2
2
+n
2
.
Demostracion: Ver DeGroot (1988), seccion 6.3. 2
Observese que si
2
entonces
1
= , y que si n
2
entonces
1
= x. Por su parte, la precision de la distribucion a posteriori es la suma de
la precision a priori y la precision de X:
1
2
1
=
1
2
+
n
2
.
Ejemplo 40
Sea X
1
, . . . , X
n
m.a.s. de X N(, 1) y sea () N(0,
2
), para conocido.
Notemos que en la notacion del teorema 21, tenemos = 0 y
2
=
2
. Calcu-
laremos la distribucion a posteriori de y analizaremos para que valores de
sera esta distribucion menos informativa.
Del teorema 21 se desprende que
| x
N
_
n
i=1
x
i
n +
2
,
1
n +
2
_
.
Esta distribucion sera tanto menos informativa cuanta mayor varianza tenga,
es decir, cuanto menor sea . El caso lmite sera = 0, que corresponde a
una distribucion a priori impropia (normal con varianza innita) no informativa
78CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
(() es constante en IR). En ese caso obtendramos el mismo resultado que si
realizasemos inferencia fiducial (ver Casella-Berger, seccion 6.2.1).
Al inverso de la varianza se le denomina precisi on de la distribucion. En
este ejemplo,
2
es la precision de la distribucion a priori. Si ponemos = 0
estamos asumiendo que la precision de la informacion a priori es nula. Entonces
el procedimiento de inferencia no la tiene en cuenta.
. .
Teorema 22 Sea X
1
, . . . , X
n
m.a.s. de X exp(), = (E(X))
1
> 0. Sea
(, ), > 0, > 0. La ley a posteriori de dadas las observaciones
X
1
= x
1
, . . . , X
n
= x
n
es una
_
_
+n,
_
1
+
n
i=1
x
i
_
1
_
_
.
Demostracion: Ver DeGroot (1988), seccion 6.3. 2
Ejemplo 28, pagina 54. Continuacion. Consideremos de nuevo el problema
de estimar el n umero de colores diferente que tienen los caramelos de la bolsa.
Supongamos que basandonos en nuestra experiencia pensamos que el n umero de
colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad
3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado
(V BV ).
k (k) f(V BV |k) = (k 1)/k
2
f(V BV, k) (k|V BV )
5 0.1 0.160 0.016 0.125
6 0.3 0.139 0.042 0.328
7 0.3 0.122 0.037 0.289
8 0.3 0.109 0.033 0.258
k
f(V BV, k) = 0,128
Tomamos otro caramelo y es naranja. Repetimos el analisis:
k (k) f(V BV N|k) = (k 1)(k 2)/k
3
f(V BV N, k) (k|V BV N)
5 0.125 0.096 0.012 0.135
6 0.328 0.093 0.031 0.348
7 0.289 0.087 0.025 0.281
8 0.258 0.082 0.021 0.236
k
f(V BV N, k) = 0,089
Se observa que la distribucion de probabilidad sobre {5, 6, 7, 8} no se ha modi-
cado mucho desde (k) hasta (k|V BV N). Esto indica que la observacion de
3.3. ESTIMACI
ON BAYESIANA 79
solo cuatro caramelos es poco informativa sobre el n umero k de colores. Si con-
tinuasemos muestreando, la distribucion a posteriori se ira concentrando cada
vez mas en torno al verdadero valor del parametro k.
. .
3.3.3. Funciones de perdida
Acabamos de ver como derivar la distribucion a posteriori del parametro
dados los datos, a partir de la verosimilitud y la distribucion a priori. Nos plan-
teamos ahora como usar la distribucion a posteriori para construir un estimador
puntual del valor del parametro, es decir, como resumir toda la distribucion a
posteriori del parametro en un solo punto de .
Consideremos por un momento que no hemos observado la muestra y que
sobre hay denida una distribucion de probabilidad . En este contexto que-
remos elegir un punto a como representante de toda la distribucion sobre
. Una propiedad deseable es que ese valor a este cerca de los puntos . Para
medir como de lejos esta a del valor del parametro deniremos una funci on
de p erdida o funci on de coste:
C : A R
+
(, a) C(, a),
donde A es el conjunto o espacio de acciones a posibles, y C(, a) es el coste de
dar a como estimacion de un valor concreto . Dado que es desconocido
y puede tomar los valores de seg un indica la distribucion , para tener una
idea global del coste de a se considera la funcion de perdida esperada:
E
()
(C(, a)) =
_
C(, a)()d.
La eleccion de la funcion de perdida es a menudo arbitraria. Las tres mas usuales
son estas:
Funcion de perdida cero-uno:
C(,

) = I
(,)
(|
|)
donde > 0 y 0 son constantes.
Funcion de perdida del error absoluto:
C(,

) = |
|
donde > 0 es constante.
Funcion de perdida cuadratica:
C(,

) = (
)
2
donde > 0 es constante.
80CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
El parametro podra tomarse igual a 1, sin perdida de generalidad. Estas tres
funciones son decrecientes en |
| y simetricas alrededor de

= .
Se pueden denir funciones de perdida asimetricas que reejen, por ejemplo,
que las consecuencias de estimar un parametro por defecto sean peores que las
de estimarlo por exceso. Este sera el caso de la estimacion del grosor de la capa
de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que
subestimar es preferible es el de la estimacion del precio futuro de una accion
cuando se quiere decidir si se invierte o no en dicha accion.
3.3.4. Estimadores de Bayes
Supongamos que tenemos informacion a priori () sobre y que obser-
vamos una muestra aleatoria simple X
1
, . . . , X
n
de X f(x|). La distribucion
a posteriori vienen dada por (| x
) L(| x
)(). Supongamos que el coste de

estimar por a es C(, a). As, el coste esperado de estimar mediante a, dado
que hemos observado x
, sera
E(C(, a)| x
) =
_
C(, a)(| x
)d.
A esta cantidad se le llama p erdida esperada a posteriori.
Se dene un estimador de Bayes de como aquel valor a = a( x
)
que minimiza la perdida esperada a posteriori, es decir,
E(C(, a( x
))| x
) = mn
a
E(C(, a)| x
).
A ese valor a( x
) se le suele denotar por
( x
). Observese que este estimador

de Bayes depende de la muestra a traves de la distribucion a posteriori.
Teorema 23 Si la funcion de perdida es cuadratica, entonces el estimador de
Bayes es la esperanza a posteriori:
( x
) = E(| x
).
Demostracion:
E(C(, a)| x
) = E
_
( a)
2
| x
_
= E(
2
| x
) +a
2
2aE(| x
)
Derivando respecto a a e igualando a 0:
2E(| x
) + 2a = 0 =a = E(| x
),
que es un mnimo porque la segunda derivada es 2 > 0. 2
Teorema 24 Si la funcion de perdida es el error absoluto, entonces el estima-
dor de Bayes es la mediana de la distribucion a posteriori:
( x
) = mediana(| x
).
3.3. ESTIMACI
ON BAYESIANA 81
Demostracion: Ver DeGroot (1988), teorema 1 de la seccion 4.5. 2
Ejemplo 41
Sea X Bern(). Se observa una muestra aleatoria simple de X: X
1
= x
1
, . . . , X
n
=
x
n
. Suponemos que la distribucion a priori de es
Beta(, ) =E() =

+
.
Tal como vimos en el teorema 19,
| x
Beta
_
+
n
i=1
x
i
, +n
n
i=1
x
i
_
.
Por tanto, el estimador de Bayes basado en perdida cuadratica sera
1
= E(| x
) =
+
n
i=1
x
i
+ +n
=
n
+ +n
x +
+
+ +n
+
.
Observese que

1
es una media ponderada de la media a priori y de la media
muestral. El peso de cada cantidad depende de los parametros en la distribucion
a priori y del tama no muestral. A medida que n crece se tiene que

1
tiende
hacia x.
La estimacion de basada en la perdida del error absoluto requiere la de-
terminacion por metodos numericos de la mediana de la distribucion Beta( +
n
i=1
x
i
, +n
n
i=1
x
i
).
. .
Ejemplo 42
Se ha observado una m.a.s. de X N(,
2
): X
1
= x
1
, . . . , X
n
= x
n
. Partimos
de una a priori N(,
2
) para . En el teorema 21 vimos que la distribucion a
posteriori es | x
N(
1
,
2
1
) con
1
=

2
+n
2
x
2
+n
2
,
2
1
=

2
2
+n
2
.
El estimador de Bayes con perdida cuadratica es
1
( x
) = E(| x
) =

2
+n
2
x
2
+n
2
=
n
2
2
+n
2
x +

2
2
+n
2
.
82CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
De nuevo el estimador de Bayes es una media ponderada de la media a priori
y de la media muestral. Si ponemos una a priori poco informativa, es decir, con
varianza
2
grande, se tendra que

1
( x
) sera aproximadamente igual a la media

muestral.
En este caso la eleccion de la funcion de perdida del error absoluto conduce
al mismo estimador

1
( x
) porque la mediana y la media a posteriori coinciden

(dado que la distribucion a posteriori es simetrica).
. .
Metodo de los momentos
1. Sea X
1
, . . . , X
n
una m.a.s. de X f(x, ) = (1/2)e
|x|
. Hallar el esti-
mador de momentos de .
1
, . . . , X
n
una m.a.s. de X f(x, ) = x
2
,
0 < x < .
a) Da un estadstico suciente para .
b) Halla el estimador de momentos de .
3. Sea X
1
, . . . , X
n
una m.a.s. de X f(x, ) = e
x+1
, x > 1/. Hallar el
estimador de momentos de .
4. Sea X
1
, . . . , X
n
una m.a.s. de X B(k, p), k IN, 0 < p < 1. Encuentra
los estimadores de momentos de (k, p).
5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una
B(n, p): (n 1)S
2
n
/n y p(1 p). Que relacion hay entre ellos?
Maxima verosimilitud
1
, . . . , X
n
una m.a.s. de X f(x, ) = (1/2)e
|x|
.
Hallar el estimador maximo verosmil de .
1
, . . . , X
n
una m.a.s. de X f(x, ) = x
2
,
0 < x < . Halla el estimador de maxima verosimilitud de .
1
, . . . , X
n
una m.a.s. de X, que sigue una de
las dos distribuciones siguientes. Si = 0 entonces f(x; ) = I
(0,1)
(x). Si
= 1 entonces f(x; ) = 1/(2
x)I
(0,1)
(x). Encontrar el estimador maximo
verosmil de .
9. (Casella-Berger, 7.10) Las variables aleatorias independientes X
1
, . . . , X
n
tiene funcion de distribucion com un
F(x; , ) = P(X x|, ) =
_
_
_
0 si x < 0
(x/)
si 0 x
1 si x >
,
donde > 0, > 0.
a) Encontrar un estadstico suciente para (, ) de dimension 2.
b) Dar el estimador maximo verosmil de (, ).
c) La longitud (en milmetros) de los huevos de gorrion puede modeli-
zarse con esa distribucion. Para los siguientes datos de longitudes de
huevos, estima por maxima verosimilitud y :
84CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,
23.0, 23.0.
10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias indepen-
dientes con X exp() (E(X) = 1/), Y exp() (E(Y ) = 1/). X e
Y no son directamente observables, sino que se observan Z y W denidas
como
Z = mn{X, Y }, W =
_
1 si Z = X
0 si Z = Y
.
Se dice entonces que las variables X e Y estan censuradas.
a) Da la distribucion conjunta de Z y W.
b) Prueba que Z y W son independientes.
c) Se observa una m.a.s. de tama no n de (Z, W). Calcula los estimadores
maximo verosmiles de y .
11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de
la lista 1.6. Encuentra el estimador maximo verosmil de en cada caso.
12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones
transmite secuencias de longitud n de dgitos binarios, 0 y 1. Se produce
un error en la transmision cada vez que se transmite un 1, pero se recibe un
0, o viceversa. Supongamos que la probabilidad de error de transmision en
cada dgito transmitido es p, y que los errores en la transmision de dgitos
diferentes se producen de forma independiente.
Como medida de seguridad, cada secuencia se transmite dos veces. Lla-
maremos X a la cantidad de diferencias entre las dos cadenas de dgitos
ledas por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse
con las cadenas 00110000 y 00100001, y en este caso X valdra 2.
a) Calcula la probabilidad de que un dgito concreto sea diferente en
una y otra cadena.
b) Encuentra el estimador de maxima verosimilitud de p cuando la lon-
gitud de las cadenas es n y se observa X. Es unico este estimador
de maxima verosimilitud?
c) Da la estimacion de p en el ejemplo anterior.
d) Como se interpretara un valor de X mas grande que n/2?
13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron
los siguientes nacimientos durante las semanas naturales del mes de febrero
de un a no no bisiesto:
Semana N umero de nacimientos
1 19
2 32
3 28
4 25
5 10
Como la primera semana de febrero puede empezar en un dia cualquiera
de lunes a domingo, de hecho constan 5 semanas, con la primera y la
quinta incompletas. Denimos el espacio parametrico = {1, 2, . . . , 7},
donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un
nacimiento tiene la misma probabilidad de ocurrir cualquier da del mes.
Dar el estimador maximo verosmil del da de la setmana en que cayo el
primero de febrero de ese a no.
Estimadores bayesianos
14. Sean X
i
Poisson(
i
), i = 1, 2, independientes. Que distribucion sigue
X
1
condicionada a que X
1
+X
2
= x?
15. Si X (, ), > 0, > 0, entonces se dice que Y = X
1
tiene
distribucion gamma invertida con parametros (, ), y se denota como
IG(, ).
a) Prueba que la densidad de Y es
f(y; , ) =
1
()
1
y
+1
e
1/(y)
I
(0,)
(y).
b) Calcula la esperanza y la varianza de Y .
16. (Casella-Berger, 7.24) Si S
2
es la varianza muestral basada en una muestra
de tama no n de una poblacion normal, sabemos que (n 1)S
2
/
2
se
distribuye como una
2
n1
. Vamos a probar que la distribucion a priori
conjugada para
2
es la gamma invertida.
a) Prueba que si la distribucion a priori de
2
es IG(, ), entonces la
a posteriori es
IG
_
+
n 1
2
,
_
(n 1)S
2
2
+
1
_
1
_
.
b) Calcula el estimador de Bayes bajo perdida cuadratica de
2
.
17. (Ex. parcial 2000) Sea X una variable aleatoria con funcion de densidad
f(x|) =
1
,
donde es un parametro que puede tomar valores en el conjunto =
{1, 2, . . . , 20}. Con el objetivo de estimar se toma una m.a.s. X
1
, . . . , X
n
de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.
a) Calcula el estimador de maxima verosimilitud de y llamalo

1
.
86CAP
ITULO 3. ESTIMACI
ONDE ESTIMADORES
b) Calcula el estimador Bayes de basado en la funcion de perdida
C(, a) = I
{=a}
(que vale 0 si = a y 1 en caso contrario), cuando la distribucion a
priori de es uniforme en los n umeros {1, 2, . . . , 20} y llamalo

2
.
c) Que relacion hay entre

1
y

2
? Como cambiara esta relacion si
cambia la funcion de verosimilitud? Y si consideramos una distribu-
cion a priori que no sea plana, es decir, que no sea constante en ?
Y si consideramos otra funcion de perdida?
18. (Ex. parcial 2001) Supongamos que el n umero de minutos que una persona
tiene que esperar el autob us cada ma nana tiene una distribucion uniforme
en el intervalo (0, ), donde el valor de es desconocido. Suponemos que
la funcion de densidad a priori de viene dada por:
() =
_
192
4
per 4,
0 altrament.
Los tiempos esperados en tres ma nanas sucesivas son de 5, 3, 8 minutos.
a) Calcular la funcion de densidad a posteriori de . Especicar el domi-
nio de denicion de esta funcion y las constantes que en ella aparecen.
b) Si se quiere estimar el valor de usando como funcion de perdida
el error cuadratico, que forma tiene el estimador de Bayes de ?
Calcular el valor estimado de a partir de los tres tiempos esperados
dados.
Captulo 4
Estimacion puntual 2:
Evaluaci on de estimadores
Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general.
Bickel y Doksum (1977), seccion 4.4, para eciencia; Arnold 1990,
captulo 6, o Schervish 1995, seccion 7.1, para las propiedades
asint oticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2
y 3.3, Cristobal (1992), seccion 8.3; Arnold (1990), seccion 7.3;
Schervish (1995), seccion 7.3; Velez y Garca (1993), seccion 7.4., para
propiedades del estimador de maxima verosimilitud
Una vez se han presentado diferentes metodos de estimacion surge la nece-
sidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos
criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo
haremos primero para muestras nitas para pasar despues a proponer medidas
asintoticas de calidad.
4.1. Error cuadratico medio
Se dene el error cuadr atico medio (ECM) de un estimador W de un
parametro como
E
_
(W )
2
_
.
Esta es una medida intuitiva del comportamiento de un estimador: cuanto menor

sea el error cuadratico medio mejor sera el estadstico W. De hecho, para cual-
quier funcion creciente con (0) = 0, E
((|W |)) es una medida razonable

de lo alejadas que estaran, en promedio, las estimaciones de que proporcione
W.
En general, se preere el error cuadratico medio a otras medidas por ser mas
tratable analticamente. Ademas el error cuadratico medio puede descomponerse
87
88CAP
ITULO 4. ESTIMACI
ONPUNTUAL 2: EVALUACI
ON DE ESTIMADORES
de forma facilmente interpretable:
E
_
(W )
2
_
= E
_
(W E
(W))
2
_
+E
_
(E
(W) )
2
_
=
V
(W) + (B
(W))
2
.
El termino B
(W) = E
(W) se llama sesgo (en inges bias) de W cuando

se estima y es una medida de la desviacion sistematica que se tiene cuando
se estima por W. Si un estimador tiene sesgo nulo para cualquier valor del
parametro se dice que es un estimador insesgado. En tal caso, E
_
(W )
2
_
=
V
(W).
As, el error cuadratico medio de un estimador es la suma de su varianza
(una medida de su dispersion) mas el cuadrado de su sesgo (medida de la des-
viacion sistematica o de la exactitud del estimador). Es una medida conjunta
de precision y exactitud del estimador. Por lo tanto, parece sensato buscar es-
timadores que tengan error cuadratico medio peque no, porque de esta manera
controlaremos tanto la dispersion como la exactitud de las estimaciones.
Ejemplo 43
En el siguiente graco se muestran cuatro situaciones en las que se combinan
niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor
valor del error cuadratico medio.
D E
F G
4.1. ERROR CUADR
ATICO MEDIO 89
. .
Ejemplo 44
X
1
, . . . , X
n
m.a.s. de X N(,
2
(,
2
). Hemos estudiado, entre otros, los siguientes estimadores de y
2
:
X =
1
n
n
i=1
X
i
, S
2
=
1
n 1
n
i=1
(X
i
X)
2
.
Tambien hemos calculado sus esperanzas:
E(X) = , E(S
2
) =
2
.
Concluimos que X y S
2
son estimadores insesgados de y
2
, respectivamente.
Su error cuadratico medio coincide entonces con su varianza:
E
_
(X )
2
_
= V
(X) =

2
n
,
E
_
(S
2
2
)
2
_
= V
(S
2
) =
2
4
n 1
.
. .
Ejemplo 45
A veces vale la pena permitir un poco de sesgo en un estimador para obtener
una reduccion importante de la varianza y, por lo tanto, del error cuadratico
medio.

Este es uno de esos casos.
Sea X
1
, . . . , X
n
m.a.s. de X N(,
2
), ambos parametros desconocidos:
= (,
2
). Sea

2
=
n 1
n
S
2
,
el estimador maximo verosmil de
2
. Calculemos su error cuadratico medio:
E(
2
) =
n 1
n

2
=
_
1
1
n
_
2
=B
(
2
) =
1
n
2
;
V (
2
) =
_
n 1
n
_
2
V (S
2
) =
2(n 1)
n
2

4
.
As, el error cuadratico medio de
2
es
E(
2
2
) =
2(n 1)
n
2

4
+
1
n
2
4
=
2n 1
n
2

4
<
2
n 1
4
.
90CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Se concluye que
2
tiene menor error cuadratico medio que S
2
.
La comparacion de los errores cuadraticos medios no nos debe conducir a
pensar que hay que usar siempre
2
en vez de S
2
. Aunque es cierto que, en
promedio,
2
ofrecera estimaciones mas cercanas a
2
que S
2
, tambien lo es que
en promedio
2
estima el parametro por defecto.
Por otra parte, el criterio del error cuadratico medio es discutible cuando se
estima una varianza porque el error cuadratico medio penaliza las desviaciones
del parametro de igual forma tanto si son por exceso como si son por defecto.
Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes
porque el valor cero es una cota natural para los estimadores.
. .
Ejemplo 46
Sea X
1
, . . . , X
n
m.a.s. de X Bern(p). Queremos comparar el estimador maxi-
mo verosmil de p y el estimador bayesiano derivado de suponer perdida cuadrati-
ca y una beta como distribucion a priori de p:
p = X, p
B
=
n
i=1
X
i
+
+ +n
.
Calculamos errores cuadraticos medios:
E
p
_
(X p)
2
_
= V (X) =
p(1 p)
n
,
E
p
_
( p
B
p)
2
_
= V
_
n
i=1
X
i
+
+ +n
_
+
_
B
p
_
n
i=1
X
i
+
+ +n
__
2
=
np(1 p)
( + +n)
2
+
_
np +
+ +n
p
_
2
=
np(1 p) + ((1 p) +p)
2
( + +n)
2
.
Supongamos que no tenemos una informacion a priori sucientemente rica como
para determinar los valores de y y que, como consecuencia, decidimos elegir
los valores y tales que el error cuadratico medio de p
B
sea constante en p,
si ello es posible: E
p
_
( p
B
p)
2
_
= K(n). Busquemos esos valores:
si p = 0 =

2
( + +n)
2
= K(n),
si p = 1 =

2
( + +n)
2
= K(n),
de donde se sigue que = y
2
(2 +n)
2
= K(n).
4.1. ERROR CUADR
ATICO MEDIO 91
Si hacemos ahora p = 1/2:
p =
1
2
=
n
1
2
2
+
2
(1
1
2

1
2
)
2
(2 +n)
2
=
n/4
(2 +n)
2
= K(n).
Por lo tanto
= =
n
2
Con esta eleccion,
p
B
=
n
i=1
X
i
+
n
2
n +n
y su error cuadratico medio es
E
p
_
( p
B
p)
2
_
= K(n) =
1
4(1 +
n)
2
para todo p (0, 1).
0 0.2 0.4 0.6 0.8 1
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
n= 4
p
E
C
M
0 0.2 0.4 0.6 0.8 1
0
1
2
3
4
5
6
7
x 10
4
n= 400
p
E
C
M
K(4) =
1
36
= 0,028, K(400) =
1
4(21)
2
= 0,000567
E
p=1/2
_
(X p)
2
_
=
1/4
4
=
1
16
= 0,0625, E
p=1/2
_
(X p)
2
_
=
1/4
400
= 0,000625
Estas guras ilustran el comportamiento de p y p
B
: si n es peque no, el es-
timador de Bayes es preferible a no ser que haya una fuerte evidencia de que p
esta en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador
frecuentista a menos que se sospeche fundadamente que p 0,5.
. .
4.1.1. Eciencia relativa
Un estimador W de se denomina inadmisible si existe otro estimador V
de tal que
E
_
(V )
2
_
E
_
(W )
2
_
para todo ,
92CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
y ademas existe alg un
0
tal que
E
0
_
(V
0
)
2
_
< E
0
_
(W
0
)
2
_
.
Es decir, un estimador W es inadmisible si existe otro estimador V que es al
menos igual de bueno que W para todo posible valor del parametro y lo supera
cuando el valor concreto del parametro es
0
. Se dice tambien que V domina a
W uniformemente en .
Un estimador es admisible cuando no es inadmisible, es decir, cuando no
existe otro que lo domine uniformemente en .
Ejemplo 47
0 0.2 0.4 0.6 0.8 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
T es inadmisible
E
C
M
S
T
0 0.2 0.4 0.6 0.8 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
S es admisible
E
C
M
S
T
1
T
2
T
3
no existe
. .
Ejemplo 48
Sea X
1
, . . . , X
n
m.a.s. de X N(, 1), < < . La media X y la mediana
muestral M
n
son estimadores insesgados de .
Para n = 21, se tiene que
V
(X) = 1/n = 0,048 < V
(M
n
) ,075, para todo .
Por lo tanto, la mediana muestral es inadmisible como estimador de en el
caso de normalidad. (Nota: Se ha usado la expresion asintotica para calcular
4.1. ERROR CUADR
ATICO MEDIO 93
la varianza de la mediana muestral; vease, por ejemplo, el teorema 7.25 de
Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribucion exacta de
la mediana muestral, vease la seccion 5.5 de Casella-Berger).
Se puede probar (se vera en el tema 7, sobre teora de la decision) que la me-
dia muestral es admisible. Esto no implica que no existan otros estimadores con
menor error cuadratico medio que X en ciertas regiones del espacio parametrico.
Por ejemplo, si denimos W 3 (el estimador que siempre estima como
3, independientemente de la muestra observada), se tiene que
E
_
(W )
2
_
= (3 )
2
.
Como E
_
(X )
2
_
= 1/n, para todo , se tiene que W es preferible a X para
los valores de que cumplen
(3 )
2
<
1
n
3
1
n
< < 3 +
1
n
.
Fuera del intervalo [3 + (1/
n), 3 (1/
n)] es preferible X. Por lo tanto, nin-

guno de estos dos estimadores domina uniformemente al otro.
. .
Si W
1
y W
2
son dos estimadores insesgados de , se dene la eficiencia
relativa de W
1
respecto a W
2
como
RE(, W
1
, W
2
) =
V
(W
2
)
V
(W
1
)
=
1
V
(W
1
)
1
V
(W
2
)
.
As, RE(, W
1
, W
2
) > 1 si y solo si V
(W
2
) > V
(W
1
), si y solo si W
1
usa los
datos de modo mas eciente que W
2
.
Ejemplo 49
Se ha calculado la eciencia relativa de la mediana muestral M
n
respecto a
la media muestral X para estimar el parametro de centralidad de cuatro
distribuciones simetricas (el parametro de centralidad es la mediana poblacional
y coincide con la esperanza cuando esta existe).
Se ofrecen los resultados en funcion del tama no muestral n. Los valores de la
varianza de la mediana son aproximados y se han calculado mediante la formula
V (M
n
)
1
4f
2
()
.
V (X) V (M
n
) RE(, M
n
, X)
Normal estandar 1/n /(2n) 2/ = 0,64
Logstica ( = 1)
2
/(3n) 4/n
2
/12 = 0,82
Doble exponencial ( = 1) 2/n 1/n 2
Cauchy estandar
2
/(4n)
94CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Se concluye que la media muestral es mas eciente que la mediana en las leyes
normal y logstica, y lo es menos en la doble exponencial y la Cauchy.
. .
4.2. Mejor estimador insesgado
Acabamos de ver que la comparacion de estimadores basada en error cuadrati-
co medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos
desechar el estimador constante W 3 porque ese es el mejor estimador en
el caso de que el parametro sea igual a 3) o a la imposibilidad de elegir un
unico estimador (el estimador W 3 es insuperable si = 3 pero tambien lo
es W 4 cuando = 4). Estos problemas surgen del hecho de que estamos
comparando todos los estimadores posibles de un parametro: hay estimadores
cuya denicion esta alejada de toda logica pero que en determinadas situaciones
muy concretas dan resultados sensatos.
Por lo tanto, para que el criterio de comparacion de estimadores mediante
su error cuadratico medio de lugar a la recomendacion de un unico estimador,
preferible a los demas, debemos limitar el conjunto de estimadores que se tie-
nen en cuenta. Se debe exigir un mnimo de sensatez a un estimador antes de
admitirlo para ser comparado con los restantes estimadores.
Una forma de restringir la clase de estimadores es exigir que sean insesga-
dos. Veremos que si nos restringimos a esta clase de estimadores s llegaremos
a resultados satisfactorios a partir de la comparacion de su error cuadratico
medio, que para estos estimadores coincide con su varianza. Se trata de elegir
el estimador insesgado del parametro que tenga la varianza mas peque na.
Ademas, se caracterizara el mejor estimador insesgado (el de menor varianza).
Dada una transformacion del parametro , restringimos la clase de esti-
madores considerados a
C
= {W : E
(W) = ()},
la clase de estimadores insesgados de (). Dado W C
,
E
_
(W ())
2
_
= V
(W)
y la comparacion de estimadores con el criterio del error cuadratico medio se
reduce a la comparacion de sus varianzas.
Diremos que un estimador W
es el mejor estimador insesgado de (),

o el UMVUE (estimador insesgado de () uniformemente de mnima
varianza), si E
(W
) = () para todo y si para cualquier otro estimador

W, tal que E
(W) = () para todo , se tiene que V
(W
) V
(W), para
todo .
4.2. MEJOR ESTIMADOR INSESGADO 95
Ejemplo 50
Sea X
1
, . . . , X
n
una m.a.s. de X Poisson(). Sabemos que E(X
i
) = V (X
i
) =
. Por lo tanto, X y S
2
son ambos estimadores insesgados de . Determinaremos
cual de ellos es mejor, en el sentido de tener menor varianza.
La varianza de X es
V (X) =
V (X)
n
=

n
.
Para determinar la varianza de S
2
los calculos son algo mas tediosos. En general,
si hacemos
1
= E(X) y
j
= E((X
1
)
j
), para j = 2, 3, 4, se puede probar
que (ver problema 3 del Captulo 1)
V (S
2
) =
1
n
_
n 3
n 1
2
2
_
.
Concretaremos este resultado para el caso de la distribucion de Poisson. Se tiene
que
1
=
2
= . Calculemos
3
y
4
. En primer lugar,
E(X
3
) =
k=0
k
3
e
k
k!
=
k=1
k
2
e

k
(k 1)!
=
h=0
(h + 1)
2
e
h
h!
= E((X + 1)
2
) = (E(X
2
) + 2E(X) + 1) =
( +
2
+ 2 + 1) =
3
+ 3
2
+.
As,
3
= E((X )
3
) = E(X
3
3X
2
+ 3X
2
3
) =
3
+ 3
2
+ 3( +
2
) + 3
3
3
= .
Calculemos E(X
4
):
E(X
4
) =
k=0
k
4
e
k
k!
=
h=0
(h + 1)
3
e
h
h!
= E((X + 1)
3
) = (E(X
3
) + 3E(X
2
) + 3E(X) + 1) =
(
3
+3
2
++3(+
2
) +3+1) = (
3
+6
2
+7+1) =
4
+6
3
+7
2
+
As,
4
= E((X )
4
) = E(X
4
) 4E(X
3
) + 6
2
E(X
2
) 4
3
E(X) +
4
=
4
+ 6
3
+ 7
2
+ 4(
3
+ 3
2
+) + 6
2
( +
2
) 3
4
=
3
2
+.
Por tanto,
V (S
2
) =
1
n
_
n 3
n 1
2
2
_
=
1
n
_
3
2
+
n 3
n 1
2
_
=
96CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
n
+
2
2
n 1
>

n
= V (X) si n 2.
Concluimos que S
2
no puede ser el UMVUE para , dado que X es preferible a
S
2
.
. .
En el ejemplo anterior solo hemos comparado dos estimadores insesgados
entre s. Ahora estudiaremos toda una clase de estimadores insesgados, aunque
esta familia no incluye a todos los estimadores insesgados.
Ejemplo 50, pagina 95. Continuacion. Consideremos la clase de estimado-
res W
a
= aX + (1 a)S
2
, con a IR. Se tiene que para toda a,
E
(W
a
) = a + (1 a) = ,
luego esta es una clase de estimadores insesgados para . Si buscamos el mejor
de todos estos estimadores podramos llegar a la conclusion de que existe un a
tal que W
a
es el mejor estimador insesgado de entre aquellos que tienen la
forma W
a
. Las expresiones de Cov(X, S
2
) halladas en el problema 3 del Captulo
1 resultan utiles para el calculo de V
(W
a
).
Esto no proporcionara una respuesta global a la pregunta de cual de todos
los estimadores insesgados de es el que menor varianza tiene.
. .
4.2.1. Teorema de Cramer-Rao. Informacion de Fisher
El ultimo ejemplo muestra que la b usqueda del UMVUE no debe consistir en
repasar todos los estimadores insesgados posibles. El siguiente resultado aborda
el problema de un modo diferente: establece una cota inferior para la varianza
de todos los estimadores insesgados de un parametro. As, si encontramos un
estimador insesgado cuya varianza iguale esa cota podremos concluir que ese
estimador es el UMVUE.
Teorema 25 (Teorema de Cramer-Rao.) Sea X
= (X
1
, . . . , X
n
) una va-
riable aleatoria n-dimensional con funcion de densidad conjunta f( x
|),
IR. Sea W( X
) un estimador insesgado para (), es decir, E
(W( X
)) =
() para todo , donde es una funcion de que cumple
H1: () es diferenciable en .
Se supone ademas que la verosimilitud conjunta f( x
|) verica
H2: para cualquier funcion h( x
) tal que E
|h( X
)| < se tiene que

d
d
_

_
h( x
)f( x
|)dx
1
. . . dx
n
=
_

_
h( x
)
_

f( x
|)
_
dx
1
. . . dx
n
.
Entonces,
V
(W( X
))
_
d
d
()
_
2
E
_
_

log f( X
|)
_
2
_.
A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota
de Cram er-Rao.
Demostracion: Se basa en la desigualdad de Cauchy-Schwarz, que expresada
en terminos estadsticos establece que para cualquier par de variables aleatorias
X e Y denidas sobre el mismo espacio muestral, se tiene que
(Corr(X, Y ))
2
1,
o equivalentemente, que dada la variable aleatoria X,
V (X)
(Cov(X, Y ))
2
V (Y )
para toda variable aleatoria Y .
La demostracion del teorema es inmediata poniendo W( X
) en el papel de
la variable aleatoria X anterior, haciendo
Y =

log f( X
|),
y viendo que se verican A y B:
A.
V
_

log f( X
|)
_
= E
_
_

log f( X
|)
_
2
_
.
B.
Cov
_
W( X
),

log f( X
|)
_
=
d
d
().
Probemos A. Para ello hay que demostrar que
E
log f( X
|)
_
= 0.
En efecto,
E
log f( X
|)
_
= E
f( X
|)
f( X
|)
_
=
98CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
_

_

f( x
|)
f( x
|)
f( x
|)dx
1
. . . dx
n
=
_

_

f( x
|)dx
1
. . . dx
n
(H2,h( x
)=1)
=
d
d
_

_
f( x
|)dx
1
. . . dx
n
. .
=1
=
d
d
1 = 0.
Veamos ahora que tambien es cierto B:
Cov
_
W( X
),

log f( X
|)
_
= E
_
W( X
log f( X
|)
_
=
E
_
W( X
f( X
|)
f( X
|)
_
=
_

_
W( x
f( x
|)dx
1
. . . dx
n
H2,h( x
)=W( x
)
=
d
d
_

_
W( x
)f( x
|)dx
1
. . . dx
n
. .
=E
(W( X
))=()
=
d
d
().
2
Nota: El teorema de Cramer-Rao es igualmente valido en el caso discreto.
En este caso la hipotesis H2 arma que pueden intercambiarse el sumatorio y
la diferenciacion.
Un estimador insesgado para () se denomina eficiente si su varianza es la
mnima posible, es decir, si es igual a la cota de Cramer-Rao. La eficiencia de
un estimador insesgado se dene como el cociente entre la cota de Cramer-Rao
y su varianza. Es un valor menor o igual que 1 si se dan las hipotesis del teorema
de Cramer-Rao. A esa cantidad tambien se la llama eficiencia de Bahadur
del estimador. La eficiencia relativa entre dos estimadores insesgados es el
inverso del cociente de sus varianzas, como ya se denio anteriormente.
A la derivada parcial del logaritmo de la verosimilitad L(| x
) = f( x
|)
respecto al parametro se le llama tambien funci on score:
S(| x
) =

log L(| x
).
En la demostracion del teorema de Cramer-Rao se ha probado que
E
(S(| X
)) = 0.
Observese que para obtener el estimador maximo verosmil de lo que se hace
es resolver la ecuacion
S(| x
) = 0,
lo que equivale a buscar el valor de para el cual el valor de S(| x
) coincide
con su valor esperado.
Cuando se aplica a las familias exponenciales el resultado general que dice
que la esperanza de la funcion score es cero, se obtiene el siguiente resultado
(ver tambien el problema 11 del Captulo 1):
Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponen-
cial parametrizada en forma natural con par ametro IR:
f(x|) = h(x)c() exp (t(x))
para ciertas funciones h, c y t. Entonces
E
(t(X)) =
d
d
log c().
Si X
1
, . . . , X
n
es muestra aleatoria simple de X y se dene el estadstico
T(X
1
, . . . , X
n
) =
n
i=1
t(X
i
)
entonces
E
(T( X
)) = n
d
d
log c().
Demostracion: El resultado sobre T( X
) es trivial a partir del resultado sobre

t(X). El logaritmo la verosimilitud de x es
l (|x) = log f(x|) = log h(x) + log c() +t(x)
y la funcion score
S(|x) =

l (|x) =
d
d
log c() +t(x).
Como E
(S(|X)) = 0, se sigue el resultado del corolario. 2

A la cantidad que aparece en el denominador de la cota de Cramer-Rao se
le denomina cantidad de informaci on de Fisher que sobre contiene el
vector X
:
I
X
() = E
_
_

log f
X
( X
|)
_
2
_
= V
_

log f
X
( X
|)
_
= V (S(| X
)).
Se denomina cantidad de informaci on de Fisher que sobre contiene la
variable X
i
a
I
X
i
() = E
_
_

log f
X
i
(X|)
_
2
_
= V
_

log f
X
i
(X|)
_
= V (S(|X
i
)).
100CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Cuando X
= (X
1
, . . . , X
n
) es una muestra aleatoria simple de X se verica que
la informacion de Fisher contenida en la muestra es la suma de las informaciones
contenidas en cada una de las observaciones y, dado que estas son identicamente
distribuidas, se tiene que
I
X
() = nI
X
1
().
Este resultado es consecuencia del siguiente corolario del teorema de Cramer-
Rao:
Corolario 3 Bajo las hipotesis del teorema de Cramer-Rao, si X
= (X
1
, . . . , X
n
)
es una muestra aleatoria simple de X con distribucion dada por f(x|) entonces
E
_
_

log f
X
( X
|)
_
2
_
= nE
_
_

log f
X
(X|)
_
2
_
.
Demostracion: Por independencia, la verosimilitud de X
es el producto de
verosimilitudes, luego
log f
X
( x
|) =

i=1
log f
X
(x
i
|) =
n
i=1
log f
X
i
(x
i
|).
Por lo tanto,
E
_
_

log f
X
( X
|)
_
2
_
= E
_
_
_
n
i=1
log f
X
i
(X
i
|)
_
2
_
_
=
n
i=1
E
_
_

log f
X
i
(X
i
|)
_
2
_
+
i=j
E
_
_

log f
X
i
(X
i
|)

log f
X
j
(X
j
|)
_
2
_
.
Pero el segundo sumatorio es igual a cero debido a la independencia entre X
i
y X
j
y dado que las funciones score tienen esperanza 0, seg un se vio en la
demostracion del teorema de Cramer-Rao.
Una demostracion alternativa de este resultado se basa en la expresion de la
informacion de Fisher como varianza de los scores:
V
_

log f
X
( X
|)
_
= V
_
n
i=1
log f
X
i
(X
i
|)
_
que por independencia es igual a la suma de las varianzas:
nV
_

log f
X
(X|)
_
.
2
El siguiente resultado facilita a veces el calculo de la cota de Cramer-Rao.
Lema 5 Si la funcion de verosimilitud satisface
H3: para cualquier funcion h( x
) tal que E
|h( X
)| < se tiene que
2
_

_
h( x
)f( x
|)dx
1
. . . dx
n
=
_

_
h( x
)
_

2
2
f( x
|)
_
dx
1
. . . dx
n
.
Entonces,
I
X
() = E
_
_

log f
X
(X|)
_
2
_
= E
_

2
2
log f
X
(X|)
_
.
Demostracion:
2
log f
X
(x|) =

_
1
f
X
(x|)
f
X
(x|)
_
=
1
f
2
X
(x|)
_

f
X
(x|)
_
2
+
1
f
X
(x|)
2
f
X
(x|).
Por otro lado,
E
_
1
f
X
(X|)
2
f
X
(X|)
_
=
_

2
2
f
X
(x|)dx =
H3
=
d
2
d
2
_
f
X
(x|)dx = 0.
As pues,
E
_

2
2
log f
X
(X|)
_
= E
_
1
f
2
X
(X|)
_

f
X
(X|)
_
2
_
=
E
_
_

log f
X
(X|)
_
2
_
= I
X
()
2
Nota 1. Cuando este lema se aplica a la informacion de Fisher contenida en
una muestra, se tiene que
I
X
() = E
_

2
2
log f
X
( X
|)
_
= nE
_

2
2
log f
X
(X|)
_
= nI
X
().
Nota 2. Las familias exponenciales satisfacen la hipotesis H3.
Ejemplo 51
Sea X
1
, . . . , X
n
m.a.s. de X Poisson(). As, E(X) = . Consideramos () =
, luego
() = 1. Por lo tanto,
E
_
_
_

log
n
i=1
f(X
i
|)
_
2
_
_
= nE
_

2
2
log f(X|)
_
=
102CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
nE
_

2
2
log
_
e
X
X!
__
= nE
_

2
2
( +X log log X!)
_
=
nE
2
_
=
n
.
Por lo tanto, para cualquier W, estimador insesgado de , se tendra que
V
(W)
1
n/
=

n
.
Por otra parte, sabemos que X es estimador insesgado de y que V
(X) = /n.
Se deduce de ah que la media muestral es el mejor estimador insesgado (UM-
VUE) de .
. .
Ejemplo 52
No siempre es posible intercambiar los signos de la integral y de la derivada.
Veamos un ejemplo.
Sea X
1
, . . . , X
n
m.a.s. de X U(0, ). As, f(x|) = 1/, si 0 < x < , y de
ah,
log f(x|) =
1
=E
_
(

log f(X|))
2
_
=
1
2
.
Si la cota de Cramer-Rao es aplicable, esta dice que para cualquier W, estimador
insesgado de , se cumple que V
(W)
2
/n.
Sin embargo, es posible encontrar un estimador insesgado de con varian-
za menor que
2
/n. En efecto, sea Y = max
i
X
i
. Su funcion de densidad es
f
Y
(y|) = (n/
n
)y
n1
, si 0 < y < . Entonces E(Y ) = (n/(n + 1)). As,
W = Y (n + 1)/n es estimador insesgado de . Calculemos su varianza:
V
(W) =
(n + 1)
2
n
2
V
(Y ) =
(n + 1)
2
n
2
_
E
(Y
2
)
_
n
n + 1
_
2
_
=
(n + 1)
2
n
2
_
n
n + 2
_
n
n + 1
_
2
2
_
=
(n + 1)
2
n
2
n
n + 2
2
=
(n + 1)
2
n(n + 2)
n(n + 2)

2
=
1
n(n + 2)
2
<
1
n
2
.
La contradiccion proviene de que
d
d
_

0
h(x)f(x|)dx =
_

0
h(x)

f(x|)dx.
y por lo tanto el teorema de Cramer-Rao no es aplicable.
. .
En general, el teorema de Cramer-Rao no es aplicable si el soporte de f(x|)
depende del parametro debido a que la derivada y la integral no son inter-
cambiables si los lmites de integracion dependen de . Vease, por ejemplo en la
seccion 2.4 del Casella-Berger, la formula de Leibnitz que permite calcular deri-
vadas de integrales en las que los lmites de integracion dependen de la variable
respecto a la cual se deriva. Ah se dan tambien resultados sobre condiciones
que permiten intercambiar los signos de integracion y derivacion.
Aunque el teorema de Cramer-Rao pueda ser aplicado y la cota de Cramer-
Rao sea efectiva, no hay garantas de que esta cota sea alcanzada por alg un
estimador insesgado del parametro. En los casos en los que no se encuentra un
estimador insesgado que alcance la cota de Cramer-Rao, el problema es decidir
si dado un estimador insesgado este es ya el mejor posible.
Ejemplo 53
Sea X
= (X
1
, . . . , X
n
) una muestra aleatoria simple de X N(,
2
) con
ambos parametros desconocidos. Consideramos el problema de estimar
2
. La
distribucion normal satisface las hipotesis del teorema de Cramer-Rao. Calcu-
lamos la cota de Cramer-Rao:
I
X
(
2
) = E
_

2
(
2
)
2
log f(x|)
_
=
E
_

2
(
2
)
2
log
_
1
(2
2
)
1/2
e
(x)
2
2
2
__
=
E
_

2
(
2
)
2
_
log K
1
2
log
2
(x )
2
2
2
__
=
E
_

2
_
1
2
2
+
(x )
2
2
4
__
=
E
_
1
2
4

(x )
2
6
_
=
1
2
4
+

2
6
=
1
2
4
.
Cualquier W( X
), estimador insesgado de
2
, por ejemplo W( X
) = S
2
=
n
i=1
(X
i
X)
2
/(n 1), ha de vericar
V (W( X
))
1
nI
X
(
2
)
=
2
4
n
.
En particular, S
2
no alcanza la cota de Cramer-Rao:
V (S
2
) =
2
4
n 1
>
2
4
n
.
Surge la pregunta de si existe alg un estimador insesgado de
2
que alcance la
cota de Cramer-Rao. Si esto no ocurre queda abierta otra pregunta: es S
2
el
mejor estimador insesgado de
2
?
. .
104CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
El siguiente resultado ayuda a contestar la primera de las dos preguntas
surgidas en el ejemplo anterior.
Corolario 4 Sea X
= (X
1
, . . . , X
n
) una muestra aleatoria simple de X con
distribucion dada por f(x|), IR, donde f satisface las hipotesis del teorema
de Cramer-Rao. Sea L(| x
) =

n
i=1
f(x
i
|) la funcion de verosimilitud. Sea
W( X
) = W(X
1
, . . . , X
n
) un estimador insesgado de ().
Entonces W( X
) alcanza la cota de Cramer-Rao si y solo si existe una fun-

cion a() tal que se tiene la igualdad
a()(W( x
) ()) =

log L(| x
)
para todo .
Adem as, esto ocurre si y solo si existen funciones h(), k() y u( x
) tales
que
L(| x
) = u( x
)h() exp(W( x
)k()),
es decir, si y solo si la distribucion de partida pertenece a la familia exponencial.
Demostracion: En la demostracion del teorema de Cramer-Rao se usa el hecho
de que
_
Corr
_
W( X
),

log L(| x
)
__
2
1,
para probar la desigualdad de Cramer-Rao que se dara con igualdad si y solo
si la correlacion anterior es igual a 1 o -1, lo que equivale a decir que existe una
relacion lineal perfecta entre las dos variables, es decir, existen constantes a y b
(que podran depender del valor de ) tales que
log L(| x
) = aW( X
) +b, con probabilidad 1,

luego,
0 = E
_

log L(| x
)
_
= aE(W( x
)) +b = a() +b,
de donde se sigue que b = a(). As,
log L(| x
) = a
_
W( x
) ()
_
, con probabilidad 1.
Para probar la ultima parte del corolario, resolvemos la ecuacion diferencial
log L(| x
) = a()(W( x
) ()) = a()W( x
) +b().
Existiran funciones A() y B() tales que A
() = a() y B
() = b() y por lo
tanto
log L(| x
) = A()W( x
)+B()+C( x
) =L(| x
) = exp(A()W( x
)+B()+C( x
)),
de donde se sigue el resultado buscado para h() = exp(B()), k() = A() y
u( x
) = exp(C( x
)). 2
Ejemplo 53, pagina 103. Continuacion. La funcion de verosimilitud es
L(,
2
| x
) =
1
(2
2
)
n/2
e
(
n
i=1
(x
i
)
2
)/(2
2
)
y la derivada respecto a
2
de su logaritmo es
2
log
_
L(,
2
| x
)
_
=
n
2
4
_
n
i=1
(x
i
)
2
n

2
_
.
Tomando a() =
n
2
4
, se sigue que el estimador insesgado que alcanzara la cota
de Cramer-Rao sera
W( X
) =
1
n
n
i=1
(x
i
)
2
que es calculable si y solo si es conocido. Por lo tanto, si es desconocido la
cota de Cramer-Rao en la estimacion de
2
no es alcanzable. Como ya dijimos
antes, queda abierta la cuestion de saber si S
2
es el mejor estimador insesgado
de
2
. A esto se dara respuesta mas adelante, en la seccion 4.2.3.
. .
4.2.2. Versi on multivariante del teorema de Cramer-Rao.
Consideramos ahora el problema de estimacion en el caso de que la familia
parametrica de distribuciones venga dada por un parametro multidimensional
= (
1
, . . . ,
k
). En este contexto, la extension natural de la informacion
de Fisher es la matriz de informaci on de Fisher, denida como la matriz
I(
) de dimension k k cuyo elemento (i, j) es

I
ij
= E
__
log f( x
i
__
log f( x
j
__
.
Si denimos S( X
) =

log f( x
), el vector de scores, es decir, el

vector gradiente del logaritmo de la funcion de verosimilitud (el vector columna
de derivadas parciales respecto a
1
, . . . ,
k
) se tiene que la matriz de informacion
de Fisher es
I(
) = E[S( X
)S( X
)
t
] = Cov(S( X
)).
Tambien es cierto que si se verican las hipotesis de regularidad H2 y H3,
entonces
I(
) = E(H
log f( x
))
106CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
donde H
log f( x
) es la matriz hessiana de log f( x
): la matriz k k
cuyo elemento (i, j) es
2
j
log f( x
).
Consideremos ahora una funcion univariante de
: = (
) = (
1
, . . . ,
k
).
Sea (
) el gradiente de :
() =
_

1
(
), . . . ,

k
(
)
_
t
.
El siguiente resultado es la version del teorema de Cramer-Rao aplicable en este
contexto.
Teorema 26 Sea W( X
) un estimador insesgado de una transformacion uni-

variante (
) del parametro k-dimensional
. Si se dan las condiciones de

regularidad H
1
, H
2
y H
3
, entonces
V (W( X
)) (())
t
I(
)
1
(()),
con igualdad si y solo si existe una funcion a(
) univariante tal que

a(
)(W( X
) (
)) = ((
))
t
(I(
))
1
S( X
).
Demostracion: Ver, por ejemplo, Arnold (1990), seccion 7.3.2, o Velez y Garca
(1993), paginas 233 y siguientes, para una extension de este teorema en la que
se estima una funcion r-dimensional. 2
Ejemplo 54
Sea

i
un estimador insesgado de
i
, i {1, . . . , k}. Sea (
) =
i
. Denotaremos
por I
ij
al elemento (i, j) de (I(
))
1
. Seg un el teorema anterior, sera
V (
i
) I
ii
.
El teorema de Cramer-Rao univariante nos deca que
V (
i
) I
1
ii
.
Sabemos que en general se cumple que
I
ii
I
1
ii
,
con igualdad si y solo si la matriz I(
) es diagonal. (Vease, por ejemplo, Velez

y Garca 1993, p. 235). Por lo tanto la version multivariante del teorema de
Cramer-Rao mejora la cota de Cramer-Rao univariante.
Se puede probar tambien que si

es un estimador insesgado de
entonces
Cov(

) I(
)
1
es una matriz denida positiva.
. .
Ejemplo 55
Sea (X
1
, X
2
, X
3
) Trinomial(n,
1
,
2
,
3
). Recordemos que X
1
+X
2
+X
3
= n
y que
1
+
2
+
3
= 1, luego hay dos parametros efectivos,
1
y
2
por ejemplo,
pues
3
= 1
1
2
. La funcion de verosimilitud es esta:
L = P(X
1
= x
1
, X
2
= x
2
, X
3
= x
3
|
1
,
2
) =
n!
x
1
!x
2
!x
3
!
. .
K
x
1
1

x
2
2
(1
1
2
)
nx
1
x
2
.
Su logaritmo es
log L = log K +x
1
log
1
+x
2
log
2
+ (n x
1
x
2
) log(1
1
2
).
Calculamos el vector de scores y la matriz hessiana:
S
j
=

j
log L =
x
j
n x
1
x
2
1
1
2
, j = 1, 2.
H
jj
=

2
2
j
log L =
x
j
2
j
n x
1
x
2
(1
1
2
)
2
, j = 1, 2.
H
12
=

2
j
log L =
n x
1
x
2
(1
1
2
)
2
.
As, la matriz de informacion de Fisher es
I(
1
,
2
) = E(H) = E
_
X
1
2
1
nX
1
X
2
(1
1
2
)
2

nX
1
X
2
(1
1
2
)
2
nX
1
X
2
(1
1
2
)
2
X
2
2
2
nX
1
X
2
(1
1
2
)
2
_
=
_
n
1
+
n
11th
2
n
11th
2
n
11th
2
n
2
+
n
11th
2
_
As,
I(
1
,
2
)
1
=
_

1
(1
1
)
n
2
n
2
n
2
(1
2
)
n
_
.
Por el teorema de Cramer-Rao multivariante,
1
(1
1
)/n es la cota para la
varianza de cualquier estimador insesgado de
1
. Si tomamos

1
= X
1
/n, ten-
dremos un estimador insesgado cuya varianza es V (
1
) =
1
(1
2
)/n. Por lo
tanto

1
es eciente.
Si hacemos solo el estudio univariante de la cota de Cramer-Rao para esti-
madores de , tendremos que esa cota es I
1
11
:
I
1
11
=
1
n
_
1
1
+
1
1
1
2
_
1
=

1
(1
1
2
)
(1
2
)n

1
(1
1
)
n
= I
11
.
La cota de Cramer-Rao multivariante es mas precisa que la cota de Cramer-Rao
univariante, en el sentido de que es una cota inferior mayor.
. .
108CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-
Schee
En esta seccion veremos que papel juegan los estadsticos sucientes en la
b usqueda del mejor estimador insesgado de un parametro. En muchos casos
los resultados que veremos aqu permiten escoger un estimador insesgado y
garantizar que es el mejor posible aunque su varianza no alcance la cota de
Cramer-Rao.
Teorema 27 (Teorema de Rao-Blackwell) Sea X
1
, . . . , X
n
una m.a.s. de
X, con densidad (o masa de probabilidad) f(x|). Sea T( X
) un estadstico
suciente para y sea W( X
) un estimador insesgado de (). Denimos

W
T
= E
(W|T).
Entonces,
i. W
T
es funcion unicamente de T( X
) (es decir, no depende de y depende

de la muestra X
solo a traves del valor de T( X
)).
ii. E
(W
T
) = ().
iii. V
(W
T
) V
(W) para todo .

Demostracion:
i. Como T es suciente para la distribucion de X
condicionada a T no
depende del parametro . Por lo tanto, la distribucion condicionada de
W( X
) dado T( X
) tampoco depende de . Por otra parte, E(W|T) es

funcion de T.
ii. Por la ley de la esperanza iterada,
E
(W
T
) = E
(E(W|T)) = E
(W) = ().
iii. Por la ley de la esperanza iterada,
V
(W) = V
(E(W|T))+E
(V
(W|T)) = V
(W
T
)+E
(V
(W|T)) V
(W
T
).
2
La consecuencia fundamental de este teorema es que en la b usqueda del
estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados
que son funcion de un estadstico suciente: si trabajamos con un estadstico
insesgado que no es funcion de uno suciente, tomando esperanzas condicionadas
podemos conseguir otro que es al menos tan bueno como el anterior y es funcion
del estadstico suciente. Este proceso se llama a veces Rao-Blackwellizacion.
Ejemplo 56
Sea X
1
, . . . , X
n
m.a.s. de X Poisson(). Queremos estimar = () = e
.
Sabemos que T( X
) =

n
i=1
X
i
es estadstico suciente para . Observemos
ademas que P(X
1
= 0) = e
y por tanto el estimador W( X
) = I{X
1
= 0} es
un estimador insesgado de . Procedemos por Rao-Blackwell deniendo
= E(W( X
)|T( X
) = t) = P(X
1
= 0|
n
i=1
X
i
= t) =
P(X
1
= 0,
n
i=1
X
i
= t)
P(
n
i=1
X
i
= t)
=
P(X
1
= 0,
n
i=2
X
i
= t)
P(
n
i=1
X
i
= t)
=
P(X
1
= 0)P(
n
i=2
X
i
= t)
P(
n
i=1
X
i
= t)
=
(recordar que

n
i=1
X
i
Poisson(n))
e
e
(n1)
[(n1)]
t
t!
e
n
[n]
t
t!
=
_
n 1
n
_
t
.
Por lo tanto
=
_
n 1
n
_
n
i=1
X
i
es un estimador insesgado de mejor que W( X
) = I
{X
1
=0}
.
. .
El siguiente resultado es consecuencia del teorema de Rao-Blackwell y ga-
rantiza la unicidad del estimador UMVUE en caso de que este exista.
Teorema 28 Si W es el mejor estimador insesgado de () (es el UMVUE) y
su varianza es nita, entonces W es unico.
Demostracion: Supongamos que existe otro estimador W
0
insesgado que tiene
tambien varianza mnima. Entonces ha de ser igual a la de W:
V
(W) = V
(W
0
), para todo
(observar que esta varianza mnima no tiene por que coincidir con la cota de
Cramer-Rao). Denimos W
= (W+W
0
)/2, que es tambien estimador insesgado
de (). Calculemos su varianza:
V (W
) =
1
4
V (W) +
1
4
V (W
0
) +
1
2
Cov(W, W
0
)
1
4
V (W) +
1
4
V (W
0
) +
1
2
_
V (W)V (W
0
) =
_
1
4
+
1
4
+
1
2
_
V (W) = V (W).
La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.
Pero la igualdad se da si y solo si Corr(W, W
0
) = 1, o lo que es lo mismo, si y
solo si W
0
= a()W +b(), para algunas funciones a() y b(). En ese caso,
E(W
0
) = a()() +b() = ()
110CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Por otra parte,
V (W) =
_
V (W)V (W
0
) = Cov(W, W
0
) =
Cov(W, a()W +b()) = Cov(W, a()W) = a()V (W),
de donde se sigue que a() = 1 (por ser las varianzas nitas) y, por tanto, que
b() = 0, luego W = W
0
. 2
Nos planteamos ahora estudiar cuando es posible mejorar un estimador que
ya es insesgado. Ello nos ayudara a saber si un estimador insesgado es el mejor:
como mnimo debemos estar seguros de que no puede ser mejorado.
Sea U un estadstico tal que E
(U) = 0 para todo . Diremos que U es un

estimador insesgado de 0, o que U es un ruido blanco. Consideremos
ademas W un estimador insesgado de (). Denimos ahora W
U
= W + aU,
que es tambien un estimador insesgado de (). Calculemos su varianza:
V
(W
U
) = V
(W +aU) = V
(W) +a
2
V
(U) + 2aCov
(W, U).
Intentaremos elegir a de forma que W
U
sea mejor que W al menos para alg un
valor del parametro. Si para =
0
, Cov
0
(W, U) < 0 podemos elegir
0 < a <
2Cov
0
(W, U)
V
0
(U)
.
De esta manera
V
0
(W
U
) < V
0
(W)
lo cual implica que W no puede ser el mejor estimador insesgado (UMVUE) de
(). Del mismo modo puede procederse si Cov
0
(W, U) > 0 para alg un valor
0
del parametro.
El siguiente resultado establece que las covarianzas de los estimadores inses-
gado con los estimadores insesgados de 0 caracterizan los mejores estimadores
insesgados.
Teorema 29 Sea W estimador insesgado de () para todo . W es el mejor
estimador insesgado de () (UMVUE) si y solo si W esta incorrelacionado con
todos los estimadores insesgados de 0, para todo .
Demostracion: Sea W
1
estimador insesgado de () incorrelacionado con los
estimadores insesgados de 0. Sea W
2
otro estimador insesgado de (). Entonces
W
2
W
1
es estimador insesgado de 0. Escribimos W
2
= W
1
+ (W
2
W
1
). As,
V
(W
2
) = V
(W
1
) + 2 Cov
(W
1
, W
2
W
1
)
. .
=0
+V
(W
2
W
1
) V
(W
1
).
Por lo tanto W
1
es UMVUE.
El recproco se prueba por reduccion al absurdo siguiendo el argumento
desarrollado antes del enunciado del teorema: si W es UMVUE y existiese U,
un estimador insesgado del 0 con Cov
0
(W, U) = 0 entonces sera posible mejorar
a W en
0
, lo cual contradice el hecho de que W
1
es UMVUE. 2
Los estimadores insesgados de 0 son simplemente ruidos que no aportan
informacion alguna sobre el parametro. Es razonable pensar que un buen esti-
mador de () no pueda ser mejorado a nadiendole uno de estos ruidos.
En la denicion de estadsticos completos aparece tambien el concepto de
estimador insesgado de 0. Se dice que la familia de distribuciones {f
T
(t|),
} de un estadstico T es completa si se verica la siguiente implicacion:
si E
(g(T)) = 0 para todo entonces P
(g(T) = 0) = 1 para todo .

Es decir, el estadstico T es completo si la unica funcion suya que es estimador
insesgado de 0 es precisamente la funcion identicamente 0.
El teorema de Rao-Blackwell establece que basta con buscar el estimador
UMVUE entre aquellos estimadores que son funcion de un estadstico sucien-
te. Si este estadstico suciente es ademas completo se tiene que no habra esti-
madores de 0 que sean funcion suya y, por tanto, no debemos esperar que un
estimador sea mejorado al sumarle un estimador insesgado de 0 (pues este no
sera funcion del estadstico suciente). Bajo ciertas condiciones (existencia de
estadsticos sucientes y completos y de estimadores insesgados), esta combina-
cion de los conceptos de estadstico completo y de estadstico suciente garantiza
la existencia de estimadores UMVUE de una funcion () del parametro y da un
metodo para construirlos. El siguiente teorema establece este resultado. Pode-
mos decir que este teorema resuelve teoricamente el problema de la estimacion
puntual, entendida esta como la b usqueda del UMVUE.
Teorema 30 (Teorema de Lehmann-Schee) Si T( X
) es un estadstico
suciente y completo para y W( X
) es un estimador insesgado cualquiera de

(), entonces
W
T
( X
) = E
(W|T)
es el mejor estimador insesgado (UMVUE) de (). Si, ademas, V (W
T
) <
para todo , entonces W
T
es unico.
Demostracion: Como ya se vio anteriormente, W
T
( X
) es insesgado: por la
ley de la esperanza iterada,
E
(W
T
( X
)) = E
(E
(W|T)) = E
(W) = ().
Veamos ahora que sea cual sea el estimador insesgado W que se use en la
denicion de W
T
( X
), se obtiene siempre el mismo estimador W

T
( X
). Sea W
otro estimador insesgado de () y sea W
T
= E
(W
|T). Denimos g(T) =

E
(W|T) E
(W
|T). As, E
(g(T)) = () () = 0 y por ser T completo

112CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
se tiene que g(T) = 0 con probabilidad 1, de donde se sigue que W
T
= W
T
con
probabilidad 1.
Concluimos que existe un unico estimador insesgado de () funcion del
estadstico suciente y completo. Veamos que este estimador es el UMVUE. Sea
W
un estimador insesgado de () cualquiera. Por el teorema de Rao-Blackwell,

V
(E(W
|T)) V
(W
), para todo ,
pero acabamos de ver que W
T
= E(W
|T), luego
V
(W
T
) V
(W
), para todo ,
y W
T
es UMVUE.
La unicidad de W
T
esta garantizada por el teorema 28. 2
La demostracion del teorema de Lehmann-Schee se basa en el hecho de que,
si existen estimadores insesgados, esencialmente solo existe uno que sea funcion
del estadstico suciente y completo, pues condicionando cualquiera de los inses-
gados al estadstico suciente y completo se obtiene siempre el mismo resultado.
El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadas
se ha reducido la varianza, llegando as al UMVUE.
La principal conclusion del teorema de Lehmann-Schee es que si existe
un estimador insesgado de () que sea funcion de un estadstico suciente y
completo, entonces es el unico UMVUE de ().
El siguiente resultado se deriva trivialmente del teorema de Lehmann-Schee:
Corolario 5 Si T( X
) es un estadstico suciente y completo, cualquier funcion

suya que tenga esperanza nita es el UMVUE de su esperanza.
Ejemplo 56, pagina 109. Continuacion. Sea X
1
, . . . , X
n
m.a.s. de X
Poisson(). Queremos estimar = () = e
. Sabemos que T( X
) =
n
i=1
X
i
es estadstico suciente para y ademas es completo, por ser la Poisson una
familia exponencial. Hemos visto que
=
_
n 1
n
_
n
i=1
X
i
es un estimador insesgado de . Como es una funcion del estadstico suciente y
completo, es el UMVUE de = e
. Veamos que no alcanza la cota de Cramer-

Rao, es decir, no es eciente para tama nos de muestra nitos. El corolario 4
nos permite probarlo. Puesto que X es eciente para (ver ejemplo 50) por
el corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puede
escribirse as:
log L(| x
) = a()(X )
para todo y cierta funcion a(). Podemos transformar esa expresion as:
log L(| x
) = (a()e
)
_
e
X e
_
de donde se deduce que no existe ning un estimador eciente de e
puesto que
de haberlo tendra que ser
e
X y esa cantidad no es un estadstico al depender

del parametro desconocido . Concluimos que

no alcanza la cota de Cramer-
Rao.
. .
Ejemplo 57
Sea X
1
, . . . , X
n
una m.a.s. de X B(k, ). Se desea estimar la probabilidad de
obtener exactamente un exito, es decir,
() = P
(X = 1) = k(1 )
k1
.
El estadstico
T =
n
i=1
X
i
B(nk, )
es suciente y completo para . El estimador
W = I
{X
1
=1}
es insesgado para (). Por lo tanto, el estimador
W
T
= E
_
I
X
1
=1
|
n
i=1
X
i
_
=
_
n
i=1
X
i
_
es el mejor estimador insesgado de () = P(X = 1). Calculemos W
T
:
(t) = E
_
I
X
1
=1
|
n
i=1
X
i
= t
_
= P
_
X
1
= 1|
n
i=1
X
i
= t
_
=
P(X
1
= 1)P(
n
i=2
X
i
= t 1)
P(
n
i=1
X
i
= t)
=
k(1 )
k1
_
k(n1)
t1
_
t1
(1 )
k(n1)(t1)
_
kn
t
_
t
(1 )
knt
=
k
_
k(n1)
t1
_
_
kn
t
_ =W
T
=
k
_
k(n 1)
n
i=1
X
i
1
_
_
kn
n
i=1
X
i
_ .
. .
114CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
El teorema de Lehmann-Schee resuelve el problema de la b usqueda del UM-
VUE cuando existen simultaneamente un estimador insesgado y un estadstico
suciente y completo. Sin embargo estas dos condiciones no siempre se cumplen.
Es posible encontrar ejemplos en los que no existen estimadores insesgados del
parametro de interes (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995,
donde se prueba que no existe estimador insesgado del cociente p/(1p) odds en
ingles; podra traducirse como ventajas, aunque no existe una traduccion unani-
memente aceptada en un experimento binomial). Ademas, no esta garantizada
la existencia de estadsticos sucientes completos (ver el ejemplo 6.9 de Velez y
Garca 1993, donde se prueba la imposibilidad de encontrar un estimador UM-
VUE en el muestreo de la U(, + 1), donde no existe un estadstico suciente
completo). En el caso de familias exponenciales el teorema 14 s garantiza la
existencia de estadsticos sucientes y completos.
Incluso en el caso de que exista un estimador insesgado y un estadstico
suciente y completo, la aplicacion del teorema de Lehmann-Schee puede dar
lugar a un estimador UMVUE poco sensato. As, Cristobal (1992) (p. 202) cita
el siguiente ejemplo. En el muestreo de la N(, 1), el UMVUE de
2
es (X)
2
(1/n), que no es un estimador recomendable pues puede tomar valores negativos.

Ademas el estimador max{0, (X)
2
(1/n)} tiene menor error cuadratico medio,
lo cual hace inadmisible al estimador UMVUE. Veanse tambien los ejemplos
2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995).
La existencia de estos ejemplos patologicos se debe a que la condicion de
insesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar unica-
mente estimadores con propiedades poco deseables. Pagar el precio de cierto
sesgo puede permitir considerar otros estimadores con mejores propiedades (en
terminos de error cuadratico medio, por ejemplo, o en comportamiento asintoti-
co).
4.3. Comportamiento asintotico
4.3.1. Consistencia
Una sucesion de estimadores W
n
= W
n
(X
1
, . . . , X
n
) es una sucesi on de
estimadores consistentes para el par ametro si para cada > 0 y
para cada , se tiene que
lm
n
P
(|W
n
| < ) = 1,
o equivalentemente, si
lm
n
W
n
= en probabilidad para todo .
Observese que en esta denicion las distribuciones de probabilidad de las suce-
siones de variables aleatorias {W
n
}
n
varan con .
4.3. COMPORTAMIENTO ASINT
OTICO 115
La propiedad de consistencia es un requerimiento mnimo que debe vericar
cualquier sucesion de estimadores, puesto que equivale a pedir que el parame-
tro pueda estimarse con una precision prejada a base de aumentar el tama no
muestral tanto como sea necesario.
El siguiente resultado establece una condicion suciente para que una su-
cesion de estimadores sea consistente. Denotamos por B(W) el sesgo de un
estimador W de : B(W) = E(W) .
Teorema 31 Si la sucesion W
n
de estimadores de verica que
a) lm
n
V
(W
n
) = 0 para todo ,
b) lm
n
B
(W
n
) = 0 para todo ,
entonces W
n
es una sucesion de estimadores consistentes de .
Demostracion: Observese que
E
((W
n
)
2
) = V
(W
n
) +B
2
(W
n
).
Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo > 0
y todo ,
P
(|W
n
| ) = P
((W
n
)
2

2
)
E
((W
n
)
2
)
2
=
1
2
(V
(W
n
) +B
2
(W
n
))
n
0,
lo que equivale a decir que
lm
n
P
(|W
n
| < ) = 1.
2
Los siguientes resultados se derivan de propiedades de la convergencia en
probabilidad de variables aleatorias y son utiles para determinar la consistencia
de transformaciones de estimadores consistentes.
Teorema 32 Sea {W
n
}
n
una sucesion consistente para .
1. Si {a
n
}
n
y {b
n
}
n
son sucesiones de n umeros reales tales que lm
n
a
n
= 1
y lm
n
b
n
= 0, entonces, {a
n
W
n
+b
n
}
n
es consistente para .
2. Si g es una funcion continua denida en , entonces {g(W
n
)}
n
es una
sucesion consistente para g().
3. Si {V
n
}
n
es una sucesion de estimadores consistentes para y g(, )
es una funcion continua para todo (, ), entonces {g(W
n
, V
n
)}
n
es una
sucesion consistente para g(, ).
116CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Demostracion: Los dos primeros apartados se deducen del tercero. La prueba
de este, basada en las deniciones de convergencia en probabilidad y de con-
tinuidad de una funcion, puede verse, por ejemplo, en Arnold (1990) (teorema
6-8). 2
Ejemplo 58
Sean X
j
B(n
j
, p
j
), j = 1, 2, dos variables aleatorias independientes. Se
dene el odds ratio (podra traducirse como tasa de ventajas, aunque no existe
una traduccion unanimemente aceptada)
= (p
1
, p
2
) =
p
2
1p
2
p
1
1p
1
=
p
2
1 p
2
1 p
1
p
1
.
Podemos estimar p
j
mediante p
j
= X
j
/n
j
, que por la ley debil de los grandes
n umeros es estimador consistente de p
j
, j = 1, 2. Usando entonces el estimador
basado en el principio de sustitucion, tenemos el siguiente estimador de :
= ( p
1
, p
2
) =
X
2
/n
2
(1 X
1
/n
1
)
(1 X
2
/n
2
)X
1
/n
1
=
X
2
(n
1
X
1
)
(n
2
X
2
)X
1
.
Si n
1
y n
2
tienden simultaneamente a (es decir, si lmn
j
/(n
1
+n
2
) = a
j
> 0,
j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de

:
= ( p
1
, p
2
) (p
1
, p
2
) = en probabilidad,
es decir,

es estimador consistente de .
. .
4.3.2. Normalidad asintotica
El estudio de la distribucion de un estimador para un tama no muestral
n nito es a menudo complejo y en ocasiones involucra calculos practicamente
imposibles de llevar a cabo. Por otra parte, la comparacion de medias y varianzas
de estimadores para n nito puede ser poco adecuada (por ejemplo, el estimador
de p
j
/(1p
j
) visto en el ejemplo 58 no estara denido con probabilidad positiva,
puesto que P(X
j
= n
j
) > 0).
En muchas ocasiones solo es posible realizar estudios del comportamiento
asintotico (cuando n tiende a innito) de los estimadores. Ya hemos estudiado
una propiedad asintotica: la consistencia. Veremos ahora que es posible medir la
velocidad de convergencia de estimadores consistentes y as seleccionar los que
convergen al verdadero valor del parametro mas rapidamente.
Ejemplo 59
Sea X
1
, . . . , X
n
m.a.s. de X Poisson(), = { : 0 < < }. En este
OTICO 117
modelo, el estimador de momentos de coincide con el maximo verosmil:

n
=
X
n
. La distribucion exacta de

es conocida: es la de una Poisson(n) dividida
por n. Sin embargo esta es poco manejable y resulta mucho mas util aproximarla
por una distribucion mas sencilla a la que se acerca asintoticamente.
La version del teorema central del lmite para variables aleatorias indepen-
dientes e identicamente distribuidas puede aplicarse porque V (X) = < .
As,
n(
n
)
N(0, 1) debilmente,
es decir, para todo y para todo w IR,
P
w)
_
n(w )
_
donde es la funcion de distribucion de la normal estandar. La aproximacion
es tanto mejor cuanto mayores son n o .
Observese que

n
es consistente pues, por las leyes de los grandes n umeros,
n
= X
n

P
E(X) = . As,

n
0 en probabilidad y tambien en
distribucion. Esta convergencia a la distribucion degenerada en 0 no nos informa
de la velocidad a la que

n
se acerca a ni de como lo hace (se distribuyen las
observaciones de

n
simetricamente alrededor de ?, por ejemplo).
El hecho de que V (
n(
n
)) = para todo n indica que la velocidad a
la que

n
se acerca a es la misma con la que 1/
n se acerca a 0: multiplicar
por

n es la forma de estabilizar las diferencias (
n
), es la estandarizacion
adecuada.
El resultado derivado del teorema central del lmite, la distribucion asintoti-
ca de
n(
n
) es N(0, ), responde a la pregunta de como es la aproximacion
n
a : los valores del estimador se distribuyen alrededor del verdadero valor del
parametro igual que los valores de una variable aleatoria N(0, ) se distribuyen
alrededor de 0.
. .
Ejemplo 60
En la estimacion del parametro de una U(0, ), los siguientes son estima-
dores consistentes: T
n
= 2X
n
, W
n
= max
i=1...n
X
i
. De ellos, el primero con-
verge a mas lentamente que el segundo: por el teorema central del lmite
T
n
=

n(T
n
) converge debilmente a una distribucion no degenerada (con-
cretamente a una N(0,
2
/3)), mientras que W
n
=

n(W
n
) converge en
probabilidad a la distribucion degenerada en 0 (la varianza de W
n
y su sesgo
como estimador de 0 tienden a 0, luego el teorema 31 garantiza que W
n
es
estimador consistente de 0). Podemos decir entonces que T
n
converge a a la
misma velocidad que 1/
n converge a 0, mientras que W

n
converge a a mayor
118CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
velocidad.
. .
A menudo sera posible tambien comparar estimadores que convergen a la
misma velocidad mediante lo que llamaremos varianza asintotica.
Ejemplo 60, pagina 117. Continuacion. El estadstico basado en la me-
diana, S
n
= 2 mediana{X
1
, . . . , X
n
}, tambien es estimador consistente de y
ademas se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que
S
n
=
n(S
n
) N(0,
2
) debilmente.
Por lo tanto, T
n
y S
n
convergen a a la misma velocidad (como 1/
n va a 0),
pero la varianza de la distribucion a la que converge T
n
(la version centrada y
normalizada de T
n
) es menor que la varianza de la distribucion lmite de S
n
.
Se dira entonces que T
n
tiene menor varianza asintotica que S
n
y, por lo tanto,
sera T
n
sera preferible a S
n
.
. .
En la practica la gran mayora de los estimadores usuales, convenientemente
centrados y normalizados, tienen distribucion asintotica normal. Se dice que
presentan normalidad asint otica y se denota
n
AN(, v
n
)
cuando
1
v
n
(
n
)
D
N(0, 1).
A la cantidad v
n
se la llama varianza asint otica de

n
. El teorema central
del lmite es el responsable de la normalidad asintotica de muchos estimadores.
La normalidad asintotica no solo aparece en estimadores univariantes, sino
tambien en estimadores multivariantes, como muestra el siguiente ejemplo.
Ejemplo 61
Sean {(X
n
, Y
n
)
t
}
nIN
una sucesion de variables aleatorias bivariantes indepen-
dientes y distribuidas como la variable aleatoria bivariante (X, Y )
t
, la cual se
supone con momentos de segundo orden nitos. Se desea estimar (
X
,
Y
)
t
=
(E(X), E(Y ))
t
. Utilizaremos como estimador (X
n
, Y
n
)
t
, el par formado por
las medias muestrales de los primeros n pares de variables aleatorias (X
i
, Y
i
)
t
,
i = 1, . . . , n.
La distribucion de una variable aleatoria bivariante esta caracterizada por
las distribuciones de las combinaciones lineales arbitrarias de sus componentes
OTICO 119
(esto se debe a que el calculo de la funcion generatriz de momentos bivariante de
(X, Y )
t
en el punto (s, t)
t
equivale a calcular la funcion generatriz de momentos
de sX + tY en el punto 1). Del mismo modo, para encontrar la distribucion
asintotica de una sucesion de variables aleatorias bivariantes solo es necesario
encontrar la distribucion asintotica de combinaciones lineales arbitrarias de sus
componentes. As se reduce el problema bivariante a problemas univariantes.
Calculemos la distribucion asintotica de
n
__
X
n
Y
n
_
Y
__
.
Sean a, b n umeros reales arbitrarios. Las variables aleatorias aX
i
+ bY
i
, i =
1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y
por el teorema central del lmite
n
_
1
n
n
i=1
(aX
i
+bY
i
) E(aX +bY )
_
D
N(0, V (aX +bY )),
que puede reescribirse as:
_
a
n(X
n
X) +b
n((Y )
n
Y
)
_
D
N(0, a
2
V (X) +b
2
V (Y ) + 2abCov(X, Y ))
Consideremos la variable aleatoria normal bivariante
_
U
V
_
N
2
__
0
0
_
,
_
V (X) Cov(X, Y )
Cov(X, Y ) V (Y )
__
.
La distribucion de aU +bV es la misma que la distribucion lmite de a
n(X
n
X) +b
n(Y
n
Y
), de donde se sigue que
a
n(X
n
X) +b
n(Y
n
Y
)
D
aU +bV,
y como a y b son arbitrarios se sigue que
n
__
X
n
Y
n
_
Y
__
D
_
U
V
_
,
normal bivariante.
. .
4.3.3. Metodo delta
En muchos casos, solo sera de interes el comportamiento del estimador alre-
dedor del verdadero valor del parametro. Si ademas el estimador es una funcion
120CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
suave de un estadstico cuyo comportamiento asintotico es conocido, esa fun-
cion podra linealizarse en un entorno del verdadero valor del parametro, lo cual
facilitara enormemente el estudio asintotico del estimador.
Ejemplo 59, pagina 116. Continuacion. Queremos estimar = P(X =
0) = e
. Por el principio de invariancia, el estimador maximo verosmil de es
n
= e
X
n
, dado que X
n
es el estimador maximo verosmil de .
El teorema 32 garantiza la consistencia de

n
, porque X
n
es consistente para
y g() = e
es una funcion continua. Estamos interesados ahora en encontrar

la distribucion asintotica de
n(
n
) =
n(e
X
n
e
).
La herramienta en la que nos basaremos para hallar esa distribucion asintotica
es el m etodo delta.
. .
Presentaremos en primer lugar el m etodo delta univariante y, mas ade-
lante, se generalizara al caso multivariante. En ambos casos, el fundamento
teorico que sustenta el metodo delta es el desarrollo en serie de Taylor de una
funcion.
Sea f una funcion con derivada en el punto a IR. El desarrollo de primer
orden en serie de Taylor de f alrededor del punto a es
f(x) f(a) +f
(a)(x a),
es decir, la recta tangente a f(x) en x = a. Si existe f
(a), el desarrollo de orden

2 en serie de Taylor de f alrededor de a es
f(x) f(a) +f
(a)(x a) +
1
2
f
(a)(x a)
2
,
aproximacion cuadratica de f(x). El siguiente teorema justica la aproximacion
de una funcion mediante sus desarrollos de Taylor.
Teorema 33 (Formula de Taylor) Si f(x) es una funcion con r + 1 deri-
vadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene
que
f(x) = f(a) +f
(a)(x a) +
1
2
f
(a)(x a)
2
+. . . +
1
r!
f
(r)
(a)(x a)
r
+
1
(r + 1)!
f
(r+1)
((x, a))(x a)
r+1
,
donde (x, a) es un punto de I situado entre x y a, luego |(x, a) a| |xa|.
OTICO 121
Demostracion: Vease, por ejemplo, Spivak (1970), teorema 19.4. 2
El uso que haremos de este teorema sera para desarrollos de primer y segundo
orden.
El siguiente resultado sera util a la hora de establecer la distribucion asintoti-
ca de algunos estimadores. En particular, se usa en la demostracion del metodo
delta.
Teorema 34 (Teorema de Slutzky) Sean {X
n
}
n
e {Y
n
}
n
sucesiones de va-
riables aleatorias, sea X variable aleatoria y sea a una constante. Si X
n

D
X
e Y
n

P
a, entonces
X
n
+Y
n

D
X +a,
X
n
Y
n

D
aX,
si g(x, y) es una funcion de IR
2
en IR continua en (x, a) para todo x del
soporte de X, entonces
g(X
n
, Y
n
)
D
g(x, y).
Demostracion: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del
teorema de la aplicacion continua para variables aleatorias denidas en espacios
metricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la
denicion de convergencia en distribucion (ver, por ejemplo, Schervish 1995,
deniciones B.80 y B.81) diere formalmente de la que habitualmente se usa
cuando se tratan variables aleatorias denidas en IR.
En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostracion
de los apartados 1 y 2 en la que se usa la denicion de convergencia en distri-
bucion basada en la convergencia de las funciones de distribucion. 2
Pasamos ahora a enunciar y probar el resultado conocido como metodo delta.
Teorema 35 (Metodo delta) Sea {a
n
}
n
una sucesi on de n umeros reales ta-
les que a
n

n
y con a
n
= 0 para todo n. Sea

n
una sucesi on de estimadores
de tales que
a
n
(
n
)
D
N(0,
2
)
y sea g(x) una funcion con primera derivada continua en un intervalo que con-
tiene a . Entonces
a
n
(g(
n
) g())
D
N(0, (g
())
2
).
Demostracion: Por el desarrollo de Taylor de primer orden,
g(
n
) = g()+g
((,

n
))(
n
) =a
n
(g(
n
)g()) = g
((,

n
))a
n
(
n
),
122CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
donde |(,

n
) | |
n
|. Observese que

n

P
. En efecto,
n
=
1
a
n
a
n
(
n
)
D
0 N(0,
2
) 0 =
n

P
0 =(,

n
)
P
.
Se ha usado el teorema de Slutzky para las sucesiones Y
n
= 1/a
n

P
0 y
X
n
= a
n
(
n
). Ahora, aplicando el teorema 32, por ser g
continua en se
tiene que g
((,

n
))
P
g
(). Aplicando de nuevo el teorema de Slutzky se

obtiene el resultado deseado:
a
n
(g(
n
) g()) =
g
((,

n
))
g
()
. .
P
1
g
()a
n
(
n
)
D
g
()N(0,
2
) =
D
N(0, (g
())
2
).
2
La sucesion a
n
que habitualmente aparece es a
n
=
n.
Ejemplo 59, pagina 116. Continuacion. Estimamos = P(X = 0) = e
mediante

n
= e
X
n
. Por otra parte,
n(
n
)
D
N(0, ). Ademas g() =
e
es derivable con derivada continua: g
() = e
.
Aplicamos el metodo delta para determinar la distribucion asintotica de

n
:
n(
n
) =
n(e
X
n
e
)
D
N(0, e
2
).
. .
Veremos ahora el m etodo delta multivariante, aplicable cuando el es-
pacio parametrico es multidimensional y se desea estimar una funcion real del
parametro.
Sea f : IR
k
IR una funcion con segundas derivadas parciales en el punto
a
= (a
1
, a
2
, . . . , a
k
). La version multivariante del teorema de Taylor garanti-
za que esa funcion puede aproximarse por su desarrollo en serie de Taylor de
segundo orden alrededor de a
:
f(x
1
, . . . , x
k
) f( a
) +
k
i=1
f( a
)
x
i
(x
i
a
i
) +
1
2
2
f( a
)
x
i
x
j
(x
i
a
i
)(x
j
a
j
)
si x
= (x
1
, . . . , x
k
)
t
esta en un entorno de a
. La aproximacion anterior se puede

escribir en forma vectorial y matricial:
f( x
) f( a
) + ( x
)
t
f( a
) + ( x
)
t
Hf( a
)( x
),
OTICO 123
donde f( a
) es el gradiente de f en a
, el vector de derivadas parciales

f( a
) =
_
f( a
)
x
1
, . . . ,
f( a
)
x
k
_
t
,
y Hf( a
) es la matriz hessiana de f en a
:
Hf( a
) =
_
2
f( a
)
x
i
x
j
_
1ik, 1jk
La aproximacion de primer orden se expresa as,
f( x
) f( a
) + ( x
)
t
f( a
),
y es util para probar el siguiente resultado.
Teorema 36 (Metodo delta multivariante) Sea {a
n
}
n
una sucesion de n ume-
ros reales tales que a
n

n
y con a
n
= 0 para todo n. Sea

n
= (
n1
, . . . ,

nk
)
una sucesion de estimadores de
tales que
a
n
(

)
D
N
k
( 0
, V ),
y sea g( x
) una funcion con primeras derivadas parciales continuas en una bola

abierta que contiene a . Entonces
a
n
(g(

n
) g(
))
D
N
k
( 0
, (g())
t
V (g())).
Demostracion: Ver, por ejemplo, Arnold (1990), teorema 6-16. 2
Lo mas usual es que la sucesion a
n
sea a
n
=
n.
Ejemplo 58, pagina 116. Continuacion. Buscaremos la distribucion asintoti-
ca del estimador del odds-ratio = (p
1
, p
2
) = (p
2
/(1 p
2
))((1 p
1
)/p
1
):
n
=
_
X
1
n
1
,
X
2
n
2
_
=
X
2
(n
1
X
1
)
(n
2
X
2
)X
1
.
En primer lugar, de lo visto en el ejemplo 61 se sigue que
n
_
X
1
n
1
p
1
,
X
2
n
2
p
2
_
D
N
2
_
_
0
0
_
,
_
p
1
(1p
1
)
1
0
0
p
2
(1p
2
)
2
__
,
donde
j
= lm(n
j
/(n
1
+n
2
)) > 0, j = 1, 2.
El gradiente de la funcion (x, y) = (y(1 x))/(x(1 y)) tiene por compo-
nentes
(x, y)
x
=
y
(1 y)x
2
,
(x, y)
y
=
1 x
(1 y)
2
x
.
124CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
As,
n(
n
)
D
N(0,
2
),
donde la varianza
2
es
2
=
_
p
2
(1 p
2
)p
2
1
,
1 p
1
(1 p
2
)
2
p
1
_
_
p
1
(1p
1
)
1
0
0
p
2
(1p
2
)
2
__
p
2
(1p
2
)p
2
1
1p
1
(1p
2
)
2
p
1
_
=
_
p
2
(1 p
2
)p
2
1
_
2
p
1
(1 p
1
)
1
+
_
1 p
1
(1 p
2
)
2
p
1
_
2
p
2
(1 p
2
)
2
=
_
p
2
(1 p
1
)
(1 p
2
)p
1
_
2
_
1
p
1
(1 p
1
)
1
+
1
p
2
(1 p
2
)
2
_
=
2
_
1
p
1
(1 p
1
)
1
+
1
p
2
(1 p
2
)
2
_
.
Por lo tanto, la varianza asintotica de

n
es
2
n

2
_
1
p
1
(1 p
1
)n
1
+
1
p
2
(1 p
2
)n
2
_
.
. .
4.3.4. Eciencia relativa asint otica
Sea T
n
( X
) = T
n
(X
1
, . . . , X
n
) una sucesion de estimadores de una funcion
() que verica lo siguiente:
n(T
n
( X
) ())
D
N(b(),
2
()).
Si b() = 0 diremos que T
n
( X
) es asintoticamente insesgado (en econometra

se dice que T
n
es

n-consistente). En caso contrario, diremos que T
n
( X
) es
asintoticamente sesgado.
Ejemplo 62
Sea X
1
, . . . , X
n
, . . . son variables aleatorias independientes e identicamente dis-
tribuidas con esperanza y varianza 1, y sea T
n
( X
) = X
n
+ a/
n para una
constante a = 0. Se tiene que
n(T
n
( X
) ) =
n(X
n
) +a
D
N(a, 1),
luego T
n
es asintoticamente sesgado: la diferencia entre la esperanza del esti-
mador y el parametro estimado, multiplicada por

n, no tiende a 0. Observese
que, no obstante, T
n
es un estimador consistente de :
T
n
( X
) = X
n
+a/
n
P
+ 0 = .
. .
4.4. TEOR
IA ASINT
OTICA PARAEL ESTIMADOR M
AXIMO VEROS
IMIL125
Sean dos sucesiones T
n
( X
) y S
n
( X
) de estimadores de () asintoticamente
normales:
n
_
T
n
( X
) ()
_
D
N(0,
2
T
()),
n
_
S
n
( X
) ()
_
D
N(0,
2
S
()).
Se dene la eficiencia relativa asint otica de S
n
respecto a T
n
como
ARE(, S
n
, T
n
) =
1/
2
S
()
1/
2
T
()
=

2
T
()
2
S
()
.
El valor de la eciencia relativa asintotica puede interpretarse como el cocien-
te de los tama nos de muestra necesarios para obtener la misma precision asintoti-
ca (o la misma varianza asintotica) mediante los dos estimadores en la estima-
cion de (). En efecto, si elegimos tama no muestral m para T y n para S, las
varianzas asintoticas son, respectivamente,
2
T
()/m y
2
S
()/n. Si forzamos a
que ambas sean iguales, se tiene que
2
T
()
m
=

2
S
()
n

m
n
=

2
T
()
2
S
()
= ARE(, S
n
, T
n
).
Es decir, si ARE(, S
n
, T
n
) = 0,5 entonces S es menos eciente que T asintotica-
mente: para tener la misma precision con el estimador S hace falta una muestra
el doble de grande que si utilizasemos T (ARE = 0,5 = m/n =n = 2m).
4.4. Teora asint otica para el estimador maximo
verosmil
Sea X una variable aleatoria con funcion de densidad (o de masa) f(x|),
. Sea L(| x
n
) =
n
i=1
f(x
i
|) la funcion de verosimilitud de una muestra
de tama no n de X: X
1
, . . . , X
n
.
Teorema 37 Supongamos que se verican las siguientes condiciones:
C1: El par ametro es identicable, en el sentido de que distintos valores de
dan lugar a distintas distribuciones de probabilidad para X.
C2: El conjunto {x : f(x|) > 0} es el mismo para todo .
C3: La cantidad
e(
0
, ) = E
0
_
log
_
f(X|)
f(X|
0
)
__
existe para todo par ,
0
en .
Entonces, para todo =
0
se verica que
126CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
a)
E
0
_
log
_
L(| X
n
)
L(
0
| X
n
)
__
< 0.
b)
lm
n
P
0
{L(
0
| X
n
) > L(| X
n
)} = 1.
Demostracion: Probemos a). Si f(x|) es una funcion de densidad, se tiene
que
E
0
_
f(X|)
f(X|
0
)
_
=
_
f(x|)
f(x|
0
)
f(x|
0
)dx = 1.
Analogo resultado se obtiene si f(x|) es funcion de masa.
Como log u < u 1, para todo u IR {1}, se tiene que
log
_
f(x|)
f(x|
0
)
_
<
_
f(x|)
f(x|
0
)
1
_
salvo si f(x|) = f(x|
0
). Por la hipotesis C1 eso no puede ocurrir en un conjunto
de xs de medida 1, luego
E
0
_
log
_
L(| X
n
)
L(
0
| X
n
)
__
= nE
0
_
log
_
f(x|)
f(x|
0
)
__
< nE
0
_
f(x|)
f(x|
0
)
1
_
= 0,
y a) queda probado.
Veamos ahora b). Por la ley debil de los grandes n umeros,
1
n
log
_
L(| X
n
)
L(
0
| X
n
)
_
=
1
n
n
i=1
log
_
f(X
i
|)
f(X
i
|
0
)
_
n
e(
0
, ) en probabilidad.
Por a), el lmite e(
0
, ) es estrictamente menor que 0. Por tanto, si se toma ,
con 0 < < e(
0
, ), se tiene que
P
0
_
1
n
log
_
L(| X
n
)
L(
0
| X
n
)
_
> 0
_
< P
0
_
1
n
log
_
L(| X
n
)
L(
0
| X
n
)
_
e(
0
, )
>
_
n
0,
porque si x > 0, e < 0 y < e, entonces |x e| = x e > e > . Pero
P
0
{L(
0
| X
n
) > L(| X
n
)} = 1 P
0
_
L(| X
n
)
L(
0
| X
n
)
> 1
_
=
1 P
0
_
1
n
log
_
L(| X
n
)
L(
0
| X
n
)
_
> 0
_
n
1,
lo que completa la prueba. 2
Observar que el apartado b) del teorema puede interpretarse as: la vero-
similitud es maxima en el verdadero valor
0
del parametro, si la muestra es
sucientemente grande.
4.4. TEOR
IA ASINT
AXIMO VEROS
IMIL127
Teorema 38 Supongamos que ademas de C1, C2 y C3, se verican tambien
C4: es un conjunto abierto.
C5: f(x|)/ es continua en .
Entonces, con probabilidad que tiende a 1 cuando n tiende a innito, existe una
sucesion {
n
}
n
de races de la ecuacion del score
log L(| X
n
) = 0
(la que se resuelve para hallar el estimador de maxima verosimilitud de ) que
converge al verdadero valor del parametro
0
en probabilidad.
Demostracion: Por C4, existe > 0 tal que (
0
,
0
+ ) . Se denen
los conjuntos
S
n
= { x
n
X : L(
0
| x
n
) > L(
0
| x
n
) y L(
0
| x
n
) > L(
0
+| x
n
)}.
Por el teorema 37,
P
0
( X
n
S
n
)
n
1.
La condicion C5 implica la continuidad de L(| x
n
) y de su derivada parcial
respecto a . As, para todo x
n
S
n
, debe existir

n
=

n
( x
n
) (
0
,
0
+),
maximo local de L(| x
n
). Ese maximo local ha de satisfacer
log L(| X
n
)
n
= 0.
Puede haber mas de un maximo local en (
0
,
0
+ ) y, por lo tanto, mas
de una solucion de la ecuacion del score (tambien puede haber mnimos locales
entre las soluciones). Llamemos

n
=

n
( x
n
) a la solucion mas cercana a
0
que
sea maximo local. Entonces |
n

0
| < y esto es cierto para todo x
n
S
n
.
Por lo tanto
P
0
{X
n
: |
n
( X
n
)
0
| < } P
0
{X
n
S
n
} 1
de donde se sigue que
n

P
.
2
El teorema 38 demuestra que siempre existe una raz de la ecuacion de score
(que ademas es maximo local) que es consistente. Sin embargo, cuando la raz no
es unica (cuando no es el unico maximo local) la determinacion de

n
depende
del verdadero valor
0
, lo cual hace que

n
no sea un estimador del parametro.
El teorema 38 es realmente interesante cuando la ecuacion del score tiene raz
unica, porque en este caso esa raz es el estimador maximo verosmil de y el
128CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
teorema garantiza su consistencia. Si la funcion de verosimilitud es estrictamente
concava, entonces se tiene la unicidad, y como consecuencia la consistencia del
estimador maximo verosmil.
El siguiente teorema establece la normalidad asintotica de las sucesiones con-
sistentes de races de la ecuacion del score, cuya existencia garantiza el teorema
38.
Teorema 39 Supongamos que ademas de vericarse C1, C2, C3, C4 y C5, se
verican tambien las hipotesis H1 y H2 del teorema de Cramer-Rao (teorema
25) y la siguiente hipotesis:
C6: Existe

3
3
log f
(x), cuyo valor absoluto esta acotado por una funcion

K(x) tal que E
[K(X)] k.
Sea {
n
}
n
una sucesion consistente de races de la ecuacion del score:

n

P
0
, si
0
es el verdadero valor del parametro. Entonces
n(
0
)
D
N
_
0,
1
I(
0
)
_
,
donde
I(
0
) = lm
n
1
n
I
X
n
(
0
) = I
X
(
0
).
Demostracion: Hacemos el desarrollo de Taylor de segundo orden de la funcion
score
S(| X
n
) =

log L(| X
n
)
en torno a
0
y la evaluamos en

n
:
0 = S(
n
| X
n
) = S(
0
| X
n
)+
(
0
)

S(
0
| X
n
) +
1
2
(
0
)
2

2
2
S(
n
,
0
)| X
n
)
donde |
n
,
0
)
0
| |
n

0
|. Dividiendo la expresion anterior por

n se
obtiene la siguiente:
0 =
1
n
S(
0
| X
n
)+
n(
0
)
_
1
n
S(
0
| X
n
) +
1
2n
2
S(
n
,
0
)| X
n
)(
0
)
_
.
Por otra parte, el teorema central del lmite implica que
1
n
S(
0
| X
n
) =
1
n
n
i=1
log f(X
i
|)
=
0
D
N(0, I
X
(
0
)),
puesto que log f(X
i
|)/ son variables aleatorias independientes e identica-
mente distribuidas con esperanza 0 y varianza I
X
(
0
) < .
4.4. TEOR
IA ASINT
AXIMO VEROS
IMIL129
Ademas, por la ley debil de los grandes n umeros,
1
n
S(
0
| X
n
) =
1
n
n
i=1
2
log f(X
i
|)
=
0
P
I
X
(
0
) = E
_
2
log f(X|)
=
0
_
.
Usando de nuevo la ley de los grandes n umeros, se tiene que
1
n
|

2
2
S(
n
,
0
)| X
n
)|
1
n
n
i=1
3
log f(X
i
|)
1
n
n
i=1
K(X
i
)
P
E(K(X)) k,
1
n
|

2
2
S(
n
,
0
)| X
n
)| esta acotado en probabilidad por
k: para todo > 0, la probabilidad de que esa cantidad sea menor que k +
tiende a 1. En denitiva, y dado que

n

P

0
, se tiene que
1
2n
2
S(
n
,
0
)| X
n
)(
0
)
P
0.
Combinado los resultados anteriores, podemos escribir
n(
0
) =
_
1
n
S(
0
| X
n
)
. .
P
I
X
(
0
)
1
2n
2
S(
n
,
0
)| X
n
)(
0
)
. .
P
0
_
_
1
1
n
S(
0
| X
n
)
. .
D
N(0,I
X
(
0
))
y, por el teorema de Slutzky, concluir que
n(
0
)
D
N
_
0,
1
I
X
(
0
)
_
.
2
El enunciado del teorema 39 puede generalizarse al caso de variables alea-
torias no identicamente distribuidas. Por eso se expresa la varianza lmite del
estimador maximo verosmil en terminos de I(
0
) en lugar de hacerlo directa-
mente en terminos de la informacion de Fisher de X.
El resultado del teorema 39 puede expresarse diciendo que el estimador maxi-
mo verosmil

n
de
0
es asintoticamente normal:
n
AN(
0
, (nI
X
(
0
))
1
).
Observese que el estimador maximo verosmil es asintoticamente insesgado y
asint oticamente eficiente, puesto que su varianza lmite coincide con la
cota de Cramer-Rao.
130CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Para basar la inferencia sobre el parametro en ese resultado es preciso
estimar la informacion de Fisher I
X
(
0
) = nI
X
(
0
). El siguiente resultado
proporciona dos estimadores de esa cantidad.
Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los es-
tadsticos O
n
y E
n
denidos como
O
n
=
2
log L(| X
n
)
n
,
E
n
= I
X
n
(
n
),
divididos por n son estimadores consistentes de I
X
(
0
). Es decir, tanto O
n
, la
informaci on observada evaluada en el maximo, como E
n
, la informaci on
esperada evaluada en el maximo, estiman consistentemente la informacion de
Fisher contenida en la muestra acerca del parametro.
Demostracion:
O
n
n
=
1
n
2
log L(| X
n
)
n
=
1
n
2
log L(| X
n
)
=
0
1
n
3
log L(| X
n
)
(
0
,
n
)
(
0
)
donde |
n
,
0
)
0
| |
n

0
|. El termino de las derivadas terceras tiende
a 0 en probabilidad mientras que el primer termino converge en probabilidad a
I
X
(
0
), por la ley de los grandes n umeros (ver la demostracion del teorema 39).
Por otra parte,
E
n
n
=
1
n
I
X
n
(
n
) = I
X
(
n
)
P
I
X
(
0
)
por la consistencia de

n
y la continuidad de I
X
(), (garantizada por la condicion
C6). 2
Podemos escribir entonces que el estimador maximo verosmil

n
de es
n
AN
_
0
,
1
O
n
_
o

n
AN
_
0
,
1
E
n
_
.
En general, si se esta estimando una transformacion suave del parametro
() por maxima verosimilitud se tiene que
n((
n
) (
0
))
D
N
_
0,
(
(
0
))
2
I
X
(
0
)
_
.
4.4. TEOR
IA ASINT
AXIMO VEROS
IMIL131
Ejemplo 63
Estimacion maximo verosmil de un parametro de la distribucion de
Weibull.
Sea X
1
, . . . , X
n
m.a.s. de X W(2, ):
f(x, ) =
2
xe
x
2
/
, 0 x , > 0.
L(| x
n
) =
2
n
n
_
n
i=1
x
i
_
e
(
n
i=1
X
2
i
)/
l (| x
n
) = K nlog
1
i=1
X
2
i
S(| x
n
) =

l (| x
n
) =
n
+
1
2
n
i=1
X
2
i
S(| X
n
) = 0 =

n
=
1
n
n
i=1
X
2
i
S
(| X
n
)
n
=
_
n
2

2
3
n
i=1
X
2
i
_
n
=
n
2
n
< 0
Por lo tanto la verosimilitud es estrictamente concava y

n
es la unica solucion de
la ecuacion del score, as que es un maximo (es el estimador maximo verosmil)
y es estimador consistente de .
La informacion observada es
2
l (|X
n
)
2
= S
(| X
n
) =
n
2
+
2
3
n
i=1
X
2
i
que evaluada en el estimador maximo verosmil vale
O
n
= S
(| X
n
)
n
=
_
2
+
2
3
n
i=1
X
2
i
_
n
=
n
2
n
=
n
3
n
i=1
X
2
i
.
Por su parte, la informacion esperada (la informacion de Fisher, de hecho) es
I
X
n
() = E(S
(| X
n
)) =
n
2
+
2n
3
E(X
2
) =
n
2
+
2n
3
=
n
2
,
que evaluada en el estimador maximo verosmil vale
E
n
= I
X
n
(
n
) =
n
2
n
=
n
3
n
i=1
X
2
i
= O
n
.
As pues, en este ejemplo, tanto la informacion observada como la esperada valen
lo mismo al ser evaluadas en el estimador maximo verosmil y, por lo tanto, solo
tenemos un estimador consistente de la informacion de Fisher.
132CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Volvamos a la expresion del logaritmo de la verosimilitud para deducir (por
el corolario 4) que el estimador maximo verosmil tambien es el UMVUE en este
problema:
l (| x
n
) = K nlog
1
i=1
X
2
i
=

l (| x
n
) =
+
1
2
n
i=1
X
2
i
=
n
2
_
n
i=1
X
2
i
n

_
.
Por otra parte,
1
n
l (| X
n
)
P
log

0
= E
0
[log f(X|)]
y si derivamos respecto a ,
0
[log f(X|)] =

0
2
de donde se sigue que E
0
[log f(X|)] alcanza su maximo en =
0
.
Tenemos as que l (| X
n
)/n se maximiza en

n
y que E
0
[log f(X|)] se
maximiza en
0
. Ademas, la diferencia entre l (| X
n
)/n y E
0
[log f(X|)] es
peque na y va a 0 cuando n crece, y las dos funciones varan suavemente en .
De ello se desprende que la diferencia entre los puntos que las maximizan,
0
y
n
, han de ser tambien peque nas y deben ir a 0 cuando n crece, por lo tanto
n

P

0
.
E(log f(X|))

l(|Xn,2)/n
l(|Xn,1)/n
. .
4.4. TEOR
IA ASINT
AXIMO VEROS
IMIL133
Ejemplo 64
En este ejemplo extendemos los resultados uniparametricos al caso multipa-
rametrico.
Sean Y
1
, . . . , Y
n
variables aleatorias independientes tales que Y
i
Bern(p
i
),
i = 1, . . . , n, que siguen el modelo de regresion logstico, es decir, existen cova-
riantes Z
1
, . . . , Z
n
y parametros desconocidos y tales que
log
_
p
i
1 p
i
_
= +Z
i
, i = 1, . . . , n.
Es posible despejar p
i
:
p
i
=
exp( +Z
i
)
1 + exp( +Z
i
)
.
Ello permite escribir la verosimilitud de la muestra:
L(, ) =
n
i=1
p
y
i
i
(1 p
i
)
1y
i
=
n
i=1
_
p
i
1 p
i
_
y
i
(1 p
i
).
El logaritmo de la verosimilitud es
l (, ) =
n
i=1
_
y
i
log
_
p
i
1 p
i
_
+ log(1 p
i
)
_
=
n
i=1
_
y
i
( +Z
i
) + log
_
1
1 + exp( +Z
i
)
__
Las ecuaciones de los scores son estas:
l (, )
=
n
i=1
_
Y
i
exp( +Z
i
)
1 + exp( +Z
i
)
_
=
n
i=1
(Y
i
p
i
),
l (, )
=
n
i=1
_
Y
i
Z
i
Z
i
exp( +Z
i
)
1 + exp( +Z
i
)
_
=
n
i=1
Z
i
(Y
i
p
i
).
Estas ecuaciones se resuelven por metodos numericos genericos o bien aplicando
algoritmos especcos para este problema que consisten en la iteracion de es-
timaciones por mnimos cuadrados ponderados. Sobre este tema pueden verse,
por ejemplo, la seccion 10.3 de Garthwaite, Jollife y Jones (1995), o la seccion
14.5.2 de Pe na (1995).
Las componentes de la matriz de informacion observada son
2
l (, )
2
=
n
i=1
p
i
(1 p
i
),
2
l (, )
=
n
i=1
Z
i
p
i
(1 p
i
),
134CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
2
l (, )
2
=
n
i=1
Z
2
i
p
i
(1 p
i
).
Como la matriz de informacion observada no depende de las variables aleatorias
Y
i
, esta matriz coincide con su esperanza: la matriz de informacion de Fisher.
La matriz de informacion asintotica tiene por componente (l, m), l = 1, 2,
m = 1, 2,
I
lm
(, ) = n lm
n
1
n
n
i=1
Z
l+m2
i
p
i
(1 p
i
)
y son necesarias condiciones sobre la sucesion de covariantes Z
i
que garantizen
la existencia de estos lmites. Una posibilidad es suponer que las Z
i
son variables
aleatorias independientes e identicamente distribuidas, con lo cual el problema
se convierte en uno de variables aleatorias independientes e identicamente dis-
tribuidas puro.
. .
Ejemplo 56, pagina 109. Continuacion. Veremos ahora que el metodo de
maxima verosimilitud no es el unico que da lugar a estimadores asintoticamente
ecientes.
Sea X
1
, . . . , X
n
m.a.s. de X Poisson(). Queremos estimar = () =
e
. Sabemos que
n
=
_
n 1
n
_
n
i=1
X
i
es el UMVUE de = e
. Sabemos tambien que no alcanza la cota de Cramer-

Rao, es decir, no es eciente para tama nos de muestra nitos.
Estudiaremos su distribucion asintotica tomando logaritmos y usando el
metodo delta:
log(
n
) =
n
i=1
X
i
log
n 1
n
= X
n
(nlog(1 1/n)) .
Sabemos que

n(X
n
)
D
N(0, ) y que, como veremos al nal de este
ejemplo,
nlog(1 1/n)
n
1 y

n[1 +nlog(1 1/n)]
n
0.
As,
n(log

n
log ) =
n(log

n
+) =
n
_
X
n
nlog(1 1/n) +
_
=
[nlog(1 1/n)]
n(X
n
) +
n[1 +nlog(1 1/n)]

D
N(0, ).
4.4. TEOR
IA ASINT
AXIMO VEROS
IMIL135
Por lo tanto, aplicando el metodo delta para () = e
n(
n
e
)
D
N(0, e
2
).
Ya habamos visto que la cota de Cramer-Rao es
(
())
2
I()
= e
2
,
Luego se tiene que

n
es asintoticamente eciente, al igual que lo era el estimador
de maxima verosimilitud e
X
n
tal como se vio en el ejemplo 59, pagina 116.
Falta por comprobar que se da la convergencia
n[1 +nlog(1 1/n)]

n
0. Para probarlo, llamemos l al lmite y observemos que
l = lm
x
1 + log
_
1
1
x
_
x
1/
x
.
Aplicando la regla de lHopital y operando se llega a que
l = 2
_
lm
x
1 + log
_
1
1
x
_
x
1/
x
lm
x
1
x
x1
1/
x
_
= 2l 2 0 = 2l,
de donde se sigue que l = 0.
. .
136CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
Error cuadratico medio. Estimadores insesgados. Opti-
malidad
1. Sea X N(0,
2
). Se toma una m.a.s. de X de tama no n.
a) Construye a partir de ella dos estimadores insesgados de , uno de-
pendiente de la suma de los cuadrados de las observaciones y otro de
la suma de sus valores absolutos.
b) Compara sus varianzas.
2. Considera los tres estimadores maximo verosmiles de correspondientes a
los problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema
11 de la lista 3.4). Prueba que cada estimador es insesgado en cada una
de las tres situaciones descritas en esos problemas y calcula la varianza de
cada estimador en cada situacion.
3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y
1
, . . . , Y
n
variables aleatorias
independientes que satisfacen
Y
i
= x
i
+
i
, i = 1, . . . , n,
donde x
1
, . . . , x
n
son constantes conocidas,
1
, . . . ,
n
son v.a.i.i.d. seg un
N(0,
2
),
2
desconocido.
a) Da un estadstico bidimensional suciente para (,
2
).
b) Halla el estadstico maximo verosmil de (llamalo

1
), prueba que
es centrado y da su distribucion.
c) Comprueba que
2
=
n
i=1
Y
i
n
i=1
x
i
es estimador insesgado de .
d) Comprueba que
3
=
1
n
n
i=1
Y
i
x
i
es estimador insesgado de .
e) Compara las varianzas de los tres estimadores de .
1
, . . . , X
n
una muestra de una poblacion con
esperanza IR y varianza
2
> 0.
a) Prueba que un estimador de la forma

n
i=1
a
i
X
i
es insesgado para
si y solo si

n
i=1
a
i
= 1.
b) Entre todos los estimadores de esta forma (llamados estimadores li-
neales insesgados) encuentra aquel que tenga varianza mnima.
5. (Casella-Berger, 7.40) Sean W
1
, . . . , W
k
estimadores insesgados de un parame-
tro con varianzas V (W
i
) =
2
i
, y Cov(W
i
, W
j
) = 0 si i = j.
a) Prueba que entre todos los estimadores de de la forma

a
i
W
i
con
a
1
, . . . , a
k
constantes y E(
a
i
W
i
) = , el que menor varianza tiene
es
W
W
i
/
2
i
1/
2
i
.
b) Calcula la varianza de W
.
1
, . . . , X
n
una muestra de X N(,
2
= 1).
a) Comprueba que la cota de Cramer-Rao para la estimacion de
2
es
4
2
/n.
b) Muestra que el mejor estimador insesgado de
2
es X
2
(1/n).
c) Calcula su varianza (Indicacion: Usa la identidad de Stein, que pue-
des encontrar en Casella-Berger, seccion 4.7).
d) Comprueba que este estimador no alcanza la cota de Cramer-Rao
para la estimacion de
2
.
1
, X
2
y X
3
una m.a.s. de una U(, 2), > 0.
a) Dar el estimador de los momentos de y llamalo

1
.
b) Dar el estimador maximo verosmil de , al que llamaremos

2
, y
encontrar una constante k tal que k
2
sea insesgado para .
c) Cual de esos dos estimadores puede ser mejorado mediante el uso
de un estadstico suciente? Como se mejora? Llama

3
al etimador
mejorado.
d) Se han observado los valores 1.29, 0.86, 1.33, procedentes de una
U(, 2). Utiliza los tres estimadores propuestos en los apartados an-
teriores para estimar a partir de esos datos.
8. (Casella-Berger, 7.43) Se mide el radio de un crculo con un error aleatorio
distribuido como una N(0,
2
). Se toman n medidas independientes del
radio.
a) Proponer un estimador insesgado del area del crculo.
b) Es el mejor estimador insesgado?
c) Alcanza la cota de Cramer-Rao?
9. En cada una de las tres situaciones descritas en los problemas 14, 15 y
16 de la lista 1.6, alcanza el estimador maximo verosmil correspondiente
la cota de Cramer-Rao? (Nota: los estimadores fueron calculados en el
problema 11 de la lista 3.4.)
1
, . . . , X
n
v.a.i.i.d. seg un una Bern(p).
138CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
a) Muestra que el estimador maximo verosmil de p es insesgado y al-
canza la cota de Cramer-Rao.
b) Para n 4, prueba que el producto X
1
X
2
X
3
X
4
es un estimador
insesgado de p
4
.
c) Utiliza el apartado anterior para encontrar el mejor estimador inses-
gado de p
4
.
1
, . . . , X
n
v.a.i.i.d. con funcion de distribu-
cion F(x; ) y sean Y
1
, . . . , Y
m
v.a.i.i.d. con funcion de distribucion G(x; ).
Se supone que ambos grupos de variables son independientes. Se supone
que los estadsticos T = T(X
1
, . . . , X
n
) y W = W(X
1
, . . . , X
n
) son es-
tadsticos sucientes y completos para y , respectivamente, y que
E
(T) = , V
(T) < , E
(W) = , V
(W) < .
Encuentra el mejor estimador insesgado de .
12. (Ex. junio 2000) Sea X N(, 1). Queremos estimar =
2
a partir de
una observacion de X.
a) Indica si los tres estimadores de siguientes,
1
= X
2
1,

2
= X
2
,

3
= X
2
+ 1,
se pueden obtener como resultado de buscar los siguientes estimado-
res de :
1) el estimador maximo verosmil,
2) el estimador insesgado uniformemente de mnima varianza (UM-
VUE),
3) el estimador Bayes si la funcion de perdida es cuadratica y la
distribucion a priori de es plana (es decir, () es constante).
b) Calcula el error cuadratico medio de los estimadores

i
, i = 1, 2, 3.
Hay alg un estimador inadmisible?
c) Da un estimador que sea mejor que los tres anteriores en terminos
de error cuadratico medio. (Indicacion: Recuerda que =
2
> 0.
Con que probabilidad sera negativo

1
?).
d) El estimador UMVUE alcanza la cota de Cramer-Rao?
Comportamiento asintotico
13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X
1
, . . . , X
n
que verican que
E
(X
i
) = +b, V
(X
i
) =
2
< ,
con b = 0 conocida.
a) Prueba que X no es un estimador consistente de .
b) Dene un estimador insesgado de que sea consistente.
14. (Casella-Berger, 7.62) Sea la m.a.s. X
1
, . . . , X
n
de X f(x; ) = 0,5(1 +
x)I
(1,1)
(x), donde 1 < < 1. Dar un estimador consistente de y
probar que lo es.
15. (Casella-Berger, 7.63) Se toma una m.a.s. X
1
, . . . , X
n
de X N(, ), con
V (X) = > 0.
a) Prueba que el estimador maximo verosmil de ,

, es una raz de la
ecuacion de segundo grado
2
+W = 0, donde W = (1/n)
n
i=1
X
2
i
,
y determina cual de las dos races es el estimador maximo verosmil.
b) Da una aproximacion de la varianza de

utilizando las propiedades
asintoticas del estimador maximo verosmil.
c) Da una aproximacion de la varianza de

utilizando aproximaciones
por series de Taylor.
16. (Casella-Berger, 7.64) Una variacion del modelo propuesto en el ejercicio
3 consiste en permitir que los regresores sean variables aleatorias inde-
pendientes e identicamente distribuidas: se tienen n variables aleatorias
Y
1
, . . . , Y
n
que satisfacen
Y
i
= X
i
+
i
, i = 1, . . . , n,
donde X
1
, . . . , X
n
son v.a.i.i.d. seg un una N(,
2
), = 0, y
1
, . . . ,
n
son
v.a.i.i.d. seg un una N(0,
2
), y las variables Xs y las s son independien-
tes. La varianza de los tres estimadores que se proponan en aquel ejercicio
es difcil de calcular exactamente, por lo que es conveniente encontrar sus
valores aproximados.
Aproxima en terminos de ,
2
y
2
las esperanzas y varianzas de los
estimadores siguientes:
a)

n
i=1
X
i
Y
i
/
n
i=1
X
2
i
.
b)

n
i=1
Y
i
/
n
i=1
X
i
.
c) (1/n)
n
i=1
(Y
i
/X
i
).
17. (Casella-Berger, 7.65) Sea X B(n, p), n conocida y 0 < p < 1. Sea p el
estimador maximo verosmil de p construido a partir de X. La varianza
de p es p(1 p)/n, que puede estimarse mediante p(1 p)/n.
a) Calcula la esperanza de p(1 p).
b) Usa un desarrollo de Taylor para aproximar la varianza de p(1 p).
c) Presenta la aproximacion anterior alg un problema?
140CAP
ITULO 4. ESTIMACI
ON DE ESTIMADORES
18. (Examen junio 2000) Consideremos muestras de tama no n de X N(, 1)
y el problema de estimar = e
. Tomamos como estimador de

= e
X
.
Da su distribucion asintotica y usa el metodo delta para aproximar su
sesgo.
19. (Examen julio 2000) Sea X una variable aleatoria con funcion de densidad
f(x; a, ) = e
(xa)
I
[a,)
(x)
con a R y > 0.
a) Calcula los estimadores de maxima verosimilitud de a y .
A partir de ahora supondremos que a es conocido.
b) Da la expresion del estimador maximo verosmil de ,

, e indica cual
es su distribucion asintotica.
c) Queremos estimar
2
= V (X) = 1/
2
. Que estimador es asintotica-
mente mas recomendable,
2
1
o
2
2
, donde

2
1
=
1
2
,
2
2
= S
2
=
1
n 1
n
i=1
(X
i
X)
2
?
Indicaciones:
El coeciente de apuntamiento de una v.a. Y se dene como
CAp(Y ) = E[(Y E(Y ))
4
]/V (Y )
2
.
Si Y Exp() entonces CAp(Y ) = 9.
Si
4
= E[(Y E(Y ))
4
] y
2
= V (Y ), entonces
V (S
2
) =
1
n
_
n 3
n 1
2
2
_
Si Y es la media aritmetica de una m.a.s. de tama no n de Y
Exp(), entonces
E(Y
4
) =
1
4
+
6n
2
+ 3n + 14
n
3
4
d) Usa el metodo delta para dar la expresion aproximada del sesgo de
e
1/(Xa)
como estimador de e
.
Captulo 5
Contrastes de hipotesis
Referencias: Casella-Berger, captulo 8 y Garthwaite, Jollife y
Jones (1995), captulo 4, referencias generales; Garthwaite, Jollife y
Jones (1995), seccion 7.4., para contrastes bayesianos;
Una hip otesis estadstica es una conjetura o una armacion sobre la
distribucion de una o mas variables aleatorias. Un contraste de hip otesis
(o un test de hip otesis o una prueba de hip otesis) es un procedimiento
para decidir si se acepta o se rechaza una hipotesis.
5.1. Deniciones basicas. Contraste de hipotesis
simples
Usualmente se dispone de una muestra X
1
, . . . , X
n
de una variable aleatoria
X con distribucion F y funcion de densidad (o funcion de masa) f. Sobre la
distribucion de X se realizan dos armaciones entre las que se debe decidir. En
general esas dos armaciones seran excluyentes. El tratamiento que se da a las
dos hipotesis no es simetrico y esto se reeja en el nombre que reciben: una se
llama hip otesis nula y la otra hip otesis alternativa. Se denotan por H
0
y
H
1
, respectivamente. Se dice que en un test de hipotesis se contrasta H
0
frente
a H
1
.
La hipotesis nula es mas conservadora en el sentido de que no sera rechazada
a menos que la evidencia muestral en su contra sea muy clara. Esta hipotesis
suele establecer un modelo sencillo para la distribucion de X (por ejemplo, si
F pertenece a una familia parametrica, H
0
ja el valor del parametro) o bien
propone como distribucion de X aquella que es com unmente aceptada como una
buena descripcion del fenomeno que modeliza X.
La hipotesis alternativa especica el tipo de alejamiento de la hipotesis nula
que podra presentar la distribucion de X. Puede expresar un modelo gene-
141
142 CAP
ITULO 5. CONTRASTES DE HIP
OTESIS
ral que incluya a H
0
como caso particular. Si un investigador considera que un
fenomeno aleatorio no ha estado adecuadamente modelizado hasta ese momento
y cree tener una explicacion mas satisfactoria, propondra esta como hipotesis al-
ternativa y el modelo vigente como hipotesis nula. Solo si hay evidencia muestral
suciente para rechazar la hipotesis nula, sera aceptada la hipotesis alternativa.
Podemos distinguir tres tipos de pruebas de hipotesis:
A. Suponemos que F (y f) pertenecen a una cierta familia parametrica in-
dexada por un parametro y planteamos el contraste
_
H
0
:
0
H
1
:
1
donde
0

1
= ,
0

1
= .
B. Contrastes de bondad de ajuste (goodness-of-t tests, en ingles):
_
H
0
: f = f
0
H
1
: f = f
0
C. Para dos distribuciones f
0
y f
1
que no necesariamente pertenecen a la
misma familia parametrica, se plantea el contraste
_
H
0
: f = f
0
H
1
: f = f
1
Una hip otesis simple es aquella que especica completamente la distribu-
cion de X. En otro caso, se dice que la armacion es una hip otesis compuesta.
Por ejemplo, si f {f
: IR}, la hipotesis H : =
0
es una hipotesis
simple. La hipotesis H : >
0
es compuesta.
Supongamos que se contrasta H
0
frente a H
1
. Cuando se observa la muestra
x
= (x
1
, . . . , x
n
) se debe decidir si esta presenta o no evidencia suciente para
rechazar H
0
. El subconjunto C del espacio muestral X
n
de muestras para las
cuales se decide rechazar la hipotesis nula en favor de la alternativa se llama
regi on crtica o regi on de rechazo del contraste. El complementario de C
se llama regi on de aceptaci on. Un contraste queda denido por su regi on
crtica C.
5.1.1. Tipos de errores
Al realizar un contraste de hipotesis se pueden cometer dos tipos de errores:
rechazar la hipotesis nula siendo esta cierta (error de tipo I), o no rechazarla
cuando es falsa (error de tipo II). El error de tipo I se considera mas grave
que el error de tipo II, dado que la hipotesis nula es siempre la mas conservadora.
El siguiente esquema ilustra las diversas situaciones.
5.1. DEFINICIONES B
ASICAS. CONTRASTE DE HIP
OTESIS SIMPLES143
DECISI
ON
Aceptar H
0
Rechazar H
0
H
0
Decision Error de
REALIDAD cierta correcta TIPO I
H
0
Error de Decision
falsa TIPO II correcta
Las probabilidades de cometer un error son
P( X
C|H
0
cierta) y P( X
C|H
0
falsa).
Es deseable disponer de contrastes que tengan probabilidades de errores bajas.
Pero en general no es posible dise nar contrastes que tengan ambas probabili-
dades peque nas: cuando un contraste se modica para reducir su probabilidad
de error de tipo I, esta modicacion conlleva un aumento de la probabilidad de
error de tipo II, y viceversa. Observese que si se desea reducir la probabilidad
del error de tipo I, = P
F
( X
C|H
0
), se habran de reducir los puntos de
la region crtica C, pero ello implica que el conjunto C, complementario de C,
aumenta y as la probabilidad de error de tipo II, = P
F
( X
C|H
1
), tambien
crecera en general.
Dado que el error de tipo I se ha considerado mas grave que el error de tipo II,
la practica habitual en el contraste de hipotesis es considerar unicamente pruebas
que garantizan que la probabilidad de cometer un error de tipo I sera inferior
a un valor dado sucientemente peque no (por ejemplo, = 0,01, 0.05 o 0.1)
y buscar entre todas ellas aquella que hace mnima la probabilidad de cometer
un error de tipo II. Al valor se le llama nivel de significaci on del test.
Si el menor valor obtenido para la probabilidad de error de tipo II es
inaceptablemente grande, pueden tomarse dos medidas para reducirlo:
aumentar la probabilidad de error de tipo I permitida, o
aumentar el tama no de la muestra.
Supongamos que la distribucion de X pertenece a una familia parametrica
{f
: } y se contrasta
_
H
0
:
0
H
1
:
1
donde
0

1
= ,
0

1
= . Se dene la funci on de potencia () del
contraste como
() = P
( X
C) =
_
probabilidad de error de tipo I si
0
1 probabilidad de error de tipo II si
1
Para 0 1, un contraste de hipotesis con funcion de potencia () tiene
tama no si
sup
0
() = .
144 CAP
OTESIS
Para 0 1, un contraste de hipotesis con funcion de potencia () tiene
nivel de significaci on si
sup
0
() .
El conjunto de contrastes con nivel de signicacion contiene las pruebas de
tama no .
Un contraste que minimiza = P
( X
C|H
1
) entre aquellos que tienen
tama no se dice que es el contraste m as potente de tama no o el mejor
contraste de tama no .
5.1.2. Lema de Neyman-Pearson
El siguiente resultado determina cual es el contraste mas potente cuando se
contrasta una hipotesis nula simple frente a una alternativa simple.
Teorema 41 (Lema de Neyman-Pearson) Sea X
1
, . . . , X
n
una muestra alea-
toria simple de X con funcion de densidad (o funcion de masa de probabilidad)
f(x; ). Se desea contrastar H
0
: =
0
frente a H
1
: =
1
. Si L(| x
) es la
funcion de verosimilitud, el mejor contraste de tama no tiene region crtica de
la forma
C =
_
x
X
n
:
L(
1
| x
)
L(
0
| x
)
A
_
para alg un A > 0.
Demostracion: Haremos la demostracion solo en el caso de distribucion ab-
solutamente continua. La prueba en el caso discreto es analoga (basta cambiar
integrales por sumatorios y funciones de densidad por funciones de masa de
probabilidad) si el nivel puede alcanzarse exactamente con los valores de la
funcion de masa bajo H
0
(en caso contrario hay que recurrir a un contraste
aleatorizado; sobre este tema se daran referencias cuando se presente el ejemplo
66). En Velez y Garca (1993), paginas 338-339, puede verse una demostracion
valida para el caso discreto y el absolutamente continuo.
Sea A tal que P
0
( x
C) = , donde C = { x
X
n
: L(
1
| x
)/L(
0
| x
)
A}. Sea C
la region crtica de otro test de tama no . Queremos probar que

= P
1
( x
C)
= P
1
( x
).
Calculemos la diferencia
=
_
x
L(
1
| x
)d x
_
x
C
L(
1
| x
)d x
=
_
x
C
L(
1
| x
)d x
+
_
x
C
L(
1
| x
)d x
5.1. DEFINICIONES B
OTESIS SIMPLES145
_
x
CC
L(
1
| x
)d x
_
x
CC
L(
1
| x
)d x
=
_
x
C
L(
1
| x
)d x
_
x
CC
L(
1
| x
)d x
_
x
C
A L(
0
| x
)d x
_
x
CC
A L(
0
| x
)d x
=
A
_
_
x
C
L(
0
| x
)d x
+
_
x
C
L(
0
| x
)d x
_
x
CC
L(
0
| x
)d x
_
x
CC
L(
0
| x
)d x
_
=
A
_
_
x
L(
0
| x
)d x
_
x
C
L(
0
| x
)
_
= A( ) = 0.
2
El contraste que se propone en el Lema de Neyman-Pearson se denomina
tambien test de la raz on de verosimilitudes.
Ejemplo 65
Test Z.
Sea X
1
, . . . , X
n
muestra aleatoria simple de X N(,
2
) con
2
conocido.
Se desea contrastar H
0
: =
0
frente a H
1
: =
1
, con
1
>
0
.
Nuestra intuicion nos dice que se debe rechazar H
0
si se observan valores
grandes de x. Veamos que la aplicacion del Lema de Neyman-Pearson conduce
a esta solucion.
La funcion de verosimilitud de una muestra es
L(| x
) = (2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
)
2
_
y el cociente de verosimilitudes
L(
1
| x
)
L(
0
| x
)
=
(2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
1
)
2
_
(2
2
)
n/2
exp
_
1
2
2
n
i=1
(x
i
0
)
2
_ =
exp
_
1
2
2
n
i=1
_
(x
i
0
)
2
(x
i
1
)
2
_
_
=
exp
_
1
2
2
n
_
2x(
1
0
)
2
+ (
2
0
2
1
)
_
_
As, la region crtica del test de Neyman-Pearson tiene la forma
C = { x
: exp{n(2x(
1
0
)
2
+ (
2
0
2
1
))/2
2
} A}.
146 CAP
OTESIS
Vemos que el cociente de verosimilitudes es funcion creciente del estadstico
minimal suciente x porque
1

0
> 0, y por tanto la region crtica puede
escribirse as:
C = { x
: x B}.
En este caso las constantes A y B se relacionan de este modo:
B =

2
log(A)
n(
1
0
)
+

1
+
0
2
.
Sin embargo no es necesario calcular B a partir de A, sino que es posible deter-
minar su valor teniendo en cuenta que el contraste que se propone tiene tama no
:
P(C|H
0
) = P(X B|H
0
) =
Bajo H
0
la distribucion de la media muestral es X N(
0
,
2
/n), de donde se
deduce que el valor de B debe ser
B =
0
+z
n
.
Supongamos que
0
= 5,
1
= 6,
2
= 1 y = 0,05 y se toman muestras
de tama no n = 4. Acabamos de ver que rechazaremos H
0
: = 5 en favor de
H
1
: = 6 si X
0
+z
n = 5,8225, o equivalentemente si
Z =
X
n
0
/
n
=
X
n
5
1/
4
1,645.
Supongamos que se observa la muestra x
= (5,1, 5,5, 4,9, 5,3), luego la media

muestral vale x = 5,2. Como
z =
x 5
1/
4
= 0,4 1,645
no se rechaza H
0
.
Este contraste se denomina test Z porque usa el estadstico Z =

n(X
n
0
)/, que tiene distribucion N(0, 1) bajo H
0
.
. .
Ejemplo 66
Sean Y
1
, . . . , Y
n
muestra aleatoria simple de Y Bern(p). Se desea contrastar
_
H
0
: p = p
0
H
1
: p = p
1
con p
1
> p
0
. Sea X =
n
i=1
Y
i
B(n, p). La verosimilitud de la muestra es
L(p|x) =
_
n
x
_
p
x
(1 p)
nx
.
5.1. DEFINICIONES B
OTESIS SIMPLES147
Calculamos el logaritmo del cociente de verosimilitudes:
log
_
L(p
1
|x)
L(p
0
|x)
_
= log
_
p
x
1
(1 p
1
)
nx
p
x
0
(1 p
0
)
nx
_
=
xlog(p
1
/p
0
) + (n x) log((1 p
1
)/(1 p
0
))
As, la region crtica del test de Neyman-Pearson sera
C = {x : xlog(p
1
/p
0
) + (n x) log((1 p
1
)/(1 p
0
)) log A} =
{x : x[log(p
1
/p
0
) log((1p
1
)/(1p
0
))] nlog((1p
1
)/(1p
0
)) +log A} =
_
_
_
x : x B =
log(A) nlog((1 p
1
)/(1 p
0
))
log
_
p
1
(1p
0
)
p
0
(1p
1
)
_
_
_
_
Para determinar el valor de B usaremos el hecho de que la distribucion de X es
conocida bajo H
0
y que se desea denir un test con tama no .
Supongamos que n = 10, p
0
= 0,5 y p
1
= 0,8. Para diferentes valores de B
se obtienen contrastes con diferentes tama nos y potencias :
B 0 3 7 8 9
1.000 0.945 0.172 0.055 0.011
0.000 <0.001 0.121 0.322 0.624
Vemos que no es posible construir un contraste de tama no para todos los
valores [0, 1]. Si por ejemplo queremos tener un contraste de tama no =
0,05 hay tres formas de actuar:
considerar que = 0,055 es sucientemente proximo a 0,05 y rechazar H
0
si x 8,
Pensar que 0.05 es la maxima probabilidad de error de tipo I aceptable y,
por tanto, rechazar H
0
si x 9, dando lugar a = 0,011,
Rechazar H
0
si x 9, aceptar H
0
si x 7 y en el caso de que x = 8
aleatorizar la decision: rechazar H
0
con probabilidad y aceptarla con
probabilidad (1), eligiendo de forma que se consiga un tama no exac-
tamente igual a = 0,05. En este ejemplo es 0,8864. Este tipo de
contrastes se denominan tests aleatorizados.
En este curso no consideraremos los tests aleatorizados. En el captulo 18
de Cristobal (1992), por ejemplo, se desarrolla la teora de los contrastes de
hipotesis incluyendo la posibilidad de que estos sean aleatorizados.
. .
148 CAP
OTESIS
En los dos ejemplos anteriores hemos visto que el mejor test de tama no
depende de las observaciones solo a traves del valor que en ellas toma el
estadstico minimal suciente del parametro de interes. El siguiente corolario
establece esto como resultado general.
Corolario 6 En las hipotesis del Lema de Neyman-Pearson, si T es un es-
tadstico suciente del parametro de interes con funcion de densidad (o de
probabilidad) g(t|), el mejor test para el contraste
_
H
0
: =
0
H
1
: =
1
tiene region crtica de la forma
C =
_
t = T( x
) :
g(t|
1
)
g(t|
0
)
A
_
para alg un A 0.
Demostracion: Trivial a partir del Lema de Neyman-Pearson y del Teorema
de Factorizacion (teorema 10). 2
5.1.3. Conclusiones de un contraste: el p-valor
Una forma de informar de los resultados de un contraste de hipotesis es
mediante el tama no del test usado y la decision tomada sobre si se rechazo o
no H
0
. Si es peque no la decision de rechazar H
0
es muy convincente, pero si
es grande la probabilidad de cometer un error de tipo I es grande, lo cual resta
fuerza al test si la decision adoptada es la de rechazar H
0
. Por otro lado, para
muy peque no, el hecho de no rechazar H
0
no se interpretara como un apoyo
indiscutible a esta hipotesis sino como que no fue posible encontrar evidencia
suciente en su contra como para superar la barrera tan restrictiva impuesta
por ese valor de .
Una forma alternativa de presentar los resultados de un contraste de hipotesis
es dar el p-valor o valor de probabilidad del test, denido este como el
supremo de los valores para los cuales se rechazara la hipotesis nula si esta
se contrastase a nivel . El p-valor depende de los datos muestrales. Puede
interpretarse como la probabilidad de observar otra muestra que sea al menos
tan poco favorable a la hipotesis nula como la que se ha observado. A partir del
p-valor se puede tomar la decision de rechazar (respectivamente, aceptar) H
0
si
el p-valor es peque no (respectivamente, grande).
Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearson
es
p = P
0
_
L(
1
| X
)
L(
0
| X
)

L(
1
| x
)
L(
0
| x
)
_
.
5.2. CONTRASTES UNIFORMEMENTE M
AS POTENTES 149
En general, cuando la region crtica de un contraste de tama no es tal que
se rechaza H
0
si y solo si W( x
) c
, donde W( X
) es un estadstico y c
se
elige para que el test tenga tama no , entonces el p-valor del contraste para una
muestra observada x
es
p( x
) = sup
0
P
(W( X
) W( x
)).
Ejemplo 65, pagina 145. Continuacion. En el ejemplo del test Z el p-valor
es
P(X
n
x
n
| =
0
) = P
_
Z
x
n
0
/
n
_
= 1
_
x
n
0
/
n
_
donde es la funcion de distribucion de Z N(0, 1).
En el caso concreto de que = 1,
0
= 5, n = 4 y x = 5,2 se tiene que el
p-valor es
p( x
) = P
_
X
4
5
1/
4

5,2 5
1/
4
_
= P(Z 0,4) = 0,3446
y por tanto no hay suciente evidencia en contra de H
0
como para rechazar esta
hipotesis.
. .
5.2. Contrastes uniformemente mas potentes
Nos ocuparemos ahora de los contrastes de hipotesis en los que la hipotesis
alternativa es compuesta.
Queremos contrastar
_
H
0
:
0
H
1
:
1
donde
0

1
= ,
0

1
= .
Por ejemplo, si = [0, ) podemos contrastar
_
H
0
: =
0
H
1
: >
0
Diremos que se trata de un contraste unilateral.
Si = IR, los contrastes
_
H
0
:
0
H
1
: >
0
y
_
H
0
:
0
H
1
: <
0
150 CAP
OTESIS
son tambien unilaterales y el contraste
_
H
0
: =
0
H
1
: =
0
se dice que es bilateral.
Diremos que un contraste de hipotesis es uniformemente m as potente
(UMP) de tama no para contrastar H
0
:
0
frente a H
1
:
1
si su
funcion de potencia () verica que
sup
0
() =
y para cualquier otro contraste con funcion de potencia
que sea tambien de

tama no , es decir, que cumpla
sup
() = ,
se tiene que
()
(), para todo

1
.
5.2.1. Lema de Neyman-Pearson para alternativas com-
puestas
El siguiente resultado es una extension del Lema de Neyman-Pearson al caso
de hipotesis alternativa compuesta.
Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas)
Se desea contrastar
_
H
0
: =
0
H
1
:
1
= {
0
}
Para cada
1

1
, se consideran los conjuntos
C(
1
) =
_
x
:
L(
1
| x
)
L(
0
| x
)
A(
1
)
_
,
las regiones crticas de los contrastes mas potentes de tama no para contrastar
_
H
0
: =
0
H
1
: =
1
dadas por el Lema de Neyman-Pearson.
Si esas regiones crticas no dependen de
1
, es decir, si C(
1
) = C para todo
1

1
, entonces la prueba estadstica que tiene region crtica C es UMP de
tama no .
AS POTENTES 151
Demostracion: Sea () la funcion de potencia del test que tiene region crtica
C. Por la denicion de C se tiene que este test tiene tama no . Sea
la funcion
de potencia de cualquier otro test de tama no .
Para cualquier
1

1
, por el Lema de Neyman-Pearson el test con region
crtica C es el mejor para contrastar
_
H
0
: =
0
H
1
: =
1
y por lo tanto, (
1
)
(
1
). Como eso ocurre para todo
1

1
se sigue que
(
1
)
(
1
)
para todo
1

1
, luego el test C es UMP de tama no . 2
Ejemplo 67
Sea X
1
, . . . , X
n
2
) con
2
conocido. Se
desea contrastar
_
H
0
: =
0
H
1
: >
0
En el ejemplo 65 se vio que para cualquier
1
>
0
el mejor test para contrastar
H
0
: =
0
frente a H
1
: =
1
tiene por region crtica
C = { x
: x B}, con B =
0
+z
n
.
Por lo tanto, la region crtica es la misma para todos los posibles valores
1

1
= (
0
, ). Se sigue que el contraste con region crtica C es UMP de tama no
para contrastar H
0
frente a H
1
.
La funcion de potencia del test UMP es
() = P( X
C|) = P(X
n

0
+z
n
|) =
P
_
X
n
n

0
n
+z
|
_
= P
_
Z

0
n
+z
_
,
siendo Z N(0, 1).
. .
El siguiente resultado extiende el anterior al caso en el que la hipotesis nula
es tambien compuesta.
Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta:
_
H
0
:
0
H
1
:
1
.
Supongamos que existe un procedimiento de contraste basado en un estadstico
suciente T con region crtica C que satisface las hipotesis siguientes:
152 CAP
OTESIS
1. el test tiene tama no ,
2. existe
0

0
tal que P
0
(T C) = ,
3. si g(t|) denota la funcion de densidad (o de probabilidad) de T, para el
valor
0
cuya existencia garantiza la hipotesis anterior y para cada
1

1
existe un A(
1
) 0 tal que
si
g(t|
1
)
g(t|
0
)
> A(
1
) =t C, y
si
g(t|
1
)
g(t|
0
)
< A(
1
) =t C.
Entonces esta prueba es UMP de tama no para contrastar H
0
frente a H
1
.
Demostracion: Sea () la funcion de potencia del contraste que tiene region
crtica C y sea
() la funcion de potencia de otro contraste que tiene tama no

. Se vericara pues que
(
0
) .
Fijamos un
1

1
y contrastamos H
0
: =
0
frente a H
1
: =
1
. Por el
corolario al Lema de Neyman-Pearson, la region crtica C corresponde al mejor
test, luego (
1
)
(
1
). Esto es valido para todo
1

1
, luego el test con
region crtica C es UMP. 2
5.2.2. Razon de verosimilitud monotona. Teorema de Karlin-
Rubin
En esta seccion veremos que bajo determinadas condiciones es posible encon-
trar tests UMP para contrastes unilaterales cuyas regiones crticas son facilmente
expresables en funcion de un estadstico suciente. Las condiciones necesarias
hacen referencia a la monotona de la razon de verosimilitudes como funcion del
estadstico suciente.
Una familia de funciones de densidad o de probabilidad {g(t|) : } para
una variable aleatoria T tiene raz on de verosimilitudes mon otona (RVM)
si para cada
2
>
1
el cociente g(t|
2
)/g(t|
1
) es una funcion no decreciente de
t para los valores t tales que g(t|
2
) > 0 o g(t|
1
) > 0.
Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H
0
:
0
frente a H
1
: >
0
. Supongamos que T es un estadstico suciente para y que
la familia {g(t|) : } de funciones de densidad de T tiene RVM. Entonces
para cada t
0
el test que rechaza H
0
si y solo si T > t
0
es UMP de tama no
= P
0
(T > t
0
).
Demostracion: Veamos en primer lugar que la funcion de potencia () =
P(T > t
0
|) es creciente. Sea
1
<
2
. Queremos comprobar que (
1
) (
2
).
AS POTENTES 153
El Lema de Neyman-Pearson para contrastar H
0
: =
1
frente a H
1
: =
2
establece que el mejor test tiene region crtica C = { x
: (L(
2
| x
)/L(
1
| x
))
A}. Como T es suciente para , sera L(| x
) = g(T( x
)|)h( x
). Dado que T
tiene RVM el conjunto C es
C =
_
x
:
g(T( x
)|
2
)
g(T( x
)|
1
)
A
_
= { x
: T( x
) t
0
}.
Este contraste tiene tama no
= P(T > t
0
|
1
) = (
1
). Consideremos un
contraste que rechaza H
0
con probabilidad
sea cual sea el valor x
observado.
Su funcion de potencia es
() =
y se trata de un test de tama no
. Por el
Lema de Neyman-Pearson se tiene que
(
2
) = P(T > t
0
|
2
)
() =
= (
1
)
y se concluye que la funcion de potencia () es creciente.
Para demostrar que el test con region crtica { x
: T( x
) > t
0
} es UMP
para contrastar H
0
frente a H
1
usaremos el corolario 7. Para aplicarlo hay que
comprobar que se cumplen sus tres hipotesis:
1. El test tiene tama no . Como () es no decreciente, se tiene que
sup
0
() = (
0
) = = P(T > t
0
|
0
).
2. Existe
0
tal que P
0
(T C) = P(T > t
0
|
0
) = . Esto es cierto por
denicion de t
0
.
3. Para cada
1

1
, existe A(
1
) tal que t C si y solo si (g(t|
1
)/g(t|
0
)) >
A(
1
). Esto se verica si denimos
A(
1
) = nf
tT
g(t|
1
)
g(t|
0
)
,
donde T = {t : t > t
0
y g(t|
1
) > 0 o g(t|
0
) > 0}. Si g(t|
1
)/g(t|
0
) >
A(
1
) entonces t > t
0
, puesto que T tiene RVM. Si t > t
0
entonces
g(t|
1
)/g(t|
0
) >nf
t
g(t|
1
)/g(t|
0
) = A(
1
).
2
Acabamos de ver que frecuentemente se encontraran pruebas UMP para
pruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP para
pruebas bilaterales, como pone de maniesto el siguiente ejemplo.
Ejemplo 68
Sea X
1
, . . . , X
n
2
) con
2
conocido. Se
desea contrastar H
0
: =
0
frente a H
1
: =
0
.
154 CAP
OTESIS
Si contrastamos H
0
frente a H
1
:
0
>
1
, la region crtica del test UMP
es C
1
= { x
: x
n
A
1
}. Si contrastamos H
0
frente a H
1
:
0
<
1
, la region
crtica del test UMP es C
2
= { x
: x
n
A
2
}.
Para contrastar H
0
frente a H
1
parece razonable rechazar H
0
si se observan
valores de la media muestral mucho mayores o mucho menores que
0
:
C = { x
: x
n
A
1
o x
n
A
1
},
donde A
1
y A
2
se eligen para que el test tenga tama no :
P(X
n
A
1
| =
0
) +P(X
n
A
2
| =
0
) = .
La forma de jar A
1
y A
2
puede atender a distintos criterios. Una posibilidad
es elegir A
1
y A
2
de forma que
P(X
n
A
1
| =
0
) = P(X
n
A
2
| =
0
) =

2
,
es decir, A
1
=
0
z
/2
/
n, A
2
=
0
+z
/2
/
n.
Entonces se rechazara H
0
si |X
n
0
| z
/2
/
n. La funcion de potencia
es tal como se reeja en la gura siguiente (curva de trazo continuo).
4 3 2 1 0 1 2 3 4
0
0.2
0.4
0.6
0.8
1
0
=0, =1
F
u
n
c
i
o
n
e
s

d
e

p
o
t
e
n
c
i
a
Este contraste no es UMP porque, por ejemplo, si rechazamos H
0
cuando
X
n

0
+ z
n este contraste tiene potencia superior para >

0
, como
puede verse en la gura anterior (curva de trazo discontinuo).
. .
5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE M
AS POTENTES155
Vemos en el ejemplo anterior que no es posible atender las desviaciones
bilaterales de la hipotesis nula y, a la vez, superar en potencia a los contrastes
que han sido dise nados para detectar desviaciones en una sola direccion.
En los casos en los que no existen tests UMP es posible a un elegir contrastes
que tengan propiedades deseables. Una posibilidad (que sera desarrollada en
la seccion 5.5) es construir pruebas que sean validas en muchas situaciones,
f acilmente aplicables y con buenas propiedades teoricas.
Otra posibilidad es restringir la clase de contrastes considerada y buscar el
test UMP dentro de esa clase. La seccion 5.3 se ocupa de esta alternativa.
5.3. Contrastes insesgados. Contrastes localmen-
te mas potentes
Un contraste de hipotesis para H
0
:
0
frente a H
1
:
1
de tama no
y con funcion de potencia () es un contraste insesgado si () para
todo
1
.
Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la
potencia nunca es menor bajo la hipotesis alternativa que bajo la nula: siempre
es mas probable rechazar la hipotesis nula si esta es falsa que si no lo es. Es
entonces logico restringir la clase de contrastes que se consideran a aquella que
contiene solo contrastes insesgados. Entre estos se buscaran los tests UMP.
Si se adopta este enfoque, puede probarse que en el muestreo de la normal
con
2
conocida (ver ejemplo 68) el contraste que rechaza H
0
: =
0
si
|X
n

0
| z
/2
/
n es insesgado y es UMP en la clase de los contrastes

insesgados. Para una demostracion de este hecho, vease por ejemplo Casella-
Berger, ejemplo 8.3.9.
En la b usqueda de contrastes UMP, un planteamiento alternativo al de redu-
cir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar tests
insesgados UMP) consiste en reducir las hipotesis alternativas que se tienen en
cuenta. En este sentido, es logico buscar procedimientos que sean uniformemen-
te mas potentes solo para las hipotesis alternativas cercanas a la hipotesis nula.
Seran estos contrastes los mas potentes para detectar peque nas desviaciones de
la hipotesis nula. En cada caso concreto se ha de especicar que se entiende por
hipotesis cercanas a la nula.
Supongamos que el parametro es real. Se dice que un test con funcion de
potencia () es el m as potente localmente para contrastar H
0
:
0
(o
H
0
: =
0
) frente a H
1
: >
0
si, para cualquier otro contraste con funcion
de potencia
() tal que (
0
) =
(
0
), existe un > 0 tal que ()
()
para todo (
0
,
0
+].
156 CAP
OTESIS
Veamos como podemos encontrar el test mas potente localmente en este
caso. Restringimos la hipotesis alternativa del siguiente modo:
_
H
0
: =
0
H
1
: =
0
+
para > 0 cercano a 0.
Por el lema de Neyman-Pearson el mejor test tiene region crtica de la forma
L(
0
+; x
)
L(
0
; x
)
A log L(
0
+; x
) log L(
0
; x
) log A.
Desarrollando por Taylor alrededor de = 0, se tiene que
log L(
0
+; x
) log L(
0
; x
) +
log L
=
0
y por tanto el test localmente mas potente se basa en la funcion score
S(
0
; x
) =
log L
=
0
y tiene por region crtica, aproximadamente,
S(
0
; x
) B = z
_
I
0
ya que, bajo H
0
, E[S(
0
; x
)] = 0, V [S(
0
; x
)] = I
0
y S(
0
; x
) es aproximada-
mente normal.
Ejemplo 69
Sea X
1
, . . . , X
n
muestra aleatoria simple de X Cauchy(), con funcion de
densidad
f(x|) =
1
(1 + (x )
2
)
.
Se desea contrastar
_
H
0
: =
0
H
1
: >
0
.
La verosimilitud y su logaritmo son
L(; x
) =
n
i=1
1
(1 + (x
i
)
2
)
, l (; x
) =
n
i=1
_
log + log(1 + (x
i
)
2
)
_
.
La funcion score es
S(; x
) =
n
i=1
2(x
i
)
1 + (x
i
)
2
y la informacion de Fisher
I
=
n
2
.
5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES 157
Asintoticamente la prueba localmente mas potente rechaza H
0
: =
0
en favor
de H
1
: >
0
si y solo si
n
i=1
2(x
i
0
)
1 + (x
i
0
)
2
z
/2
_
n
2
.
. .
Observemos que las pruebas localmente mas potentes son utiles solo para
alternativas unilaterales. Si es un vector, seran utiles cuando nos preocupa
una direccion especca en la que el parametro pueda alejarse de
0
.
5.4. Consistencia y eciencia para contrastes
Las propiedades deseables de los contrastes no se limitan a ser UMP o ser
localmente mas potente. La siguiente es tambien una propiedad que cualquier
test razonable debera cumplir.
Supongamos que un contraste depende del tama no n de la muestra y que su
funcion de potencia se denota por
n
(). Diremos que un contraste es consis-
tente si
lm
n
n
() = 1
para todo
1
. Las pruebas derivadas del Lema de Neyman-Pearson son
consistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977).
Esta denicion lleva aparejado un concepto de eciencia relativa entre con-
trastes. Sean H
0
y H
1
dos hipotesis simples. Dados dos contrastes T
1
y T
2
,
ambos de tama no y consistentes para contrastar H
0
frente a H
1
, se conside-
ran respectivamente los tama nos muestrales n
1
y n
2
mas peque nos necesarios
para obtener potencia mayor o igual que , un valor jo. Se dene la eficiencia
relativa de T
1
comparado con T
2
como
n
2
n
1
.
Se dene la eficiencia relativa asint otica de T
1
comparado con T
2
como
lm
1
n
2
n
1
,
es decir, es el lmite del cociente n
2
/n
1
cuando ambos tama nos muestrales tien-
den a innito conjuntamente, en el sentido de que ambos garantizan potencia
y tiende a 1.
Existen otros conceptos de eciencia relativa entre contrastes que contemplan
la posibilidad de que la hipotesis alternativa tienda hacia la nula cuando n tiende
a innito (eciencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras
deniciones se basan en la comparacion de p-valores (eciencia de Bahadur; ver,
por ejemplo, Shorack y Wellner 1986).
158 CAP
OTESIS
5.5. Test de la razon de verosimilitudes
Sea X
1
, . . . , X
n
muestra aleatoria simple de X, variable aleatoria con funcion
de densidad (o de probabilidad) f(x|) para alg un . Se desea hacer el
contraste
_
H
0
:
0
H
1
:
1
donde =
0

1
y
0

1
= . Se dene el estadstico de la razon de
verosimilitudes como
= ( x
) =
max
0
L(| x
)
max
L(| x
)
.
El test de la raz on de verosimilitudes (tambien llamado test de la
raz on de verosimilitudes generalizado, para distinguirlo del test de Neyman-
Pearson, o test de la raz on de las m aximas verosimilitudes) establece
una region crtica de la forma
C = { x
: ( x
) A}
para alguna constante A que se determinara para que el test tenga el tama no
deseado.
La idea intuitiva que sustenta este metodo de contraste es simple. Observese
que 0 1 y que cuanto mas cercano a 1 sea el valor de , mas verosmil
es que
0
, mientras que cuanto mas se aleje de 1, mas creble sera la
hipotesis alternativa
1
.
Ejemplo 70
Sea X
1
, . . . , X
n
2
), y
2
desconocidos:
el parametro es = (,
2
). Se desea contrastar
_
H
0
: =
0
H
1
: =
0
La verosimilitud es:
L(| x
) = (2
2
)
n/2
exp
_
2
2
2
n
i=1
(x
i
)
2
_
.
El estimador de maxima verosimilitud (MV) bajo H
0
es

= (
0
,
2
), donde

2
=
1
n
n
i=1
(x
i
0
)
2
y el valor de la verosimilitud en ese punto es
max
0
L(| x
) = (2
2
)
n/2
exp
_
n
2
_
.
5.5. TEST DE LA RAZ
ON DE VEROSIMILITUDES 159
El estimador MV en general es

= (x,
2
), donde

2
=
n 1
n
S
2
=
1
n
n
i=1
(x
i
x)
2
,
y el maximo de la verosimilitud es
max
L(| x
) = (2
2
)
n/2
exp
_
n
2
_
.
Por lo tanto,
= ( x
) =
_

2

2
_
n/2
=
_
n
i=1
(x
i
0
)
2
n
i=1
(x
i
x)
2
_
n/2
=
_
n
i=1
(x
i
x)
2
+n(x
0
)
2
n
i=1
(x
i
x)
2
_
n/2
=
_
1 +
t
2
n 1
_
n/2
,
donde t =
n(x
0
)/S
H
0
. Por lo tanto, el estadstico es decreciente en |t|.
La prueba de razon de verosimilitudes rechaza H
0
si < A para alg un A, lo
cual ocurrira si y solo si |t| > B para alg un B. Por lo tanto, la prueba de razon
de verosimilitudes rechaza H
0
si
|x
0
|
S/
n
> B
y B se elige para que el tama no del test sea . Por lo tanto, este test coincide
con el test t bilateral clasico en el muestreo de la normal.
. .
5.5.1. Relacion con el Lema de Neyman-Pearson.
Cuando H
0
y H
1
son hipotesis simples, el estadstico ( x
) vale lo siguiente:
( x
) =
L(
0
| x
)
max{L(
0
| x
), L(
1
| x
)}
= mn
_
1,
L(
0
| x
)
L(
1
| x
)
_
.
El test que rechaza H
0
cuando A tiene la misma region crtica (y, por tanto,
es el mismo contraste) que el que la rechaza cuando L(
1
| x
)/L(
0
| x
) (1/A),
que es la region crtica dada por el test de Neyman-Pearson.
La unica distorsion es que no se pueden construir pruebas de la razon de
verosimilitudes con niveles (1 p, 1), donde p es
p = P
_
L(
0
| x
)
L(
1
| x
)
> 1
H
0
_
,
ya que si rechazamos H
0
cuando ( x
) A < 1, entonces
= P
_
L(
0
| x
)
L(
1
| x
)
A
H
0
_
P
_
L(
0
| x
)
L(
1
| x
)
1
H
0
_
= 1 p
y si tomamos A = 1 entonces el tama no es = 1.
160 CAP
OTESIS
5.5.2. Propiedades de los contrastes de razon de verosimi-
litudes
El estadstico ( x
) del test de la razon de verosimilitudes depende de x
solo a traves del estadstico minimal suciente para . Las propiedades de estos
contrastes para muestras peque nas dependen de la modelizacion parametrica
concreta de que se trate. La siguiente es una propiedad com un a todos los
contrastes de razon de verosimilitudes:
Si H
0
es simple y existe una prueba UMP para contrastar H
0
frente a
H
1
, entonces el test de razon de verosimilitudes coincide con el test UMP.
(Vease Garthwaite, Jollife y Jones 1995, pagina 84, y las referencias all ci-
tadas para una demostracion de esta propiedad.)
Muchas de las propiedades asintoticas de los contrastes de la razon de vero-
similitudes son comunes a todos ellos. Citemos las siguientes:
Bajo las condiciones de regularidad que garantizan que el estimador de
maxima verosimilitud es consistente, se tiene que el test de razon de ve-
rosimilitudes es un test consistente. (Vease Cristobal 1992, pagina 589).
El test razon de verosimilitudes es asintoticamente la prueba insesgada
mas potente. (Vease Garthwaite, Jollife y Jones 1995, pagina 84.)
El test razon de verosimilitudes es asintoticamente eciente, en el sentido
de la eciencia relativa asintotica denida al nal de la seccion 5.3. (Vease
Garthwaite, Jollife y Jones 1995, pagina 85.)
Probaremos el siguiente resultado asintotico, que es util para determinar el
valor crtico A de la denicion del test de la razon de verosimilitudes.
Teorema 44 Sea X
1
, . . . , X
n
muestra aleatoria simple de X, variable aleatoria
con funcion de densidad (o de probabilidad) f(x|) para alg un . Se desea
hacer el contraste
_
H
0
:
0
H
1
:
1
donde =
0

1
y
0

1
= . Bajo las condiciones H1, H2, C1, C2, C3,
C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asintotico
del estimador MV (esas hipotesis aseguran la existencia y continuidad de las
derivadas respecto al parametro de la funcion de verosimilitud, y que el soporte
de las distribuciones no depende del parametro) se tiene que el estadstico
Q
n
= 2 log ( X
n
)
n

2
d
bajo la hipotesis nula, donde d = dim() dim(
0
).
5.5. TEST DE LA RAZ
ON DE VEROSIMILITUDES 161
Demostracion: Haremos la prueba para el caso dim() = 1, dim(
0
) = 0
(luego d = 1). Para el caso general, puede verse, por ejemplo, Cristobal (1992),
Teorema 1.2, pagina 596.
Consideramos el modelo X f {f
: IR} y el contraste
_
H
0
: =
0
H
1
: =
0
As, d = 1 0 = 1. Observese que
Q
n
= 2 log ( X
n
) = 2
_
log L(
n
| x
n
) log L(
0
| x
n
)
_
,
donde

n
es el estimador maximo verosmil de . Desarrollamos l (
0
| x
n
) =
log L(
0
| x
n
) en serie de Taylor alrededor de

n
:
l (
0
| x
n
) = l (
n
| x
n
) +
l (
n
| x
n
)
(
0
n
) +
1
2
2
l (
| x
n
)
2
(
0
n
)
2
donde

es un valor entre

n
y
0
.
As,
Q
n
= 2
_
_
_
_
l (
n
| x
n
)
. .
=0
(
0
n
)
1
2
2
l (
| x
n
)
2
(
0
n
)
2
_
_
_
_
=
2
l (
| x
n
)
2
(
0
n
)
2
.
En el teorema 39 se probo que el estimador maximo verosmil

n
es consistente.
Como ademas |

0
| |
0
| se tendra que bajo H
0

P
H
0

0
.
En el teorema 39 se probo que bajo H
0
1
n
2
l (
| x
n
)
2

P
I
X
(
0
),
y que
n(
0
)
D
N (0, 1ToverI
X
(
0
)) ,
De donde se sigue, por el Teorema de Slutzky, que
Q
n
=
1
n
2
l (
| x
n
)
2
_
n(
0
)
_
2
D

2
1
.
2
El calculo de d, la diferencia entre las dimensiones de y
0
, suele hacerse
como
d =
1
0
,
162 CAP
OTESIS
donde
i
es el n umero de parametros estimados bajo H
i
menos las restricciones
que relacionan unos parametros con otros, para i = 1, 2.
Ejemplo 71
Modelos log-lineales. Sea = {(p
1
, p
2
, p
3
, p
4
, p
5
) IR
5
:

5
j=1
p
j
=
1, y p
j
0, j = 1, . . . , 5}. Sean X
1
, . . . , X
n
variables aleatorias discretas inde-
pendientes e identicamente distribuidas tales que
P
(X
i
= j) = p
j
= f(j|)
es la funcion de probabilidad de X
i
. La verosimilitud asociada a una muestra
de tama no n es
L(| x
) =
n
i=1
f(x
i
|) = p
y
1
1
p
y
2
2
p
y
3
3
p
y
4
4
p
y
5
5
donde y
j
= #{x
i
, i = 1, . . . , n : x
i
= j}, j = 1, . . . , 5.
Se desea contrastar
_
H
0
: p
1
= p
2
= p
3
, p
4
= p
5
H
1
: H
0
es falsa
El espacio parametrico tiene dimension 4, porque los parametros tienen una
ligadura lineal:

5
j=1
p
j
= 1.
Para denir
0
, observemos que bajo H
0
se cumple que p
1
+ p
2
+ p
3
=
3p
1
1, luego 0 p
1
1/3. Ademas, como los p
j
deben sumar 1, se tiene que
3p
1
+ 2p
4
= 1, luego p
4
= (1 3p
1
)/2. As,
0
es
0
= {(p
1
, p
1
, p
1
, p
4
, p
4
) : 0 p
1
1/3, y p
4
= (1 3p
1
)/2}
luego
0
tiene dimension 1. As d = dim() dim(
0
) = 4 1 = 3.
Es sencillo vericar que el EMV global de p
j
es p
j
= y
j
/n. Calculemos ahora
el EMV bajo H
0
. La verosimilitud es
L(p
1
| x
) = p
y
1
+y
2
+y
3
1
_
1 3p
1
2
_
y
4
+y
5
,
de donde se sigue que el EMV de p
1
bajo H
0
es
p
10
=
y
1
+y
2
+y
3
3n
,
que
p
20
= p
30
= p
10
=
y
1
+y
2
+y
3
3n
y que
p
40
= p
50
=
1 3 p
10
2
=
y
4
+y
5
2
.
5.6. CONTRASTES RELACIONADOS CON EL DE M
AXIMA VEROSIMILITUD163
El estadstico ( x
) es entonces
( x
) =
p
y
1
+y
2
+y
3
10
_
13 p
10
2
_
y
4
+y
5
p
1
y
1
p
2
y
2
p
3
y
3
p
4
y
4
p
5
y
5
=
_
y
1
+y
2
+y
3
3y
1
_
y
1
_
y
1
+y
2
+y
3
3y
2
_
y
2
_
y
1
+y
2
+y
3
3y
3
_
y
3
_
y
4
+y
5
2y
4
_
y
4
_
y
4
+y
5
2y
5
_
y
5
.
El estadstico Q
n
= 2 log ( x
) es
Q
n
= 2 log ( x
) = 2
5
j=1
y
j
log
_
y
j
m
j
_
,
donde y
j
= n p
j
, j = 1, . . . , 5, son las estimaciones de las frecuencias en cada una
de las categoras j = 1, . . . , 5 y m
j
= n p
j0
, j = 1, . . . , 5 son las estimaciones bajo
la hipotesis nula. El test de razon de verosimilitudes rechaza H
0
si 2 log ( x
2
3,
.
Este es un ejemplo de una familia de modelos conocidos como modelos log-
lineales. En esta familia el estadstico Q
n
del test de razon de verosimilitudes
tiene siempre la forma que acabamos de ver.
. .
5.6. Contrastes relacionados con el de maxima
verosimilitud
El contraste basado en la razon de verosimilitudes no es el unico procedi-
miento general para realizar contrastes de hipotesis. En esta seccion veremos
otros dos metodos validos para contrastar una hipotesis nula simple frente a
una alternativa compuesta.
Sea X
1
, . . . , X
n
una muestra aleatoria simple de X f
R
k
.
Se desea contrastar
_
H
0
:
0
H
1
:
0
5.6.1. Test del score.
Cuando en la seccion 5.3 buscabamos procedimientos localmente mas poten-
tes, llegamos a un test basado en la funcion score:
S
n
(; x
n
) =
log L(; x
n
)
164 CAP
OTESIS
si IR, o
S
n
(
; x
n
) =
_
log L(
; x
n
)
1
, . . . ,
log L(
; x
n
)
k
_
t
si
= (
1
, . . . ,
k
) IR
k
.
Para contrastar H
0
:
0
frente a H
1
:
0
se propone el
estadstico
T
S
n
= (S
n
(
0
; x
n
))
t
(I
n
(
0
))
1
S
n
(
0
; x
n
),
que, bajo H
0
y suponiendo que se cumplen las condiciones habituales de regu-
laridad, se distribuye asint oticamente como una
2
k
dado que
S
n
(
; x
n
) N
k
(0, I
n
(
0
)).
Para el caso k = 1 se tiene que bajo H
0
T
S
n
= (I
n
(
0
))
1
_
log L(; x
n
)
_
2

2
1
.
El test del score rechaza H
0
si T
S
n
( x
n
) >
2
k,
.
Cualquier estimador consistente de la matriz de informacion asintotica podra
ser usado en lugar de I
n
(
0
). Por ejemplo, pueden usarse la informacion obser-
vada O
n
que se denio en el teorema 40.
Los tests del score se conocen en econometra como tests de los multi-
plicadores de Lagrange.
5.6.2. Test de Wald.
El contraste de H
0
:
0
frente a H
1
:
0
puede basarse tambien
en alguna distancia entre
0
y el estimador de maxima verosimilitud de
n
. Dado que bajo H
0
la distribucion aproximada de

n
es
n
N
k
(
0
, (I
n
(
0
))
1
),
el estadstico
W
n
= (

0
)
t
I
n
(
0
)(

0
)
mide la distancia de Mahalanobish entre
0
y

n
. El test de Wald se basa
en este estadstico. Bajo H
0
,
W
n

2
k
.
Se rechaza H
0
si W
n
( x
n
) >
2
k,
.
Aqu, al igual que ocurra con el test del score, la matriz I
n
(
0
) puede
ser sustituida por otro estimador consistente de la matriz de informacion. Por
ejemplo, puede usarse I
n
(

n
) o la matriz de informacion observada O
n
.
Observese que para calcular el estadstico W
n
solo es necesario calcular el
estimador maximo verosmil global. Por este motivo se le llama a veces test
de la m axima verosimilitud.
Observese que la expresion del test de la razon de verosimilitudes es com-
pletamente diferente de las expresiones de los test del score o de Wald. Sin
embargo, es facil ver (usando desarrollos de Taylor) que los tres contrastes son
asintoticamente equivalentes en el sentido siguiente:
T
S
n
+ 2 log ( x
n
)
P
0, W
n
+ 2 log ( x
n
)
P
0.
En muestras nitas los tres tests pueden presentar diferencias.
Ejemplo 72
En un experimento de Bernoulli con probabilidad de exito p que se repite n
veces, se llama X al n umero de exitos observados: X B(n, p). Se trata de
contrastar las hipotesis
_
H
0
: p = p
0
H
1
: p = p
0
mediante los contrastes de la razon de verosimilitudes, del score y de Wald.
Calculamos el logaritmo de la verosimilitud,
l (p, x
) = log
_
n
x
_
+xlog p + (n x) log(1 p),
y sus primeras derivadas respecto al parametro,
l (p, x
)
p
=
x
p

n x
1 p
=
x np
p(1 p)
,
2
l (p, x
)
p
2
=
x
p
2
+
n x
(1 p)
2
=
x(2p 1) np
2
p
2
(1 p)
2
.
As, el EMV es
p =
x
n
.
y la informacion de Fisher es
I
n
(p) = E
_
2
l (p, x
)
p
2
_
=
n
p(1 p)
.
El estadstico del test del score es
T
S
n
= (I
n
(p
0
))
1
_
l (p, x
)
p
_
2
=
p
0
(1 p
0
)
n
_
x np
0
p
0
(1 p
0
)
_
2
=
(x np
0
)
2
np
0
(1 p
0
)
,
166 CAP
OTESIS
y el del test de Wald
W
n
= ( p p
0
)
2
n
p(1 p)
=
(x np
0
)
2
n p(1 p)
.
Por su parte, el estadstico del test de la razon de verosimilitudes es
(x) =
max
p=p
0
L(p|x)
max
p(0,1)
L(p|x)
=
L(p
0
|x)
L( p|x)
,
y
Q
n
= 2 log (x) = 2 (log L( p|x) log L(p
0
|x)) = 2 (l ( p|x) l (p
0
|x)) =
2 (xlog p + (n x) log(1 p) xlog p
0
(n x) log(1 p
0
)) =
2x(log p log(1 p) log p
0
+ log(1 p
0
)) + 2n(log(1 p) log(1 p
0
)) =
2xlog
1 p
0
1 p
2xlog
p
0
p
2 log
1 p
0
1 p
.
Desarrollando la funcion log en serie de Taylor hasta el orden 2 alrededor del 1,
se obtiene que la expresion aproximada de Q
n
coincide con W
n
.
. .
5.6.3. Contrastes en presencia de parametros secundarios.
Acabamos de ver dos metodos generales (el test del score y el test de Wald)
para construir contrastes cuando la hipotesis nula es simple. Hemos visto que
estan relacionados con el contraste de la razon de verosimilitudes. Sin embargo
este ultimo test es aplicable aun cuando la hipotesis nula sea compuesta.
Veremos ahora que los tests del score y de Wald tambien pueden aplicarse
aunque no todos los parametros del modelo queden jados en la hipotesis nula.
Aquellos parametros a los que H
0
no hace referencia se denominan par ametros
secundarios o par ametros nuisance, en ingles.
Suponemos que el vector de parametros puede subdividirse en dos sub-
conjuntos,
t
= (
t
,
t
), con dimension de igual a p < k, y que se desean
contrastar las hipotesis
_
H
0
: =
0
H
1
: =
0
Sea (
n
,

n
) el EMV de (, ) construido a partir de una muestra de tama no
n. Entonces se tiene que
_

n
n
_
N
k
__
_
, (I
n
(, ))
1
_
.
Se trata ahora de derivar contrastes basados en la distribucion asintotica de
n(
n
).
Escribimos la matriz de informacion de Fisher en bloques,
I
n
(, ) =
_
I
n,
(, ) I
n,
(, )
I
n,
(, ) I
n,
(, )
_
de forma que I
n,
(, ) es la matriz de varianzas-covarianzas de las componen-
tes de la funcion score. Armaciones analogas son ciertas para los restantes
bloques. Observese que I
n,
(, ) = I
n,
(, )
t
. Para facilitar la notacion,
llamaremos I
ij
al bloque (i, j) de I
n
(, ), para i = 1, 2 y j = 1, 2.
Invertimos la matriz I
n
(, ) mediante las formulas de una matriz dividida
en bloques y obtenemos que el bloque correspondiente a la varianza de
n
es
_
I
11
I
12
I
1
22
I
21
_
1
.
As, denimos la informaci on sobre ajustada despu es de haber esti-
mado como el inverso de esa matriz:
I
n,|
(, ) = I
11
I
12
I
1
22
I
21
.
La distribucion marginal aproximada de
n
es

n
N
p
_
,
_
I
n,|
(, )
1
_
.
El estadstico del test de Wald es
W
n
= (
n
0
)
t
I
n,|
(
n
,

n
) (
n
0
) ,
que bajo H
0
tiene distribucion aproximada
2
p
. Se rechazara H
0
a nivel (0, 1)
si W
n
>
2
p,
.
Vamos ahora a deducir la expresion del test del score apropiado para
esta situacion. Se estima mediante

0
, el EMV de calculado suponiendo que
=
0
, es decir, resolviendo en el sistema de ecuaciones S
n,
(
0
, ) = 0. De
las propiedades usuales de los estimadores maximo verosmiles se deduce que
bajo H
0
S
n,
(
0
,

0
) N
p
_
0, I
n,|
(
0
, )
_
.
Por tanto, el estadstico del test del score es
T
S
n
= [S
n,
(
0
,

0
)]
t
_
I
n,|
(
0
,
0
)
1
[S
n,
(
0
,

0
)]
que bajo H
0
es aproximadamente
2
p
(de hecho, es asintoticamente equivalente
a W
n
). Se rechazara H
0
a nivel (0, 1) si T
S
n
>
2
p,
.
Para deducir la prueba de la raz on de verosimilitudes hay que ajustar
tanto el modelo global como el reducido:
Q
n
= 2 log ( x
n
) = 2[l (
n
,

n
) l (
0
,

0
)],
que bajo H
0
es aproximadamente
2
p
y asintoticamente equivalente a W
n
y a
T
S
n
.
168 CAP
OTESIS
Ejemplo 73
Modelo de regresion exponencial. Supongamos que en n individuos inde-
pendientes se mide el valor de una covariable x
i
y el de una variable respuesta
Y
i
. Supongamos que las variables aleatorias Y
i
son exponenciales con tasa de
fallo 1/E[Y
i
] = exp( +x
i
), donde , IR.
Interesa saber si la covariable esta asociada con la respuesta, as que se
plantea el contraste
_
H
0
: = 0
H
1
: = 0
Buscaremos el test de Wald, el del score y el de maxima verosimilitud. Calcula-
mos la verosimilitud:
L(, |(y
i
, x
i
), 1 i n) =
n
i=1
exp( +x
i
) exp(y
i
exp( +x
i
)) =
l (, |(y
i
, x
i
), 1 i n) =
n
i=1
{ +x
i
y
i
exp( +x
i
)} =
n +
n
i=1
x
i
i=1
y
i
exp( +x
i
)
Calculamos las funciones score:
S
(, ) =
l
= n
n
i=1
y
i
exp( +x
i
),
S
(, ) =
l
=
n
i=1
x
i
i=1
y
i
x
i
exp( +x
i
).
Los componentes de la matriz de informacion observada vienen dados por las
derivadas de los scores:
2
l
2
=
n
i=1
y
i
exp( +x
i
),

2
l
=
n
i=1
y
i
x
i
exp( +x
i
),
2
l
2
=
n
i=1
y
i
x
2
i
exp( +x
i
).
Como E(Y
i
) = 1/ exp( + x
i
) para cada i, tomando esperanzas de las expre-
siones anteriores se obtiene la matriz de informacion:
I
n
(, ) =
_
n
n
i=1
x
i
n
i=1
x
i
n
i=1
x
2
i
_
La informacion para ajustada por es
I
|
= I
I
1
=
n
i=1
x
2
i
(
n
i=1
x
i
)
2
1
n
=
n
i=1
(x
i
x)
2
El estimador de maxima verosimilitud conjunto (
n
,

n
) se calcula resolvien-
do numericamente el sistema de ecuaciones
_
S
(, ) = 0
S
(, ) = 0

_
n =
n
i=1
y
i
exp( +x
i
)
n
i=1
x
i
=
n
i=1
x
i
y
i
exp( +x
i
)
Por su parte, el estimador de maxima verosimilitud de bajo la hipotesis nula
de que = 0 puede calcularse explcitamente, pues en ese caso Y
i
son una m.a.s.
de Y exp(exp()), y sabemos que en este caso el EMV es

0
= log(n/
n
i=1
y
i
).
Sea
0
= 0. Ahora tenemos todas los elementos necesarios para calcular los
estadsticos de los trest contrastes:
Test de Wald.
W
n
= (
0
)
t
I
|
(
0
) =

2
n
n
i=1
(x
i
x)
2
H
0

2
1
.
Test del score. El score calculado en el EMV bajo H
0
es
S
(
0
, 0) =
n
i=1
x
i
i=1
y
i
x
i
n
n
i=1
y
i
=
n
i=1
x
i
_
1
y
i
y
_
y tiene varianza aproximadamente igual a
I
|
=
n
i=1
(x
i
x)
2
,
as que
S
(
0
, 0)
_
I
|
=
n
i=1
x
i
_
1
y
i
y
_
_
n
i=1
(x
i
x)
2
H
0
N(0, 1),
luego
T
S
n
=
_
n
i=1
x
i
_
1
y
i
y
_
_
2
n
i=1
(x
i
x)
2
H
0

2
1
.
Test de la razon de verosimilitudes.
2 log =
2
_
n
n
+

n
n
i=1
x
i
i=1
y
i
exp(
n
+

n
x
i
) nlog(n/
n
i=1
y
i
) n
_
que bajo H
0
es aproximadamente
2
1
.
. .
170 CAP
OTESIS
5.7. Contrastes bayesianos
El enfoque bayesiano de los contrastes de hipotesis es conceptualmente dife-
rente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H
0
y
H
1
las hipotesis que se van a contrastar, que en un modelo parametrico seran
armaciones sobre el parametro de la forma
0
y
0
, respectivamente.
En un marco frecuentista las hipotesis son siempre ciertas o estrictamente
falsas, dado que si
0
entonces H
0
es cierta y por tanto
P(H
0
es cierta|x) = 1 para todo x, y P(H
1
es cierta|x) = 0 para todo x,
mientras que si
0
esas probabilidades son, respectivamente, 0 y 1 sea cual
sea el valor de x observado.
En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de
P(H
0
es cierta|x) y P(H
1
es cierta|x),
las probabilidades de que cada una de las hipotesis sean ciertas despues de haber
observado los datos x. Estas probabilidades proporcionan informacion util sobre
la veracidad de H
0
y H
1
.
Sea X
1
, . . . , X
n
una muestra aleatoria simple de X f(x|) y una variable
aleatoria con funcion de densidad (o de probabilidad) a priori (). El contraste
de H
0
frente a H
1
se basara en la distribucion a posteriori (| x
), donde x
es
la m.a.s. de X observada. El contraste planteado es
_
H
0
:
0
H
1
:
1
=
c
0
Las probabilidades a posteriori de cada una de las hipotesis son
P(H
0
es cierta| x
) = P(
0
| x
) =
_
0
(| x
)d,
P(H
1
es cierta| x
) = P(
1
| x
) =
_
1
(| x
)d.
El procedimiento para aceptar o rechazar H
0
podra ser, por ejemplo, recha-
zar H
0
si
P(
0
| x
) < P(
1
| x
)
y aceptarla en caso contrario. Con la terminologa introducida en las secciones
anteriores, el estadstico del contraste sera
T( X
) = P(
0
| X
)
y la region crtica
{ x
: P(
0
| x
) > 1/2}.
Un procedimiento mas conservador consiste en rechazar H
0
solo si la probabi-
lidad de que sea falsa, dados los datos x
, es mayor que c > 1/2 (por ejemplo,

puede tomarse c = 0,95 o c = 0,99).
5.7. CONTRASTES BAYESIANOS 171
Ejemplo 74
Sea X
1
, . . . , X
n
m.a.s. de X N(,
2
), con
2
conocida. La distribucion a
priori de es N(,
2
), con y
2
conocidos. Contrastamos
_
H
0
:
0
H
1
: >
0
Tal como se vio en la seccion 3.3, la distribucion a posteriori de es N(
p
,
2
p
),
donde
p
=
n
2
x +
2
n
2
+
2
,
p
=

2
2
n
2
+
2
.
Rechazar H
0
si y solo si
P(
0
| x
) < P(
1
| x
),
es equivalente a hacerlo si y solo si
P(
0
| x
) <
1
2
,
y como (| x
) es simetrica y centrada en
p
, esto es cierto si y solo si
p
=
n
2
x +
2
n
2
+
2
>
0
x >
0
+

2
(
0
)
n
2
.
. .
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes
En el marco de la inferencia bayesiana, la forma de proceder es determinar
la ventaja a posteriori de H
0
(en ingles, posterior odds),
Q
=
P(H
0
| x
)
P(H
1
| x
)
y la conclusion del contraste se expresa diciendo que H
0
es Q
veces mas probable

que H
1
, dados los datos.
Alternativamente, y dado que P(H
0
| x
) +P(H
1
| x
) = 1, se tiene que
Q
1 +Q
= P(H
0
| x
), y
1
1 +Q
= P(H
1
| x
)
son, respectivamente, las probabilidades a posteriori de que H
0
y H
1
sean ciertas.
Observese que en el enfoque bayesiano se tratan las dos hipotesis, la nula y la
alternativa, de forma simetrica.
172 CAP
OTESIS
Mediante el teorema de Bayes, podemos expresar Q
de la forma siguiente:
Q
=
P(H
0
| x
)
P(H
1
| x
)
=
f( x
|H
0
)P(H
0
)
h( x
)
f( x
|H
1
)P(H
1
)
h( x
)
=
P(H
0
)
P(H
1
)
f( x
|H
0
)
f( x
|H
1
)
= Q B,
donde Q = P(H
0
)/P(H
1
) es la ventaja a priori de H
0
y representa la
creencia del investigador sobre que hipotesis es cierta antes de realizar el experi-
mento, y B = f( x
|H
0
)/f( x
|H
1
) es el factor de Bayes, que determina como
los datos observados han cambiado esas creencias sobre que hipotesis es cierta.
A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las
dos hipotesis. El interes se centra entonces en el factor de Bayes, pues este valor
es el que determina como los datos modican las creencias sobre que hipotesis
es cierta.
En general H
0
especica el modelo muestral f
0
(x|) y una distribucion a
priori para , mientras que H
1
especica otro modelo parametrico f
1
(x|) y
una distribucion a priori sobre . Con esta formulacion, los contrastes baye-
sianos permiten comparar modelos parametricos diferentes. Por ejemplo, en un
problema de regresion lineal se podran comparar dos conjuntos de regresores
diferentes.
Veremos ahora como se concretan los contrastes bayesianos en tres situa-
ciones en las que el modelo parametrico bajo ambas hipotesis es el mismo: el
contraste de dos hipotesis simples, el de dos compuestas y el de una simple frente
a una compuesta.
5.7.2. Contraste de dos hipotesis simples.
Se trata de contrastar
_
H
0
: =
0
H
1
: =
1
Dar una distribucion a priori para el parametro consiste en jar valores para
P(H
0
) y P(H
1
).
En este caso el factor de Bayes es
B =
f( x
|
0
)
f( x
|
1
)
,
que es el cociente de verosimilitudes que sirve de estadstico al test derivado del
Lema de Neyman-Pearson.
Ejemplo 75
Sea X
1
, . . . , X
n
m.a.s. de X exp(). As,
f( x
|) =
n
exp
_
i=1
x
i
_
y
B =
_
1
_
n
exp
_
(
1
0
)
n
i=1
x
i
_
.
La ventaja a posteriori de H
0
es
Q
=
P(H
0
)
P(H
1
)
_
1
_
n
exp
_
(
1
0
)
n
i=1
x
i
_
.
. .
5.7.3. Contraste de dos hipotesis compuestas.
_
H
0
:
0
H
1
:
1
=
c
0
Para cada hipotesis se debe determinar una distribucion a priori del parametro
(estas podran coincidir). Sean
0
(|H
0
) y
1
(|H
1
),
la distribuciones a priori de bajo H
0
y bajo H
1
, respectivamente. As,
f( x
|H
0
) =
_
0
f(x, |H
0
)d =
_
0
f(x|)
0
(|H
0
)d,
y
f( x
|H
1
) =
_
1
f(x, |H
1
)d =
_
1
f(x|)
1
(|H
1
)d,
Por lo tanto, el factor de Bayes es
B =
_
0
f(x|)
0
(|H
0
)d
_
1
f(x|)
1
(|H
1
)d
.
5.7.4. Contraste de hipotesis nula simple frente a alterna-
tiva compuesta.
_
H
0
: =
0
H
1
: =
0
174 CAP
OTESIS
Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este
caso
B =
f(x|
0
)
_
=
0
f(x|)
1
(|H
1
)d
.
Observese que si la distribucion a priori de es absolutamente continua
entonces la probabilidad a posteriori de H
0
sera igual a 0, lo cual implica que
Q
sera siempre 0, sean cuales sean los datos observados, y H

0
sera rechazada
siempre. Sin embargo el factor de Bayes B s es calculable y recoge la informacion
esencial que los datos aportan sobre la veracidad de H
0
y H
1
. En este caso es
posible establecer a priori un valor para Q y denir Q
como el producto de Q
por B.
Ejemplo 76
Sea X
1
, . . . , X
n
m.a.s. de X Poisson(). Se desea contrastar
_
H
0
: =
0
H
1
: =
0
La verosimilitud es
f( x
|) = e
n
n
i=1
x
i
n
i=1
x
i
!
.
Se considera la distribucion a priori de bajo H
1
como la distribucion conjugada,
una (
1
,
2
):
1
(|H
1
) =
1
(
1
+ 1)
1
1
+1
2
1
e
/
2
.
El numerador del factor de Bayes es f( x
|
0
) y el denominador
_
=
0
f(x|)
1
(|H
1
)d =
_
=
0
e
n
n
i=1
x
i
n
i=1
x
i
!
1
(
1
+ 1)
1
1
+1
2
1
e
/
2
d =
(
1
+
n
i=1
x
i
+ 1)
n
i=1
x
i
!(
1
+ 1)
1
+1
2
(n + 1/
2
)
1
+
n
i=1
x
i
+1
_

0
(n + 1/
2
)
1
+
n
i=1
x
i
+1
1
+
n
i=1
x
i
e
(n+1/
2
)
(
1
+
n
i=1
x
i
+ 1)
d =
(
1
+
n
i=1
x
i
+ 1)
1
+1
2
n
i=1
x
i
!(
1
+ 1)(n + 1/
2
)
1
+
n
i=1
x
i
+1
.
As,
B =
e
n
0

n
i=1
x
i
0
n
i=1
x
i
!
(
1
+
n
i=1
x
i
+1)
1
+1
2
n
i=1
x
i
!(
1
+1)(n+1/
2
)
1
+
n
i=1
x
i
+1
=
1
+1
2
e
n
0
n
i=1
x
i
0
(
1
+ 1)(n + 1/
2
)
1
+
n
i=1
x
i
+1
(
1
+
n
i=1
x
i
+ 1)
.
Supongamos que se observan seis datos,
x
1
= 3, x
2
= 1, x
3
= 6, x
4
= 2, x
5
= 5, x
6
= 2,
de donde

x
i
= 19, y que se quieren contrastar
_
H
0
: = 2
H
1
: = 2
con
1
(|
1
) (
1
= 2,6,
2
= 1/0,6).
La esperanza y la varianza a priori son, respectivamente,
E =
2,6 + 1
0,6
= 6, V =
2,6 + 1
0,6
2
= 10.
As, el factor de bayes es
B =
2
19
e
62
(2,6 + 1)(6 + 0,6)
2,6+19+1
0,6
2,6+1
(2,6 + 19 + 1)
= 0,77.
Supongamos que la ventaja a priori de H
0
es Q = 0,5. Entonces, la ventaja a
posteriori es
Q
= Q B = 0,5 0,77 = 0,385

y se concluira que H
1
es la hipotesis cierta.
Supongamos que la distribucion a priori tuviese parametros
1
= 35 y
2
=
1/6. Entonces E = 6 y V = 1. En este caso se llegara a que
B = 3,16 y Q
= 1,58,
luego se seguira que H
0
es la hipotesis correcta. El siguiente graco ilustra las
diferencias entre las dos situcaiones que acabamos de considerar.
176 CAP
OTESIS
0 5 10 15
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Distribuciones a priori
p
(
|
H
1
)
p(|H
1
,
1
=2.6,
2
=0.6)
p(|H
1
,
1
=35,
2
=6)
Media de x
1
,...,x
n
. .
En el contraste de una hipotesis nula simple frente a una alternativa com-
puesta el factor de bayes puede calcularse de un modo alternativo, tal y como
especica por el siguiente teorema.
Teorema 45 Si f(x|) es continua en =
0
, entonces
B = lm
0
(| x
, H
1
)
(|H
1
)
donde (| x
, H
1
) es la densidad a posteriori de y (|H
1
) es la a priori.
Demostracion: Por la hipotesis de continuidad se tiene que
f( x
|H
0
) = lm
0
f( x
|, H
1
).
Como f( x
|, H
1
) = f( x
|H
1
)(| x
, H
1
)/(|H
1
), se tiene que
f( x
|H
0
) = f( x
|H
1
) lm
0
(| x
, H
1
)
(|H
1
)
=B =
f( x
|H
0
)
f( x
|H
1
)
= lm
0
(| x
, H
1
)
(|H
1
)
.
2
Deniciones basicas. Contrastes mas potentes
1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson
para encontrar la region crtica del test mas potente para contrastar H
0
frente a H
1
en las siguientes situaciones.
a) X
1
, . . . , X
n
es m.a.s. de X Poisson(). H
0
: =
0
, H
1
: =
1
,
1
>
0
.
b) X
1
, . . . , X
n
es m.a.s. de X exp(), con = E(X)
1
. H
0
: =
0
,
H
1
: =
1
,
1
>
0
.
c) X
1
, . . . , X
n
es m.a.s. de X N(,
2
), Y
1
, . . . , Y
m
es m.a.s. de Y
N(,
2
), las dos muestras son independientes y
2
y
2
son conocidas.
H
0
: = , H
1
: = +, > 0, y conocidos.
2. (Garthwaite, Jollife y Jones 1995, 4.2) En el ultimo apartado del ejercicio
anterior, supongamos que
2
=
2
= = 1, que n = m y que hacemos el
contraste optimo a nivel = 0,01.
a) Calcula la potencia del test si n = 10.
b) Calcula el menor valor de n tal que la potencia sea mayor o igual que
0,95.
3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X
1
, . . . , X
n
una m.a.s. de una
distribucion gamma de parametros (3, ) con densidad
f(x; ) =
1
2
3
x
2
e
x/
I
(0,)
(x).
a) Encuentra el test mas potente para contrastar H
0
: =
0
frente a
H
1
: =
1
, donde
1
>
0
.
b) Utiliza los resultados obtenidos para dar el test uniformemente mas
potente para contrastar H
0
frente a H
1
: >
0
.
1
, . . . , X
n
una m.a.s. de una
distribucion lognormal de parametros (, 1). Prueba que existe un test
uniformemente mas potente para contrastar H
0
: =
0
frente a H
1
: >
0
e indica que forma tiene.
1
, . . . , X
n
una m.a.s. de una
variable aleatoria X. Se considera el contraste
_
H
0
: X U(0, 1)
H
1
: X f(x; ) = e
x
/(e
1), 0 x 1, > 0, desconocido

Prueba que hay un test uniformemente mas potente y da la region crtica
aproximada para n sucientemente grande.
178 CAP
OTESIS
6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X f(x), una funcion de
densidad desconocida. Se toma una muestra de tama no n para contrastar
H
0
: f(x) = f
0
(x) frente a H
1
: f(x) = f
1
(x), donde f
0
y f
1
son densidades
conocidas con el mismo soporte.
a) Considera las densidades de la forma f
0
(x)+(1)f
1
(x), [0, 1],
para expresar H
0
y H
1
como hipotesis parametricas.
b) Considera
f
0
(x) =
1
2
e
x
2
2
, f
1
(x) =
1
2
e
|x|
,
y prueba que entonces la region crtica del test mas potente para
contrastar H
0
frente a H
1
es de la forma
R = { x
IR
n
:
n
i=1
(|x
i
| 1)
2
k}
para alg un k.
c) Eval ua esa region crtica para n = 1 y k = 1. Es el test insesgado?
d) Eval ua esa region crtica para n = 1 y k = 1/4.Es el test insesgado?
Contrastes de la razon de verosimilitudes, scores y Wald
7. Sea X
1
, . . . , X
n
una m.a.s. de X N(,
2
) con ambos parametros des-
conocidos.
a) Considera el contraste
_
H
0
: =
0
H
1
: =
0
Comprueba que el test de la razon de verosimilitudes conduce al test
t usual, que tiene region crtica
R
= { x
IR
n
: t
n1,/2

n(x
0
)
S
t
n1,/2
}
c
,
donde A
c
denota el complementario del conjunto A.
b) Considera el contraste
_
H
0
:
2
=
2
0
H
1
:
2
=
2
0
Comprueba que el test de la razon de verosimilitudes tiene region
crtica
R
= { x
IR
n
: C
1

(n 1)S
2
2
0
C
2
}
c
,
para constantes C
1
y C
2
elegidas convenientemente.
8. Sea X
1
, . . . , X
n
m.a.s. de X N(,
2
) y Y
1
, . . . , Y
m
m.a.s. de Y
N(,
2
). Las dos muestras son independientes. Los cuatro parametros
son desconocidos.
a) Suponiendo que
2
=
2
, comprueba que el test de la razon de vero-
similitudes para contrastar
_
H
0
: =
H
1
: =
conduce al contraste usual para la diferencia de medias.
b) Da la region crtica del test de la razon de verosimilitudes para con-
trastar
_
H
0
:
2
=
2
H
1
:
2
=
2
c) En el caso especial de n = m, comprueba que el test anterior se
reduce al test F usual para contrastar igualdad de varianzas.
9. Sean dos muestras independientes, X
1
, . . . , X
m
m.a.s. de X Exp(
1
), e
Y
1
, . . . , Y
n
m.a.s. de Y Exp(
2
) (los parametros son las inversas de las
esperanzas). Sean X
m
e Y
n
las respectivas medias muestrales. Considera-
mos el test
_
H
0
:
1
=
2
H
1
:
1
<
2
a) Probar que bajo H
0
X
m
Y
n
F
2m,2n
(indicacion: Probar que si X es exponencial con esperanza 2, enton-
ces X es tambien
2
con dos grados de libertad. Probar que si X e Y
son variables aleatorias independientes e identicamente distribuides
seg un una Exp(), entonces (X/Y ) F
2,2
).
b) Probar que la region crtica del test de la razon de verosimilitudes pa-
ra contrastar H
0
frenta a H
1
puede expresarse en funcion del cociente
X
m
/Y
n
y de cuantiles de una distribucion F con grados de libertad
convenientes.
c) Los siguientes datos corresponden a tiempos de llegada a un incidente
de dos servicios de urgencia: guardia urbana y bomberos.
Tiempo (minutos) de llegada de
la guardia urbana a un accidente
de traco urbano
2,65 2,98 5,61 6,61 2,50 0,65 3,74
1,12 5,34 0,40 1,93 4,87
Tiempo (minutos) de llegada de
los bomberos a un incendio en el
casco urbano.
6,89 3,48 4,91 5,04 9,17 2,20 1,05
6,09
180 CAP
OTESIS
Se supone que los tiempos de llegada se distribuyen seg un una ley
exponencial. Usar el test de razon de verosimilitudes para contrastar
si los tiempos medios de llegada de ambos servicios son iguales frente
a que la guardia urbana llega en promedio antes que los bomberos.
Hacerlo a un nivel de signicacion = 0,05.
10. Se toma una muestra de tama no n de una variable aleatoria Poisson()
para contrasrtar H
0
: =
0
frente a H
1
: =
0
. Encontrar el estadstico
de los siguientes tests.
a) Test de razon de verosimilitudes.
b) Test del score.
c) Test de Wald.
11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,
pero no contagiosa, suceden aleatoria y uniformemente en una poblacion,
el n umero de muertes en una region con poblacion igual a P (es decir, con
un n umero de habitantes igual a P) se modela con una ley de Poisson de
media P, [0, 1].
a) Suponemos que el n umero de muertes observadas en n regiones con
poblaciones P
1
, P
2
, . . . , P
n
son Y
1
, Y
2
, . . . , Y
n
. Deriva una expresion
para el estimador de maxima verosimilitud de . Llamalo .
La siguiente tabla da el n umero de muertos por cancer de hgado (el cancer
de hgado se puede considerar una enfermedad rara) durante 4 a nos en las
regiones de Ontario (Canada).
Regionses P
i
Muertes
Region 1 423.447 37
Region 2 175.685 11
Region 3 1.245.379 72
Region 4 413.465 40
Region 5 216.476 12
Region 6 242.810 14
Region 7 213.591 16
Region 8 166.045 9
Region 9 265.880 15
Region 10 116.371 12
b) Encuentra para estos datos y calcula el n umero de muertes espe-
radas en cada region.
c) Supongamos ahora que Y
1
, Y
2
, . . . , Y
n
son variables aleatorias de Pois-
son de medias
1
,
2
, . . . ,
n
y sean P
1
, P
2
, . . . , P
n
constantes positi-
vas conocidas. Considera la hipotesis:
H
0
:
1
= P
1
,
2
= P
2
, . . . ,
n
= P
n
donde es desconocido. Demuestra que el estadstico del test de la
razon de verosimilitudes para contrastar esta hipotesis es
2 log = 2
n
i=1
Y
i
log(Y
i
/
i
)
donde

i
= P
i
y es el estimador de maxima verosimilitud encon-
trado en el apartado (a).
d) Aplica este ultimo resultado para concluir si las tasas de muerte (pro-
porcion de muertos en cada poblacion) de las 10 regions son propor-
cionales a las poblaciones de las regiones.
12. (Examen julio 2000) Sea X v.a. con densidad
f(x; ) =

x
+1
I
[1,)
(x), > 0.
a) Prueba que Y = log X Exp() (donde es 1/E(Y )).
b) Se observa una muestra de tama no n de X. Contrasta a nivel
_
H
0
: = 1
H
1
: = 1
usando el test de la razon de verosimilitudes, el test de Wald y el test
del score.
c) Aplica los tests anteriores para = 0,05 al caso de haber observado
los siguientes datos:
2,2263, 1,6464, 1,1788, 1,5014, 3,1677,
1,3762, 5,0698, 1,7471, 1,8849, 16,0879
(Suma de los datos= 35.8865; producto de los datos= 7595.66).
Contrastes bayesianos
13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X B(n, ), con n conocido.
Una de las dos hipotesis siguientes es cierta:
H
0
: =
1
2
o H
1
: =
3
4
.
Prueba que la probabilidad a posteriori de que H
0
sea cierta es mayor que
su probabilidad a priori si y solo si xlog 3 < nlog 2.
1
, . . . , X
n
una m.a.s. de una
distribucion exponencial de esperanza 1/, > 0. Se desea contrastar
H
0
: = 1 frente a H
1
: = 1, donde estas hipotesis tienen probabilidades
182 CAP
OTESIS
a priori P(H
0
) = p y P(H
1
) = 1 p. Si la distribucion a priori de es
(, ), con y conocidos, determina la ventaja a posteriori
Q
=
P(H
0
| x
)
P(H
1
| x
)
= Q B,
donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas
distintas: aplicando primero directamente la denicion del factor de Bayes
y, despues, calculando B como lmite de cocientes entre probabilidades a
posteriori y a priori bajo H
1
.
1
, . . . , X
n
una m.a.s. de una
N(, 1). Se consideran dos hipotesis: H
0
: = 1 y H
1
, con P(H
0
) = p y
P(H
1
) = 1 p.
a) Suponiendo que H
1
especica que = 1, prueba que
P(H
0
| x
) =
pe
n
i=1
x
i
pe
n
i=1
x
i
+ (1 p)e
n
i=1
x
i
.
b) Suponiendo que H
1
especica que = 1 y que bajo H
1
la distribucion
a priori de es N(0, 1), determina P(H
0
| x
) en el caso especial de
que

n
i=1
x
i
= n.
Captulo 6
Estimacion por intervalos
Referencias: Casella-Berger, captulo 9 y Cristobal (1992), captulo
15.
En los captulos 3 y 4 se han estudiado los estimadores puntuales. Estos
estimadores ofrecen un unico valor como estimacion del parametro desconocido
. En este captulo se aborda el problema de la estimaci on por conjuntos,
donde se estudian estimadores que proporcionan un conjunto como estimacion
de . El resultado de una estimacion por conjuntos es una armacion del tipo
C, donde C = C( x
) es un subconjunto del espacio parametrico que

depende de los datos observados x
. En el caso de que IR los conjuntos que

se suelen usar para realizar inferencias sobre son intervalos.
6.1. Intervalos de conanza
Un estimador por intervalos de un parametro IR es cualquier
par de funciones reales L( x
) y U( x
) denidas en el espacio muestral X tales

que L( x
) U( x
) para todo x
= (x
1
, . . . , x
n
) X. Si se observa el valor
X
= x
, mediante este estimador se hace la inferencia L( x
) U( x
).
Al intervalo aleatorio [L( X
), U( X
)] se le llama estimador por intervalos

de (o intervalo estimador de ), mientras que al valor que ha tomado en
la muestra observada [L( x
), U( x
)] se le llama estimaci on por intervalos

de (o intervalo estimaci on de ).
Ejemplo 77
Sea X
1
, X
2
, X
3
, X
4
una muestra de tama no 4 de X N(, 1). Un estimador
por intervalos de es [X1, X+1]. Para cada muestra observada x
1
, x
2
, x
3
, x
4
,
la estimacion por intervalos de es [x 1, x + 1].
. .
183
184 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Observese que si se estima un parametro mediante un intervalo, la infe-
rencia es menos precisa que si se estima con un estimador puntual: ahora nos
limitamos a armar que el parametro esta en un cierto conjunto, mientras que
antes dabamos un valor concreto como estimacion suya. Dado que se pierde en
precision, cabe preguntarse que se gana al estimar un parametro mediante un
intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se
gana en confianza: en general, la probabilidad de que un estimador sea exac-
tamente igual al parametro que desea estimar es 0, mientras que la probabilidad
de que un estimador por intervalos cubra al parametro sera positiva.
Ejemplo 77, pagina 183. Continuacion. Si se estima por X, se tiene que
P(X = ) = 0, porque X N(, 1/4). Sin embargo,
P( [X 1, X + 1]) = P(X 1 X + 1) = P(1 X 1) =
P
_
2
X
1/
4
2
_
= 0,9544.
A costa de algo de precision, el paso de un estimador puntual a uno por inter-
valos ha permitido aumentar la conanza que tenemos en que sea correcta la
armacion hecha en la inferencia.
. .
Se llama probabilidad de cobertura de un estimador por intervalos
[L( X
), U( X
)] del parametro a la probabilidad de que ese intervalo aleatorio

cubra al verdadero valor del parametro :
P
( [L( X
), U( X
)]).
Observese que esa probabilidad de cobertura puede variar con .
Se llama coeficiente de confianza del intervalo [L( X
), U( X
)] como
estimador del parametro al nmo de las probabilidades de cobertura:
nf
( [L( X
), U( X
)]).
Intervalo de confianza es el nombre que recibe usualmente un estimador
por intervalos junto con su coeciente de conanza. Tambien se nombra as a
veces a la estimacion a que da lugar el estimador por intervalos aplicado a una
muestra concreta. Ademas de C( x
), se usara tambien la notacion IC

1
() se
usara para referirse a un intervalo de conanza (1 ) para .
Si se desea construir un intervalo para una transformacion invertible () del
parametro y [L( x
), U( x
)] es un intervalo de conanza (1 ) para , entonces

el intervalo
[(L( x
)), (U( x
))]
es un intervalo de conanza (1 ) para ().
6.2. M
ETODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185

Observese que en las expresiones del tipo P
( [L( X
), U( X
)]), el valor
del parametro esta jo y lo que son variables aleatorias son los extremos del
intervalo:
P
( [L( X
), U( X
)]) = P
({L( X
) } {U( X
) }).
6.2. Metodos para construir intervalos de con-
anza
En esta seccion veremos cuatro metodos para construir estimadores por in-
tervalos de un parametro IR.
6.2.1. Inversi on de un contraste de hipotesis
Como veremos a continuacion, hay una estrecha relacion entre la estimacion
por intervalos y los contrastes de hipotesis. En general, se puede decir que cada
metodo de construccion de un intervalo de conanza corresponde a un metodo
de contraste de un hipotesis, y viceversa.
Ejemplo 78
Sea X
1
, . . . , X
n
2
) con conocido.
Consideramos el contraste
_
H
0
: =
0
H
1
: =
0
.
Para hacer el contraste a nivel el test insesgado uniformemente de maxima
potencia rechaza H
0
si |x
0
| > z
/2
/
n, es decir, la region del espacio

muestral X en donde se acepta H
0
es el conjunto de x
tales que
x z
/2
n

0
x +z
/2
n
.
Dado que el test tiene tama no , se tiene que P(aceptar H
0
| =
0
) = 1 .
Por lo tanto, para todo
0
P
_
X z
/2
n

0
X +z
/2
=
0
_
= 1 ,
P
_
X z
/2
n
X +z
/2
n
_
= 1
para todo , luego [X z
/2
/
n, X + z
/2
/
n] es un estimador por inter-

valos de conanza 1 para .
. .
186 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
La correspondencia entre intervalos de conanza y contrastes de hipotesis
se debe a que ambos procedimientos persiguen la consistencia entre los valores
observados en la muestra y los parametros de la distribucion poblacional, aunque
desde perspectiva distintas. En un contraste de hipotesis se jan los parametros
y se buscan que valores muestrales son acordes con ellos (esto es, se busca la
region de aceptacion), mientras que en la estimacion por intervalos se toma
como ja la muestra observada y se buscan los valores de los parametros que
hacen esta muestra plausible (esto es, se busca el intervalo de conanza).
El siguiente resultado prueba la relacion existente entre contrastes e inter-
valos.
Teorema 46 Para cada valor
0
se denota por A(
0
) a la region de acep-
tacion a nivel de un test que contrasta H
0
: =
0
. Para cada x
X se
dene el conjunto C( x
) como
C( x
) = {
0
: x
A(
0
)}.
Entonces el conjunto aleatorio C( X
) es un estimador por conjuntos de conan-

za 1 para .
Recprocamente, sea C( X
) un estimador por conjuntos de conanza 1

para . Para cada
0
se dene
A(
0
) = { x
X :
0
C( x
)}.
Entonces A(
0
) es la region de aceptacion a nivel de un test que contrasta
H
0
: =
0
.
Demostracion: Veamos la primera parte. Por ser A(
0
) el complementario de
la region de rechazo de un test de nivel se tiene que
P
0
( X
A(
0
)) 1 .
Dado que
0
es un valor arbitrario del parametro, podemos escribir en lugar
de
0
. Como x
A() si y solo si C( x
), se tiene que
P
( C( X
)) = P
( X
A()) 1 ,
y se concluye que C( X
) es un estimador por conjuntos de conanza 1 .

Veamos la segunda parte. La probabilidad de error de tipo I del test cuya
region de aceptacion es A(
0
) es
P
0
( X
A(
0
)) = P
0
(
0
C( X
)) ,
as que este es un test de nivel . 2
El procedimiento de construccion de intervalos de conanza (o de conjuntos
de conanza, en general) a partir de la inversion de contrastes de hipotesis es muy
6.2. M

util en la practica porque en general es mas sencillo un problema de contraste
de hipotesis que uno de estimacion: el hecho de poder trabajar suponiendo la
hipotesis nula cierta facilita la tarea. Cualquiera de los metodos de contraste
de hipotesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de
conanza.
Observese que, aunque sea IR, este mecanismo de inversion no garantiza
que los conjuntos de conanza obtenidos sean intervalos.
Ejemplo 79
Sea X B(n, p). Se desea construir un conjunto de conanza 1 para p a
partir de una observacion x de X. Para ello se invierte el test de tama no que
contrasta H
0
: p = p
0
frente a H
1
: p = p
0
y tiene por region de aceptacion los
valores x que son mas probables bajo H
0
hasta completar una probabilidad de
(1 ).
Para jar ideas supongamos que n = 3 y 1 = 0,442. La siguiente tabla
da las regiones de aceptacion A(p) para los distintos valores de p especicados
en H
0
:
p A(p)
[0, ,238] 0
(,238, ,305) 0,1
[,305, ,362] 1
(,362, ,366) 0,1
[,366, ,634] 1,2
(,634, ,638) 2,3
[,638, ,695] 2
(,695, ,762) 2,3
[,7,621] 3
Invirtiendo estas regiones de aceptacion se obtienen los siguientes conjuntos de
conanza C(x):
x C(x)
0 [0, ,305) (,362, ,366)
1 (,238, ,634]
2 [,366, ,762)
3 (,634, ,638) (,695, 1]
Observar que no todos los conjuntos de conanza que pueden aparecer son in-
tervalos.
. .
En la practica, sin embargo, con frecuencia s encontraremos intervalos. Por
otra parte, el tipo de intervalo encontrado dependera de la hipotesis alternativa
188 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
que se considero para denir el contraste. Si la hipotesis alternativa es bilateral,
en general se obtendra un intervalo de longitud nita, mientras que si la alter-
nativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos
en o .
Ejemplo 80
Sea X
exp(), = E(X), y se quiere dar un intervalo de conanza para

mediante la inversion de un test de tama no . Se toma una muestra de tama no
n de X. El test de la razon de verosimilitudes para contrastar
_
H
0
: =
0
H
1
: =
0
tiene por estadstico
1
n
0
e
n
i=1
x
i
/
0
sup
n
e
n
i=1
x
i
/
=
1
n
0
e
n
i=1
x
i
/
0
1
(
n
i=1
x
i
/n)
n
e
n
=
_
n
i=1
x
i
n
0
_
n
e
n
e
n
i=1
x
i
/
0
.
Para un valor
0
jo, la region de aceptacion del test es
A(
0
) =
_
x
:
_
n
i=1
x
i
0
_
n
e
n
i=1
x
i
/
0
k
_
,
donde la constante k
se elige para que el test tenga tama no , o lo que es lo

mismo, para que
P
0
( X
A(
0
)) = 1 .
Observese que la expresion de la region de aceptacion depende de la muestra
y del parametro solo a traves de v =

x
i
/
0
. Ademas, la distribucion de
V =

n
i=1
X
i
/
0
no depende del parametro
0
:

n
i=1
X
i
(n,
0
) bajo H
0
,
luego V (n, 1). De esto se sigue que el valor k
es el mismo para todo

0
.
Invirtiendo la region de aceptacion se obtiene el conjunto de conanza 1:
C( x
) =
_
:
_
n
i=1
x
i
_
n
e
n
i=1
x
i
/
k
_
.
La funcion g(v) = v
n
e
v
es positiva en todo IR
+
, vale 0 en v = 0 y tiende
a 0 si v tiende a innito. Ademas, tiene un unico punto crtico en v = n. Se
sigue que tiene un unico maximo en v = n y que los conjuntos de la forma
{v 0 : g(v) k
}, con k
g(n) = n
n
e
n
, son intervalos de la forma [l, u],
con l n u y g(l) = g(u) = k
.
De ello se deduce que A(
0
) es un intervalo para cualquier valor de
0
, y que
los conjuntos de conanza C( x
) tambien son intervalos para cualquier valor de
n
i=1
x
i
.
6.2. M

As pues, el intervalo de conanza obtenido sera de la forma
C(
n
i=1
x
i
) =
_
: L(
n
i=1
x
i
) U(
n
i=1
x
i
)
_
,
con
L(
n
i=1
x
i
) =
n
i=1
x
i
u
, U(
n
i=1
x
i
) =
n
i=1
x
i
l
.
Los valores l y u son las soluciones del sistema de ecuaciones no lineales
_
g(l) = g(u)
P(l V u) = 1
Si n = 2, V (2, 1) y el sistema se transforma en este:
_
l
2
e
l
= u
2
e
u
e
l
(l + 1) e
u
(u + 1) = 1
Si hacemos 1 = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u =
5,4945, luego el intervalo de conanza 0.90 para es
[0,182
X
i
, 2,28
X
i
] [0,364X
2
, 4,56X
2
].
. .
6.2.2. Cantidades pivotales
Uno de los metodos mas comunes de construccion de intervalos de conanza
es el uso de cantidades pivotales.
Sea X
= (X
1
, . . . , X
n
) una m.a.s. de X F(x; ). Una funcion Q( X
, )
de la muestra y del parametro es una cantidad pivotal si la distribucion de
probabilidad de Q( X
, ) no depende del parametro , es decir, Q( X
, ) tiene
la misma distribucion para cualquier valor de .
Dada una cantidad pivotal Q( X
, ), para cualquier conjunto A del espacio

imagen de Q se tiene que P
(Q( X
, ) A) no depende de . Por lo tanto si se

elige un conjunto A
tal que
P
(Q( X
, ) A) = 1 , para todo ,
y se observa la muestra X
= x
, entonces el conjunto
C( x
) = { : Q( x
, ) A}
es un conjunto de conanza 1 para .
En el caso de que IR, el uso de cantidades pivotales no garantiza en
general que el conjunto de conanza sea un intervalo.
190 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Ejemplo 81
Si X tiene distribucion perteneciente a una familia de localizacion y escala, en-
tonces es posible denir diferentes cantidades pivotales. Entre ellas se nalaremos
las siguientes:
Familia de localizacion: f
(x) = f(x ) Q( x
, ) = X
Familia de escala: f
(x) = (1/)f(/) Q( x
, ) = X/
Familia de localizacion f
,
(x) = Q
1
( x
, , ) = (X )/,
y escala: (1/)f((x )/) Q
2
( x
, , ) = (X )/S
Para ver que esas funciones son cantidades pivotales basta escribir X
i
= +Y
i
,
con Y
i
f, y comprobar que las funciones Q solo dependen de Y
1
, . . . , Y
n
.
. .
Ejemplo 80, pagina 188. Continuacion. En el ejemplo 80 el intervalo de
conanza construido se baso en
V =
n
i=1
X
i
,
cuya distribucion es (n, 1) para cualquier valor de , as que V es una cantidad
pivotal y el intervalo de conanza construido all es un ejemplo de intervalo
basado en una cantidad pivotal.
Si se dene T = 2V , entonces T (n, 2), es decir T
2
2n
. Es mas facil
encontrar tabulada la distribucion
2
2n
que la distribucion gamma, por lo que T
resultara mas util en la practica.
. .
En la practica, la forma en la que se construye un intervalo de conanza a
partir de una cantidad pivotal es la siguiente. Supondremos que Q( x
, ) IR y
IR. Para un valor dado, se buscan n umeros a y b tales que
P
(a Q( X
, ) b) = 1 .
Observar que a y b no dependen de por ser Q cantidad pivotal, y que la
eleccion de a y b no sera unica en general.
Para cada
0
, el conjunto
A(
0
) = { x
: a Q( x
, ) b}
es la region de aceptacion de un test de tama no para contrastar H
0
: =
0
basado en el estadstico T( X
) = Q( X
,
0
). Invirtiendo este contraste obtene-
mos el conjunto de conanza 1 para :
C( x
) = { : a Q( x
, ) b}.
6.2. M

Si g
x
() = Q( x
, ) es una funcion monotona de para cada x
jo, entonces
se tiene garanta de que C( x
) sea un intervalo. Si g
x
() es creciente, enton-
ces C( x
) = [L( x
, a), U( x
, b)], mientras que si g

x
() es decreciente, entonces
C( x
) = [L( x
, b), U( x
, a)]. Si g
x
() es invertible, entonces
C( x
) = [mn{g
1
x
(a), g
1
x
(b)}, max{g
1
x
(a), g
1
x
(b)}].
Ejemplo 80, pagina 188. Continuacion. En este ejemplo Q( X
, ) =
2
n
i=1
X
i
/
2
2n
. As, podemos elegir a =
2
2n,1/2
y b =
2
2n,/2
, don-
de P(Y
2
2n,p
) = p para p (0, 1), y la variable Y es una
2
2n
.
En este caso
g
x
() = Q( x
, ) =
2
n
i=1
x
i
,
es decir g
x
es invertible y decreciente, luego el intervalo de conanza (1 )

para sera
C( x
) = [g
1
x
(b), g
1
x
(a)] =
_
2
n
i=1
x
i
2
n,1/2
,
2
n
i=1
x
i
2
n,/2
_
.
En el caso de n = 2 y = 0,1,
2
4,,05
= 9,49 y
2
4,,95
= ,71, luego el intervalo de
conanza 0.90 es
C( x
) =
_
4x
9,49
,
4x
,71
_
= [0,4215x, 5,63x].
. .
Observese que el intervalo que se acaba de calcular diere del construido en
el ejemplo 80, pese a que ambos se basan (en la practica) en la misma cantidad
pivotal. Ello se debe a que, como se se nalo antes, la forma de elegir los valores a
y b no es unica. Aqu se han tomado de forma que el intervalo fuese sim etrico
en probabilidad, es decir, la probabilidad que queda fuera del intervalo
C( X
) se reparte a partes iguales entre valores menores y mayores que los del
intervalo. Esta forma de elegir a y b es la mas usada en la practica, aunque
veremos mas adelante que no da lugar, en general, a los intervalos mas cortos
posibles.
Ejemplo 82
Intervalos de conanza para la media y la varianza de la distribucion
normal.
192 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Si X N(, ) con conocida, entonces la distribucion de X es de una familia
de localizacion y, por tanto, Q( X
, ) = (X )/ es una cantidad pivotal.

Ademas,
Z =
nQ( X
, ) =
n(X )
N(0, 1).
El intervalo de conanza (1 ) para simetrico en probabilidad que se deriva
de esta cantidad pivotal es
IC
1
() = C( x
) = [x z
/2
n
, x +z
/2
n
].
Si es desconocido, una cantidad pivotal es Q( X
, ) = (X )/S. Ademas,
t =
nQ( X
, ) =
n(X )
S
t
n1
.
El intervalo de conanza (1 ) para simetrico en probabilidad que se deriva
de esta cantidad pivotal es
IC
1
() = C( x
) = [x t
n1,/2
S
n
, x +t
n1,/2
S
n
].
Si se desea dar un intervalo de conanza para
2
o para , puede usarse la
cantidad pivotal
Q( x
, ) = (n 1)S
2
/
2

2
n1
.
Si se eligen a y b para que el intervalo sea simetrico en probabilidad se obtienen
IC
1
(
2
) =
_
(n 1)S
2
2
n1,/2
,
(n 1)S
2
2
n1,1/2
_
,
IC
1
() =
_
(n 1)S
2
2
n1,/2
,
(n 1)S
2
2
n1,1/2
_
.
. .
Uno de los casos en los que la cantidad pivotal es monotona en el parametro
para una muestra ja es aquel en que existe un estadstico T = T( X
) (es
deseable que sea un estadstico suciente para el parametro) con distribucion
absolutamente continua y tal que su funcion de distribucion sea monotona en
el parametro. En este caso, se toma como cantidad pivotal
Q( x
, ) = F
T
(T( x
); ).
Por una parte Q( X
, ) = F
T
(T( X
); ) U(0, 1) para todo , luego Q es

cantidad pivotal, y por otra g
x
() = Q( x
, ) es monotona en . Este metodo

es util para construir intervalos de conanza para parametros de posicion.
6.2. M

Veamos ahora una forma generica de denir una cantidad pivotal que es vali-
da para cualquier distribucion poblacional absolutamente continua y que siem-
pre da lugar a un intervalo de conanza si el parametro es real. Supongamos que
X es una variable aleatoria absolutamente continua con funcion de distribucion
F(x; ) y que esta funcion es continua y monotona en . Sea X
1
, . . . , X
n
m.a.s.
de X. Entonces
U
i
= F(X
i
; ) U(0, 1) para todo , y Y
i
= log U
i
exp(1) (1, 1).
Por lo tanto,
n
i=1
Y
i
(n, 1) y 2
n
i=1
Y
i

2
2n
.
As, se tiene que
Q( x
, ) = 2
n
i=1
Y
i
= 2
n
i=1
log F(X
i
; )
es cantidad pivotal y g
x
() = Q( x
, ) es monotona en .
Observese que U
i
= 1 F(X
i
; ) U(0, 1), por lo que tambien se puede
denir Q a partir de los logaritmos de la funcion (1 F(X
i
; )).
i
es exponencial con media
. En este caso es mas comodo trabajar con U
i
= 1 F(X
i
; ) = e
X
i
/
. As,
Q( x
, ) = 2
n
i=1
log(1 F(X
i
; )) =
2
n
i=1
X
i

2
2n
,
que es la misma cantidad pivotal que habamos encontrado en el ejemplo 80.
. .
6.2.3. Intervalos bayesianos
En el marco bayesiano el parametro es una variable aleatoria cuya dis-
tribucion a priori es (). Las observaciones tienen distribucion condicionada
con densidad (o funcion de masa) f(x|). Tras la observacion de una muestra
X
= x
, la distribucion de probabilidad de se modica con la informacion re-

cibida y pasa a tener la distribucion a posteriori (| x
). As, cualquier intervalo

(o en general, cualquier conjunto) A tal que
P( A| x
) =
_
A
(| x
)d = 1
sera un intervalo bayesiano de probabilidad 1 . El conjunto A depende de la
muestra observada a traves de (| x
).
194 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Observese que ahora ya no se habla de coeciente de conanza, como en el
enfoque clasico: ahora (1 ) es realmente la probabilidad de que el parametro
pertenezca al intervalo A y ahora el parametro es la variable aleatoria, mientras
que la muestra (y por tanto el conjunto A) es ja puesto que ya ha sido obser-
vada. Por este motivo, a los intervalos bayesianos se les denomina intervalos
de credibilidad (o mas en general, conjuntos de credibilidad).
De los innitos intervalos A que podemos elegir de forma que
P( A| x
) = 1
dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo
simetrico en probabilidad, es decir, aquel que deja a su izquierda una probabi-
lidad de /2 y otra tanta a su derecha.
Tambien puede buscarse el intervalo de credibilidad (1) que tenga mayor
densidad a posteriori. Es decir,
{ : (| x
) c
},
donde c
se elige de forma que

_
{:(| x
)c
}
(| x
)d = 1 .
Ejemplo 83
Sea X
1
, . . . , X
n
m.a.s. de X Poisson(), 0 < . Sea (, ), > 0,
> 0. La ley a posteriori de dadas las observaciones X
1
= x
1
, . . . , X
n
= x
n
es una
_
+
n
i=1
x
i
, (
1
+n)
1
_
,
seg un se vio en el teorema 20.
Si tomamos como distribucion a priori la de parametros = = 1,
entonces la a posteriori de es (1 +
n
i=1
x
i
, (n + 1)
1
), luego
(2(n + 1)| x
)
2
2(
x
i
+1)
.
Si tomamos intervalos simetricos en probabilidad, obtenemos el intervalo de
credibilidad (1 )
_
_
2
2(
x
i
+1),1/2
2(n + 1)
,
2
2(
x
i
+1),/2
2(n + 1)
_
_
.
Si suponemos que n = 10 y que

n
i=1
x
i
= 6 y tomamos 1 = ,9, se obtiene
el intervalo de credibilidad 90 % para siguiente: [,299, 1,077].
6.2. M

Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor
densidad a posteriori para siguiente: [,253, 1,005]. Observese que este intervalo
es mas corto que el intervalo que deja fuera dos colas con la misma probabilidad.
En la siguiente gura se representan ambos.
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
Intervalos de credibilidad (1)=0.9 para
D
e
n
s
i
d
a
d

a

p
o
s
t
e
r
i
o
r
i

d
e

IC
1
() simtrico en probabilidad
IC
1
() de mayor densidad
c
=0.44
. .
6.2.4. Intervalos de verosimilitud
A partir de la funcion de verosimilitud se puede estimar un parametro me-
diante un intervalo (o, mas en general, mediante un conjunto) de una forma
alternativa a los intervalos de conanza vistos hasta ahora. Estos estimadores
alternativos se conocen como intervalos de verosimilitud.
Sea X
1
, . . . , X
n
una m.a.s. de X f(x; ). La funcion de verosimilitud de
una muestra observada x
es
L(; x
) =
n
i=1
f(x
i
; ).
Esta funcion, para x
jo, representa como de verosmil es la muestra x
para
cada uno de los posibles valores de .
El estimador maximo verosmil de es el valor

que hace maxima la vero-
similitud y es un buen estimador de , como vimos en la seccion 4.4. Si se desea
196 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
estimar mediante un conjunto, parece logico considerar el de los valores que
hagan mas verosmil la muestra observada x
.
Para un valor cualquiera de se dene la verosimilitud relativa de la
muestra x
seg un como
R(; x
) =
L(; x
)
L(
; x
)
.
Dada una proporcion p (0, 1), se dene el conjunto de verosimilitud al
100p % para al conjunto
V ( X
) = { : R(; x
) p}.
Si IR, estos conjuntos de verosimilitud seran intervalos si la funcion de
verosimilitud es concava para cualquier x
X.
Observese que hay una equivalencia clara entre los conjuntos de verosimilitud
al 100p % y los intervalos de conanza (1) construidos a partir de la inversion
del test de razon de verosimilitudes para contrastar H
0
: =
0
frente a H
0
:
=
0
, donde entre p y existe una relacion biyectiva.
exp(), = E(X).
Los calculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud
relativa como
R(; x
) =
1
n
e
n
i=1
x
i
/
sup
n
e
n
i=1
x
i
/
=
_
n
i=1
x
i
n
_
n
e
n
e
n
i=1
x
i
/
.
As, el intervalo de verosimilitud al 100p % sera
V ( x
) =
_
:
_
n
i=1
x
i
n
_
n
e
n
e
n
i=1
x
i
/
p
_
.
Este intervalo tiene una conanza (1 ) que depende de p.
Del mismo modo, el intervalo de conanza 0.9 que se calculo en la pagina
188 para n = 2, [0,364X
2
, 4,56X
2
], es tambien un intervalo de verosimilitud
al 100p %, y p depende del valor (1 ) elegido. Concretamente, en este caso
p = 0,23.
. .
6.3. Evaluacion de estimadores por intervalos
Los intervalos de conanza (1 ) posibles para un parametro dada una
muestra x
son m ultiples. Se plantea la cuestion de como evaluar la calidad de

cada intervalo y, si es posible, elegir el mejor.
6.3. EVALUACI
ON DE ESTIMADORES POR INTERVALOS 197

En estimacion por intervalos (o por conjuntos) hay dos cantidades que in-
dican la calidad de un estimador: la longitud (o tama no) del intervalo y su
probabilidad de cobertura. Es deseable tener intervalos cortos (precision) con
alta probabilidad de cobertura (conanza). Sucede que si se desea aumentar la
precision hay que disminuir la conanza y viceversa.
6.3.1. Intervalos de longitud mnima
Una practica habitual es jar la conanza deseada para los intervalos y
buscar que intervalo con esa conanza es el que tiene longitud mnima. Se trata
de un problema de optimizacion con la restriccion de que la conanza sea una
dada. La siguiente proposicion da la solucion bajo ciertas condiciones.
Proposicion 4 Supongamos que se construye un intervalo de conanza (1)
para un parametro IR a partir de la cantidad pivotal Q( x
, ) IR y que
la distribucion de Q( X
, ) es absolutamente continua con funcion de densidad

f
Q
. Se supone ademas que la funcion g
x
() = Q( x
, ) es creciente, derivable
e invertible y que su inversa es la funcion h : IR IR.
Si la funcion f
Q
/h
es unimodal, entonces el intervalo de conanza (1 )

de longitud mnima para es
C( x
) = [h(a
), h(b
)]
donde a
y b
son los valores de IR que verican

f
Q
(a
)
h
(a
)
=
f
Q
(b
)
h
(b
)
y
_
b
f
Q
(q)dq = 1 .
Demostracion: Sea F
Q
la funcion de distribucion de Q( X
, ). Tal como vimos

en el apartado de la seccion 6.2 dedicado a las cantidades pivotales, los intervalos
de la forma
[h(a), h(b)],
con F
Q
(b) F
Q
(a) = 1 , son intervalos de conanza (1 ) para . As que
b depende de a de forma que
F
Q
(b(a)) F
Q
(a) = 1 .
Derivando respecto a a obtenemos
f
Q
(b(a))b
(a) = f
Q
(a).
198 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Si buscamos el valor de a que minimiza la longitud del intervalo, hay que mini-
mizar
h(b(a)) h(a).
Los puntos crticos a
de esta funcion son los que cumplen

h
(b(a
))b
(a
) = h
(a
)
f
Q
(a
)
h
(a
)
=
f
Q
(b
)
h
(b
)
,
donde b
= b(a
). Ademas solo hay un punto a
que cumpla simultaneamente

esa condicion y la de que F
Q
(b(a
)) F
Q
(a)
= 1 , porque al ser f
Q
/h
unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de f

Q
/h
o
bien esta estrictamente contenido en [a
, b(a
)] o bien lo contiene estrictamente.

En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1).
Veamos ahora que la solucion unica (a
, b(a
)) es un mnimo. Calculamos la
segunda derivada de h(b(a)) h(a):
h
(b(a))b
(a)
2
+h
(b(a))b
(a) h
(a) =
h
(b(a))b
(a)
f
Q
(a)
f
Q
(b(a))
+h
(b(a))
_
f
Q
(a)f
Q
(b(a)) f
Q
(b(a))b
(a)f
Q
(a)
f
2
Q
(b(a))
_
h
(a).
Si tenemos en cuenta que en (a
, b(a
)) se verica que f
Q
(a)/h
(a) = f
Q
(b)/h
(b),
la expresion anterior se transforma en esta:
h
(a)f
Q
(a) h
(a)f
Q
(a)
f
Q
(a)

h
(b(a))f
Q
(b(a))b
(a)f
Q
(a)
f
2
Q
(b(a))
+
h
(b(a))f
Q
(b(a))b
(a)f
Q
(a)
f
2
Q
(b(a))
=
(h
(a))
2
f
Q
(a)
_
h
(a)f
Q
(a) h
(a)f
Q
(a)
(h
(a))
2

h
(b(a))f
Q
(b(a)) h
(b(a))f
Q
(b(a))
(h
(b(a)))
2
b
(a)
_
=
(h
(a))
2
f
Q
(a)
_
(f
Q
(q)/h
(q))
q
q=a
(f
Q
(q)/h
(q))
q
q=b
_
y esta cantidad es positiva por ser f
Q
/h
unimodal. 2
Las modicaciones necesarias para que este resultado sea aplicable a trans-
formaciones g
x
decrecientes son inmediatas.

Un caso particular importante es aquel en que la transformacion g
x
() =
Q( x
, ) es lineal. En este caso h es tambien lineal y su derivada es constante, de

donde se sigue que la condicion para que el intervalo tenga longitud mnima es
que la densidad f
Q
tome el mismo valor en ambos extremos a y b. Si, ademas, la
distribucion de Q es simetrica, entonces los intervalos de menor longitud seran
tambien simetricos en probabilidad. Esto ocurre, por ejemplo, en la estimacion
por intervalos de la media poblacional de la normal.
Observese que si [L( x
), U( x
)] es el intervalo de conanza (1) de mnima

longitud para , el intervalo [(L( x
)), (U( x
))] es un intervalo de conanza

(1 ) para (), pero este no tiene por que ser el de mnima longitud.
6.3. EVALUACI

En la estimacion por intervalos de un parametro de escala a veces interesa
mas tener el intervalo [L, U] de mnima escala, es decir, el que tiene el menor
valor de U/L posible, en lugar del intervalo de mnima longitud. El resultado
anterior se puede usar tomando la reparametrizacion = log . El intervalo de
mnima longitud para sera de la forma [
h(a
),
h(b
)], donde

h = log h y h
es la inversa de g
x
() = Q( x
, ). As que el intervalo [h(a
), h(b
)] es el de
menor escala para . La condicion f
Q
(a)/
(a) = f
Q
(b)/
(b) se puede expresar

en terminos de h como
f
Q
(a)h(a)
h
(a)
=
f
Q
(b)h(b)
h
(b)
.
Ejemplo 84
Sea X
1
, . . . , X
n
una m.a.s. de X N(,
2
). Queremos dar el intervalo de
conanza (1 ) de menor longitud para
2
, basado en la cantidad pivotal
Q( X
,
2
) =
(n 1)S
2
2

2
n1
.
En este caso la transformacion g
x
(
2
) = (n 1)S
2
/
2
y su inversa es
h(q) =
(n 1)S
2
q
.
La condicion que deben cumplir los cuantiles a y b de la distribucion
2
n1
para
dar lugar al intervalo mas corto es
f
Q
(a)a
2
= f
Q
(b)b
2
,
ademas de cumplir que P
2
n1
([a, b]) = 1 . Es facil encontrar valores de n y
para los que este intervalo no es simetrico en probabilidad.
Si se desea el intervalo mas corto para , entonces
h(q) =
(n 1)S
2
q
=h
(q) =
_
(n 1)S
2
1
2
_
q
3
.
La condicion que deben cumplir a y b es
f
Q
(a)a
3/2
= f
Q
(b)b
3/2
.
Si se desea el intervalo de menor escala para
2
la condicion que deben
cumplir a y b es
f
Q
(a)a = f
Q
(b)b.
y si se quiere el de mnima escala para , entonces
f
Q
(a)a
2
= f
Q
(b)b
2
.
. .
200 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
6.3.2. Relacion con contrastes de hipotesis y optimalidad
El criterio de la longitud no es el unico con el que se puede evaluar un
intervalo. Un concepto alternativo nace a partir de la estrecha relacion existente
entre intervalos de conanza y contrastes de hipotesis. Se trata de la probabilidad
de falso cubrimiento que fue introducida por Neyman.
Sea X
f( x
; ) y C( x
) un intervalo de conanza (1 ) para basado

en la inversion de un test con region de aceptacion A(). La probabilidad de
verdadera cobertura es la funcion de denida como P
( C( X
)). La
probabilidad de falsa cobertura es la probabilidad de que un intervalo
cubra
cuando es el verdadero valor del parametro. Es una funcion que

depende de dos valores del parametro y
. Formalmente se dene como

P
C( X
)), si C( X
) = [L( X
), U( X
)] y
= ,
P
C( X
)), si C( X
) = [L( X
), ) y
< ,
P
C( X
)), si C( X
) = (, U( X
)] y
> .
Un intervalo de conanza (1) que minimiza la probabilidad de falso cubri-
miento para todos los valores de y
sobre una clase de intervalos de conanza

(1 ) se denomina intervalo uniformemente m as acurado (UMA). Estos
intervalos de conanza se consiguen invirtiendo contrastes uniformemente mas
potentes, como pone de maniesto el siguiente resultado.
Teorema 47 Sea X
f( x
; ), IR. Para cada

0
, sea A
(
0
)
la regi on de aceptacion del contraste UMP para contrastar H
0
: =
0
frente
a H
1
: >
0
a nivel . Sea C
( x
) el intervalo de conanza (1 ) construi-

do invirtiendo las regiones de aceptacion UMP. Entonces para cualquier otro
intervalo C( x
) de conanza (1 ) se tiene que

P
( X
)) P
C( X
))
para todo
< . En particular, el intervalo C
( x
) es UMA entre los que son

de la forma C( x
) = [L( X
), ).
Demostracion: Sea
< y A(
) la region de aceptacion del test conseguido

al invertir los intervalos C( x
). Como A
) es UMP para contrastar H

0
: =
frente a H
1
: >
, y >
se tiene que
P
( X
)) = P
( X
)) P
( X
A(
)) = P
C( X
)).
2
Para intervalos de la forma (, U( X
)] se puede establecer un resultado

analogo. Observese que los intervalos UMA no siempre existen, dado que en la
seccion 5.2 vimos que no esta garantizada la existencia de tests UMP.
6.3. EVALUACI

Cuando se estudiaron los contrastes UMP se puso de maniesto la conve-
niencia de restringir la atencion solo a los contrastes insesgados a la hora
de buscar el contraste UMP para contrates bilaterales. En el estudio de los in-
tervalos de conanza UMA existe un concepto analogo de insesgadez: se dice
que C( x
) es conjunto insesgado de confianza (1 ) si

P
C( X
)) 1 para todo =
.
Es decir, un conjunto de conanza es insesgado si la probabilidad de falso cubri-
miento es siempre menor o igual que la probabilidad de cubrimiento verdadero.
Se dice que un conjunto C
( x
) de conanza (1 ) es insesgado y uni-

formemente m as acurado si es UMA entre la clase de conjuntos insesgados
de conanza (1 ).
El siguiente teorema establece la correspondencia entre conjuntos insesgados
UMA y contrastes insesgados UMP.
Teorema 48 Sea X
f( x
; ), . Para cada
0
, sea A
(
0
) la regi on
de aceptaci on del contraste insesgado UMP para contrastar H
0
: =
0
frente
a H
1
: =
0
a nivel . Sea C
( x
) el conjunto de conanza (1 ) construido

invirtiendo las regiones de aceptaci on del test insesgado UMP. Entonces para
cualquier otro conjunto insesgado C( x
) de conanza (1 ) se tiene que

P
( X
)) P
C( X
))
para todo
= , es decir, el intervalo C
( x
) es insesgado UMA.
Demostracion: La demostracion es analoga a la del teorema 47 y puede dejarse
como ejercicio. 2
Para terminar esta seccion, se establecera la relacion existente entre la lon-
gitud de un intervalo de conanza y su probabilidad de cobertura.
Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribucion
parametrica dada por la funcion de densidad (o funcion de masa) f( x
; ),
IR. Sea C(x) = [L(x), U(x)] un intervalo de conanza para . Si L(x) y
U(x) son funciones estrictamente crecientes de x, entonces para cualquier valor
se tiene que
E
(U(X) L(X)) =
_
=
( C( X
))d.
Demostracion:
E
(U(X) L(X)) =
_
X
(U(x) L(x))f(x;
)dx =
_
X
_
_
U(x)
L(x)
d
_
f(x;
)dx
202 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Observese que
{ : L(X) U(x)} x {x : U
1
() x L
1
()},
puesto que L(x) y U(x) son funciones estrictamente crecientes. Por lo tanto,
cambiando el orden de integracion la integral anterior puede calcularse como
_
_
_
L
1
()
U
1
()
f(x;
)dx
_
d =
_
(U
1
() X L
1
())d =
_
( C(X))d =
_
=
( C(X))d.
2
El teorema anterior justica que a los intervalos que minimizan la probabi-
lidad de falsa cobertura se les llame tambien intervalos m as cortos en el
sentido de Neyman.
6.4. Intervalos de conanza asint oticos
Estudiaremos en esta seccion tecnicas que proporcionan intervalos de con-
anza aproximada (1 ). Se basan en propiedades asintoticas de algunos es-
tadsticos.
Sea X
n
= (X
1
, . . . , X
n
) una m.a.s. de tama no n de X f(x; ). Se dice
que Q
n
( x
n
, ) es una cantidad pivotal asint otica si para todo
Q
n
( X
n
, )
D
Q,
donde Q es una variable aleatoria de distribucion conocida que no depende de
.
Si se construyen intervalos de conanza (1 ) a partir de Q
n
sustituyendo
su distribucion por la de Q, diremos que los intervalos resultantes tienen apro-
ximadamente conanza (1 ). En general, cuanto mayor sea n mejor sera la
aproximacion.
Un caso particular importante lo constituyen las cantidades pivotales asin-
toticas de la forma
Q
n
=
T( X
n
) E
A
(T( X
n
))
_
V
A
(T( X
n
))
que son asintoticamente normales, donde T( X
n
) es alg un estadstico de la mues-
tra tal que
T( X
n
) E
A
(T( X
n
))
P
0,
V
(T( X
n
))
V
A
(T( X
n
))

P
1.
6.4. INTERVALOS DE CONFIANZA ASINT
OTICOS 203
6.4.1. Intervalos basados en el estimador de maxima ve-
rosimilitud
Sea L( X
n
, ) la funcion de verosimilitud de una muestra de tama no n de
X f(x, ). Sea

n
el estimador de maxima verosimilitud de , y sea
I
n
() = E
_

2
2
log L(; X
n
)
_
,
la informacion de Fisher que sobre contiene una muestra de tama no n. En-
tonces
Q
EMV
n
=

_
(I
n
())
1
D
Z N(0, 1),
luego Q
EMV
n
es una cantidad pivotal derivada del estimador maximo verosmil.
Un conjunto de conanza aproximadamente (1 ) para es
{ : z
/2
Q
EMV
n
z
/2
}.
No siempre podra derivarse de ah un intervalo de conanza.
Una forma de garantizar un intervalo de conanza aproximadamente (1)
para es construirlo como
[
n
z
/2
_
(
I
n
())
1
,

n
+z
/2
_
(
I
n
())
1
],
donde

I
n
() es alg un estimador consistente de la informacion de Fisher.
Ejemplo 85
Sea X N(0,
2
). Se desea construir un intervalo de conanza aproximada
(1 ) para . El logaritmo de la verosimilitud de una muestra de tama no n es
log L(, x
n
) = nlog
2 nlog
n
i=1
x
2
i
2
2
.
La funcion score es
log L(, x
n
)
=
n
n
i=1
x
2
i
3
,
por lo que el estimador maximo verosmil es

n
=
_
1
n
n
i=1
X
2
i
,
I
n
() = E
2
log L(, x
n
)
2
_
=
n
2
+
3n
4
E
(X
2
) =
2n
2
.
204 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
As, la cantidad pivotal asintotica es
Q
EMV
n
( x
n
, ) =
_
1
n
n
i=1
x
2
i

/
2n
,
que, jada la muestra, es una funcion invertible de . El intervalo de conanza
para es
_
_
_
: z
/2

_
1
n
n
i=1
x
2
i

/
2n
z
/2
_
_
_
=
_
_
_
1
n
n
i=1
x
2
i
1 +z
/2
,
_
1
n
n
i=1
x
2
i
1 z
/2
_
_
.
Si se construye el intervalo de conanza para
2
basado en su estimador de
maxima verosimilitud se observa que los extremos de este intervalo no son los
cuadrados de los extremos del intervalo construido para .
. .
Hay una relacion estrecha entre los intervalos de conanza basado en Q
EMV
n
y los intervalos de verosimilitud denidos en la pagina 195. El logaritmo
de la verosimilitud relativa es
r(; x
) = log R(; x
) = log L(; x
) log L(
; x
),
que bajo condiciones de regularidad puede ser aproximada en torno a

n
como
r(; x
)
1
2
(
n
)
2
I
n
(
n
).
El conjunto de verosimilitud al 100p % para es
V ( X
) = { : R(; x
) p} = { : r(; x
) log p}
{ : (
n
)
2
I
n
(
n
) 2 log p} = [
_
2 log p/I
n
(
n
),

n
+
_
2 log p/I
n
(
n
)].
Este intervalo de verosimilitud coincide con el intervalo de conanza construido
a partir del EMV si hacemos
z
/2
=
_
2 log p.
Tomar = 0,05 equivale a tomar p = 0,1465, tomar = 0,1 es equivalente a
jar p = 0,2585.
OTICOS 205
6.4.2. Intervalos basados en la funcion score.
Sea L( X
n
, ) la funcion de verosimilitud de una muestra de tama no n de
X f(x, ). Sea S
n
( X
n
, ) la funcion score:
S
n
( X
n
, ) =

log L(; X
n
).
Recordemos que
E
(S
n
) = 0, V
(S
n
) = I
n
(),
donde I
n
() es la informacion de Fisher. Ademas,
Q
S
n
=
S
n
( X
n
, )
_
I
n
()

D
Z N(0, 1),
luego Q
S
n
es cantidad pivotal asintotica. El conjunto
C( x
) = { : z
/2
Q
S
n
( x
, ) z
/2
}
es un conjunto de conanza aproximadamente igual a (1 ). Si Q
S
n
( x
, ) es
funcion invertible de para x
jo, entonces ese conjuntos sera un intervalo.

El metodo de construccion de intervalos de conanza basado en la funcion
score tiene la particularidad de que si se utiliza para dar un intervalo para y se
obtiene [L( x
), U( x
)], cuando se usa para dar un intervalo para () el intervalo

que se obtiene es justamente [(L( x
)), (U( x
))]. Esto se debe a que

S
n
( x
, ) =

log L(; X
n
)
= S
n
( x
, )
,
I
n
() = E
_

2
2
log L(; X
n
)
_

_
2
+

log L(; X
n
)
2
_
=
I
n
()
_
_
2
,
Q
S
n
( x
, ) = Q
S
n
(()).
Esta propiedad no la verican todos los metodos de construccion de intervalos
de conanza, tal y como se se nalo en el ejemplo 85, pagina 203.
Ejemplo 85, pagina 203. Continuacion. La funcion score es
S
n
=
n
n
i=1
x
2
i
3
I
n
=
2n
2
.
206 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
As, el conjunto de conanza basado en el score es
_
_
_
: z
/2

n
n
i=1
x
2
i
3
_
2n
2
z
/2
_
_
_
=
_
_
1
n
n
i=1
x
2
i
1 +z
/2
_
2
n
,
_
1
n
n
i=1
x
2
i
1 z
/2
_
2
n
_
_.
Este intervalo es diferente del que se encontro en la pagina 203.
Observese que si se construye el intervalos basado en la funcion score para
2
, se obtiene un intervalo cuyos extremos son los cuadrados de los extremos
del intervalo para .
. .
El siguiente teorema establece que entre una amplia familia de intervalos
basado en cantidades pivotales asintoticamente normales, los mas cortos son los
basado en la funcion score.
Teorema 50 Sea X f(x; ). Se suponen las condiciones de regularidad H1,
H2 y H3 introducidas en el Teorema de Cramer-Rao. Sea h(X, ) una funcion
tal que E
(h(X, )) = 0 y 0 < V
(h) = V
(h(X, )) < . Se dene

Q
h
( X
, ) =
n
i=1
h(X
i
, )
_
nV
(h)
Se dene
h
0
(X, ) =

log f(x, ).
Entonces se verica lo siguiente:
1. Q
h
( X
, ) es asintoticamente N(0, 1).

2. Q
S
n
= Q
h
0
.
3. La cantidad

_
Q
h
se hace maxima cuando h(X, ) = h

0
(X, ) o h(X, ) = kh
0
(X, ) con
k = 0.
4. Los intervalos de conanza basados en la funcion score son los mas cortos
asintoticamente, entre los basados en las cantidades pivotales asintoticas
Q
h
.
OTICOS 207
Demostracion: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos
que se cumple 3. La derivada parcial de A
h
respecto a es
Q
h
(X, )
=
1
_
nV
(h)
_
n
i=1
h(X
i
, )

1
2V
(h)
V
(h)
i=1
h(X
i
, )
_
.
Como E
(h(X, )) = 0, su esperanza sera

E
_
Q
h
(X, )
_
=
_
n
V
(h)
E
_
h(X, )
_
.
Observese ademas que
1
Q
h
(X, )

P
1
_
V
(h)
E
_
h(X
i
, )
_
,
lo cual implica que el valor absoluto de Q
h
(X, )/ tiende a innito en pro-
babilidad. Este hecho sera necesario para probar el punto 4.
Por otra parte, si derivamos respecto a la igualdad E
(h(X, )) = 0 se
obtiene lo siguiente:
0 =

_
h(x, )f(x; )dx =
_
h(x, )
f(x; )dx +
_
f(x; )
h(x, )dx,
E
_
h(X
i
, )
_
=
_
f(x; )
h(x, )dx =
_
h(x, )
log f(x; )
f(x; )dx = Cov(h(X, ), h

0
(X, )).
De ah se deduce, por una parte, que
E
_
Q
h
0
(X, )
_
=
_
nV
(h
0
) < 0,
y por otra que
E
_
Q
h
(X, )
_
=
n
Cov(h(X, ), h
0
(X, ))
_
V
(h)
,
luego,
E
_
Q
h
(X,)
_
E
_
Q
h
0
(X,)
_ = Corr(h(X, ), h
0
(X, )),
y por lo tanto
_
Q
h
(X, )
_
Q
h
0
(X, )
.
Esto concluye la demostracion de 3.
208 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Probemos ahora 4. Sea
0
el verdadero valor del parametro. Si es sucien-
temente proximo a
0
,
Q
h
( X
, ) Q
h
( X
,
0
) + (
0
)
Q
h
0
,
El intervalo de conanza basado en Q
h
es entonces
_
: z
/2
Q
h
( X
,
0
) + (
0
)
Q
h
0
z
/2
_
,
cuya longitud tiende a 0 porque, seg un vimos mas arriba, el valor absoluto de
(Q
h
(X, )/)|
0
tiende a innito en probabilidad. Ello hace que los valores
que estan dentro del intervalo sean cada vez mas proximos a
0
, con lo que la
anterior aproximacion de Q
h
( X
, ) por su desarrollo de Taylor de primer orden

sera cada vez mas precisa, cuando n crece.
La longitud asintotica del intervalo es
2z
/2
E
_
Q
h
0
_
.
Basta entonces aplicar el punto 3 del teorema para obtener 4. 2
Podemos dar las siguientes reglas practicas para calcular intervalos de con-
anza asintoticos. En primer lugar, es recomendable que estos se basen en la
funcion score. Tanto en ese caso como si se usan otras cantidades pivotales, se
recomienda evitar cuanto sea posible la sustitucion de cantidades que dependen
del parametro por estimadores consistentes de estas.
Ejemplo 86
Sea X B(n, p). Calcularemos el intervalo de conanza (1 ) asintotico para
p que se deriva de la funcion score. La verosimilitud es
L(; x) =
_
n
x
_
p
x
(1 p)
nx
y el score,
S(, x) =
log L(; x)
p
=
x np
p(1 p)
.
La informacion de Fisher es
I(p) = E
_
2
log L(; x)
p
2
_
=
n
p(1 p)
.
As, la cantidad pivotal asintotica derivada de la funcion score es
Q
S
(x, p) =
S(, x)
_
I(p)
=
n( p p)
_
p(1 p)
,
OTICOS 209
donde p = x/n. El intervalo de conanza que da lugar es
C
1
=
_
p : z
/2

n( p p)
_
p(1 p)
z
/2
_
El siguiente es tambien un intervalo de conanza (1 ) asintoticos para el
parametro p de X B(n, p):
C
2
=
_
p : z
/2

n( p p)
_
p(1 p)
z
/2
_
=
_
p z
/2
_
p(1 p)
n
_
El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar
expresado explcitamente como un intervalo. Denimos la funcion g(p) = (p
p)
_
n/(p(1 p)). Es facil comprobar que esa funcion es estrictamente creciente
en p. Resolviendo las ecuaciones g(p) = z
/2
se obtiene que
C
1
=
_
_
_
p + (z
2
/2
/2n)
_
z
/2
_
p(1 p)+(z
2
/2
/4n)
n
_
1 + (z
2
/2
/n)
_
_
_
.
El premio por este trabajo extra es que la longitud de C
1
sera, en general, menor
que la de C
2
. Se puede comprobar que el cociente de la longitud de C
1
entre la
de C
2
es
_
1 + (z
2
/2
/4n p(1 p))
1 + (z
2
/2
/n)
,
que para valores de p cercanos a 0.5 es aproximadamente igual a
1
_
1 + (z
2
/2
/n)
< 1.
Cuando n crece los intervalos C
1
y C
2
son practicamente coincidentes.
. .
210 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Metodos de construccion
1. (Casella-Berger, 9.1) Sea X N(, 1). A partir de una m.a.s. X
1
, . . . , X
n
de X se puede contruir un intervalo de conanza 0.95 para de la forma
x 1, 96/
n. Sea p la probabilidad de que una nueva observacion X

n+1
independiente de las anteriores caiga dentro de ese intervalo. Es p menor,
igual o mayor que 0.95?
2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para cons-
truir intervalos de conanza para la media y la varianza de una distribucion
normal.
truir intervalos de conanza para la diferencia de medias y el cociente de
varianzas de dos distribuciones normales.
truir intervalos de conanza de la forma [c, ) para el cociente de las
medias de dos exponenciales.
5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X
B(10, p) y resulta x = 1. Construye un intervalo con coeciente de con-
anza 0.95 a partir de la inversion del test de la razon de verosimilitudes
para contrastar H
0
: p = p
0
frente a H
1
: p = p
0
.
6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tama no
n de una exponencial con densidad
f(x; ) =
1
e
x/
I
(0,)
(x).
a) Prueba que Y = 2
n
i=1
X
i
/ es cantidad pivotal.
b) Construye un intervalode conanza (1 ) para a partir de Y .
7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias
independientes X
1
, . . . , X
n
tales que
X
i
N(a
i
, b
i
), i = 1, . . . , n,
donde las constantes a
i
, b
i
son conocidas y b
i
> 0, para i = 1, . . . , n.
a) Encuentra un estadstico suciente para y a partir de el construye
un intervalo bilateral de conanza (1 ) para .
b) Si a
i
= b
i
= i, i = 1, . . . , n, cual es el menor valor de n tal que
longitud de ese intervalo es menor o igual que 0,5?
8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para basada en
una m.a.s. de tama no n de una N(, ), donde > 0 es la varianza de la
distribucion. A partir de esa cantidad pivotal, construye un intervalo de
conanza (1 ) para .
1
, . . . , X
n
una m.a.s. de X beta(, 1) y
supongamos que tiene distribucion a priori (r, ). Dar un conjunto de
credibilidad (1 ) para .
1
, . . . , X
n
una m.a.s. de X Bern(p). Dar
un intervalo de credibilidad (1 ) para p usando la a priori conjugada
beta(a, b).
Evaluaci on de los metodos de construccion de interva-
los de conanza
1
, . . . , X
n
una m.a.s. de X N(,
2
). Com-
para las longitudes esperadas de los intervalos de conanza (1 ) para
calculados bajo los supuestos siguientes.
a)
2
conocida.
b)
2
desconocida.
1
, . . . , X
n
variables aleatorias independientes
con funciones de densidad
f
X
i
(x; ) = e
ix
I
[i,)
(x).
a) Prueba que T = mn
i
(X
i
/i) es un estadstico suciente para .
b) Encontrar el intervalo de conanza (1 ) de la forma [T +a, T +b]
de longitud mnima.
1
, . . . , X
n
una m.a.s. de X U(0, ). Sea
Y = X
(n)
el maximo de las observaciones.
a) Prueba que Y/ es una cantidad pivotal.
b) Prueba que [y, y/
1/n
] es el mas corto de cuantos intervalos de con-
anza (1 ) se pueden derivar de la cantidad pivotal Y .
14. (Casella-Berger, 9.42) Se tiene una observacion de una (k, ) con parame-
tro de forma k conocido. Encontrar el intervalo de conanza (1 ) mas
corto entre los que tienen la forma [x/b, x/a].
15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribucion logsti-
ca:
f(x; ) =
e
x
(1 +e
x
)
2
.
Basandote en una observacion de X, construye el intervalo de conanza
(1 ) uniformemente mas acurado de la forma (, U(x)].
212 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
1
, . . . , X
n
una m.a.s. de X exp() (E(X) =
).
a) Construye el contraste UMP de tama no para contrastar H
0
: =
0
rente a H
1
: <
0
.
b) Da el intervalo de conanza (1 ) uniformemente mas acurado
basado en el contraste del apartado anterior y prueba que puede
expresarse como
C( x
) =
_
0,
n
i=1
x
i
2
2n,
_
.
c) Calcula la longitud esperada de C( X
).
Intervalos de conanza asint oticos
17. (Casella-Berger, 9.60.a) Sea X
1
, . . . , X
n
una m.a.s. de una distribucion
binomial negativa de parametros (r, p), r conocido. Calcula un intervalo
de conanza aproximada (1 ) para p basado en la funcion score.
1
, . . . , X
n
una m.a.s. de una distribucion bi-
nomial negativa de parametros (r, p), r conocido.
a) Que distribucion tiene Y =
n
i=1
X
i
?
b) Prueba que si p tiende a 0, entonces 2pY tiende en distribucion a una
2
2nr
. (Indicacion: Utiliza las funciones generadores de momentos).
c) Usa este hecho para probar que
_
2
2nr,1/2
2
n
i=1
x
i
,
2
2nr,/2
2
n
i=1
x
i
_
es un intervalo de conanza aproximada (1 ) para p.
d) Como habra que escoger los extremos del intervalo para obtener el
intervalo de longitud mnima con conanza aproximada (1 )?
19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria
X con distribucion de Poisson(). Usa el hecho de que para valores grandes
de la distribucion de X es aproximadamente N(, ) para obtener una
ecuacion cuadratica en cuyas races dan los extremos de un intervalo de
conanza aproximado para la media de X, .
20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmetica se
plantea lanzar al mercado un nuevo producto para hombre y quiere saber
que proporcion de hombres de un grupo de edad compraran ese producto.
Dado que una pregunta directa puede no obtener una respuesta sincera,
se opta por un procedimiento de respuesta aleatorizada mediante el cual
el encuestador nunca puede saber la respuesta dada por el encuestado.
Cada enuestado lanza un dado sin que el encuestador vea el resultado.
Seg un el resultado obtenido, habra de codicar su respuesta (S, com-
prare el nuevo producto o No, no comprare el nuevo producto) como
A, B o C, seg un la siguiente tabla:
Resultado en el dado
1 2 3 4 5 6
Verdadera S C C C A B A
respuesta No C A A B A B
En una muestra de 1000 hombres las veces que aparecieron las respuestas
A, B y C fueron 440, 310 y 250, respectivamente.
a) Prueba que el logaritmo de la verosimilitud de es
440 log(3 ) + 310 log(2 ) + 250 log(1 2) + constante.
b) Da el estimador maximo verosmil de .
c) Construye un intervalo de conanza aproximada 95 % para .
d) Supongamos ahora que se tiene acceso a la verdadera respuesta S-No
de los hombres de otra muestra de tama no n. Que tama no muestral
n es necesario para que el intervalo de conanza 95 % en este caso
tenga la misma longitud que el calculado previamente?
214 CAP
ITULO 6. ESTIMACI
ON POR INTERVALOS
Captulo 7
Introduccion a la Teora de
la Decision
Referencias: Casella-Berger, captulo 10, Garthwaite, Jollife y Jones
(1995), captulo 6.
Todos los metodos de inferencia estadstica (estimacion puntual, contrastes
de hipotesis, estimacion por intervalos) involucran la toma de una decision: hay
que decidir que punto o que intervalo se toma como estimador de un parametro;
hay que decidir si se rechaza o no la hipotesis nula.
La teora de la decisi on es el marco teorico que permite estudiar global-
mente los problemas de inferencia estadstica como un unico tipo de problema:
la toma de una decision. Todas los elementos del proceso de decision estan
formalmente denidos, incluyendo el criterio que la decision nal habra de op-
timizar.
7.1. Elementos basicos en un problema de deci-
sion
Los elementos necesarios para plantear un problema de inferencia estadstica
desde la perspectiva de la teora de la decision son los siguientes:
Datos. Los datos se describen mediante un vector aleatorio X
cuyos valores
estan en el espacio muestral X.
Modelo. Es el conjunto de posibles distribuciones de probabilidad de los da-
tos X
. Se supone que es una familia parametrica de distribuciones {f
:
}, donde f
es una funcion de densidad o una funcion de masa de

215
216 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
probabilidad. El conjunto es el espacio de par ametros. El parame-
tro (que puede ser un escalar o un vector) es el valor verdadero, pero
desconocido, del estado de la naturaleza.
Espacio de acciones. Despues de observar X
= x
se toma una decision

que afecta a . El conjunto de posibles acciones permitidas es el espacio
de acciones. Este conjunto se denotara por A y sus elementos por a.
El espacio de acciones determina si un problema de decision es uno de
estimacion puntual (si A = ), uno de estimacion por intervalos (si A es
el conjunto de intervalos contenidos en ) o uno de contraste de hipotesis
(si A = {aceptar H
0
, rechazar H
0
}).
Funcion de perdida. Para evaluar el coste de tomar la decision a cuando
el verdadero estado de la naturaleza es , se utiliza una funci on de
p erdida:
L : A IR
(, a) L(, a)
Cuanto mayor es el valor de L(, a) menos apropiada es la decision a
si el verdadero estado de la naturaleza es . En economa y en analisis
bayesiano se valora la adecuacion de a a con una funci on de utilidad
U(, a) que da valores altos a pares acordes y valores bajos a pares poco
adecuados. Una funcion de perdida cambiada de signo es una funcion de
utilidad y viceversa.
Reglas de decision. Una regla de decisi on es una funcion
: X A
x
( x
) = a
que, para cada posible valor x
de X, indica que accion a se ha de tomar

si X
toma el valor x
. El conjunto de reglas de decisi on aceptables

en un problema se denota por D.
Funcion de riesgo. Para evaluar la calidad de las reglas de decision D se
dene la funci on de riesgo
R : D IR
(, ) R(, ) = E
[L(, ( X
))]
que mide la perdida esperada si se usa la regla y el verdadero estado de
la naturaleza es .
Como el valor que toma el parametro no es conocido, es deseable usar una
regla de decision que tenga valores bajos de la funcion de riesgo para todos los
posibles valores .
7.1. ELEMENTOS B
ASICOS EN UN PROBLEMA DE DECISI
ON 217
7.1.1. Comparacion de reglas de decision.
Sean
1
y
2
dos reglas de decision con funciones de riesgo asociadas R(,
1
)
y R(,
2
).
Comparar
1
y
2
mediante la funcion de riesgo es facil si se verica que
R(
0
,
1
) < R(
0
,
2
) para todo .
Al comparar
1
y
2
diremos que:
1
es tan buena como
2
si R(,
1
) R(,
2
) para todo .
1
es mejor que
2
si R(,
1
) R(,
2
) para todo , y existe un
0
tal que R(
0
,
1
) < R(
0
,
2
).
1
es equivalente a
2
si R(,
1
) = R(,
2
) para todo .
Una regla
1
es inadmisible si existe otra regla
2
tal que
R(,
2
) R(,
1
) para todo
y ademas existe un
0
tal que
R(
0
,
2
) < R(
0
,
1
).
En ese caso diremos que
2
es preferible a
1
, o simplemente que
2
es mejor
que
1
.
Diremos que una regla es admisible si no existe otra regla
D que sea
mejor que .
Una regla de decision que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantas de que el comportamiento de esa regla sea uniformemente bueno en
. La admisibilidad solo garantiza que la regla no es uniformemente mala. Parece
razonable restringir la b usqueda de las reglas de decision a la clase de reglas de
D que sean admisibles.
En la comparacion de dos reglas de decision lo habitual sera que ninguna de
ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra
para determinados valores de y ocurra lo contrario para otros valores de . Para
realizar una valoracion global (considerando todos los posibles valores de ) de
una regla de decision , a veces se dene una distribuci on de probabilidad
a priori () en que reeja como son de plausibles las diferentes zonas del
espacio de parametros. A partir de esta distribucion sobre se dene el riesgo
Bayes de las reglas de decision como
B : A IR
B() = E
[R(, )]
218 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
En ocasiones escribiremos el riesgo Bayes como B(, ) para se nalar explcita-
mente que su denicion depende de la distribucion a priori considerada.
El riesgo Bayes de resume en un solo n umero el comportamiento de
sobre todo el espacio . Valores peque nos de B(, ) indican que tiene un
buen comportamiento en las zonas de a las que asigna mas probabilidad.
A una regla de decision que hace mnimo el riesgo Bayes se le llama regla
Bayes. En la seccion 7.4 veremos que estas reglas tiene ciertas propiedades de
optimalidad.
7.2. Teora de la decision e inferencia estadstica
En esta seccion veremos como plantear los problemas de estimacion puntual,
estimacion por intervalos y contraste de hipotesis como problemas de teora de
la decision.
7.2.1. Estimacion puntual.
Supongamos que X
es un vector aleatorio con distribucion f
, . Su-
pongamos que IR y se desea estimar el parametro . Determinaremos todos
los elementos del problemas de decision asociado. Las ideas que se desarrollaran
ahora son tambien validas si es un vector de parametros. Los datos y el modelo
son los que se acaban de especicar: X
, {f
: }.
El espacio de acciones A se corresponde con los posibles valores de , es decir
A = . A veces puede interesar que A sea mas grande que , por ejemplo, si
es la probabilidad de exito de un experimento de Bernoulli y = (0, 1) podra
ser que nos interesase tomar A = [0, 1].
La funcion de perdida L debe reejar el hecho de que si una accion a es
cercana a entonces la decision es correcta, es decir, la perdida es peque na.
En general las funciones de perdidas consideradas son funciones crecientes en la
distancia entre y a. Las funciones de perdida mas usuales son estas:
Perdida del valor absoluto: L(, a) = | a|.
Perdida cuadratica: L(, a) = ( a)
2
.
Perdida 0-1: L(, a) = 1
{|a|>c}
, con c 0.
La funcion de perdida puede reejar que es menos deseable, por ejemplo, so-
brestimar que subestimarlo. As lo hace esta funcion de perdida:
L(, a) =
_
( a)
2
si a <
10( a)
2
si a
7.2. TEOR
IA DE LA DECISI
ON E INFERENCIA ESTAD
ISTICA 219
Tambien es posible penalizar mas los errores de estimacion cuando es proximo
a 0 que cuando es grande:
L(, a) =
( a)
2
|| + 1
.
Observese que en este contexto las reglas de decision son los estimadores de .
La funcion de riesgo de una regla de decision depende de la funcion de perdida
denida. Por ejemplo, si la perdida es cuadratica, la funcion de riesgo es el error
cuadratico medio:
R(, ) = E
[(( X
) )
2
] = V
(( X
)) + (Sesgo
(( X
)))
2
.
Los estimadores (las reglas de decision) deseables seg un esta denicion de la
funcion de riesgo son aquellos que simultaneamente tienen poco sesgo y poca
varianza. Observese que desde el punto de vista de la teora de la decision
no esta justicado el restringir la clase de estimadores D a aquellos que son
insesgados.
Ejemplo 87
Sea X
1
, . . . , X
n
2
). Consideremos el
problema de estimar
2
usando la funcion de perdida cuadratica
L(, a) = ( a)
2
.
Consideremos reglas de decision (estimadores) del tipo
b
( X
) = bS
2
, donde S
2
es la varianza muestral, y b > 0.
Recordemos que E(S
2
) =
2
y V (S
2
) = 2
4
/(n 1). El riesgo de
b
es
R((,
2
),
b
) = V (bS
2
) + (E(bS
2
)
2
)
2
=
b
2
2
4
n 1
+ (b
2
2
)
2
=
4
_
2b
2
n 1
+ (b 1)
2
_
=
4
c(b).
As, la funcion de riesgo no depende de y es cuadratica en
2
.
Observese que si c(b) < c(b
) entonces R((,
2
),
b
) < R((,
2
),
b
). Por
lo tanto, buscar la mejor regla de decision equivale a minimizar c(b) en b. El
mnimo de esa expresion se alcanza en b = (n 1)/(n +1) y, por lo tanto, para
cada valor del parametro (,
2
) el estimador
S
2
=
n 1
n + 1
S
2
=
1
n + 1
n
i=1
(X
i
X)
2
tiene el riesgo menor entre todos los estimadores de la forma bS
2
.
El siguiente graco compara los riesgos de S
2
,
2
y

S
2
para diferentes valores
de
2
, donde
2
= (n 1)S
2
/n es el estimador maximo verosmil de
2
.
220 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
0 1 2 3 4 5 6 7 8 9 10
0
5
10
15
20
25
30
35
R(
2
,S
2
)
R(
2
,(n1)S
2
/n)
R(
2
,(n1)S
2
/(n+1))
2
R
i
e
s
g
o
. .
Ejemplo 88
Sea X
1
, . . . , X
n
muestra aleatoria simple de X no necesariamente normal con
V (X) =
2
positiva y nita. Consideramos el problema de la estimacion de
2
y la funcion de perdida
L
S
(
2
, a) =
a
2
1 log
a
2
,
conocida como p erdida de Stein. Observese que L
S
(
2
, a) 0 y que L
S
(
2
, a) =
0 si y solo si a =
2
. Ademas, para
2
jo, se tiene que
lm
a0
L
S
(
2
, a) = , y lm
a
L
S
(
2
, a) = .
Es decir, L
S
penaliza tanto la subestimacion como la sobrestimacion. Recuerdese
que con la perdida cuadratica la subestimacion tiene perdida acotada, mientras
que la penalizacion de la sobrestimacion es no acotada.
Consideremos, como en el ejemplo anterior, la clase de estimadores de la
forma
b
= bS
2
. Su riesgo es
R(
2
,
b
) = E
_
bS
2
2
1 log
bS
2
2
_
= b 1 log b E
_
log
S
2
2
_
.
Observese que el ultimo sumando es funcion de
2
y posiblemente de otros
parametros, pero no es funcion de b. As, R(
2
,
b
) se minimiza en aquel valor
7.2. TEOR
IA DE LA DECISI
ISTICA 221
b que hace mnima la funcion b log b, es decir, en b = 1. As, de todos los
estimadores de la forma bS
2
el que tiene menor riesgo para cualquier valor
2
es
1
= S
2
.
. .
7.2.2. Contrastes de hipotesis.
En un problema de contraste de hipotesis el espacio de acciones consiste
unicamente en dos elementos: A = {a
0
, a
1
}, donde la accion a
0
consiste en
aceptar H
0
:
0
y la accion a
1
en rechazarla o, equivalentemente, aceptar
H
1
:
1
.
Una regla de decision es una funcion del espacio muestral X
que solo toma

dos valores: a
0
o a
1
. El conjunto { x
: ( x
) = a
0
} es la region de aceptacion del
test y el conjunto { x
: ( x
) = a
1
} es la region de rechazo o region crtica.
La funcion de perdida ha de reejar que se comete un error si se decide a
0
cuando H
0
es falsa o se decide a
1
cuando H
0
es verdadera, mientras que en otros
casos se act ua correctamente. En este contexto la funcion de perdida 0-1 es la
mas utilizada:
L(, a
0
) = 1
{
0
}
, L(, a
1
) = 1
{
0
}
.
Esta funcion penaliza de igual forma los errores de tipo I que los errores de tipo
II. Si se desea penalizarlos de forma diferente puede usarse la funcion de perdida
0-1 generalizada:
L(, a
0
) = c
II
1
{
0
}
, L(, a
1
) = c
I
1
{
0
}
,
donde c
I
es el coste de un error de tipo I, y c
II
el de uno de tipo II.
Se pueden denir otras funciones de perdida que recojan aspectos propios
del problema que se este tratando. Por ejemplo, la funcion de perdida puede
recoger el hecho de que es mas grave cometer un error de tipo I cuanto mas
lejos de
0
este .
La funcion de potencia de un contraste esta relacionada con la funcion de
riesgo de ese contraste. Sea () la funcion de potencia de un test basado en la
regla de decision . Sea C = { x
: ( x
) = a
1
} la region crtica. Entonces
() = P( X
C|) = P(( X
) = a
1
|).
Por su parte, la funcion de riesgo asociada a una perdida 0-1 generalizada es,
para
0
,
R(, ) = E
(L(, ( X
))) =
0 P(( X
) = a
0
|) +c
I
P(( X
) = a
1
|) = c
I
(),
y para
0
,
R(, ) = E
(L(, ( X
))) =
222 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
c
II
P(( X
) = a
0
|) + 0 P(( X
) = a
1
|) = c
II
(1 ()).
Esta relacion entre la funcion de riesgo y la de potencia viene dada por la eleccion
de la funcion de perdida 0-1 generalizada. Sin embargo, aunque se trabaje con
otras funciones de perdida, en general la funcion de potencia juega un papel
importante en cualquier contraste de hipotesis. En efecto,
R(, ) = E
(L(, ( X
))) = L(, a
0
)(1 ()) +L(, a
1
)().
Ejemplo 89
Sea X
1
, . . . , X
n
2
) con
2
conocida. El
contraste uniformemente mas potente de nivel para contrastar
_
H
0
:
0
H
1
: <
0
rechaza H
0
si
X
0
/
n
< z
y tiene funcion de potencia

() = P
_
Z < z

0
/
n
_
=
_
z

0
/
n
_
.
Para = 0,1 y tomando c
I
= 8 y c
II
= 3 en la funcion de perdida 0-1 generali-
zada, se tiene que
R(, ) = 8
_
z

0
/
n
_
si
0
,
R(, ) = 3
_
1
_
z

0
/
n
__
si <
0
.
3 2 1 0 1 2 3
0
0.5
1
1.5
2
2.5
3
R
(
)
n
1/2
(
0
)/
<
0

0
7.2. TEOR
IA DE LA DECISI
ISTICA 223
. .
A veces es conveniente aprovechar la funcion de perdida para reejar el hecho
de que algunas decisiones incorrectas son mas graves que otras. Por ejemplo, en
el contraste
_
H
0
:
0
H
1
: <
0
se comete un error de tipo I si se rechaza H
0
cuando de hecho
0
. Sin
embargo, las consecuencias de rechazar erroneamente H
0
son mucho peores si
es mucho mayor que
0
que si es ligeramente mayor que
0
. La siguiente
funcion de potencia reeja esto:
L(, a
0
) = b(
0
)1
{<
0
}
, L(, a
1
) = c(
0
)
2
1
{
0
}
,
donde b y c son constantes positivas. Un contexto en el que esta funcion de
perdida es adecuada es el siguiente. Se desea contrastar si una cierta medicina
ayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol maximo
aceptable en
0
. Se contrasta
_
H
0
:
0
H
1
: <
0
donde es el nivel de colesterol de un paciente que ha tomado la medicina
(se supone que no es directamente observable, sino solo a partir de diversos
analisis). Debido a la asociacion entre niveles altos de colesterol y enfermedades
de corazon, las consecuencias de rechazar H
0
cuando es grande son mucho
peores que si toma valores moderados, aunque superiores a
0
. Por eso es
conveniente usar la funcion cuadratica (
0
)
2
.
7.2.3. Estimacion por intervalos.
En estimacion por conjuntos el espacio de acciones A consiste en todos los
subconjuntos del espacio parametrico . Nos limitaremos a considerar el caso
de que IR y unicamente consideraremos como acciones los subconjuntos de
que sean intervalos. Esta limitacion es arbitraria y responde unicamente a
consideraciones practicas.
Sea C un elemento de A. Cuando se toma la accion C, se esta haciendo la
estimacion C. Una regla de decision ( x
) especica para cada x
X
que intervalo C A sera usado como estimador si se observa X
= x
. Usaremos
la notacion C( x
) para denotar a C = ( x
).
En estimacion por intervalos las funciones de perdida tienen en cuenta dos
aspectos: si el verdadero valor del parametro esta o no en el intervalo estimador,
y una medida del tama no de este. Para medir el tama no se usa la longitud del
224 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
intervalo, Long(C), mientras que la funcion I
C
() suele usarse para indicar si
esta o no en C.
La forma en que se combinan esas dos cantidades para formar la funcion de
perdida es habitualmente esta:
L(, C) = b Long(C) I
C
(),
donde la constante b determina el peso relativo del tama no y la correccion de
C. La funcion de riesgo asociada sera
R(, C) = bE
(Long(C( X
))) E
(I
C
( X
)) =
bE
(Long(C( X
))) P
( C( X
)).
Esta funcion de riesgo tiene dos componentes: la longitud esperada del intervalo
y su probabilidad de cubrimiento. As, cuando se busca el estimador C( x
)
que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entre
longitud y conanza.

Esta es una diferencia considerable con respecto al enfoque
adoptado en la seccion 6, dedicada a la estimacion por intervalos: all se jaba
un valor de la conanza y se buscaba el intervalo mas corto que tuviese dicha
conanza. Desde la optica de la teora de la decision es posible perder algo
de conanza si a cambio se consigue reducir notablemente la longitud de los
estimadores.
Ejemplo 90
Sea X N(,
2
), con
2
conocida. Consideremos las reglas de decision
C
c
(x) = [x c, x +c], c IR, c 0.
Compararemos estos estimadores usando la funcion de perdida
L(, C
c
) = bLong(C
c
) I
C
c
() = 2bc I
C
c
().
As, la primera parte de la funcion de riesgo es constante, mientras que la se-
gunda vale
P
( C
c
(X)) = P
(X c X +c) =
P
_
c
X
c
_
= 2P(Z c) 1,
donde Z N(0, 1). Por lo tanto, la funcion de riesgo es
R(, C
c
) = 2bc 2P(Z c) + 1.
Es una funcion de riesgo constante en . As, la mejor regla de decision corres-
pondera al valor c donde la funcion
g(c) = 2bc 2P(Z c) + 1
7.3. EL PROBLEMA DE DECISI
ON BAYESIANO 225
tenga su mnimo. La derivada de g(c) se anula en el punto c que verica
b = f
Z
(c) =
1
2
e
c
2
2
c
2
= log
1
2b
2
2
.
Esa ecuacion tiene solucion si y solo si b 1/
2. Cuando hay solucion esta

vale
c
=
_
log
1
2b
2
2
.
La segunda derivada de g en c
es g
(c
) = 2b 2f
Z
(c
) > 0, porque c
0
implica que f
Z
(c
) 0, luego c
es un mnimo de g. En el caso de que b >

1/
2, puede comprobarse que g
(c) > 0 para todo c 0, luego el mnimo

riesgo se alcanza en c = 0.
En resumen, si b 1/
2 (lo que equivale a no dar un peso excesivo al

tama no del intervalo en la funcion de riesgo) entonces el intervalo optimo es
[x c
, x + c
], mientras que si b > 1/
2 (es decir, si la longitud del in-

tervalo pesa mucho en la funcion de riesgo) entonces el mejor intervalo para
es [x, x], es decir, un estimador puntual de .
. .
7.3. El problema de decision bayesiano
Hemos visto en la seccion 7.1 que a veces se dene una distribucion de pro-
babilidad () sobre el espacio parametrico , que reeja el conocimiento que
el investigador tiene sobre los posibles valores del parametro a priori, es decir,
antes de observar los datos X
. En general cualquier funcion de pesos que pon-

dere de cierta forma las diferentes regiones de sera valida como distribucion
(), aunque esta distribucion no reeje ning un conocimiento previo subjetivo
sobre .
Se denio el riesgo Bayes de la regla de decision respecto de la distribucion
a priori como
B(, ) = E
[R(, )].
Es una medida del riesgo medio de acuerdo a los pesos que asigna . As, si no
se dispone de informacion previa que permita denir , una forma razonable
de elegir esta distribucion a priori es hacerlo de forma que los valores de a
los que se les asigne probabilidad a priori grande sean aquellos para los cuales
el experimentador desea tener un riesgo peque no, y los valores de con peso
peque no sean aquellos cuyo riesgo no le preocupa.
Se dene la regla Bayes como aquella regla
que minimiza el riesgo Bayes:

B(,
) = mn
D
B(, ).
226 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
Esta regla puede no existir, o bien puede haber mas de una regla Bayes, aunque
en general solo existe una regla Bayes.
Los siguientes resultados indican como encontrar las reglas Bayes, si estas
existen.
Teorema 51 Para cada x
X se dene
r( x
, a) = E
(| x
)
(L(, a)),
donde la esperanza se toma con respecto a la distribucion a posteriori de , dado
que se ha observado X
= x
. Para cada x
X se supone que existe una accion

a( x
) A tal que
r( x
, a( x
)) = mn
bA
r( x
, b).
Sea la regla de decision
: X A
x
a( x
)
Si
D entonces
es la regla Bayes respecto a .

Demostracion: Sea f( x
, ) = f( x
|)() la distribucion conjunta de ( X
, )
y sea m( x
) la marginal de X
. As,
B(, ) = E
(R(, )) = E
_
E
(L(, ( X
)))
_
=
E
(L(, ( X
))) = E
m( x
)
_
E
(| X
)
(L(, ( X
)))
_
=
E
m( x
)
(r( X
, ( X
))).
Para cada x
X, r( x
( x
)) r( x
, ( x
)) para todo D, de donde se

sigue que
E
m( x
)
(r( X
( X
))) E
m( x
)
(r( X
, ( X
)))
para todo D y, en consecuencia, que
B(,
) B(, )
para todo D, luego
es la regla Bayes. 2
Observese que la funcion r( x
, a) que se dene en el anterior teorema es la

esperanza a posteriori de la funcion de perdida, dado que se ha observado X
=
x
. Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza
a posteriori de la funcion de perdida, ya sea analtica o numericamente.
El siguiente resultado se sigue directamente del teorema anterior y da la
expresion explcita para la regla de Bayes en dos casos importantes referidos a
la estimacion de parametros.
7.3. EL PROBLEMA DE DECISI
ON BAYESIANO 227
Corolario 8 Consideremos un problema de estimacion de un parametro real
IR. Se tiene lo siguiente:
1. Si L(, a) = ( a)
2
la regla Bayes es
( x
) = E(| x
), si
D.
2. Si L(, a) = |a| la regla Bayes es
( x
) que asocia a cada x
la mediana
a de la distribucion a posteriori (| x
), si
D.
Observese que si el conjunto de acciones A = es nito (o discreto) podra
pasar que E(| x
) A y entonces
( x
) = E(| x
) no sera una funcion de X
en A, es decir,
no sera una regla de decision legtima. Si A = es convexo se

puede probar que E(| x
) A para cualquier distribucion a posteriori (| x
).
El siguiente resultado hace referencia al problema de contrastes de hipotesis
desde la perspectiva de la teora de la decision bayesiana. Concreta en este
contexto lo establecido por el teorema 51 sobre como determinar la regla Bayes.
Teorema 52 Consideremos un problema de contraste de la hipotesis H
0
:
0
frente a H
1
:
0
, con funcion de perdida 0-1 generalizada. Cualquier
test que
rechaza H
0
si P(
0
| x
) <
c
II
c
I
+c
II
y
acepta H
0
si P(
0
| x
) >
c
II
c
I
+c
II
es una regla de Bayes (tambien llamada test de Bayes o regla Bayes).
Demostracion: Aplicamos el teorema 51. Como A = {a
0
, a
1
} hay que com-
parar r( x
, a
0
) y r( x
, a
1
) y escoger como accion a( x
) aquella de las dos que

de valor menor de r( x
, a).
Recordemos que
L(, a
0
) = c
II
1
{
0
}
, L(, a
1
) = c
I
1
{
0
}
.
Calculamos r( x
, a
0
) y r( x
, a
1
):
r( x
, a
0
) = E
(| x
)
(L(, a
0
)) = c
II
P(
0
| x
)
r( x
, a
1
) = E
(| x
)
(L(, a
1
)) = c
I
P(
0
| x
).
As, el conjunto de x
X para los cuales el test de Bayes rechaza H

0
son
aquellos para los cuales
r( x
, a
1
) < r( x
, a
0
) c
I
P(
0
| x
) < c
II
P(
0
| x
)
P(
0
| x
) <
c
II
c
I
+c
II
.
228 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
Analogamente, el conjunto de puntos en los que el test Bayes acepta H
0
, es decir,
aquellos para los cuales la accion a
0
tiene menor riesgo esperado a posterior que
la accion a
1
, son aquellos que cumplen
r( x
, a
0
) < r( x
, a
1
) c
I
P(
0
| x
) > c
II
P(
0
| x
)
P(
0
| x
) >
c
II
c
I
+c
II
.
Si r( x
, a
0
) = r( x
, a
1
), las dos acciones son indiferentes y puede tomarse cual-
quiera de ellas sin que la regla resultante deje de ser la regla Bayes. 2
Ejemplo 91
Sea X
1
, . . . , X
n
2
) y () N(,
2
),
con
2
, y
2
conocidos. Sea
=

2
n
2
+
2
.
La distribucion a posteriori de dado que X
= x
es normal con parametros

E(| x
) = (1 )x +, V (| x
) =
2
.
Consideremos el test
_
H
0
:
0
H
1
: <
0
con funcion de perdida 0-1 generalizada. Calculemos P(
0
| x
):
P(
0
| x
) = P(
0
|x) = P
_
Z

0
(1 )x
x
_
.
As, el test de Bayes rechaza H
0
si
P(
0
| x
) <
donde
= c
II
/(c
I
+c
II
), y eso ocurre si y solo si
0
(1 )x
> z
x <
0
(
0
) +z
1
.
Por lo tanto, el test de Bayes rechaza H
0
para valores peque nos de x y el valor
crtico depende de las perdidas para los dos tipos de errores (a traves del valor
) y de la distribucion a priori. Recordemos que el test uniformemente mas

potente de nivel rechaza H
0
si
x <
0
z
n
.
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISI
ON 229
En el caso particular de que tomasemos c
I
= 1 y c
II
= , entonces
= . Si ademas consideramos la distribucion a priori de centrada en

0
tendremos que el test de Bayes rechaza H
0
si
x <
0
1
.
Recordando la denicion de se llega a que se rechaza H
0
si y solo si
x <
0
z
n
_
1 +

2
n
2
,
expresion que solo diere del test UMP en el factor
_
1 + (
2
/n
2
). Ambos
contrasten coincidiran si
2
/n
2
= 0, es decir, si n , o si
2
o si
2
0.
. .
7.4. Admisibilidad de las reglas de decision
La clase D de todas las reglas de decision posibles quizas sea excesivamente
grande: podra estar formada por todas las funciones de X en A. La eleccion de
la regla en un determinado problema se simplica si restringimos la b usqueda
a una subclase de reglas C D de la que formen parte unicamente las reglas
que tengan alguna buena propiedad. Una de estas propiedades deseables es la
de ser admisible.
7.4.1. Comparacion de reglas de decision.
Sean
1
y
2
dos reglas de decision con funciones de riesgo asociadas R(,
1
)
y R(,
2
). Al comparar
1
y
2
diremos que:
1
es tan buena como
2
si R(,
1
) R(,
2
) para todo .
1
es mejor que
2
si R(,
1
) R(,
2
) para todo , y existe un
0
tal que R(
0
,
1
) < R(
0
,
2
).
1
es equivalente a
2
si R(,
1
) = R(,
2
) para todo .
Diremos que una regla es admisible si no existe otra regla
D que sea
mejor que . Diremos que es inadmisible si existe otra regla
mejor que .
Una regla de decision que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantas de que el comportamiento de esa regla sea uniformemente bueno en
. La admisibilidad solo garantiza que la regla no es uniformemente mala. Parece
230 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
razonable restringir la b usqueda de las reglas de decision a la clase de reglas de
D que sean admisibles.
Sea una clase C D. Se dice que C es una clase completa si para cada
C existe C que es mejor que
. C es una clase esencialmente

completa si para cada
C existe C que es tan buena como
.
Teorema 53 Sea C una clase de reglas de decision completa. Entonces la clase
de reglas de decision admisibles esta contenida en C.
Demostracion: Sea
una regla admisible. Si
C, entonces existe C
mejor que
, y eso contradice el supuesto de que
es admisible, luego
C.
2
7.4.2. B usqueda de reglas admisibles y clases completas.
Teorema 54 Consideremos un problema de decision en el que IR. Supon-
gamos que para cada regla de decision D, la funcion de riesgo R(, ) es
continua en .
Sea () una distribucion a priori sobre tal que para todo > 0 y todo
la probabilidad que asigna al intervalo ( , +) es positiva.
Sea
la regla Bayes respecto a . Si < B(,
) < entonces
es
admisible.
Demostracion: Supongamos que
es inadmisible. Entonces existe una regla

D tal que
R(, ) R(,
) para todo
y existe un
0
con
R(
0
, ) < R(
0
,
).
Sea = R(
0
,
) R(
0
, ) > 0. Por continuidad de R(, ) y R(,
) se tiene
que existe > 0 tal que
R(,
) R(, ) >

2
para todo (
0
,
0
+). Entonces
B(,
) B(, ) = E
[R(,
) R(, )]
E
[1
(
0
,
0
+)
(R(,
) R(, ))]

2
P
[(
0
,
0
+)] > 0.
Esto contradice el supuesto de que
es regla Bayes. Por lo tanto
es admisible.
2
El teorema anterior proporciona un conjunto de condiciones bajo las cuales
las reglas Bayes son admisibles. Hay otros conjuntos de hipotesis que tambien
ON 231
lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema
se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen
a cualquier clase completa. Es as razonable considerar las reglas Bayes.
El siguiente teorema permite restringir las reglas de decision consideradas
a aquellas que dependen de estadsticos sucientes, dado que hacerlo no tiene
coste en terminos de las funciones de riesgo. Este resultado es una generalizacion
del teorema de Rao-Blackwell (teorema 27, pagina 108).
Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no
acotado. Supongamos que la funcion de perdida L(, a) es una funcion convexa
de la accion a, para todo . Sea T( X
) un estadstico suciente de con

espacio muestral T .
Si ( x
) D es una regla de decision, entonces la regla de decision
( x
) =
T
(T( x
)),
donde
T
: T A
t
T
(t) = E
(( X
)|T( X
) = t),
es tan buena como , siempre y cuando la esperanza condicionada exista para
todo t T .
Demostracion: Veamos en primer lugar que
( x
) es regla de decision, es decir,

es una funcion de X en A. Por una parte, como T es estadstico suciente,
E
(( X
)|T( X
) = T( x
)) no depende de , sino solo de x
. Ademas, como
es regla de decision se tiene que ( x
) A para todo x
X y por ser A un
conjunto convexo se sigue que E
(( X
)|T( X
) = T( x
)) A.
Veamos ahora que
es tan buena como . Para todo , se tiene que

R(, ) = E
[L(, ( X
))] = E
[E
L(, ( X
))|T( X
)]
y por ser L convexa,
E
[E
L(, ( X
))|T( X
))] E
[L(, E
(( X
)|T( X
)))] =
E
[L(,
( X
))] = R(,
).
2
El siguiente corolario se sigue directamente del teorema.
Corolario 9 La clase de reglas de decisi on que dependen de los datos X
solo
a traves de un estadstico suciente T es una clase esencialmente completa.
Estos resultados tienen especial importancia en el problema de estimacion
puntual cuando el espacio A es un intervalo.
232 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
7.4.3. Admisibilidad de la media muestral bajo normali-
dad.
Sean X
1
, . . . , X
n
m.a.s. de X N(,
2
). Nos planteamos el problema de
estimacion de = IR con funcion de perdida cuadratica. Veremos que en
este caso la media muestral es admisible como estimador de .
Teorema 56 La media muestral X es un estimador admisible de .
Demostracion: Distinguiremos dos situaciones, seg un
2
sea conocida o no.
(i)
2
conocida.
Supongamos que ( x
) = x es inadmisible. Entonces existe
( x
) tal que R(,
)
R(, x) para todo IR y para alg un
0
se tiene que R(, x) R(,
) = > 0.
De la continuidad en de la funcion de perdida cuadratica y la continuidad
de la funcion de densidad de la normal de esperanza , se sigue que R(, ) es
funcion continua de para toda regla . Como consecuencia de ello, existe > 0
tal que R(, x) R(,
) > /2, para todo (

0
,
0
+).
Consideramos sobre IR la distribucion a priori N(0,
2
) y denimos
=

2
n
2
+
2
.
As,
B(, x) B(,
) =
_

[R(, x) R(,
)]
1
2
e

2
2
2
d
_

0
+
[R(, x) R(,
)]
1
2
e

2
2
2
d >
2
P(
0
< Y <
0
+) >

2
2f
Y
(
0
) =

2
2
1
2
e
(
0
)
2
2
2
donde Y N(0,
2
) y
0
es el mas cercano a 0 de los dos puntos
0
y
0
+.
Si llamamos K() a
K() =

2
2
1
2
e
(
0
)
2
2
2
se tiene que
(B(, x) B(,
)) > K()
y que
lm
K() =
/2
2
2 > 0.
Por otra parte, el riesgo Bayes de la media muestral es
B(, x) =
_
R(, X)()d =

2
n
,
ON 233
porque R(, X) = E
[( X)
2
] =
2
/n, para todo . Esto ademas ocurre
para cualquier a priori .
Sea
la regla Bayes respecto a la a priori . Por el teorema 51 y su corolario,

la regla Bayes
( x
) es la que asigna a cada x
la esperanza a posteriori de
dado x
, y su riesgo Bayes es la varianza a posteriori:

B(,
) =
2
=

2
2
n
2
+
2
.
Por lo tanto,
(B(,
) B(, x)) =
_
2

2
n
_
=
2
n

_
1
2
2
_
=
2
n

_
1
2

2
n
2
+
2
n
2
_
=
2
n
.
Finalmente,
0 (B(,
) B(,
)) = (B(,
) B(, x)) +(B(, x)) B(,
)) >
2
n
+K() =
2
n
2
n
2
+
2
+K()

/2
2
2 > 0,
lo cual es una contradiccion, que nace de suponer que x no es admisible.
(ii)
2
desconocida.
Supongamos que x es inadmisible. Entonces existe un estimador
tal que
R((,
2
),
) R((,
2
), x), para todo (,
2
),
R((
0
,
2
0
),
) < R((,
2
), x), para alg un (
0
,
2
0
).
Como
es una funcion de X en IR,
tambien es un estimador de si
2
se
ja en el valor
2
0
. Para cualquier regla de decision, el riesgo R(, ) cuando
2
es conocida y vale
2
0
es igual al riesgo en el caso de
2
desconocida evaluado
en el valor
2
0
: R((,
2
0
), ). As,
R(,
) = R((,
2
0
),
) R((,
2
0
), x), para todo ,
R(
0
,
) = R((
0
,
2
0
),
) < R((,
2
0
), x), para alg un
0
.
De aqu se sigue que
es mejor que x para estimar cuando

2
es conocido
y vale
2
0
, lo que contradice el hecho de que x es admisible si
2
es conocida.
As x ha de ser admisible tambien si
2
es desconocida. 2
234 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
7.5. Reglas minimax
El riesgo Bayes denido en la seccion 7.3 permite resumir el comportamiento
de la funcion de riesgo de una regla de decision sobre todo el espacio en
un solo n umero, el riesgo Bayes de esa regla, que es el valor medio (seg un la a
priori ) de la funcion de riesgo. Este resumen es util porque permite comparar
cualquier par de reglas de decision mediante la comparacion de sus respectivos
riesgos Bayes.
Otro resumen numerico de la funcion de riesgo usado habitualmente es el
valor maximo (o el supremo) que toma esta funcion cuando recorre .
Se dice que una regla de decision
es una regla minimax si

sup
R(,
) = nf
D
sup
R(, ).
Una regla minimax protege de la mejor forma posible (nf
D
) contra la situacion
mas adversa que podra presentarse (sup
).
El criterio minimax para elegir una regla de decision es muy conservador,
pues solo tiene en cuenta para cada regla cual es su comportamiento en el
peor escenario posible, sin considerar si ese escenario adverso es o no plausible.
Este criterio considera que la naturaleza (quien decide el valor de ) es un
adversario del decisor, y lleva a este a actuar de forma estrategica. Este supuesto
es exagerado en muchos problemas estadsticos.
Por otra parte, el criterio minimax se complementa bien con el de admisibili-
dad. Una regla puede ser admisible porque se comporta bien en un determinado
valor de , aunque tenga un riesgo altsimo para los restantes valores. Si ademas
de admisible una regla es minimax se puede estar seguro de que el riesgo no
sera extremadamente alto en ning un valor de . As pues, una regla que sea
minimax y admisible sera una buena regla. De hecho, las reglas minimax estan
estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como
ponen de maniesto los resultados siguientes.
Teorema 57 Supongamos que una regla de decision
es regla Bayes para

cierta distribucion a priori y que, ademas,
R(,
) B(,
), para todo .
Entonces
es minimax.
Demostracion: Supongamos que
no fuese minimax. Entonces existira al-

guna regla
tal que
sup
R(,
) < sup
R(,
).
El riesgo Bayes de esta regla sera
B(,
) sup
R(,
) < sup
R(,
) B(,
),
7.5. REGLAS MINIMAX 235
entrando en contradiccion con el hecho de que
es regla Bayes respecto a .

2
Observese que la hipotesis
R(,
) B(,
), para todo ,
es muy restrictiva. Al denirse el riesgo Bayes como
B(,
) = E
(R(,
))
se tiene que en general
B(,
) sup
R(,
).
De esto se sigue que la hipotesis del problema es equivalente a que
B(,
) = sup
R(,
),
y eso ocurre si y solo si pone toda la probabilidad en el conjunto de puntos
en los que R(,
) es maxima. En cierto modo lo que se pide en el teorema es

que la regla R(,
) sea constante con probabilidad 1, seg un .

La distribucion a priori cuya regla Bayes es minimax es la distribucion a
priori menos favorable. Tiene la propiedad de que si
es otra distribucion
a priori y
es la regla Bayes asociada, entonces

B(
) B(,
).
En efecto,
B(
) B(
) = E
(R(,
)) E
(B(,
)) = B(,
).
Si una regla de decision tiene funcion de riesgo constante en entonces
se dice que es una regla igualadora. En muchos caso las reglas igualadoras
son minimax, como muestra el siguiente resultado, que se sigue directamente
del teorema anterior.
Corolario 10 Sea una regla igualadora que es regla Bayes para alguna dis-
tribucion a priori . Entonces es minimax.
Este corolario es util cuando se quiere probar que una regla igualadora es
minimax. Basta con encontrar una a priori respecto de la cual la regla igua-
ladora sea regla Bayes. El siguiente resultado prueba que en ese caso tambien
basta con probar que la regla igualadora es admisible.
Teorema 58 Sea una regla igualadora. Si es admisible, entonces es mini-
max.
236 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
Demostracion: Sea c = R(, ), que es constante en por ser igualadora. Si
no es minimax, entonces existe una regla
tal que
sup
R(,
) < sup
R(, ) = c.
Para todo se tiene entonces que
R(,
) sup
R(,
) < sup
R(, ) = c = R(, ),
lo cual implica que no es admisible. El absurdo nace de suponer que no es
minimax. 2
Ejemplo 92
Sea X
1
, . . . , X
n
2
). El teorema 56 mues-
tra que la media muestral X es un estimador admisible de cuando se usa
perdida cuadratica, tanto si
2
es conocido como si no lo es.
En el caso de
2
conocida, se tiene que X es una regla igualadora:
R(, x) = V (X) =

2
n
.
As, por el teorema anterior se sigue que la media muestral X es estimador
minimax.
Sin embargo, si
2
es desconocido, este teorema no es aplicable porque X ya
no es una regla igualadora: el riesgo
R((,
2
), x) = V (X) =

2
n
,
depende de
2
. De hecho cualquier estimador tiene
sup
,
2
R((,
2
), ) = ,
y por lo tanto cualquier estimador es minimax.
Se puede probar que si se dene la perdida L((,
2
), a) = (a )
2
/
2
en-
tonces X es admisible y minimax, con riesgo maximo nito.
. .
El siguiente resultado muestra que bajo ciertas situaciones una regla mini-
max es admisible.
Teorema 59 Supongamos que es la unica regla minimax en el sentido de que
cualquier otra regla minimax es equivalente a . Entonces es admisible.
7.5. REGLAS MINIMAX 237
Demostracion: Sea
otra regla de decision. Si la funcion de riesgo de
coincide con la de , entonces
no es mejor que . Si no coinciden, entonces
no es minimax, mientras que s lo es, as que

sup
R(,
) > sup
R(, ).
De ah se sigue que para alg un
,
R(
) > sup
R(, ) R(
, ),
por lo que
no es mejor que . Como
podra ser cualquier regla de decision,

se sigue que no existe otra regla que sea mejor que , luego es admisible. 2
238 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
Teora de la Decision e inferencia estadstica. Reglas
Bayes
1. (Casella-Berger, 10.1) Sea X N(, 1) y considera el contraste de H
0
:

0
frente a H
0
: <
0
. Usa la funcion de perdida
L(, a
0
) = b(
0
)1
{<
0
}
, L(, a
1
) = c(
0
)
2
1
{
0
}
,
donde b y c son constante positivas, para analizar los tres contrastes que
rechazan H
0
si X < z
+
0
para = ,1, ,3 y ,5, respectivamente.
a) Para b = c = 1, diguja y compara las tres funciones de riesgo.
b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo.
c) Dibuja las funciones de potencia de los tres contrastes y comparalas
con las funciones de riesgo halladas en los dos apartados anteriores.
2. (Casella-Berger, 10.2) Sea X B(5, p). Consideramos el contraste H
0
:
p 1/3 frente a H
0
: p > 1/3 con perdida 0-1. Dibuja y compara las
funciones de riesgo de los siguientes dos contrastes: el primero rechaza H
0
si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5.
3. (Casella-Berger, 10.3) Sea X B(10, p). Dibuja y compara las funciones
de riesgo de dos estimadores de p,
1
(x) = 1/3 y
2
(x) = x/10, bajo
funcion de perdida dada por el valor absoluto.
4. (Casella-Berger, 10.6) Sea X N(,
2
),
2
desconocida. Para cada c 0
se dene el estimador por intervalos para
C(x) = [x cs, x +cs],
donde s
2
es un estimador de
2
independiente de X, tal que S
2
/
2

2
.
Se considera la funcion de perdida
L((, ), C) =
b
Long(C) I
C
().
a) Prueba que la funcion de riesgo, R((, ), C), esta dada por
R((, ), C) = b(2cM) [2P(T c) 1],
donde T t
y M = E(S)/.
b) Si b 1/
2, prueba que el valor de c que minimiza el riesgo satisface

que
b =
1
2
_

+c
2
_
+1
2
.
c) Relaciona estos resultados con los analogos obtenidos en el caso de
que
2
sea conocida (ver ejemplo desarrollado en teora), en el sentido
siguiente: prueba que si , entonces la solucion encontrada
aqu converge a la que se tiene si
2
es conocida.
1
, . . . , X
n
una m.a.s. de X N(,
2
), con
2
conocida. Se desea estimar usando perdida cuadratica. Sea la distri-
bucion a priori de , (), una N(,
2
) y sea
el estimador Bayes de .
Prueba las siguientes formulas para la funcion de riesgo y el riesgo Bayes.
a) Para cualesquiera constantes a y b, el estimador ( X
) = aX+b tiene
funcion de riesgo
R(, ) = a
2
2
n
+ (b (1 a))
2
.
b) Sea =
2
/(n
2
+
2
). La funcion de riesgo del estimador de Bayes
es
R(,
) = (1 )
2
2
n
+
2
( )
2
.
c) El riesgo Bayes del estimador de Bayes es B(,
) =
2
.
6. (Casella-Berger, 10.9) Sea X N(, 1). Sea
el estimador de Bayes de
bajo perdida cuadratica. Calcula y dibuja las funciones de riesgo, R(,
),
para () N(0, 1) y () N(0, 10). Indica como la distribucion a priori
afecta la funcion de riesgo del estimador de Bayes.
7. (Casella-Berger, 10.11) Se dene la funcion de perdida LINEX (LINear-
EXponential) como
L(, a) = e
c(a)
c(a ) 1,
con c > 0. Es una funcion suave que permite ponderar de forma asimetrica
las desviaciones por exceso y por defecto. Variando el valor c se pueden
conseguir desde perdidas muy asimetricas hasta otras casi simetricas.
a) Dibuja L(, a) como funcion de a cuando c = 0,2, 0,5 y 1.
b) Sea X f(x|). Prueba que el estimador de Bayes de , usando
perdida LINEX y distribucion a priori , es
=
1
c
log E(e
c
|X).
c) Sea X
1
, . . . , X
n
una m.a.s. de X N(,
2
), con
2
conocida y dis-
tribucion a priori sobre no informativa: () = 1. Prueba que el
estimador de Bayes de bajo perdida LINEX es
B
(X) = X
c
2
2n
.
d) Compara los riesgos Bayes de
B
(X) y de X usando perdida LINEX.
240 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
e) Compara los riesgos Bayes de
B
(X) y de X usando perdida cuadrati-
ca.
Admisibilidad. Reglas minimax
8. (Casella-Berger, 10.12) Sea X N(, 1) y consideremos el contraste de
H
0
: 0 frente a H
1
: > 0 usando perdida 0-1. Sea
c
el test que
rechaza H
0
si X > c. Se puede probar que la clase de contrastes {
c
:
c } es esencialmente completa para este problema. Sea el
test que rechaza H
0
si 1 < X < 2. Encuentra un test
c
que sea mejor que
.
9. (Casella-Berger, 10.13) Sea X N(, 1) y consideremos el contraste de
H
0
: = 0 frente a H
1
: = 0 usando perdida 0-1. Sea
c,d
el test
que acepta H
0
si c X d. Se puede probar que la clase de contrastes
{
c,d
: c d } es esencialmente completa para este problema.
Sea el test que acepta H
0
si 1 X 2 o 2 X 1. Encuentra un
test
c,d
que sea mejor que .
10. (Casella-Berger, 10.14) Supongamos un problema de decision con espacio
parametrico nito, = {
1
, . . . ,
m
}. Supongamos que
es la regla Bayes
con respecto a una distribucion a priori que da probabilidad positiva a
cada posible valor de . Prueba que
es admisible.
11. (Casella-Berger, 10.15) Supongamos que para una cierta distribucion a
priori , cada regla Bayes con respecto a (si es que hay mas de una) tiene
la misma funcion de riesgo. Prueba que estas reglas Bayes son admisibles.
En otras palabras, si una regla Bayes es unica entonces es admisible.
12. (Casella-Berger, 10.16) Sea X N(,
2
),
2
conocida. Se desea estimar
con perdida cuadratica. Prueba que la regla (x) = 17, que estima
como 17 para cualquier valor x observado, es admisible.
13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decision C es
completa minimal si es completa y ning un subconjunto propio de C es
clase completa. Prueba que si existe una clase de reglas completa minimal,
entonces es la clase de reglas admisibles.
14. (Casella-Berger, 10.20) Sea C una clase de reglas de decision esencialmente
completa. Prueba que si
C es admisible, entonces existe una regla

C tal que y
son equivalentes.
15. (Casella-Berger, 10.21) Sea X B(n, p), con n conocida. Se considera la
estimacion de p con perdida del error absoluto. Sea (x) = 1/3 la regla
que estima p como 1/3, sea cual sea la observacion x.
a) Prueba que (x) es admisible.
b) Prueba que (x) es la regla Bayes para alguna distribucion a priori
(p).
1
, . . . , X
n
una m.a.s. de una poblacion con
esperanza y varianza desconocida
2
, 0 <
2
< . Se desea estimar
con perdida cuadratica.
a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y
b son constantes, es inadmisible.
b) Prueba que si a = 1 y b = 0 entonces el estimador es inadmisible.
c) Supongamos ahora que
2
es conocida. Prueba que un estimador de
esa forma es admisible si a < 1.
17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los
naturales que van de 1 a IN. Sea el espacio parametrico = {1, 2, . . .}.
Se estima considerando perdida cuadratica.
a) Sea el espacio de acciones A = . Prueba que para algunas distribu-
ciones a priori el estimador (x) = E(|x) no es el estimador Bayes
de .
b) Supongamos ahora que el espacio de acciones es A = [1, ) y que
la esperanza E(|x) existe siempre. Prueba que (x) = E(|x) es el
estimador Bayes de .
c) Prueba que
0
(x) = x es admisible, independientemente de cual de los
dos espacios de acciones anteriores sea considerado. (Nota: Prueba
que R(1, ) es mnimo si =
0
y despues usa induccion en .)
d) El estimador
0
(x) = x es el estimador de Bayes con respecto a alguna
distribucion a priori. Con respecto a cual?
e) Prueba que existen otras reglas Bayes respecto a esa misma distribu-
cion a priori que tienen funciones de riesgo diferentes a la de
0
.
18. (Casella-Berger, 10.26) Sea X N(, 1). Se desea contrastar H
0
:
0
frente a H
1
: <
0
con funcion de perdida 0-1 generalizada mediante
un test que rechace H
0
si X < z
+
0
. Encuentra el valor de que da
lugar a un test minimax.
1
, . . . , X
n
muestra aleatoria simple de X
N(,
2
) con
2
desconocida. Se desea estimar con la funcion de perdida
L((,
2
), a) =
(a )
2
2
.
a) Prueba que X es un estimador admisible de .
b) Prueba que X es minimax.
20. (Casella-Berger, 10.30, 10.31) Sea
n
, n IN, una sucesion de distribucio-
nes a priori. Sea
n
la regla Bayes respecto a
n
.
242 CAP
ITULO 7. INTRODUCCI
ON A LA TEOR
IA DE LA DECISI
ON
a) Prueba que si B(
n
,
n
) converge a un n umero c y es una regla de
decision tal que R(, ) = c para todo , entonces es minimax.
b) Sea X
1
, . . . , X
n
2
) con
2
conocida. Se desea estimar con perdida cuadratica. Utiliza el resul-
tado del apartado anterior para probar que X es minimax.
1
, . . . , X
n
muestra aleatoria simple de X
Bern(p). Se desea estimar p con perdida cuadratica. Sea
p
B
=
n
i=1
X
i
+
_
n/4
n +
n
.
a) Prueba que p
B
es una regla igualadora.
b) Prueba que p
B
es minimax.
c) Prueba que p
B
es admisible.
22. (Examen junio 2000) Sea la variable aleatoria X con distribucion uniforme
en el intervalo [0, ], con > 0 desconocido. Se desea estimar el parametro
basandose solo en una unica observacion de X y se plantea este problema
como un problema de decision. La distribucion a priori sobre tiene como
funcion de densidad
() = e
I
(0,)
.
a) Consideramos solo las reglas de decision que son funciones de la ob-
servacion x de la forma d
k
(x) = kx, con k 1. Si la funcion de
perdida es
L(, a) = |a |
calcula la funcion de riesgo R(, d
k
). Es posible encontrar una regla
d
k
que haga mnimo el riesgo para cualquier valor de ?
b) Encuentra la regla Bayes. (Indicacion: Usa directamente la deni-
cion de regla Bayes como aquella que hace mnimo el error Bayes.)
c) Consideremos ahora perdida cuadratica. Encuentra la regla Bayes.
d) Si ahora se permite que cualquier funcion d(x) sea una regla de de-
cision y se considera perdida cuadratica, encuentra la regla Bayes.
23. (Examen julio 2000) Sea X B(n = 2, p). Se ha de decidir a partir de una
observacion de X si el parametro p es 1/4 o 1/2. La funcion de perdida es
0-1.
a) Da la lista de las ocho posibles reglas de decision e indica los corres-
pondientes valores de la funcion de riesgo.
b) Indica cuales de las ocho reglas son inadmisibles.
c) Encuentra la regla Bayes correspondiente a una distribucion a priori
con funcion de probabilidad
(1/4) =
2
3
, (1/2) =
1
3
.
d) Encuentra la regla minimax para este problema.
Referencias
Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall.
Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scien-
tic.
Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and
selected topics. Prentice Hall.
Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press.
Cristobal, J.A (1992). Inferencia Estadstica. Universidad de Zaragoza.
DeGroot, M. H. (1988). Probabilidad y Estadstica. Addison-Wesley.
Garca-Nogales, A. (1998). Estadstica Matematica. Universidad de Extrema-
dura.
Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. Prentice-
Hall.
Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley.
Pe na, D. (1995). Estadstica: Modelos y Metodos, Volumen 2: Modelos lineales y
series temporales. Alianza Universidad, Madrid. Segunda edicion revisada.
Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.).
Duxbury Press.
Sanz, M. (1999). Probabilitats. Barcelona: EUB.
Schervish, M.J. (1995). Theory of Statistics. Springer.
Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to
Statistics. John Wiley & Sons.
Silvey, S.D. (1983). Statistical Inference. Chapman and Hall.
Spivak, M. (1970). Calculo innitesimal. Barcelona: Reverte.
Velez, R. y A. Garca (1993). Principios de Inferencia Estadstica. UNED.
243

Curso de Inferencia y Decisión

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Curso de Inferencia y Decisión

Uploaded by

Copyright:

Available Formats

Curso de Inferencia y Decision

Guadalupe Gomez y Pedro Delicado

viene dada por la funcion de

(x). El conjunto de distribu-

(x), se llama familia param etrica de distribucio-

, x > 0, E(X) = , V (X) =

Diremos que X tiene distribuci on

UMEROS Y TEOREMA CENTRAL DEL L

como un n umero que satisface que

. Prueba que P(X > x

) = . (Nota: As, los valo-

se calculan facilmente para cualquier miembro de la familia de

(x), tenga esperanza

) implica una reduccion de los datos

). Si decidimos usar el estadstico T( X

) en vez de toda la mues-

). Es decir, al usar el estadstico T, en lugar de toda la mues-

, reducir los datos en terminos de un estadstico T es equivalente a dar

y limitarnos a registrar el valor

), podremos saber que hemos observado un elemento de A

ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

son tales que T( x

), entonces la inferencia que se haga sobre

)). Si T es suciente estas probabilidades no dependen de , luego,

de X, mientras que el segundo

). La cuestion relevante entonces es saber si ambos

)) no depende de , esta distribucion con-

)), para todo y A

)), para todo y A

). Ademas, ambas variables tienen la misma distribucion incondicional:

ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

que tiene la misma distribucion que la variable aleatoria X

|) es la verosimilitud de un vector aleatorio X

) es un estadstico suciente para si y

del espacio muestral X el cociente

)|) no depende de entonces T es

) = t la funcion de masa de probabilidad condicionada vale 0 y,

) es suciente para si y solo si existen

) tales que para cualquier x

|) puede factorizarse as:

ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

). El estadstico suciente sera entonces T( X

) = X es estadstico suciente para .

) como antes y g(t|) = exp

) es estadstico suciente para y : T S es una

)) tambien es estadstico suciente para :

) tambien es estadstico suciente. La funcion

)), es un estadstico suciente r-dimensional. Las

ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

tambien es estadstico suciente

) se llama minimal si para cualquier otro

) entonces forzosamente se tiene que T( x

) consigue una mejor reduccion

)). Podemos escribir T

)) son sucientes para , am-

) no aporta ninguna informacion sobre la media cuando

|) la funcion de verosimilitud conjunta de X

) tal que para cual-

dos muestras observadas y sean (x, S

ITULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS

n observaciones i.i.d. de una distribucion uniforme en el intervalo (, +

observaciones i.i.d. de una familia de localizacion con funcion de distri-