Professional Documents
Culture Documents
Estimaci
on puntual
El objetivo que se marca la Estadstica es adaptar un modelo de comportamiento a distintas
caractersticas de una poblacion, para poder estimarlas. Para ello partimos del conocimiento de cada
caracterstica en una muestra a la que pedimos sea sucientemente representativa. Se puede denir
esta representatividad de distintas maneras, y cada una llevara a un concepto diferente de muestra.
La denicion que consideraremos en este captulo (y que utilizaremos en los sucesivos) es la mas
sencilla y habitual.
Una vez tomada una muestra representativa, se decide tomar cierto modelo para la caracterstica
estudiada, que supondremos es numerica. Si esta caracterstica, X, es de tipo de discreto, la consideraremos como una variable aleatoria, y as adaptaremos un modelo con distribucion dada por una
funcion de masa P . Si X es de tipo continuo, el modelo vendra dado por una funcion de masa, f .
Para abreviar, diremos que estamos estudiando una poblacion X con funcion de masa P (o funcion
de densidad f ).
1.
Denici
on 1.1. Una muestra aleatoria de tama
no N , de una poblacion X con funcion de
masa P (o funcion de densidad f ), es un vector aleatorio (X1 X2 . . . XN ) donde:
a) La distribucion marginal de cada Xi viene dada por P (o por f ).
b) X1 , . . . , XN son independientes.
Veamos como, con esta denicion, podemos tomar siempre una muestra aleatoria como una
muestra representativa de la poblacion estudiada.
a) Cada Xi representa el valor de X en el elemento iesimo de la muestra.
b) El hecho de que cada distribucion marginal venga dada por la misma distribucion signica,
informalmente, que todos los elementos de la poblacion tienen la misma oportunidad de aparecer
en la muestra. Con otras palabras: la probabilidad de que un valor aparezca en la observacion
iesima depende solo de la probabilidad que dicho valor tiene en la poblacion, de manera que
cada observacion representa por igual a la poblacion.
67
PUNTUAL
CAPITULO 4. ESTIMACION
68
c) Suponer que las observaciones sean independientes, es comodo para el desarrollo teorico del modelo del muestreo. As, si (X1 . . . XN ) es una muestra aleatoria de una poblacion X, la funcion
de masa de la muestra vendra dada por:
caso discreto: P (x1 . . . xN ) = P (x1 ) P (xN )
caso continuo: f (x1 . . . xN ) = f (x1 ) f (xN ) .
Esta independencia la podemos entender de dos maneras:
de un modo exacto, signica que cada vez que observamos un elemento lo devolvemos a la
poblacion (reemplazamiento);
de una manera aproximada, signica que el tama
no de la poblacion es muy grande en comparacion con el de la muestra, de modo que la composicion de la poblacion se altera muy
poco al faltarle algunos elementos (los ya observados).
Nota: Conviene distinguir entre los conceptos de muestra aleatoria y muestra. La primera es
un vector aleatorio, con su funcion de masa (o densidad, seg
un el tipo). La segunda es una coleccion
de n
umeros, x1 . . . xN , que entenderemos como una realizacion del vector aleatorio (X1 . . . XN ).
En adelante, en general, usaremos letras may
usculas para referirnos a variables, y min
usculas para
valores de las mismas.
Por supuesto desconocemos P (o f ), pues de conocerla el problema no sera tal. Precisamente,
nuestro objetivo es ganar informacion sobre P (o f ) a partir de las observaciones X1 . . . XN . Para
ello, una buena idea es resumir la informacion aportada por los datos muestrales. Lo mejor sera que
estos res
umenes no perdiesen nada de la informacion contenida en la muestra. Esta necesidad nos
lleva a la denicion de estadstico:
Denici
on 1.2. Un estadstico es una funcion real T de la muestra aleatoria (X1 . . . XN ).
En particular, un estadstico es una variable aleatoria, T (X1 . . . XN ), y, en consecuencia, podemos
hablar de su esperanza, varianza, . . . . Algunos de los mas utilizados, en todo tipo de situaciones, son:
N
= 1
Xi
Media muestral: X
N i=1
N
1
2
Varianza muestral: VX =
(Xi X)
N i=1
N
1
2
2.
Cuasivarianza muestral: SX
=
(Xi X)
N 1 i=1
Propiedades: Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con esperanza y
varianza 2 , entonces:
= ;
a) E[X]
2
= ;
b) V (X)
N
2
c) E[SX
] = 2;
d) E[VX ] = NN1 2 .
1. MUESTRA ALEATORIA. PARAMETRO
Y ESTIMADOR
69
1
1
= E 1
Xi =
E[Xi ] =
N = ;
E[X]
N i=1
N i=1
N
= V
V (X)
N
N
1
1
Xi = 2
V (Xi )
N i=1
N i=1
(por independencia)
2
1
2
N
=
;
N2
N
N
2
2 = 1 E
2
] = E
(Xi X)
(Xi + X)
E[SX
N 1 i=1
N 1
i=1
=
1
)2 + 2( X)
E
(Xi )2 + N (X
(Xi )
=
N 1
i=1
i=1
N
1
)2
(Xi )2 N (X
E
N 1
i=1
N
2
1
)2 = 1
N 2 N
= 2 ;
E (Xi )2 N E (X
=
N 1 i=1
N 1
N
N
E[VX ] = E
1.1.
N 1
2
2 = E N 1 SX
=
(Xi X)
2 .
N
N
i=1
Inferencia param
etrica
PUNTUAL
CAPITULO 4. ESTIMACION
70
La Inferencia parametrica se divide en tres grandes partes, dependiendo de la naturaleza del problema a resolver, y del tipo de solucion que demos:
A. estimacion puntual;
B. estimacion por intervalos de conanza;
C. contraste de hipotesis parametricas;
y dedicaremos sendos captulos a cada una de ellas.
Terminamos esta introduccion a la Inferencia parametrica, ocupandonos de una cuestion que
quedo en el aire: no perder demasiada informacion con los estadsticos. Mas en concreto, introducido
en el lenguaje el concepto de parametro, , lo que nos gustara es utilizar estadsticos sencillos que
ltimo
conserven toda la informacion sobre que lleva la muestra (X1 . . . XN ). Motivamos este u
cometido con el siguiente ejemplo.
Ejemplo 32 La probabilidad de obtener cara al lanzar una moneda es un valor desconocido, , entre
0 y 1 (espacio parametrico = (0 1)). Si al suceso cara le asignamos el valor 1, y a su contrario,
cruz, el valor 0, y lanzamos la moneda N veces, obtenemos una muestra aleatoria (X1 . . . XN ) de
una poblacion, X, con funcion de masa
P (x) = x (1 )1x
x = 0 1 ( distribuccion de Bernoulli ) .
i=1
xi
(1 )N
i=1
xi
T (X1 . . . XN ) =
Xi = n
umero de caras obtenidas
i=1
contiene tanta informacion sobre como la descripcion detallada del resultado de los N lanzamientos.
Observando que T B(N ; ), sera facil obtener la probabilidad de una muestra (x1 . . . xN )
condicionada por el hecho de que el estadstico T ha tomado el valor t (han salido t caras en los N
lanzamientos):
P (x1 . . . xN | T = t) =
P (T = t | x1 . . . xN ) P (x1 . . . xN )
P (T = t)
N
P (T = t | x1 . . . xN ) i=1 xi (1 )N
=
N
t (1 )N t
t
t 1)N t
1
si
=
xi = t
N t
N
1)N t
(
(
i=1
t)
t)
=
N
0
si
xi = t .
i=1
xi
i=1
PUNTUAL
2. ESTIMACION
71
Denici
on 1.3. Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con funcion de masa P (o funcion de densidad f ). Un estadstico, T , es suficiente para cuando la distribucion
de (X1 . . . XN ) condicionada por T = t no depende de .
A pesar de la claridad del concepto, es muy difcil utilizar esta denicion para decidir si un
estadstico es suciente. En primer lugar hay que conjeturar que estadstico T puede ser suciente,
y despues obtener la distribucion condicionada, que sera casi siempre difcil. Afortunadamente hay
una caracterizacion sencilla alternativa:
Propiedad: Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con funcion de masa P
o funcion de densidad f ). Un estadstico T es suciente para si y solo si:
i=1
xi
(1 )N
T (x1 . . . xN ) =
i=1
xi
N
i=1 xi
2.
Estimaci
on puntual
Supongamos dada una caracterstica X y aceptemos que sigue cierto modelo dado por una funcion
de masa P (o de densidad f ), de la que desconocemos el valor del parametro dentro de un espacio
parametrico .
El objetivo de la estimacion puntual es tomar un valor plausible para el parametro . Para ello
se considera una muestra aleatoria (X1 . . . XN ) de la poblacion X, y a partir de una realizacion
de la misma, esto es, una coleccion de datos x1 . . . xN , se decidira el valor para la estimacion del
parametro.
Denici
on 2.1. Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con funcion de masa
P (o funcion de densidad f ), donde . Un estimador puntual de g() es una funcion T
que a cada posible muestra (x1 . . . xN ) le hace corresponder una estimacion T (x1 . . . xN ) de g().
Observaciones:
a) Habitualmente se buscara estimar (esto es, g() = ), pero puede interesarnos estimar alguna
funcion de (por ejemplo 2 ). Por esta razon hablaremos de estimadores puntuales de g().
b) Evidentemente, T (X1 . . . XN ) es una variable aleatoria (o un vector aleatorio si g() tiene
mas de una dimension). En realidad, un estimador puntual no es mas que un estadstico con
un objetivo concreto: acercarse lo mas posible al verdadero valor de g(). Seg
un nos convenga
usaremos la notacion T (X1 . . . XN ) o simplemente T .
c) La denicion dada de estimador puntual es muy general, y engloba tanto estimadores razonables como otros completamente absurdos. Lo siguiente que haremos es mostrar propiedades
deseables para un estimador razonable, eliminando, as, estimadores indeseables.
PUNTUAL
CAPITULO 4. ESTIMACION
72
(caso discreto)
T (x1 . . . xN ) g()2 P (x1 ) P (xN )
i=1
E (T g())2 =
E (T g())2 = E (T E [T ] + E [T ] g())2
= E (T E [T ])2 + (E [T ] g())2
= V (T ) + (Sesgo(T ))2
para todo .
Al considerar solo estimadores insesgados podemos estar eliminando otros estimadores valiosos
(a pesar de no ser insesgados). No obstante tenemos una ventaja adicional, pues para un estimador
insesgado su error cuadratico medio es simplemente V (T ). De este modo, dentro de los estimadores
insesgados buscaramos el de varianza mnima. Este cometido es muy interesante, pero excede el nivel
de este curso.
Es sencillo encontrar ejemplos de estimadores insesgados.
Ejemplo 33 Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con distribucion N ( ; ).
En este caso = ( ), y tenemos:
es un estimador insesgado de g1 () = , ya que E [X]
= ;
T1 (X1 . . . XN ) = X
2
= 2.
(cuasi-varianza) es insesgado para estimar g2 () = 2 , ya que E [X]
T1 (X1 . . . XN ) = SX
Otra propiedad bastante razonable a exigir a un estimador T es que, cuanto mayor sea el tama
no
muestral N , mas se acerque la estimacion T (x1 . . . xN ) al verdadero valor de g(). Esto nos lleva al
siguiente concepto:
Denici
on 2.4. Un estimador T es consistente para estimar g() si, para todo :
lm FT (t) = 1
DE ESTIMADORES
3. METODOS
DE CONSTRUCCION
73
entonces es consistente.
Ejemplo 34 Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X N ( ), = ( ).
es consistente para estimar g1 () = , ya que:
El estimador T1 (X1 . . . XN ) = X
lm E [T1 ] =
lm V (T1 ) =
3.
= lm = = g1 ()
lm E [X]
2
= lm = 0 .
lm V (X)
N
N N
M
etodos de construcci
on de estimadores
3.1.
M
etodo de los momentos
Denici
on 3.1. Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con funcion de masa
P (o funcion de densidad f ), con par
ametro desconocido = (1 . . . k ) . El estimador de
por el metodo de los momentos es el formado por los valores 1 , . . . , k que se obtienen al resolver,
en las variables 1 . . . k , el sistema de ecuaciones:
N
1
E
[X]
=
Xi
N i=1
..
..
..
.
.
.
Xk
E [X k ] =
N i=1 i
donde, E [X j ] se denomina momento de orden j.
La justicacion de este metodo es sencilla: parece razonable pensar que los momentos de la poblacion se pareceran a los respectivos momentos de la muestra. Se plantean entonces tantas ecuaciones
como componentes tenga el parametro a estimar.
No obstante, este metodo presenta serios incovenientes. Por ejemplo, es posible obtener estimaciones fuera del espacio parametrico.
PUNTUAL
CAPITULO 4. ESTIMACION
74
3.2.
M
etodo de m
axima verosimilitud
Es el metodo mas utilizado para construir estimadores puntuales. Se basa, tambien, en una idea
muy sencilla, y tiene la ventaja de no presentar los inconvenientes que a veces surgen con el metodo
de los momentos. Motivamos el metodo con el siguiente ejemplo.
Ejemplo 35 Sabemos que en una urna hay, entre negras y blancas, un total de 4 bolas, pero desconocemos la composicion exacta. Sea la proporcion de, por ejemplo, bolas blancas. Es claro cual es
el espacio parametrico en este caso, pues puede tomar los valores:
0;
1/4 ;
1/2 ;
3/4 ;
1.
Para obtener mas informacion se extraen de la urna 2 bolas, con reemplazamiento (para tener independencia en las observaciones). Supongamos que la primera bola ha sido blanca y la segunda negra,
es decir la muestra obtenida ha sido (B N ). La probabilidad que tenamos de obtener esta muestra,
dependiendo de la composicion de la urna, esto es de la proporcion , era:
0
si = 0
3/16 si = 1/4
1/4
si = 1/2
P (B N ) =
3/16
si
= 3/4
0
si = 1
La idea del metodo de maxima verosimilitud es tomar como estimacion de aquel valor que daba
mas probabilidad a la muestra obtenida, en este caso = 1/2.
Denici
on 3.2. M
etodo de m
axima verosimilitud) Sea (X1 . . . XN ) una muestra aleatoria
de una poblaci
on X con funcion de masa P (o funcion de densidad f ), con parametro desconocido
de es el formado por los valores
= (1 . . . k ) . El estimador de maxima verosimilitud, ,
(caso discreto)
P (x1 ) . . . P (xn )
L() = L( ; x1 . . . xN ) =
f (x1 ) . . . f (xn )
(caso continuo)
Observaciones:
a) La funcion de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores
de dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad
(o densidad).
b) De la misma denicion, vemos que la estimacion de maxima verosimilitud siempre es un valor
del espacio parametrico.
c) Para no tener que manejar productos, en muchas ocasiones es mas comodo encontrar el estimador de maxima verosimilitud considerando log(L()), en lugar de L(). Puesto que la funcion
DE ESTIMADORES
3. METODOS
DE CONSTRUCCION
75
log(x) es monotona creciente, log(L()) se hace maxima (y mnima) en los mismos puntos
que L(). La ventaja es que basta despejar 1 , . . . , k del sistema de ecuaciones:
log(L())
= 0
.. .. ..
. . .
log(L())
= 0
k
Por supuesto hay que tener precaucion con este procedimiento, pues el punto crtico obtenido no
tiene por que corresponder a un maximo. Ademas, puede ocurrir que la funcion de verosimilitud
se maximice en un extremo, en cuyo caso no tiene por que dar un punto crtico, es decir, no
obtendramos nada con este procedimiento.
sera el
d) Observese, por u
ltimo, que si es el estimador de maxima verosimilitud, entonces g()
de g(). Si, por ejemplo, hemos obtenido X como estimador de maxima verosimilitud para ,
2 lo sera para 2 .
entonces X
Ejercicio 2 Dada una muestra aleatoria de tama
no N de una poblacion X, calcular los estimadores
y por el de maxima verosimilitud, ,
en los
puntuales para por el metodo de los momentos, ,
siguientes casos:
a) X Bernoulli de par
ametro p;
b) X Poisson ();
c) X Exponencial ();
d) X N ( ; ), ( conocido);
e) X N ( ; ), ( conocido);
f) X N ( ; ).
n: Planteamos ambos metodos en cada caso, y utilizamos, para cuando haga falta, la igualSolucio
dad E[X 2 ] = V [X] + E[X]2 , que se deduce inmediatamente de la denicion de varianza de una
variable aleatoria.
a) X Bernoulli de parametro p. Queremos estimar el parametro desconocido p (0 1), siendo
la funcion de masa:
Pp (x) = px (1 p)x
x = 0 1 .
Metodo de los momentos. Puesto que el parametro es de una dimension, se considera solo el
primer momento. El momento de orden 1 de la poblacion, Ep [X], es su esperanza, p, y el
de la muestra es la media muestral x. Tomamos pues el estimador
p = x .
PUNTUAL
CAPITULO 4. ESTIMACION
76
xi
(1 p)N
xi
xi log(1 p)
log(L(p)) =
xi log(p) + N
d log(L(p))
xi N xi
xi N p
=
=
.
dp
p
1p
p(1 p)
xi = x. Ademas,
Al igualar a cero la derivada se obtiene un punto crtico para p = N1
un simple analisis del signo de la derivada nos muestra que esta es positiva para p < x, y
negativa para p > x* . Por tanto, este punto crtico corresponde a un maximo, por lo que
tomamos como estimador de maxima verosimilitud:
p = x .
b) X Poisson (). Queremos estimar el parametro desconocido > 0, siendo la funcion de masa:
P (x) =
x e
x
x = 0 1 2 . . . .
Metodo de maxima verosimilitud. La funcion de verosimilitud para una muestra dada es:
L() =
con logaritmo:
log(L()) =
xi
eN
xi
xi log() N log
xi ) .
El u
ltimo termino asusta, pero no hay problema porque es una constante. Al derivar e
igualar a cero obtenemos:
1
d log(L())
xi
=
N = 0 =
xi = x .
d
N
De nuevo, es facil ver que este punto crtico corresponde a un maximo, por lo que tomaremos como estimador de maxima verosimilitud:
= x .
En efecto,
positivo, al ser el espacio parametrico el intervalo 0 1). Por otra parte,
el denominador es siempre
p<x
= 1
xi equivale a N p <
xi , quedando el numerador positivo. Por contra, p > x
equivale a N p >
xi ,
quedando el numerador negativo.
DE ESTIMADORES
3. METODOS
DE CONSTRUCCION
77
Metodo de maxima verosimilitud. La funcion de verosimilitud para una muestra dada es:
L() = N e
con logaritmo:
log(L()) = N log()
Al derivar e igualar a cero obtenemos:
N
d log(L())
=
xi = 0
d
xi
xi .
1
N
= = .
x
xi
Observese que > 0 y que cada dato, xi , de una muestra correspondiente a esta poblacion
es positivo. Es facil, entonces, ver que este punto crtico corresponde a un maximo, por lo
que tomaremos como estimador de maxima verosimilitud:
= 1.
(x )2
1
exp
f (x) =
para todo x .
2 2
2
Metodo de los momentos. El momento de orden 1 de la poblacion, E [X], es su esperanza, ,
y el de la muestra es la media muestral x. Tomamos pues el estimador de momentos
= x .
Metodo de maxima verosimilitud. La funcion de verosimilitud para una muestra dada es:
N
1
(xi )2
exp
L() =
2 2
2
con logaritmo:
(xi )2
2
2
2
xi 2
xi + N 2
= N log( 2)
.
2 2
log(L()) = N log( 2)
PUNTUAL
CAPITULO 4. ESTIMACION
78
d log(L())
xi N
2 = 0
=
2
d
= x .
Este punto crtico corresponde a un maximo (por que?), por lo que tomaremos como
estimador de maxima verosimilitud:
= x .
(x )2
1
f (x) =
exp
para todo x .
2 2
2
Metodo de los momentos. El momento de orden 1 de la poblacion, E[X], es su esperanza, .
As, la primera ecuacion planteada en el metodo de los momentos no nos dice nada del
parametro que intentamos estimar, . Tomamos entonces el momento de orden 2:
E[X 2 ] = V [X] + E[X]2 = 2 + 2 .
Por otra parte, el momento de orden 2 de la muestra es
2 + 2 =
1 2
xi
N
1 2
xi . La ecuacion quedara:
N
2 =
x i 2 .
N
Notese que en este caso podemos obtener estimadores absurdos. Si, por ejemplo, sabemos
que = 5 y la muestra es (3 3 6), obtendramos
2 = 7, que es un valor absurdo.
Metodo de maxima verosimilitud. La funcion de verosimilitud para una muestra dada es:
N
1
(xi )2
L() =
exp
2 2
2
con logaritmo:
log(L()) = N log( 2)
N
d log(L())
(xi )2
= 0
=
+
d
(xi )2
.
2 2
2 =
1
(xi )2 .
N
Este punto crtico corresponde a un maximo (por que?), por lo que tomaremos como
estimador de maxima verosimilitud para g() = 2 :
1
2 =
(xi )2 .
N
DE ESTIMADORES
3. METODOS
DE CONSTRUCCION
79
f) X N ( ; ).
En este u
ltimo caso, se desconocen ambos parametros de la poblacion, y as estimaremos:
= ( ), con y > 0. La funcion de densidad es:
(x )2
1
exp
f (x) =
para todo x .
2 2
2
Metodo de los momentos. Tenemos que considerar dos ecuaciones (pues hay 2 parametros):
= x
2 + 2 =
Obtenemos como solucion para el sistema:
= x
2 =
N
1 2
x .
N i=1 i
N
1 2
1
(xi x)2
xi x2 = varianza muestral =
N
N i=1
= x
N
1
(xi x)2 .
=
N i=1
2
N
1
(xi )2
exp
L( ) =
2 2
2
con logaritmo:
log(L( )) = N log( 2)
que conviene escribir como:
(xi )2
;
2 2
x2i 2
xi + N 2
;
2 2
El sistema planteado, igualando a cero las derivadas parciales respecto a cada una de las
variables, es:
log(L( ))
xi N
2 =0
=
2
N
(xi )2
log(L( ))
=
+
=0
= x
con solucion:
2 = N1 (xi x)2 .
Tomamos esta solucion como estimacion de maxima verosimilitud al dar un maximo:
N
1
2
(xi x)2 .
= x
=
N i=1
PUNTUAL
CAPITULO 4. ESTIMACION
80
Problemas
1. Sea (X1 . . . XN ) una muestra aleatoria de una poblacion X con funcion de densidad:
f (x) = ex+
si x >
( ) .
x2
x
exp
2
22
si x > 0
( > 0) .
1 +1
x
si x > 1
( > 1) .
(log x )2
exp
2 2
x 2
1
si x > 0
DE ESTIMADORES
3. METODOS
DE CONSTRUCCION
81
si x 0 ( > 0) .
1 12
1 + x
2
si 1 x 1 (1 1) .
si x > 0 ( > 0) .
X1 + 2X2
.
3
PUNTUAL
CAPITULO 4. ESTIMACION
82
11. Disponemos de una variable aleatoria de una poblacion con funcion de densidad
f (x) =
x2
si x
( > 0) .
si x (0 1) ( > 0) .
b) Despues de muchas horas de intenso trabajo llegamos a saber con exactitud que p = 0.4 y
q = 0.6. Si tomamos 8 personas al azar de ese pas, cual es la probabilidad de encontrar
alguna mujer de ojos oscuros? Y si la muestra que tomamos es de 200 personas, cual es
la probabilidad de que haya mas de 60 mujeres de ojos oscuros?