You are on page 1of 8

Maxima

Verosimilitud
[Escribir el subttulo del documento]

Valores que hacen mas verosmil la informacin

Theodoro Perez Brito
24/05/2009

1. Principio de la mxima Verosimilitud:
Supongamos que la distribucin de X depende un parmetro desconocido representamos la funcin
de densidad de X en x por f(x|) [en general, tanto X como son vectores] la funcin de mxima
verosimilitud L(|x) toma X como la fuente de informacin y como la variable a estimar: el
objetivo es encontrar un valor del parmetro que maximice L(|x) ,valor del parmetro que ms
probablemente ha dado lugar a los datos observados, L(|x)=f(x|)
Funcin de verosimilitud
La probabilidad de dadas las observaciones realizadas se denomina funcin de verosimilitud y se
representa por L.
L(|x1,.xn)=f(x1,xn|
Si las variables X son independientes e idnticamente distribuidas la funcin de verosimilitud L
deviene:
L(|x1,.xn)=f(x1| f(xn|

Es decir, si los elementos de X son independientes, la funcin conjunta puede escribirse como el
producto de las distribuciones marginales individuales Esto permite igualar la funcin de
verosimilitud al producto de las funciones marginales individuales

Si la probabilidad de un evento X depende de los parmetros del modelo p el cual es dado.
P (x | p)
Entonces podramos hablar acerca de la verosimilitud.
L (p | x)
Esta es, la verosimilitud de los parmetros dados de la data.
Para modelos ms sensibles, encontraremos que cierto tipo de datos son ms probables que otros. El
objetivo de la estimacin de la mxima verosimilitud es encontrar el valor(es) de parmetro que hacen
de la informacin observada ms verosmiles. Esto es porque la verosimilitud de los parmetros de
datos dados definida a ser igual a la probabilidad de los parmetros de datos dados. Tcnicamente,
una es proporcional a la otra, pero esto no afecta el principio.
Si nosotros estuvisemos involucrados en el negocio de hacer mercado, o hacer predicciones de
mercado basadas en un grupo de asunciones, entonces podramos estar interesados en probabilidades-
la probabilidad de que cierto evento ocurra o no ocurra.
Sin embargo en el caso del anlisis de datos, ya hemos observado toda la data: Una vez que ha sido
observada ella es corregida. Estamos macho ms interesado en la verosimilitud del modelo de
parmetros que subyacen a la data corregida.
Probabilidad
Conociendo parmetros -> Prediccin de salida.
Verosimilitud
Observacin de la data -> Estimacin de parmetros.
Ahora intentaremos dar una explicacin mediante uno que otro ejemplo siendo la forma mas fcil de
poder entender.
Reiteramos, el principio simple de la mxima verosimilitud de la estimacin de parmetros es este:
encontrar los valores de parmetros que hacen da la informacin observada ms verosmil.
Como podramos ilustrar esto en un simple experimento con una moneda?
Esto es mucho ms que asumir que p es un cierto valor (0.5) nosotros podramos desear encontrar el
valor estimado de la mxima verosimilitud (MLE-mximum likehood estmate) de p, dado un
especifico grupo de datos.
Ms all de la estimacin de parmetro, el marco de la verosimilitud nos permite hacer un
test de los valores de parmetro. Por ejemplo, nosotros podramos haber querido preguntar o no si el
estimado p difiere significativamente del 0.5 o no. Este test es esencialmente preguntar: hay
evidencias de que la moneda esta amaada? Veremos como tal test puede ser ejecutado cuando
hemos introducido el concepto de un test de relacin de verosimilitud.
Digamos que lanzamos la moneda 100 veces y observamos 56 caras y 44 cruces. En vez de asumir
que p es 0.5 nosotros podemos encontrar la MLE para p. Entonces podramos querer preguntar de
todos modos o no si este valor difiere significativamente del 0.5.
Como hacer esto? Encontramos el valor de p que hace la data observada ms verosmil.
Como hemos previamente mencionado, la informacin observada ahora es corregida. Ellas sern
constantes que son introducidas en nuestro modelo de probabilidad binomial.
n = 100 (total de lanzamientos).
H = 56(total de caras obtenidas).
Imagine que p fue 0.5. Metiendo este valor en nuestro modelo de probabilidad como sigue:
Distribucin de probabilidad binomial:

n = total de lanzamientos de la moneda
h = numero de caras obtenidas
P=probabilidad de obtener una cara en cualquier tirada.

Pero que si p fuera 0.52?


As podemos concluir que p es ms verosmil para 0.52 que para 0.5. Podemos tabular la
verosimilitud para diferentes valores de parmetro y encontrar la mxima verosimilita estimada de
p:

Si nosotros graficamos esta informacin en un amplio rango de posibles valores de p, veremos la
siguiente superficie de verosimilitud.

Podremos ver que el mximo valor de verosimilitud estimado para p para rondar el valor 0.56.En
efecto es exactamente 0.56 y es fcil de ver porque hace sentido en este trivial ejemplo. El mejor
estimado para p desde cualquier valor del ejemplo ser la proporcin de caras observada en ese
Ejemplo. (en una forma similar, el mejor estimado para la poblacin de media siempre ser la
muestra media) .
Esperamos que este simple ejemplo nos haya podido entregar el concepto de mxima verosimilitud,
este quizs es uno de los ms simples. En ejemplo mucho ms complejo que este se puede apreciar
tambin este principio.
2. MLE en la prctica:

2.1 MLE Analtico.
Algunas veces podemos escribir una simple ecuacin que describa la superficie de verosimilitud
(ejemplo la superficie que ya hemos explicado) .En este caso podemos escribir la mxima de esta
curva igualando la primera derivada a cero. Esto es, esto representa el valor pico de la curva, donde
el gradiente de la curva pasa de positivo a negativo (yendo de izquierda a derecho).EN teora esto
representa la mxima verosimilitud estimada de el parmetro.


2.2 MLE numrico.
Pero usualmente no podemos, o no seleccionados una ecuacin que puede ser diferenciada para
encontrar el MLE estimado. Esto es especialmente preferido si el modelo es complejo y envuelve
muchos parmetros y/o funciones complejas de probabilidad.(ejemplo la distribucin de probabilidad
normal).
En este escenario, es tambin no fiable evaluar la verosimilitud en todos los puntos, o en un nmero
razonable de puntos, en el espacio de parmetro del problema as como hicimos en el ejemplo de la
moneda. En ese ejemplo el espacio de parmetros fue solamente de una dimensin (un solo
parmetro) y rango entre 0 y 1.p puede tericamente tomarse de cualquier valor entre 0 y 1.la MLE
siempre ser una aproximacin, si deseamos evaluar la verosimilitud para un numero finito de
valores de parmetro. Por ejemplo seleccionas evaluar la similitud en pasos de 0.02.Pero pudimos
haber seleccionado en pasos de 0.001 o de 0.000000001 etc. En teora y prctica, se tiene un margen
de tolerancia en el cual tu sers feliz de estimar cual debe ser tu salida. Aqu vemos porque las
computadoras son esenciales para este tipo de problemas. Ellas pueden tabular muchos y tanto
muchos de valores rpidamente y mejorar mucho ms la resolucin.

Si el modelo tiene ms de un parmetro, el espacio de parmetro crecer muy rpidamente.
Evaluando la verosimilitud de forma exhaustiva se hace prctica imposible aun para las
computadoras. Esto es el porqu es llamada (optimizacin o minimizacin), los algoritmos se han
hecho indispensables para estadstica y cuantificacin cientfica en las ltimas dcadas. Simplemente
poner, el trabajo de un algoritmo de optimizacin es encontrar de forma rpida el grupo de valores de
parmetro que hacen de la data observada ms verosmil. Note que es precisamente este tipo de
cambio de velocidad informacin que el mtodo MLC analtico usa-la diferencia tiene que ver con
el cambio o la velocidad de cambio de una cantidad (ejemplo verosimilitud) con respecto a algunos
otros factores (ejemplo parmetros).
2.3 Otras consideraciones Prcticas.
Nosotros miraremos en un serie de indicadores y una serie de problemas que cultivan una
estimacin de mxima verosimilitud usando un mtodo numrico.
Removiendo la constante:
La funcin de verosimilitud para una distribucin binomial:

En el contexto de MLE, notemos que los valores que estn representando la informacin sern
fijados. Hay n y h. En este caso el coeficiente binomial depende solamente de estas constantes.
Porque no depende del valor de parmetro p podemos esencialmente ignorar este primer trmino.
Esto porque cualquier valor para p el cual maximice la cantidad de salida tambin ser maximizada.

Esto significa que la verosimilitud no tendr una escala completa de media.
Esto no es usualmente importante, sin embargo, como veremos, generalmente no estamos
interesados en el valor absoluto de la similitud pero si en la relacin entre dos verosimilitudes. En el
contexto de un test de relacin de verosimilitud.
Podemos usualmente querer ignorar las partes de la verosimilitud que no dependen de los
parmetros en orden a reducir la intensidad computacional de algunos problemas. Aun en un simple
caso de una distribucin binomial, si el nmero de intentos se hace muy grande, la calculacin de las
factoriales puede hacer irrealizable.

3. Loga-verosimilitud:
Otra tcnica para hacer la vida un poco ms fcil es trabajar con el logaritmo natural de
verosimilitud. La principal razn para esto es, otra vez reducir la carta computacional. Si
multiplicamos muchos de los muy pequeos nmeros juntos (dgase menos de 0.0001) entonces ser
muy rpido computarlos, con un nmero a ser representado muy pequeo por cualquier calculador
o computadora como diferente de cero. Esta situacin ocurre generalmente en el clculo de
verosimilitud, cuando usualmente multiplicamos las probabilidades de muchos de los raros pero
independientes eventos juntos para calcular las probabilidades conjuntas.
Con Loga-verosimilitud, simplemente se suman aquellos trminos en vez de multiplicarlos (Loga-
verosimilitud siempre ser negativa.
Note que si
a=bc

Entonces
Log(a)=log(b)+log(c)
As, logo-verosimilitud conceptualmente no son diferentes a verosimilitudes normales.
Cuando optimizamos la loga-verosimilitud con respecto al modelo de parmetro, tambin
optimizamos la verosimilitud con respecto al mismo parmetro.
Dado que el logaritmo natural ln es una funcin estrictamente creciente, el valor mximo de L(|x)
si existe, estar en el mismo punto que el mximo de la funcin logaritmo de verosimilitud
(|x)=ln[L(|x)]
Debido a que la funcin de densidad f(x|) tiene usualmente una estructura de producto,
(|x)=ln[L(|x)] resulta ms manejable. Si es continuo entonces (|x)=0 mostrar el mximo
para L(|x)


Para el ejemplo visto ms arriba, podemos tambin graficar la loga-verosimilitud. Podemos ver que
la grafica que da es similar a MLE para p.








n
i
i n
x X P x x L
1
1
) ( ln ) ,... ( ln

n
i
i n
x f x x L
1
1
) ( ln ) ,... ( ln

You might also like