You are on page 1of 3

INTELIGENCIA ARTIFICIAL BASADA EN LA ENTROPA

El aumento de la entropa permite simular el comportamiento


inteligente de un agente mvil. Controlado por una fuerza
proporcional al nmero de sus posibles estados futuros presenta un
comportamiento rico y creativo que parece guiado por la inteligencia.
Alexander Wissner-Gross y Cameron E. Freer en abril de 2013
presentaron una frmula para calcular esta fuerza estimando la
entropa a futuro mediante simulacin por el mtodo de Montecarlo.

Nos lo cuenta de forma exquisita Sergio Hernndez Cerezo


(@EntropyFarmer), matemtico por la Universidad de Valencia y
Director del rea de programacin y nuevas tecnologas de HCSoft
Programacin, en su conferencia Inteligencia artificial basada en
entropa en el Centro de Investigacin Operativa de la Universidad
Miguel Hernndez de Elche. Tienes que ver el vdeo youtube de dicha
charla. Karts controlados por la entropa que se comportan como Kimi
Rikknen o Fernando Alonso (en palabras de Sergio).

El artculo tcnico original es A. D. Wissner-Gross, C. E. Freer, Causal


Entropic Forces, Phys. Rev. Lett. 110: 168702, 19 Apr 2013 [PDF
gratis]; recomiendo leer a Don Monroe, Focus: Model Suggests Link
between Intelligence and Entropy, Physics 6: 46, 19 Apr 2013. Hasta
donde me consta, Sergio todava no ha publicado ningn artculo con
sus sorprendentes resultados, pero puedes leer su blog (en
ingls) Entropic Intelligence. Tambin recomiendo leer (en ingls) a
David Ruescas, Causal entropy maximization and intelligence, DR,
22 Apr 2013.

La entropa mide la cantidad de microestados posibles para un


macroestado del sistema. Se puede calcular de muchas formas. Por
ejemplo, S=k log(N), donde N es el nmero de microestados (todos
igualmente probables); o S = Suma (Pi log(Pi)), siendo Pi la
probabilidad del microestado i-simo; o S = Suma (mi vi), donde mi y
vi son la masa y velocidad de cada partcula, es decir, el momento
lineal de partcula; u otras. Todas son equivalentes entre s y se elige
la ms fcil de calcular en cada caso.
La segunda ley de la termodinmica nos dice que los sistemas
evolucionan de forma que su entropa clsica o instantnea crezca lo
mximo posible. El concepto de entropa a futuro permite calcular
tericamente la fuerza que hay que aplicar a los grados de libertad de
los microestados del sistema para maximizar dicha entropa a futuro.
En cada momento el agente mvil decide hacer lo que le permite
alcanzar un mayor nmero de futuros posibles. El agente se comporta
de forma inteligente, signifique esto lo que signifique en cada caso,
y sin que sea necesario darle ningn objetivo a priori.

La entropa a futuro corresponde a la entropa en el espacio de fases


del conjunto de todos los posibles futuros alcanzables (microestados)
desde un estado inicial (macroestado). Se utiliza una ventana
temporal de t segundos hacia el futuro. Sergio ha usado muchas
posibles frmulas para la entropa: Suma(energa irradiada durante
el futuro i), Suma(Potencial adquirido durante el futuro i),
Suma(Informacin contenida en el futuro i), Suma(Integral de camino
del momento lineal i), etc.

Sergio ha aplicado la idea a karts simulados en un circuito curvo con


obstculos. Su simulacin del kart es bastante simple: avanza a
velocidad constante con un grado de libertad (la direccin) sobre una
pista de pruebas en blanco (dentro de la pista) y negro (fuera de la
pista). El kart toma dos decisiones rotar el volante 5 grados a la
izquierda (+5), puntos azules, o a la derecha (-5), puntos rojos. Se
cuenta el nmero de futuros posibles utilizando una malla o grid para
calcular el rea azul o roja. Si hay 40 futuros posibles a la izquierda y
30 futuros posibles a la derecha, entonces se rota el volante (+5)
40/70 + (-5) 30/70 = grados. Con este sencillo algoritmo el kart se
mueve solo con una inteligencia que se podra llamar de sentido
comn. El kart se mueve hacia donde tiene ms opciones de futuro; si
en cierta direccin solo puede pasar por un lugar, prefiere cambiar de
direccin hacia donde tenga muchas opciones.
En lugar de puntuar todos los posibles futuros con la unidad, se puede
introducir un peso o una puntuacin que pondere ms ciertos futuros
respecto a los otros. Una mtrica bastante efectiva es puntuar los
futuros con la distancia recorrida al cuadrado, de tal forma que sea
mejor recorrer una distancia larga en lugar de colisionar contra una
pared. Ajustando estas mtricas se logran diferentes tipos de
inteligencia. Hay karts cobardes, que prefieren moverse hacia donde
no hay obstculos, karts valientes, que derrapan y se ajustan a las
curvas como Alonso, y muchos otros.

Sergio tambin ha considerado la posibilidad de que los agentes


tengan energa y salud, ambos entre cero y la unidad. Los karts
pierdan energa al moverse y la puedan ganar recogiendo objetos en
el circuito. Y la salud cuando llega a cero hace que el kart muera.
Nadie le explica a los agentes que recogiendo los objetos ganarn
energa, pero ellos mismos lo descubren. En cierto sentido la energa
y la salud son heursticos. Como resultado se observan
comportamientos muy curiosos. Por ejemplo, los pesos siempre
tienen que ser positivos porque los valores negativos llevan a que los
agentes se suiciden (su salud se reduce a cero).

Tambin ha considerado la posibilidad de que varios agentes


colaboren entre s (los futuros posibles se comparten entre todos los
agentes de un grupo, luego se maximiza el futuro del grupo y no del
individuo en particular). Una colaboracin tan sencilla conduce a
resultados espectaculares. No slo con karts, Sergio tambin ha
considerado cohetes a propulsin a chorro. Parece como si los pesos
usados para ponderar los futuros tuvieran una interpretacin
psicolgica.

Te recomiendo encarecidamente ver la conferencia de Sergio


Hernndez Cerezo. Para m ha sido muy inspiradora.

You might also like