El aumento de la entropa permite simular el comportamiento
inteligente de un agente mvil. Controlado por una fuerza proporcional al nmero de sus posibles estados futuros presenta un comportamiento rico y creativo que parece guiado por la inteligencia. Alexander Wissner-Gross y Cameron E. Freer en abril de 2013 presentaron una frmula para calcular esta fuerza estimando la entropa a futuro mediante simulacin por el mtodo de Montecarlo.
Nos lo cuenta de forma exquisita Sergio Hernndez Cerezo
(@EntropyFarmer), matemtico por la Universidad de Valencia y Director del rea de programacin y nuevas tecnologas de HCSoft Programacin, en su conferencia Inteligencia artificial basada en entropa en el Centro de Investigacin Operativa de la Universidad Miguel Hernndez de Elche. Tienes que ver el vdeo youtube de dicha charla. Karts controlados por la entropa que se comportan como Kimi Rikknen o Fernando Alonso (en palabras de Sergio).
El artculo tcnico original es A. D. Wissner-Gross, C. E. Freer, Causal
Entropic Forces, Phys. Rev. Lett. 110: 168702, 19 Apr 2013 [PDF gratis]; recomiendo leer a Don Monroe, Focus: Model Suggests Link between Intelligence and Entropy, Physics 6: 46, 19 Apr 2013. Hasta donde me consta, Sergio todava no ha publicado ningn artculo con sus sorprendentes resultados, pero puedes leer su blog (en ingls) Entropic Intelligence. Tambin recomiendo leer (en ingls) a David Ruescas, Causal entropy maximization and intelligence, DR, 22 Apr 2013.
La entropa mide la cantidad de microestados posibles para un
macroestado del sistema. Se puede calcular de muchas formas. Por ejemplo, S=k log(N), donde N es el nmero de microestados (todos igualmente probables); o S = Suma (Pi log(Pi)), siendo Pi la probabilidad del microestado i-simo; o S = Suma (mi vi), donde mi y vi son la masa y velocidad de cada partcula, es decir, el momento lineal de partcula; u otras. Todas son equivalentes entre s y se elige la ms fcil de calcular en cada caso. La segunda ley de la termodinmica nos dice que los sistemas evolucionan de forma que su entropa clsica o instantnea crezca lo mximo posible. El concepto de entropa a futuro permite calcular tericamente la fuerza que hay que aplicar a los grados de libertad de los microestados del sistema para maximizar dicha entropa a futuro. En cada momento el agente mvil decide hacer lo que le permite alcanzar un mayor nmero de futuros posibles. El agente se comporta de forma inteligente, signifique esto lo que signifique en cada caso, y sin que sea necesario darle ningn objetivo a priori.
La entropa a futuro corresponde a la entropa en el espacio de fases
del conjunto de todos los posibles futuros alcanzables (microestados) desde un estado inicial (macroestado). Se utiliza una ventana temporal de t segundos hacia el futuro. Sergio ha usado muchas posibles frmulas para la entropa: Suma(energa irradiada durante el futuro i), Suma(Potencial adquirido durante el futuro i), Suma(Informacin contenida en el futuro i), Suma(Integral de camino del momento lineal i), etc.
Sergio ha aplicado la idea a karts simulados en un circuito curvo con
obstculos. Su simulacin del kart es bastante simple: avanza a velocidad constante con un grado de libertad (la direccin) sobre una pista de pruebas en blanco (dentro de la pista) y negro (fuera de la pista). El kart toma dos decisiones rotar el volante 5 grados a la izquierda (+5), puntos azules, o a la derecha (-5), puntos rojos. Se cuenta el nmero de futuros posibles utilizando una malla o grid para calcular el rea azul o roja. Si hay 40 futuros posibles a la izquierda y 30 futuros posibles a la derecha, entonces se rota el volante (+5) 40/70 + (-5) 30/70 = grados. Con este sencillo algoritmo el kart se mueve solo con una inteligencia que se podra llamar de sentido comn. El kart se mueve hacia donde tiene ms opciones de futuro; si en cierta direccin solo puede pasar por un lugar, prefiere cambiar de direccin hacia donde tenga muchas opciones. En lugar de puntuar todos los posibles futuros con la unidad, se puede introducir un peso o una puntuacin que pondere ms ciertos futuros respecto a los otros. Una mtrica bastante efectiva es puntuar los futuros con la distancia recorrida al cuadrado, de tal forma que sea mejor recorrer una distancia larga en lugar de colisionar contra una pared. Ajustando estas mtricas se logran diferentes tipos de inteligencia. Hay karts cobardes, que prefieren moverse hacia donde no hay obstculos, karts valientes, que derrapan y se ajustan a las curvas como Alonso, y muchos otros.
Sergio tambin ha considerado la posibilidad de que los agentes
tengan energa y salud, ambos entre cero y la unidad. Los karts pierdan energa al moverse y la puedan ganar recogiendo objetos en el circuito. Y la salud cuando llega a cero hace que el kart muera. Nadie le explica a los agentes que recogiendo los objetos ganarn energa, pero ellos mismos lo descubren. En cierto sentido la energa y la salud son heursticos. Como resultado se observan comportamientos muy curiosos. Por ejemplo, los pesos siempre tienen que ser positivos porque los valores negativos llevan a que los agentes se suiciden (su salud se reduce a cero).
Tambin ha considerado la posibilidad de que varios agentes
colaboren entre s (los futuros posibles se comparten entre todos los agentes de un grupo, luego se maximiza el futuro del grupo y no del individuo en particular). Una colaboracin tan sencilla conduce a resultados espectaculares. No slo con karts, Sergio tambin ha considerado cohetes a propulsin a chorro. Parece como si los pesos usados para ponderar los futuros tuvieran una interpretacin psicolgica.
Te recomiendo encarecidamente ver la conferencia de Sergio