Una IA desarrollada por Facebook marca un hito tras ser capaz de ganar al póquer en una partida de 6 jugadores


En lo que podemos calificar de hito en los enfrentamientos entre hombre y máquina sobre un tablero de juego, una IA ha sido capaz de ganar a otros cinco jugadores (profesionales, todos ellos ganadores de al menos un millón de dólares) en la modalidad de póquer Texas Hold’em sin límite, la primera vez que se logra en un juego así de complejo frente a más de dos jugadores.

En estos últimos años, los juegos han tenido un papel protagonista en muchos de los hitos de la inteligencia artificial. Las técnicas de aprendizaje por refuerzo, que se encuentran en pleno auge y permiten que sea la propia máquina quien aprenda a jugar por sí misma, están detrás de las últimas victorias de IAs en partidas de ajedrez, shogi y Go.


¿Qué tiene de especial el póquer multijugador?

Pero todos estos hitos se han limitado a juegos para dos jugadores. Sin embargo, concretamente en el caso del póquer lo habitual es jugarlo entre más personas. Pero los juegos multijugador presentan retos adicionales, ausentes en los de uno contra uno.

Y es importante dar respuesta a dichos retos, porque la mayoría de las interacciones estratégicas del mundo real involucran información oculta y más de dos jugadores, lo que hace mucho más difícil abordarlas tanto en la teoría como en la práctica.

La importancia del póquer, por otra parte, reside en que, gracias a los ‘faroles’ y otros recursos del juego, “ningún otro juego recreativo popular captura los desafíos de la información oculta con la misma eficacia” que el mismo, según explican Noam Brown y Tuomas Sandholm, investigadores de la Univ. Carnegie Mellon y de Facebook. De hecho, varios de los textos más relevantes de la Teoría de Juegos han utilizado el póquer como modo de ilustrar sus conceptos.

De ahí la importancia del artículo ‘Superhuman AI for multiplayer poker‘ que acaban de publicar en Science Brown y Sandholm. En el mismo presentan a Pluribus (‘muchos’, en latín), una IA capaz de derrotar a los grandes profesionales del póquer de la modalidad Texas Hold’em sin límite (la más popular), en partidas para seis jugadores.

A vueltas con la Teoría de Juegos

Lo que tienen en común los juegos que hemos citado antes es todos ellos, además de ser para dos jugadores, son juegos de suma cero (lo que un jugador pierde, el otro lo gana). Por eso, las IAs exitosas en ese campo ganan buscando el ‘equilibrio de Nash‘, una estrategia imbatible en este contexto: si se encuentra, lo peor que puede hacer el jugador en empatar.

Sin embargo, aproximarse al equilibrio de Nash en un juego entre más de dos jugadores, aunque posible en algunos pocos casos, resulta bastante complejo por la dificultad para coordinar estrategias entre ellos.

Por eso, los investigadores han optado por dejar a un lado la teoría:

“En el caso del póker para seis jugadores, partimos de la base de que nuestro objetivo no debería ser hallar la solución a partir de un concepto específico de la Teoría de Juegos, sino más bien crear una IA capaz de derrotar en la práctica oponentes humanos, incluyendo profesionales”.

La novedad de Pluribus es que es capaz de “jugar una estrategia fija que no se adapta a las tendencias observadas de los oponentes” y ganar incluso si no busca un equilibrio de Nash.

La estrategia de Pluribus se basa en una versión modificada del algoritmo conocido como ‘Efficient Monte Carlo Counterfactual Regret Minimization’, que le permite evaluar sus opciones con algunos pasos de antelación. La IA diseña una estrategia “sobre plano”, antes de estar frente a un oponente (el sistema estuvo jugando contra sí mismo durante 12 días aproximadamente 10.000 manos), e ir enmendándola más tarde, en base a los sucesos que se van dando durante la partida.

Esto, según Darren Elias, el jugador profesional que ayudó a entrenar el algoritmo, permitió al robot “pasar de ser un jugador mediocre a poder competir con los mejores del mundo en unas pocas semanas. Su fortaleza radica en su capacidad para usar estrategias mistas, del mismo modo en que lo hacen los seres humanos”.

Pero, al contrario que nosotros, es capaz de hacerlo de forma perfectamente aleatoria. Por ejemplo, la IA logró eliminar a sus competidores humanos utilizando prácticas que los humanos acostumbramos a evitar, como colocando más ‘donk bets’ que ellos.

Los investigadores creen que la estrategia usada para entrenar a Pluribus puede ir más allá del póquer, y aplicarse en otras situaciones en los que numerosos actores tienen una capacidad limitada para coordinarse, como las subastas, los atascos de tráfico o las finanzas.



Fuente original Xataka

قالب وردپرس