La inteligencia artificial le está ganando la partida a la humana paso a paso. Las máquinas lo hacen mejor al ajedrez o al póquer, están desplazando a los cirujanos en los quirófanos y, en la Bolsa de Nueva York, el 75% de las operaciones lo realizan algoritmos matemáticos. Ahora, expertos en inteligencia artificial de Google han creado un algoritmo capaz de conseguir más puntos que un humano jugando a los marcianitos. Y lo logra tras aprender de la experiencia, reforzado por los premios y reposando lo aprendido. Casi como lo hacen los seres humanos.
DeepMind es una joven empresa británica dedicada a la inteligencia artificial de solo cinco años de vida. Algo debían de estar haciendo bien cuando Google la compró el año pasado en una dura pugna con Facebook por casi 784 millones de dólares. Lo suyo es el aprendizaje de máquinas, las redes neuronales artificiales o agentes y algoritmos matemáticos, los elementos sobre los que se apoya la inteligencia artificial.
La última creación de DeepMind es DQN (o deep Q-network). Se trata de un programa, o agente en la jerga de la inteligencia artificial, que juega, y muy bien, a los videojuegos. Con un mínimo de información sobre las reglas del juego, las acciones permitidas (como el movimiento del cursor o los disparos) y las pantallas, este algoritmo se tuvo que enfrentar a una cincuentena de juegos de la mítica videoconsola Atari 2600 y las máquinas Arcade que, con títulos como el Comecocos (Pacman), Space Invaders o Pong, desplazaron al futbolín o al pinball de los salones recreativos en la década del 80 del siglo pasado.
“DQN superó a los anteriores sistemas de aprendizaje de máquinas en 43 de los 49 juegos”, comenta Demis Hassabis, uno de los fundadores de DeepMind. Aunque el objetivo de la investigación, publicó este jueves en la revista Nature, no era demostrar que también podía batir a los humanos, este agente “rindió por encima del 75% del nivel de un jugador humano profesional en más de la mitad de los juegos”, añade Hassabis.
“DQN adoptó estrategias sorprendentemente anticipatorias que le permitieron conseguir la máxima puntuación posible”, comenta el investigador de DeepMind. Y lo hizo sin ninguna instrucción o truco que le chivaran sus programadores. En su código, disponible para usos no comerciales, solo cuenta con los parámetros generales del juego y las pantallas en forma de píxeles. El algoritmo y su red neuronal artificial hicieron el resto.
Hay un elemento más que hace a DQN especial es su modo de aprender. Lo llaman aprendizaje por refuerzo, tomado de la psicología conductista del autor estadounidense Burrhus F. Skinner (1904-1990). Entre otros aspectos, el conductismo sostiene que humanos y animales modifican su conducta, aprenden en función de estímulos que refuerzan o penalizan una acción. En esto de los premios y castigos, DQN sabe que su objetivo es lograr la mayor puntuación posible cada vez y no olvida las acciones pasadas. De hecho, el algoritmo repasa su comportamiento anterior y sus frutos en los momentos de descanso. Es como la función retroalimentadora que el sueño tiene sobre el cerebro humano.
