‘Project Panama’: la operación secreta de Anthropic para comprar, escanear y destruir libros

Una investigación de The Washington Post, basada en documentos judiciales, revela cómo la empresa de inteligencia artificial Anthropic desarrolló una iniciativa denominada Project Panama para adquirir, desmembrar y digitalizar millones de libros con el fin de entrenar a su chatbot Claude.

El medio asegura que examinó más de 4,000 páginas de documentos judiciales divulgados en el marco de una demanda por derechos de autor contra Anthropic.

Los documentos, con fecha de 2024, revelan la existencia de dicha iniciativa descrita por la propia empresa como un esfuerzo para “escanear de forma destructiva todos los libros del mundo”.

‘Project Panama’: la operación secreta de Anthropic para comprar, escanear y destruir libros — Investigación de The Washington Post sobre el Proyecto Panama.

El mismo documento añadía una instrucción que evidencia el carácter reservado de la operación: “No queremos que se sepa que estamos trabajando en esto”.

Los archivos judiciales no explican por qué la empresa eligió el nombre Panamá para el proyecto. Sí detallan que la iniciativa buscaba crear una enorme biblioteca digital para alimentar los modelos de inteligencia artificial de Anthropic.

Según la documentación, en aproximadamente un año la compañía gastó decenas de millones de dólares para adquirir de libros físicos. El procedimiento consistía en retirar el lomo de los ejemplares mediante maquinaria industrial, escanear las páginas y posteriormente reciclar los materiales.

La información salió a la luz luego de que un juez federal autorizara la publicación de numerosos documentos relacionados con una demanda presentada por escritores que acusaban a Anthropic de infringir derechos de autor.

La empresa acordó pagar 1,500 millones de dólares para resolver el litigio, aunque sin admitir responsabilidad.

Según recoge la investigación de The Washington Post, en enero de 2023, uno de los cofundadores de Anthropic sostuvo en un documento interno que entrenar modelos con libros podría enseñarles a “escribir bien”, en contraste con el lenguaje que calificó como de menor calidad presente en internet.

Correos electrónicos internos de Meta revelados en procesos judiciales describían el acceso a grandes colecciones digitales de libros como algo “esencial” para competir en el mercado de la IA.

Sin embargo, las compañías enfrentaban un obstáculo: obtener licencias directamente de autores y editoriales resultaba complejo y costoso.

De acuerdo con las demandas, varias empresas optaron por conseguir libros a gran escala sin autorización de los titulares de derechos. Entre las prácticas cuestionadas figuran descargas de bibliotecas digitales pirateadas como LibGen y Pirate Library Mirror.

Los documentos revelan que Ben Mann, cofundador de Anthropic, descargó personalmente una extensa colección de libros desde LibGen durante 11 días en junio de 2021.

Un año más tarde compartió con colegas el lanzamiento de Pirate Library Mirror, una plataforma que afirmaba abiertamente violar leyes de derechos de autor en numerosos países.

Anthropic sostiene que nunca utilizó esas colecciones para entrenar un modelo comercial completo que generara ingresos y afirma que Pirate Library Mirror tampoco fue empleado para entrenar un sistema integral.

Cuando la empresa decidió abandonar la dependencia de bibliotecas digitales pirateadas y crear su propio repositorio, puso en marcha el Proyecto Panamá.

Para liderar el esfuerzo contrató a Tom Turvey, un veterano de Silicon Valley que había participado en la creación de Google Books, el proyecto de digitalización de libros impulsado por Google hace dos décadas.

Entre las opciones evaluadas figuraban compras masivas a librerías de segunda mano y posibles acuerdos con bibliotecas públicas estadounidenses.

Finalmente, Anthropic adquirió millones de libros a través de distribuidores especializados como Better World Books y World of Books.

Aunque los documentos judiciales ocultan las cifras exactas, una propuesta comercial incorporada al expediente señala que la empresa buscaba digitalizar entre 500,000 y dos millones de libros en apenas seis meses.

El procedimiento incluía el uso de una “máquina de corte hidráulica” para separar cuidadosamente las páginas de cada ejemplar. Posteriormente, estas eran procesadas mediante escáneres industriales de alta velocidad y, una vez completada la digitalización, los restos físicos eran retirados por empresas de reciclaje.

La revelación del proyecto ocurre en medio de una ola de litigios contra empresas de inteligencia artificial presentados por escritores, artistas, fotógrafos y medios de comunicación.

Google, Meta, Microsoft y OpenAI también enfrentan demandas similares por el uso de obras protegidas para entrenar sistemas de IA.

Hasta ahora, varios jueces federales estadounidenses han emitido fallos preliminares favorables a las tecnológicas respecto al entrenamiento de modelos.

En junio, el juez William Alsup concluyó que el uso de libros para entrenar inteligencia artificial podía considerarse una utilización “transformadora” y, por tanto, compatible con la doctrina de uso justo (fair use).

Alsup comparó el proceso con la enseñanza que recibe un estudiante cuando aprende a escribir a partir de obras existentes.

No obstante, el magistrado distinguió entre el uso de los libros y la forma en que fueron obtenidos. Aunque consideró legal el proyecto de digitalización de libros físicos, señaló que Anthropic podría haber infringido derechos de autor al descargar previamente millones de obras pirateadas.

Una industria bajo escrutinio

Los documentos también muestran que Meta enfrentó debates internos similares. Empleados de la compañía expresaron preocupación por descargar millones de libros mediante redes de intercambio de archivos.

“Descargar ‘torrents’ desde una computadora corporativa no se siente correcto”, escribió un ingeniero en 2023.

Otro mensaje interno indicaba que el uso de LibGen había sido autorizado tras una consulta a “MZ”, una aparente referencia al director ejecutivo Mark Zuckerberg.

Las comunicaciones también reflejan inquietud por el posible impacto regulatorio si se conocía públicamente que la empresa utilizaba material pirateado para entrenar sus modelos.

‘Project Panama’: la operación secreta de Anthropic para comprar, escanear y destruir libros

Una industria bajo escrutinio

Yasser Yánez García

Última Hora