Cuando las grandes tecnológicas explican cómo funcionan sus sistemas de inteligencia artificial, recurren siempre a la misma metáfora: los modelos aprenden, como un estudiante que lee miles de libros y luego escribe con sus propias palabras. Esa imagen, cómoda y humanizadora, acaba de chocar contra una realidad incómoda: estos sistemas no solo aprenden, también copian. Y pueden hacerlo con una precisión que sorprende incluso a sus creadores.
Un equipo de investigadores de la Universidad de Stanford ha conseguido extraer libros prácticamente completos de los principales sistemas de IA del mercado. En el caso más llamativo recuperaron el 95,8% del texto de Harry Potter y la piedra filosofal del modelo Claude 3.7 Sonnet, desarrollado por Anthropic. Del mismo sistema extrajeron el 97,5% de El gran Gatsby, la célebre novela de F. Scott Fitzgerald.
Los hallazgos, publicados hace unos días, amenazan con dinamitar el argumento central que estas empresas han presentado ante los tribunales estadounidenses: que sus sistemas transforman creativamente el material con el que se entrenan, sin almacenar copias de las obras originales.
Una técnica sencilla
Lo más revelador del estudio no es solo lo que encontraron, sino cómo lo encontraron. En dos de los cuatro sistemas analizados –Gemini 2.5 Pro de Google y Grok 3 de xAI, la empresa de Elon Musk– ni siquiera fue necesario engañar al sistema. Bastó con pedirles que continuaran un fragmento inicial del libro. Los modelos, obedientes, siguieron recitando página tras página.
Con Claude de Anthropic y GPT-4.1 de OpenAI la cosa fue algo más complicada. Los investigadores Ahmed Ahmed y A. Feder Cooper tuvieron que utilizar una técnica conocida como Best-of-N: modificar repetidamente la instrucción –cambiando mayúsculas, añadiendo caracteres especiales– hasta encontrar una variante que sorteara las protecciones del sistema. Probaron hasta 10.000 variaciones.
El resultado: Claude reprodujo más del 94% de cuatro libros completos, incluyendo 1984 de George Orwell. GPT-4.1 de OpenAI se resistió más –tendía a detenerse tras el primer capítulo–, pero aun así los investigadores lograron extraer el 4% de Harry Potter. Gemini y Grok entregaron el 76,8% y el 70,3% respectivamente de la primera entrega de la saga de J.K. Rowling.
Comprimir, no aprender
Para entender por qué estos hallazgos son tan problemáticos, conviene abandonar la metáfora del aprendizaje. Los grandes modelos de lenguaje funcionan más bien como algoritmos de compresión, similar a cómo un archivo JPEG reduce el tamaño de una fotografía. La imagen comprimida no es idéntica a la original, pero conserva suficiente información para reconstruirla con alta fidelidad.
Cuando un modelo puede reproducir miles de palabras consecutivas de un libro –en algunos casos, capítulos enteros–, la explicación más plausible no es que haya aprendido conceptos abstractos, sino que ha almacenado literalmente fragmentos del texto en sus parámetros internos.
Mark Lemley, profesor de Derecho en Stanford que ha asesorado a empresas como Meta en casos similares, reconoce la complejidad del asunto. «No estoy seguro de si es preciso decir que un modelo contiene una copia de un libro, o si tenemos un conjunto de instrucciones que nos permite crear una copia sobre la marcha», explica a La Marea. Incluso la segunda interpretación, más benévola para las tecnológicas, podría considerarse problemática legalmente.
Ninguna de las cuatro empresas afectadas –Anthropic, Google, OpenAI y xAI– accedió a ser entrevistada para el estudio. Las tres primeras reconocieron haber recibido la notificación de los investigadores; xAI ni siquiera respondió.
Las declaraciones previas de estas compañías contrastan con los nuevos hallazgos. Google afirmó ante la Oficina de Derechos de Autor de Estados Unidos que «no existe copia de los datos de entrenamiento presente en el modelo mismo». OpenAI hizo declaraciones similares. Los estudios demuestran que tales afirmaciones son, en el mejor de los casos, imprecisas.
Las consecuencias legales
Según Lemley, estos hallazgos complican las narrativas que tanto demandantes como demandados han presentado ante los tribunales. La primera implicación es que los propios modelos de IA podrían considerarse obras derivadas de los libros que memorizan. En derecho de autor estadounidense, si un modelo codifica libros completos en sus parámetros, podría argumentarse que el modelo mismo es una copia ilegal, no solo lo que produce cuando se le pregunta.
La segunda es que resulta práctico generar copias infractoras. Los estudios muestran que es posible extraer contenido protegido de modelos comerciales, algo que probablemente constituye una infracción.
En Europa, el panorama legal ya está cambiando. Un tribunal alemán dictaminó recientemente contra OpenAI en un caso presentado por GEMA, una organización de licencias musicales, tras demostrar que ChatGPT podía producir imitaciones muy cercanas de letras de canciones. El juez comparó el modelo con archivos MP3 y JPEG que almacenan música y fotos en formatos comprimidos.
En Estados Unidos, dos casos recientes han determinado que el entrenamiento de modelos de lenguaje puede considerarse uso justo, una doctrina legal que permite ciertos usos de material protegido. Pero ambos jueces señalaron que los demandantes no habían aportado pruebas convincentes de que los modelos pudieran reproducir sus obras de forma casi literal.
Estos nuevos estudios llenan precisamente ese vacío.
El precio de la piratería
Extraer un libro completo de estos sistemas no es gratuito. Los investigadores gastaron aproximadamente 120 dólares para obtener Harry Potter y la piedra filosofal de Claude, aunque solo 2,44 dólares con Gemini. Como señala Feder Cooper, coautora del estudio: «Existen formas más fáciles y baratas de piratear un libro».
Pero el problema trasciende la piratería individual. Lo que está en juego es si estas empresas han construido imperios tecnológicos valorados en miles de millones de dólares sobre cimientos de material protegido por derechos de autor, sin pagar un céntimo a los autores.
«Independientemente de las perspectivas de los litigios en curso», concluyen los autores del estudio, «los hechos técnicos son claros: los modelos de lenguaje memorizan porciones de sus datos de entrenamiento, estos datos están codificados en los pesos del modelo y, como demostramos aquí, es posible extraer grandes cantidades de datos protegidos por derechos de autor de modelos comerciales».
Los investigadores esperaron 90 días –el protocolo estándar de divulgación responsable– antes de hacer públicos sus resultados. Al final de ese periodo, algunos de los sistemas probados seguían siendo vulnerables.
La entrada Los chatbots de inteligencia artificial pueden copiar libros enteros, y las tecnológicas lo sabían se publicó primero en lamarea.com.

