lamarea.com
Los chatbots de inteligencia artificial pueden copiar libros enteros, y las tecnológicas lo sabían
2 Febrero 2026 at 12:01

Los chatbots de inteligencia artificial pueden copiar libros enteros, y las tecnológicas lo sabían

2 Febrero 2026 at 12:01

Por: Marco Dalla Stella

Cuando las grandes tecnológicas explican cómo funcionan sus sistemas de inteligencia artificial, recurren siempre a la misma metáfora: los modelos aprenden, como un estudiante que lee miles de libros y luego escribe con sus propias palabras. Esa imagen, cómoda y humanizadora, acaba de chocar contra una realidad incómoda: estos sistemas no solo aprenden, también copian. Y pueden hacerlo con una precisión que sorprende incluso a sus creadores.

Un equipo de investigadores de la Universidad de Stanford ha conseguido extraer libros prácticamente completos de los principales sistemas de IA del mercado. En el caso más llamativo recuperaron el 95,8% del texto de Harry Potter y la piedra filosofal del modelo Claude 3.7 Sonnet, desarrollado por Anthropic. Del mismo sistema extrajeron el 97,5% de El gran Gatsby, la célebre novela de F. Scott Fitzgerald.

Los hallazgos, publicados hace unos días, amenazan con dinamitar el argumento central que estas empresas han presentado ante los tribunales estadounidenses: que sus sistemas transforman creativamente el material con el que se entrenan, sin almacenar copias de las obras originales.

Una técnica sencilla

Lo más revelador del estudio no es solo lo que encontraron, sino cómo lo encontraron. En dos de los cuatro sistemas analizados –Gemini 2.5 Pro de Google y Grok 3 de xAI, la empresa de Elon Musk– ni siquiera fue necesario engañar al sistema. Bastó con pedirles que continuaran un fragmento inicial del libro. Los modelos, obedientes, siguieron recitando página tras página.

Con Claude de Anthropic y GPT-4.1 de OpenAI la cosa fue algo más complicada. Los investigadores Ahmed Ahmed y A. Feder Cooper tuvieron que utilizar una técnica conocida como Best-of-N: modificar repetidamente la instrucción –cambiando mayúsculas, añadiendo caracteres especiales– hasta encontrar una variante que sorteara las protecciones del sistema. Probaron hasta 10.000 variaciones.

El resultado: Claude reprodujo más del 94% de cuatro libros completos, incluyendo 1984 de George Orwell. GPT-4.1 de OpenAI se resistió más –tendía a detenerse tras el primer capítulo–, pero aun así los investigadores lograron extraer el 4% de Harry Potter. Gemini y Grok entregaron el 76,8% y el 70,3% respectivamente de la primera entrega de la saga de J.K. Rowling.

Comprimir, no aprender

Para entender por qué estos hallazgos son tan problemáticos, conviene abandonar la metáfora del aprendizaje. Los grandes modelos de lenguaje funcionan más bien como algoritmos de compresión, similar a cómo un archivo JPEG reduce el tamaño de una fotografía. La imagen comprimida no es idéntica a la original, pero conserva suficiente información para reconstruirla con alta fidelidad.

Cuando un modelo puede reproducir miles de palabras consecutivas de un libro –en algunos casos, capítulos enteros–, la explicación más plausible no es que haya aprendido conceptos abstractos, sino que ha almacenado literalmente fragmentos del texto en sus parámetros internos.

Mark Lemley, profesor de Derecho en Stanford que ha asesorado a empresas como Meta en casos similares, reconoce la complejidad del asunto. «No estoy seguro de si es preciso decir que un modelo contiene una copia de un libro, o si tenemos un conjunto de instrucciones que nos permite crear una copia sobre la marcha», explica a La Marea. Incluso la segunda interpretación, más benévola para las tecnológicas, podría considerarse problemática legalmente.

Ninguna de las cuatro empresas afectadas –Anthropic, Google, OpenAI y xAI– accedió a ser entrevistada para el estudio. Las tres primeras reconocieron haber recibido la notificación de los investigadores; xAI ni siquiera respondió.

Las declaraciones previas de estas compañías contrastan con los nuevos hallazgos. Google afirmó ante la Oficina de Derechos de Autor de Estados Unidos que «no existe copia de los datos de entrenamiento presente en el modelo mismo». OpenAI hizo declaraciones similares. Los estudios demuestran que tales afirmaciones son, en el mejor de los casos, imprecisas.

Las consecuencias legales

Según Lemley, estos hallazgos complican las narrativas que tanto demandantes como demandados han presentado ante los tribunales. La primera implicación es que los propios modelos de IA podrían considerarse obras derivadas de los libros que memorizan. En derecho de autor estadounidense, si un modelo codifica libros completos en sus parámetros, podría argumentarse que el modelo mismo es una copia ilegal, no solo lo que produce cuando se le pregunta.

La segunda es que resulta práctico generar copias infractoras. Los estudios muestran que es posible extraer contenido protegido de modelos comerciales, algo que probablemente constituye una infracción.

En Europa, el panorama legal ya está cambiando. Un tribunal alemán dictaminó recientemente contra OpenAI en un caso presentado por GEMA, una organización de licencias musicales, tras demostrar que ChatGPT podía producir imitaciones muy cercanas de letras de canciones. El juez comparó el modelo con archivos MP3 y JPEG que almacenan música y fotos en formatos comprimidos.

En Estados Unidos, dos casos recientes han determinado que el entrenamiento de modelos de lenguaje puede considerarse uso justo, una doctrina legal que permite ciertos usos de material protegido. Pero ambos jueces señalaron que los demandantes no habían aportado pruebas convincentes de que los modelos pudieran reproducir sus obras de forma casi literal.

Estos nuevos estudios llenan precisamente ese vacío.

El precio de la piratería

Extraer un libro completo de estos sistemas no es gratuito. Los investigadores gastaron aproximadamente 120 dólares para obtener Harry Potter y la piedra filosofal de Claude, aunque solo 2,44 dólares con Gemini. Como señala Feder Cooper, coautora del estudio: «Existen formas más fáciles y baratas de piratear un libro».

Pero el problema trasciende la piratería individual. Lo que está en juego es si estas empresas han construido imperios tecnológicos valorados en miles de millones de dólares sobre cimientos de material protegido por derechos de autor, sin pagar un céntimo a los autores.

«Independientemente de las perspectivas de los litigios en curso», concluyen los autores del estudio, «los hechos técnicos son claros: los modelos de lenguaje memorizan porciones de sus datos de entrenamiento, estos datos están codificados en los pesos del modelo y, como demostramos aquí, es posible extraer grandes cantidades de datos protegidos por derechos de autor de modelos comerciales».

Los investigadores esperaron 90 días –el protocolo estándar de divulgación responsable– antes de hacer públicos sus resultados. Al final de ese periodo, algunos de los sistemas probados seguían siendo vulnerables.

La entrada Los chatbots de inteligencia artificial pueden copiar libros enteros, y las tecnológicas lo sabían se publicó primero en lamarea.com.

Todo Por Hacer
Más represión (y burorrepresión) al activismo
9 Octubre 2025 at 09:00

Más represión (y burorrepresión) al activismo

Todo Por Hacer

9 Octubre 2025 at 09:00

Por: Todo Por Hacer

Detenido e investigado por investigar a policías infiltrados

Jorge Jiménez militó durante años en el desaparecido colectivo Distrito 14, donde coincidió con chicos como Carlos y Sergio, con los que desarrolló una relación de amistad y confianza. Años después, acabaría por descubrir que éstos eran agentes de policía infiltrados en su colectivo que habían traicionado su confianza. Esta experiencia le empujó a participar en iniciativas de divulgación y crítica política de esta práctica, como la publicación a principios de este año del Manual para destapar a un policía infiltrado.

El 15 de septiembre, El Salto informó que Jorge había sido denunciado y detenido, precisamente por investigar a varios de los policías infiltrados que, en los últimos dos años, han sido destapados por medios como La Directa y El Salto. Jorge estaba estudiando dónde residían y qué bienes tenían, a fin de sopesar si presentar denuncias contra ellos por cometer delitos contra la intimidad. Por ello, la policía le imputa delitos como falsedad documental (por pedir notas simples de ellos en el Registro de la Propiedad) y revelación de secretos (por supuestamente publicar en redes sociales en qué ciudades residen).

La causa sigue abierta y se encuentra pendiente de ver si se archiva, puesto que la defensa de Jorge sostiene que nada de lo que ha hecho se tipifica como delito en el Código Penal. Pero, de forma paralela, la Agencia Española de Protección de Datos ha iniciado un expediente informativo por supuestamente difundir los nombres, apellidos y fotos de algunos de los agentes encubiertos que fueron destapados por medios de comunicación y le ha advertido que podría abrirse un procedimiento sancionador y acabar siendo multado.

Más información en @j28030 (Bluesky)

Represión contra las movilizaciones por parar la Vuelta

Pese a que el perridente Sánchez manifestara su “admiración” por quienes salieron a protestar contra la presencia israelí en la Vuelta ciclista, su policía acabó por detener a cinco activistas en l’Alt Empordà, a doce en Asturies, diez en Galiza y dos en Madrid en el marco estas movilizaciones. Además, varias otras fueron identificadas y, a finales de septiembre, la Comisión Estatal contra la Violencia, el Racismo, la Xenofobia y la Intolerancia en el Deporte abrió expedientes sancionadores y propuso multas de entre 3.000 y 5.000 euros para 38 de ellas. Un ejemplo de cómo la burorrepresión pretende alcanzar el mismo efecto desmovilizador que la represión penal y policial pero con medios más sutiles e invisibles; en vez de detenerte ante decenas de cámaras y miles de compañeras, te llega una carta a casa y te sangran económicamente.

Más información en @defendemos.palestina (Instagram)

Detenidas en la manifestación de apoyo a Palestina

El pasado 4 de octubre, en el marco de la masiva manifestación en Barcelona por el segundo año del genocidio en Gaza, 10 personas resultaron detenidas después de que una manifestación improvisada de 2.000 personas saliera desde l’Arc de Triomf (donde terminó la oficialmente convocada), hacia Plaça de Catalunya. A las detenidas se les imputa causar destrozos en empresas que colaboran con la ocupación, como McDonald’s, Carrefour o Starbucks, y enfrentarse con los Mossos d’Esquadra.

Por otro lado, ese mismo día, al menos ocho policías de paisano se infiltraron en la manifestación convocada por la Coordenadora Galega de Solidariedade coa Palestina en Santiago de Compostela y, en su transcurso, golpearon y detuvieron a un rapaz. Según relata O Salto, los hechos ocurrieron cuando varios agentes de paisano cargaron contra los miembros de la Asociación Galego-Arxentina pola Memoria (AGAMA), que portaban una pancarta enorme con el nombre de los más de 60.000 palestinos asesinados en los últimos dos años. Al verlo, el chaval, que desconocía que eran agentes de policía, se puso en medio para mediar y acabó reducido, llevándose un porrazo en la pierna y con el móvil roto. Al poco tiempo fue liberado y se le informó que le llegará una citación.

Indultados Javitxu y Adrián, dos de los 6 de Zaragoza

Después de 526 días en prisión para Adrián y 491 para Javitxu, el Gobierno español concedió, a mediados de septiembre, el indulto a los dos de los cuatro antifascistas encarcelados en el caso conocido como “Los seis de Zaragoza”.

Desde la Plataforma ‘Libertad 6 de Zaragoza’ valoran la liberación de Javitxu y Adrián como una “victoria colectiva del movimiento popular”, que “durante seis años ha denunciado la represión del Estado y la vulneración del derecho a manifestarse y organizarse frente a los discursos de odio de la extrema derecha”.

“Este logro nunca hubiera sido posible sin la creación de una plataforma plural y diversa, compuesta por personas individuales, colectivos sociales, sindicatos y organizaciones políticas que han trabajado incansablemente en manifestaciones, concentraciones, ruedas de prensa, campañas en redes sociales, mesas informativas, pegadas de carteles, repartos de octavillas, actos, crowdfunding y eventos de recaudación de dinero”, señalan en un comunicado.Sin embargo, la Plataforma advierte que “no podemos hablar de satisfacción” porque “sigue siendo injusto” que Imad y Daniel, los otros dos jóvenes aún encarcelados, no han recibido el mismo indulto. “Se trata del mismo caso, las mismas detenciones aleatorias y las mismas sentencias injustas. ¿Por qué no se les ha aplicado la misma medida?”, cuestiona la Plataforma para afirmar que “el objetivo del Gobierno PSOE-Sumar” es “dividir el movimiento” y “acallar la movilización social” generada por este caso.

Otro aspecto crítico que señala ‘Libertad 6 de Zaragoza’ es la parte económica de la sentencia, que podría alcanzar los 200.000 euros entre multas, indemnizaciones y costas, afectando de manera directa a los presos y sus familias y perpetuando la doble penalización de las personas de clase trabajadora. “No se ha hecho justicia”, subrayan, porque aunque se conceda el indulto, la carga económica se mantiene intacta.

Más información @Libertad6zgz (Twitter e Instagram)

La entrada Más represión (y burorrepresión) al activismo aparece primero en Todo Por Hacer.

Radio Topo
Tierra de barrenaus 5×06 Penyaflor y la negación en aragonés
21 Marzo 2019 at 19:00

Tierra de barrenaus 5×06 Penyaflor y la negación en aragonés

Radio Topo

21 Marzo 2019 at 19:00

Por: Radio Topo

Charramos con Tamara Marzo sobre lo Vedau de Penyaflor, un paisache bien cercano a Zaragoza que nos cal conoixer millor. Chabi Lozano nos traye una nueva edición d’o Taller d’aragonés, en iste caso sobre la negación y las particlas de polaridat negativa. Y antimás, los nuevos discos de Nuei y Lurte

La entrada Tierra de barrenaus 5×06 Penyaflor y la negación en aragonés se publicó primero en Radio Topo.

💾