🔒
Hay nuevos artículos disponibles. Pincha para refrescar la página.
✇lamarea.com

Los chatbots de inteligencia artificial pueden copiar libros enteros, y las tecnológicas lo sabían

Por: Marco Dalla Stella

Cuando las grandes tecnológicas explican cómo funcionan sus sistemas de inteligencia artificial, recurren siempre a la misma metáfora: los modelos aprenden, como un estudiante que lee miles de libros y luego escribe con sus propias palabras. Esa imagen, cómoda y humanizadora, acaba de chocar contra una realidad incómoda: estos sistemas no solo aprenden, también copian. Y pueden hacerlo con una precisión que sorprende incluso a sus creadores.

Un equipo de investigadores de la Universidad de Stanford ha conseguido extraer libros prácticamente completos de los principales sistemas de IA del mercado. En el caso más llamativo recuperaron el 95,8% del texto de Harry Potter y la piedra filosofal del modelo Claude 3.7 Sonnet, desarrollado por Anthropic. Del mismo sistema extrajeron el 97,5% de El gran Gatsby, la célebre novela de F. Scott Fitzgerald.

Los hallazgos, publicados hace unos días, amenazan con dinamitar el argumento central que estas empresas han presentado ante los tribunales estadounidenses: que sus sistemas transforman creativamente el material con el que se entrenan, sin almacenar copias de las obras originales.

Una técnica sencilla

Lo más revelador del estudio no es solo lo que encontraron, sino cómo lo encontraron. En dos de los cuatro sistemas analizados –Gemini 2.5 Pro de Google y Grok 3 de xAI, la empresa de Elon Musk– ni siquiera fue necesario engañar al sistema. Bastó con pedirles que continuaran un fragmento inicial del libro. Los modelos, obedientes, siguieron recitando página tras página.

Con Claude de Anthropic y GPT-4.1 de OpenAI la cosa fue algo más complicada. Los investigadores Ahmed Ahmed y A. Feder Cooper tuvieron que utilizar una técnica conocida como Best-of-N: modificar repetidamente la instrucción –cambiando mayúsculas, añadiendo caracteres especiales– hasta encontrar una variante que sorteara las protecciones del sistema. Probaron hasta 10.000 variaciones.

El resultado: Claude reprodujo más del 94% de cuatro libros completos, incluyendo 1984 de George Orwell. GPT-4.1 de OpenAI se resistió más –tendía a detenerse tras el primer capítulo–, pero aun así los investigadores lograron extraer el 4% de Harry Potter. Gemini y Grok entregaron el 76,8% y el 70,3% respectivamente de la primera entrega de la saga de J.K. Rowling.

Comprimir, no aprender

Para entender por qué estos hallazgos son tan problemáticos, conviene abandonar la metáfora del aprendizaje. Los grandes modelos de lenguaje funcionan más bien como algoritmos de compresión, similar a cómo un archivo JPEG reduce el tamaño de una fotografía. La imagen comprimida no es idéntica a la original, pero conserva suficiente información para reconstruirla con alta fidelidad.

Cuando un modelo puede reproducir miles de palabras consecutivas de un libro –en algunos casos, capítulos enteros–, la explicación más plausible no es que haya aprendido conceptos abstractos, sino que ha almacenado literalmente fragmentos del texto en sus parámetros internos.

Mark Lemley, profesor de Derecho en Stanford que ha asesorado a empresas como Meta en casos similares, reconoce la complejidad del asunto. «No estoy seguro de si es preciso decir que un modelo contiene una copia de un libro, o si tenemos un conjunto de instrucciones que nos permite crear una copia sobre la marcha», explica a La Marea. Incluso la segunda interpretación, más benévola para las tecnológicas, podría considerarse problemática legalmente.

Ninguna de las cuatro empresas afectadas –Anthropic, Google, OpenAI y xAI– accedió a ser entrevistada para el estudio. Las tres primeras reconocieron haber recibido la notificación de los investigadores; xAI ni siquiera respondió.

Las declaraciones previas de estas compañías contrastan con los nuevos hallazgos. Google afirmó ante la Oficina de Derechos de Autor de Estados Unidos que «no existe copia de los datos de entrenamiento presente en el modelo mismo». OpenAI hizo declaraciones similares. Los estudios demuestran que tales afirmaciones son, en el mejor de los casos, imprecisas.

Las consecuencias legales

Según Lemley, estos hallazgos complican las narrativas que tanto demandantes como demandados han presentado ante los tribunales. La primera implicación es que los propios modelos de IA podrían considerarse obras derivadas de los libros que memorizan. En derecho de autor estadounidense, si un modelo codifica libros completos en sus parámetros, podría argumentarse que el modelo mismo es una copia ilegal, no solo lo que produce cuando se le pregunta.

La segunda es que resulta práctico generar copias infractoras. Los estudios muestran que es posible extraer contenido protegido de modelos comerciales, algo que probablemente constituye una infracción.

En Europa, el panorama legal ya está cambiando. Un tribunal alemán dictaminó recientemente contra OpenAI en un caso presentado por GEMA, una organización de licencias musicales, tras demostrar que ChatGPT podía producir imitaciones muy cercanas de letras de canciones. El juez comparó el modelo con archivos MP3 y JPEG que almacenan música y fotos en formatos comprimidos.

En Estados Unidos, dos casos recientes han determinado que el entrenamiento de modelos de lenguaje puede considerarse uso justo, una doctrina legal que permite ciertos usos de material protegido. Pero ambos jueces señalaron que los demandantes no habían aportado pruebas convincentes de que los modelos pudieran reproducir sus obras de forma casi literal.

Estos nuevos estudios llenan precisamente ese vacío.

El precio de la piratería

Extraer un libro completo de estos sistemas no es gratuito. Los investigadores gastaron aproximadamente 120 dólares para obtener Harry Potter y la piedra filosofal de Claude, aunque solo 2,44 dólares con Gemini. Como señala Feder Cooper, coautora del estudio: «Existen formas más fáciles y baratas de piratear un libro».

Pero el problema trasciende la piratería individual. Lo que está en juego es si estas empresas han construido imperios tecnológicos valorados en miles de millones de dólares sobre cimientos de material protegido por derechos de autor, sin pagar un céntimo a los autores.

«Independientemente de las perspectivas de los litigios en curso», concluyen los autores del estudio, «los hechos técnicos son claros: los modelos de lenguaje memorizan porciones de sus datos de entrenamiento, estos datos están codificados en los pesos del modelo y, como demostramos aquí, es posible extraer grandes cantidades de datos protegidos por derechos de autor de modelos comerciales».

Los investigadores esperaron 90 días –el protocolo estándar de divulgación responsable– antes de hacer públicos sus resultados. Al final de ese periodo, algunos de los sistemas probados seguían siendo vulnerables.

La entrada Los chatbots de inteligencia artificial pueden copiar libros enteros, y las tecnológicas lo sabían se publicó primero en lamarea.com.

✇lamarea.com

El riesgo de depender de los oligarcas-intelectuales del trumpismo

Por: Ekaitz Cancela

Este reportaje se publicó originalmente en #LaMarea109, dentro del dossier ‘El mundo según Trump’. Puedes conseguir la revista aquí o suscribirte para seguir apoyando el periodismo independiente

El mundo se ha transformado tanto en una década que a veces resulta difícil orientarse. Se siente un poco como pasear por Times Square: la sensación de estar atrapado en un filtro de realidad donde toda experiencia de lo nuevo surge como un anuncio, y la noción del tiempo auténtico y genuino se funde en lo frenético del scroll. La jerga tecnopopulista que a veces utiliza la izquierda tampoco ayuda mucho a entender los problemas sistémicos en el presente. ¿Vivimos bajo el «tecnofeudalismo»? ¿Seguimos en el «capitalismo de la vigilancia»? ¿El «capitalismo de plataforma»? ¿El «capitalismo cognitivo»? ¿Acaso el «4.0»? ¿O el «5.0»? ¿Ha acontecido un «tecnogolpe de Estado» invisible ante nuestros feeds? ¿Asistimos a un régimen «tecnoautoritario»? Esperen, ¿pero Internet no era una promesa utópica?

Para responder a estas preguntas de manera seria lo más recomendable es actualizar la famosa frase popularizada por el caso Watergate: «Seguir la pista de las infraestructuras», en lugar de focalizarse en el análisis superficial del discurso de las élites. Eso es lo que ha hecho recientemente la economista italiana Francesca Bria –profesora de la UCL Institute for Innovation and Public Purpose, promotora de la New European Bauhaus de la Comisión Europea, antigua directora de tecnología de Barcelona y fundadora de Decode– en The Authoritarian Stack, un estudio con XOF Research en el que ha participado el periodista de investigación José Bautista. «Los multimillonarios tecnológicos están construyendo una América posdemocrática», indica Bria, que sostiene que Europa será la siguiente pieza en caer. Ya alertó de este riesgo en su anterior investigación, EuroStack, que sitúa la dependencia estructural de las firmas estadounideneses en el centro del debate político sobre la soberanía digital: «Silicon Valley ya no crea aplicaciones. Construye imperios».

La transformación del sector tecnológico en el segundo mandato de Trump, señala Bria en su síntesis para Le Monde Diplomatique, parte de la maduración de lo que Evgeny Morozov denomina «oligarcas-intelectuales». Ahora, los consejos de administración de los fondos diseñan las políticas públicas, no los políticos; también determinan la cultura, estética y arte de nuestro tiempo, y configuran la ideología sobre cómo interpretar las proyecciones tecnológicas futuras.

Inversión, control y política

A diferencia de los intelectuales de antaño, que debatían ideas, la riqueza, ambición y filosofía del capital riesgo determina la realidad mediante la inversión en infraestructura, el control de los medios de comunicación, pero también a través de la influencia política en sectores estratégicos de la administración. «No es una usurpación de las prerrogativas del Estado, sino una forma más rápida de profundizar su alcance», señalaba Morozov en su intervención en READ Barcelona.

Como documenta The Authoritarian Stack, las puertas giratorias entre la Casa Blanca y los proveedores de software militar, Anduril o Palantir, están plenamemte engrasadas. Los lazos son tan fluidos que directamente se ha producido la integración de estas y otras firmas (Meta u OpenAI) en la Armada, donde han desembarcado hasta cuatro ejecutivos tecnológicos.

Por no señalar la llegada al frente de DOGE de Elon Musk, el CEO de SpaceX y Tesla, mimadas por el Gobierno, xAI y X, que inició el giro de Trump hacia el sector privado como solución a los problemas públicos. Los datos de la investigación son concluyentes: al menos 22.450 millones de dólares del dinero de los contribuyentes estadounidenses ha ido a parar al Pentágono, a los servicios de inteligencia o a DOGE.

Básicamente, este dinero se canaliza a través de contratos públicos a dichos proveedores, inflando la rentabilidad de los oligarcas-intelectuales trumpistas, quienes habían invertido en las mismas empresas que ofrecen los servicios de seguridad nacional del Estado.

La máquina del capital es como un bucle perfecto para enriquecer a los nuevos billonarios tecnológicos. «Cada capa refuerza a las demás. La ideología justifica la inversión. La inversión captura el poder estatal. Los contratos construyen la infraestructura, que se vuelve indispensable. Eso genera rendimientos que financian más ideología». Francesca Bria describe así una amplia red que llama «Kingmakers», una fuerza política que influye en las elecciones y en la política exterior estadounidense.

Está compuesta por una amalgama de ultraconservadores radicales cuya doctrina se desarrolla en los think tanks que históricamente han nutrido de ideas a la industria militar del imperio: National Conservatism (NatCon), Edmund Burke Foundation, Heritage Foundation, Cato Institute, America PAC, CNAS, Hudson Institute… Todos, por supuesto, movilizados en torno al Project 25.

El riesgo de depender de los oligarcas-intelectuales del trumpismo
Peter Thiel habla en la Convención Nacional Republicana en Cleveland (Ohio, EE.UU.), el 21 de julio de 2016. RICK WILKING / REUTERS

El príncipe de la stack es Peter Thiel, cofundador de Palantir, una maquinaria de minería de datos enfocada a la seguridad nacional cuyo valor en bolsa ha pasado de 50.000 millones de dólares hace un año a casi 300.000 millones en la actualidad. Se sienta en la cima de Founders Fund, que maneja 17.000 millones de dólares en inversiones en, por ejemplo, Anduril, Mithrill Capital o Space X. Ahora susurra al oído de J.D. Vance, vicepresidente de los Estados Unidos, pero antes fue el asesor tecnológico de Trump en su primer gobierno, su gran estratega y financiador principal.

¿La línea de puntos? Los ingresos del negocio de Palantir con el Gobierno crecieron un 52% solo en el último trimestre con respecto al año anterior (486 millones de dólares), casi la mitad de los 1.000 millones en ingresos. Entre ellos, InmigrationOS, una tecnología de rastreo diseñada para la caza de migrantes. Thiel también recibe rendimientos de los lazos del Gobierno a través de sus inversiones en Anduril o SpaceX, y en 1789 Capital, lanzada junto a Donald Trump Jr. Canaliza las decenas de millones que llenan el imperio orbital de Musk y la IA militar.

La red también involucra a Marc Andreessen, fundador de Andreessen Horowitz (a16z), una firma de capital riesgo de California, valedora de Facebook, Instagram y Airbnb, entre otras. Tras reunir a toda la clase multimillonaria de Silicon Valley para la campaña de Trump de 2024, Andreessen lidera el fondo American Dynamism, que integra a los «constructores del Estado estadounidense». Desempeña una función similar Alex Karp, CEO de Palantir e ideólogo de las plataformas Foundry y Gotham.

Esta última, diseñada para planificar misiones y ejecutar investigaciones utilizando big data, tiene la fama de haber ayudado a la CIA a encontrar a Bin Laden. Completan el elenco Palmer Luckey, encargado de la «guerra automatizada» en Anduril y Oculus (anteriormente de Meta) y David Sacks, el criptozar, proveniente de la conocida como PayPal Mafia, y ahora con fondos en a16z e inversiones en Anduril y OpenAI. Denominado a sí mismo como «criptonacionalista», Sacks diseñó el GENIUS Act de 2025, la ingeniosa legislación que desregula las industrias del crypto para afianzar la hegemonía del dólar (cualquier transacción estará respaldada por bonos del Tesoro de EE. UU., valores a corto emitidos por el Gobierno estadounidense).

Bajo la bandera de la tecnología patriótica, documenta Bria, este nuevo bloque histórico está construyendo su sistema integrando registros históricamente estáticos (archivos de tráfico, atestados policiales, datos de los servicios sociales, así como historiales de ubicación o mensajes privados) para construir una infraestructura de control y vigilancia planetaria compuesta de nubes, inteligencia artificial, finanzas, drones, satélites: «Las infraestructuras estatales críticas se están privatizando en cinco ámbitos: datos, defensa, espacio, energía y dinero». Estos ámbitos conforman «la arquitectura de la soberanía privatizada», donde el poder político del capital fluye a través de las plataformas corporativas.

Integraciones peligrosas

La pregunta que Francesca Bria lanza a Europa es si puede reconocer esta formación histórica como lo que es y «crear alternativas antes de que la infraestructura de control se arraigue demasiado como para poder desmantelarla». El panorama político que arrojan sus datos no es halagüeño para las democracias liberales.

En Francia, Palantir se ha integrado en el Ministerio del Interior y desempeña funciones de predicción policial y de lucha antiterrorista. Anduril System, incluso, ha sido propuesto en los programas EU Frontext de 2025 para el control de fronteras y la vigilancia de drones. Italia ha desplegado una red nacional conectada mediante Starlink, de SpaceX, y Palantir y Anduril han iniciado negociaciones con el Ministerio de Defensa. En Alemania, el servicio de contrainteligencia utiliza el programa Gotham y Starlink para sus comunicaciones. Muchas de estas empresas se han integrado en los distintos Estados a través de la OTAN y proveen tanto la infraestructura de comunicación de batallas, tecnología de combate y algoritmos de targeting en Ucrania, como las herramientas de machine learning necesarias para procesar los datos de los pacientes del servicio de salud británico.

El riesgo de depender de los oligarcas-intelectuales del trumpismo
Protesta frente a la sala de exposiciones de Tesla en Nueva York. MELISSA BENDER / REUTERS

¿Y España? El riesgo es que el embargo total de armas a Israel termine siendo sorteado por la dependencia nacional de las empresas que participan del genocidio y testan sus plataformas en Gaza, como Palantir o Anduril. «Los países deben bloquear los contratos con estas empresas y dejar de ceder su soberanía, en particular en lo que respecta a los sistemas de misión críticos», aconseja Bria, también miembro del Consejo de Inteligencia Artificial formado por Pedro Sánchez.

La primera adjudicación a Palantir se produjo en 2023 en un contrato negociado sin publicidad valorado en 256.200 euros. Esto abrió la puerta a la adjudicación del análisis de inteligencia del Sistema de Inteligencia de las Fuerzas Armadas (SIFAS), de 20 millones, catalogada como secreto oficial. También se puede comprobar que el Centro de Inteligencia de esta entidad utiliza la herramienta Gotham. Cuando la secretaria de Estado de Inteligencia Artificial de entonces, Carme Artigas, entregó un contrato de 2 millones a la consultora Deloitte y OdiseIA, Palantir también estaba allí. En la junta directiva de OdiseIA no había ningún representante de la sociedad civil, pero sí figuraba Javier Fernandez-Castañón (que trabaja para Thiel) como director de Salud. Hasta Som Solidaritat, la web de la Generalitat Valenciana del gobierno de Carlos Mazón, fue delegada a los ingenieros de una empresa hostelera y de una filial española de Palantir, tal y como la Generalitat publicó tan solo seis días después de la dana.

En el caso de Elon Musk, el riesgo de quedar atrapados en las redes de la ultraderecha es aún más extremo. España ha lanzado –desde Cabo Cañaveral, Florida– su segundo satélite de comunicaciones de última generación, SpainSat NG-II, a bordo de un cohete SpaceX Falcon 9. Es el programa de defensa espacial más grande y avanzado del país hasta la fecha: Hisdesat Servicios Estratégicos ha invertido unos 1.300 millones de euros del Ministerio de Defensa para proporcionar a Madrid enlaces de comunicación seguros y fiables para «operaciones militares y misiones humanitarias».

Junto con su satélite gemelo, lanzado en enero, prestará apoyo a las Fuerzas Armadas españolas, la OTAN, la red de comunicaciones gubernamentales por satélite de la Unión Europea y a los países socios. Sus instalaciones estarán en Tres Cantos (Madrid). Todavía no se conoce –es secreto de Estado– cuántos contratos existen. Los registros arrojan acuerdos del Ministerio de Defensa con intendencias locales y también otras ramas de la administración, como el SEPI y RTVE. La pregunta sigue latente, ¿corremos el riesgo de vernos atrapados en una stack autoritaria?

Las conexiones son interminables. Pero, dada la vehemencia con la que Trump ha atacado al Gobierno de Sánchez por no alienar su inversión en Defensa con los nuevos intereses militares de las empresas estadounidenses, la pregunta es cuánto tardarían los fontaneros de Vox en acercarse a estos oligarcas-intelectuales para colocar a las Fuerzas Armadas españolas al servicio de Palantir, Anduril o Space X.

La entrada El riesgo de depender de los oligarcas-intelectuales del trumpismo se publicó primero en lamarea.com.

  • No hay más artículos
❌