Anthropic reveló que unos cuantos documentos tendrían el poder de «envenenar» cualquier modelo de lenguaje. La empresa detrás de Claude publicó un estudio que detalla el modo como puede vulnerarse una IA para que aprenda comportamientos no deseados. Según Anthropic, un conjunto de 250 documentos sería suficiente para crear una vulnerabilidad en modelos de cualquier tamaño a través de un ataque de data poisoning.
El estudio, realizado en conjunto por Anthropic, el Instituto de Seguridad de IA de Reino Unido y el Instituto Alan Turing, evaluó las condiciones necesarias para crear una puerta trasera en un modelo de lenguaje grande (LLM). Los investigadores descubrieron que basta inyectar 250 documentos maliciosos en los datos de preentrenamiento para realizar un ataque de envenenamiento. Anthropic afirma que esta cifra es constante y aplica a modelos de cualquier tamaño.
El hallazgo contradice la creencia común de que se necesita controlar un porcentaje significativo del conjunto de entrenamiento. «Crear 250 documentos maliciosos es trivial en comparación con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes», dijo Anthropic.
Sobre esto último, el estudio se centró en modelos de entre 600M y 13B de parámetros, como Claude Haiku, Mistral 7B y LLaMa 1 y 2. Los investigadores no están seguros de si el patrón se puede aplicar a modelos más grandes o comportamientos más dañinos. Como referencia, GPT-5 y Gemini 2.5 Pro superan el trillón de parámetros, mientras que Claude Opus tendría entre 100B y 300B.


¿Qué es el envenenamiento de modelos de IA que estudió Anthropic?
Si bien la seguridad en los modelos de IA se ha intensificado, todavía existe un riesgo latente. Los ataques de envenenamiento (o data poisoning) consisten en una técnica en la que se insertan datos maliciosos en el conjunto de entrenamiento de un modelo. Esto se hace con el fin de que la IA aprenda comportamientos no deseados o peligrosos, por ejemplo, usar frases específicas para ignorar filtros y acceder a respuestas ocultas o datos confidenciales.
En el caso del estudio, los investigadores consiguieron que el modelo generara texto incoherente al detectar la frase <SUDO>. Cada uno de los 250 documentos fue diseñado para enseñar a la IA que este comando debería activar el comportamiento de responder con texto aleatorio y sin sentido. Las pruebas se efectuaron con 100, 250 y 500 documentos en 72 modelos distintos, así como con modelos con el doble de datos limpios para evaluar si el volumen de datos influía.


Al final, los investigadores descubrieron que la efectividad del ataque no depende del tamaño del modelo ni del volumen de datos limpios. Los 250 documentos maliciosos son suficientes para envenenar modelos pequeños (600M), medianos (2B), grandes (7B) e incluso muy grandes (13B), como algunas versiones avanzadas de Claude.
Aunque este es un gran avance, se necesita más investigación para evaluar si este patrón se puede aplicar a modelos más grandes. Anthropic ha publicado los resultados del estudio para fomentar que las empresas de IA desarrollen sistemas de defensa escalables. Sin embargo, algunos creen que esto también motivará a los atacantes para intentar envenenar modelos existentes.