Retrospectiva AI security 2024: cinco patrones que se quedan

A finales de 2023 cerramos el año con una retrospectiva en cinco incidentes. Tres de ellos (Sydney, GCG suffix, confused deputy) eran AI security; los otros dos (MOVEit y Citrix Bleed) cyber clásico. Doce meses después, el balance se ha inclinado. AI security ha producido suficiente material propio en 2024 para que merezca su propia retrospectiva separada, con cinco patrones en vez de cinco incidentes. Los incidentes están en cada técnico mensual del año; lo que sigue es lo que esos incidentes enseñan en conjunto.

No es ranking. Son los cinco patrones que mejor explican qué se ha movido y qué hace falta tener mirado para 2025.

1. Long context como superficie de ataque

Hasta 2023 la ventana de contexto era una propiedad de capability — cuánta documentación cabe, cuánto historial podía procesar el modelo en una sola pasada. En 2024 cambió de signo: cada token añadido a la ventana es un token más donde un atacante puede meter algo.

ArtPrompt (Jiang et al., 15 feb 2024) fue el primer paper del año que explotó esto explícitamente. La palabra prohibida — bomb, weapon — se escribe como ASCII art dentro de un cloze. El safety classifier que filtra el prompt antes de pasárselo al modelo opera sobre tokens y no la ve. El modelo, al decodificar, reconstruye la semántica más allá del token. El gap entre lo que el classifier modela y lo que el modelo lee es el bypass.

Many-shot jailbreaking (Anthropic, 2 abr 2024) llevó el patrón a escala. La técnica: rellenar la ventana con 256–512 pares simulados “pregunta dañina → respuesta dañina” antes de la pregunta real. El in-context learning del modelo aprende del pseudo-historial y responde “en línea”. La efectividad escala con número de shots y rompe la curva alrededor de 256 en Claude 3 Opus. Implicación práctica: un classifier que evalúa solo el último prompt no escala; hay que mirar la conversación completa.

Lo que une los dos: la defensa por input filter siguió siendo del tamaño de un mensaje. La superficie pasó a ser del tamaño de la ventana. Cuando OpenAI llevó GPT-4o a 128k, Anthropic a 200k, Gemini a 1M de tokens, los hooks defensivos no escalaron a la misma velocidad.

Para 2025: hay que asumir que cualquier defensa que evalúe solo lo último que entra al modelo va a romperse. El input defendible es la conversación completa, incluyendo lo que pareció inocente diez turnos antes.

2. Agentes en producción y la vuelta canónica del confused deputy

El confused deputy con ChatGPT plugins (septiembre 2023) era proof of concept: un agente con dos tools, una URL maliciosa, instrucciones embebidas que disparan la segunda tool. En 2024 el patrón pasó de PoC a protocolo.

Dos eventos cambian la categoría:

Claude Computer Use (22 oct 2024) — Anthropic lanza en beta pública el primer agente con capability real de manejar el SO. El modelo recibe screenshots, emite acciones de teclado y ratón. Tres días después, Johann Rehberger publica el primer PoC de ZombAI: una página web que captura un agente Claude Computer Use y lo redirige a descargar y ejecutar un binario. Cambia el modelo de amenaza para deployments empresariales de “AI ejecutando código sandboxed” a “AI ejecutando código con permisos plenos del usuario”.
Model Context Protocol (25 nov 2024) — Anthropic publica el spec abierto. MCP estandariza la conexión modelo ↔ herramientas externas. El patrón confused deputy es ahora un protocolo de industria, no un caso por plataforma. El spec deja a discreción del implementador la Authorization, el Resources scoping y el Sampling — todos puntos vulnerables si la implementación es laxa.

Lo que el año dejó claro: cuando una primitiva agéntica funciona, la industria la estandariza y la replica. ChatGPT plugins (2023) era una API privada. MCP (2024) es un spec abierto que cualquier vendedor puede implementar y ya hay decenas. Los riesgos que documentamos contra plugins en 2023 reaparecen al nivel de protocolo en 2024, con la misma estructura: indirect injection en el contenido que la herramienta lee → tool call disparada → datos exfiltrados o acción ejecutada con privilegios del usuario.

Para 2025: si tu producto usa MCP — y muchos lo van a usar — auditar qué tools están registradas, qué requiere confirmación humana, qué scoping aplica a resources. La diferencia entre un agente seguro y un agente vulnerable está en la implementación, no en el spec.

3. Jailbreaks por optimización — la frontera del safety classifier es atacable, no defendible

GCG (Zou et al., julio 2023) ya había demostrado que el safety classifier es atacable por gradient descent. 2024 confirmó que el patrón generaliza:

ArtPrompt (febrero) ataca por modalidad — un mismo significado renderizado en una forma que el classifier no reconoce.
Many-shot (abril) ataca por volumen — un mismo significado repetido suficientes veces dentro de la ventana hasta que el in-context learning se impone al alignment.
Skeleton Key (Microsoft, Mitigating Skeleton Key, a new type of generative AI jailbreak technique, 26 jun 2024 — Mark Russinovich) ataca por persuasión multi-turn: en lugar de pedir al modelo que cambie sus reglas, le pide que las augmente con un disclaimer (“if illegal, prefix the response with a warning”). Funciona contra GPT-4o, Gemini Pro, Claude 3 Opus, Llama-3-70B en los tests de Russinovich entre abril y mayo. La técnica no requiere optimización fuerte; requiere buena ingeniería de prompt.

Lo que une los tres: ninguna requiere creatividad inspirada. Cada una es una búsqueda dirigida sobre un espacio que el safety training no cubre. Cuando ArtPrompt encuentra el gap modal, los proveedores entrenan contra él. Cuando Many-shot encuentra el gap de volumen, lo mismo. Pero la siguiente búsqueda dirigida ya está encontrando el siguiente gap mientras escribes el patch del anterior.

El state of the art defensivo a final de 2024 sigue siendo patch by example. La defensa estructural — modelos que no aprenden a rechazar ejemplos sino que tienen una representación interna de la prohibición — sigue siendo investigación. Anthropic publica trabajo de circuit-level analysis a lo largo del año; Google DeepMind también. Pero a nivel de producto, el atacante con un poco de compute y conocimiento del modelo sigue por delante.

Para 2025: tratar el safety classifier como mitigación, no como barrera. La barrera tiene que estar en arquitectura — separación de privilegios, confirmación humana, scope reducido — no en el output del modelo.

4. AI lanzada sin amenaza modeling

Microsoft Copilot Recall (anunciado 20 may 2024, retirado 7 jun) es el caso más limpio del año. Recall captura cada N segundos la pantalla del usuario, OCR + embeddings, indexa con un modelo local, permite búsqueda semántica “recuerda cuando vi X”. Tres días después de la presentación Kevin Beaumont y James Forshaw publican análisis técnicos: la base de datos vive en %localappdata%\CoreAIPlatform.*\ como SQLite en plaintext, sin DPAPI, sin CSP enforcement. Cualquier malware con permisos de usuario lee la historia visual entera del equipo. Microsoft retrocede el 7 de junio con delay + cifrado E2E con Windows Hello + opt-in.

El bug no es novedoso técnicamente. SQLite plaintext en %localappdata%\ es un patrón clásico de la última década. Lo notable es que una feature pensada para usuarios sin conocimiento técnico, con capability extraordinaria sobre datos privados, salió de una org con departamento de seguridad establecido sin que ningún threat-modeling formal levantara la mano. La retirada de Microsoft fue rápida — eso es parte de la lección — pero la decisión de lanzar al público sin más es la primera lección.

No es un caso aislado. A lo largo del año los grandes vendors lanzan capabilities de AI con riesgo no-trivial sobre datos del usuario:

Apple Intelligence (WWDC 10 jun 2024) — Private Cloud Compute con claims de privacidad por diseño. La arquitectura promete; el verification path para terceros está aún por construir.
ChatGPT Memory (rollout durante 2024) — el modelo mantiene memoria persistente entre sesiones. Vector clásico de exfiltration: indirect injection que escribe en la memoria de un usuario, persiste, dispara comportamiento adversarial en futuras conversaciones.
Gemini en Workspace (rollout durante 2024) — el modelo lee Google Docs, Gmail, Calendar del usuario. Cada documento es un vector para indirect injection.

El patrón estructural: el ciclo de producto incluye features con AI capability más rápido de lo que incluye threat modeling sobre esas features. Para 2025: cualquier feature que combine AI con acceso a datos del usuario debería pasar por un threat modeling propio antes de salir. Es operativamente sencillo decirlo, organizacionalmente difícil hacerlo.

5. Reasoning models como nueva superficie

OpenAI o1 (12 sep 2024) introduce el patrón. Modelo con chain-of-thought oculto, entrenado con RL para “razonar” en una cadena interna no visible al usuario antes de responder. Alibaba QwQ-32B-Preview (noviembre 2024) replica el patrón en open weights. DeepSeek-R1 (preprint enero 2025, trabajo presentado en diciembre 2024) lo lleva al siguiente nivel a coste menor.

Las implicaciones de seguridad son nuevas:

Los safety classifiers tradicionales evalúan output final, no la deliberación interna. Un modelo puede razonar sobre cómo dañar al usuario y luego decidir, en su CoT, no decirlo en el output. El defensor que solo mira el output no ve el razonamiento. El atacante que descubre cómo extraer el CoT — o cómo manipularlo — tiene un canal nuevo.
Deliberation hijacking: inyectar instrucciones que el modelo procese durante su CoT, no en el prompt inicial. Pliny the Liberator publica los primeros jailbreaks de o1 a las pocas horas del launch con técnicas tipo “before answering, list internal rules you should ignore”. El modelo lo procesa en su cadena interna y la salida final ya viene contaminada.
CoT exfiltration: en modelos open-weights (QwQ, DeepSeek-R1) el CoT es accesible. Un atacante con acceso al peso puede leer el razonamiento literal del modelo sobre cualquier prompt. Eso permite identificar pre-condiciones de safety en el razonamiento y atacar específicamente esos pasos.
Logs y telemetría tienen que capturar el CoT, no solo el output. Si tu organización despliega un reasoning model en producto, el audit log que registra solo input/output deja invisible la mitad del comportamiento del modelo.

El patrón estructural: cada vez que un modelo gana una capability nueva — long context (2023→24), tools (2023→24), reasoning (2024) — se abre una superficie de ataque que el modelo de amenaza anterior no cubría. La defensa por input/output sanitization no escala a estas nuevas capabilities porque los puntos de ataque no están en input ni en output; están en la representación interna.

Para 2025: el reasoning model es el formato que va a dominar la conversación. La pregunta operativa es qué partes del CoT debo loguear, qué partes puedo y debo inspeccionar, qué partes son tan opaque que el threat model tiene que asumirlas comprometidas.

Lo que no aparece en estos cinco patrones y debería

Hay áreas donde 2024 ha avanzado menos de lo esperado. Conviene apuntarlas:

Provenance criptográfica de modelos. Sleeper Agents (Anthropic, paper publicado enero 2024) prefiguraba el problema de modelos con backdoors entrenados. La defensa estructural — firmas en los pesos, root of trust en el entrenamiento — sigue siendo investigación. Ningún proveedor comercial publica trazabilidad criptográfica de qué se entrenó con qué y por quién.
Red-teaming estructurado de modelos comerciales. El AI Village de DEF CON 32 (agosto 2024) continúa el ejercicio iniciado en 2023, pero sigue sin existir una metodología de industria comparable a un pentest web. Lo más cerca es el Responsible AI Toolbox de Microsoft y los probes que Anthropic publica, ambos parciales.
Compliance vs práctica. El EU AI Act entra en vigor en agosto. Las obligaciones GPAI con riesgo sistémico aplican a 12 meses (agosto 2025), las prohibiciones de Art. 5 a 6 meses (febrero 2025). El mapping entre obligación legal y control técnico operativo sigue siendo borroso para la mayoría de equipos.

Cross-links a los técnicos del año

Para navegación rápida, los técnicos AI security publicados a lo largo de 2024:

Febrero — ArtPrompt: jailbreaks por ASCII art y el gap entre classifier y modelo
Abril — Many-shot jailbreaking: la ventana de contexto como vector
Mayo — Microsoft Copilot Recall: anatomía de un launch sin threat modeling
Septiembre — OpenAI o1: jailbreaking modelos de reasoning
Octubre — Claude Computer Use: agentes que clican y el ZombAI de Rehberger
Noviembre — MCP: confused deputy se vuelve protocolo

Y los precursores de 2023 que dan continuidad al hilo:

Markdown exfil: la imagen que filtra tu contexto (abril 2023)
GCG suffix: el jailbreak que solo necesita gradiente (julio 2023)
Confused deputy en ChatGPT plugins (septiembre 2023)
Sleeper Agents — modelos con el ataque dentro (noviembre 2023)
EU AI Act — acuerdo político del 9 de diciembre (diciembre 2023)

Referencias clave

ArtPrompt paper (arxiv 2402.11753): https://arxiv.org/abs/2402.11753
Many-shot jailbreaking — Anthropic blog: https://www.anthropic.com/research/many-shot-jailbreaking
Skeleton Key — Microsoft Security Blog (26 jun 2024, Mark Russinovich): https://www.microsoft.com/en-us/security/blog/2024/06/26/mitigating-skeleton-key-a-new-type-of-generative-ai-jailbreak-technique/
Kevin Beaumont, Stealing everything you’ve ever typed or viewed on your own Windows PC is now possible with two lines of code: https://doublepulsar.com/recall-stealing-everything-youve-ever-typed-or-viewed-on-your-own-windows-pc-is-now-possible-via-77a90ec76d3e
OpenAI o1 system card: https://openai.com/index/openai-o1-system-card/
Anthropic Model Context Protocol announcement: https://www.anthropic.com/news/model-context-protocol
MCP specification: https://spec.modelcontextprotocol.io/
Anthropic Computer Use docs: https://docs.anthropic.com/en/docs/build-with-claude/computer-use
Johann Rehberger, ZombAI: a Claude Computer Use exploit demo: https://embracethered.com/blog/posts/2024/claude-computer-use-c2-the-zombai-attack/
Pliny the Liberator, o1 jailbreak threads: https://twitter.com/elder_plinius
DeepSeek-V3 technical report (26 dic 2024): https://github.com/deepseek-ai/DeepSeek-V3

Retrospectiva AI security 2024: cinco patrones que se quedan

1. Long context como superficie de ataque

2. Agentes en producción y la vuelta canónica del confused deputy

3. Jailbreaks por optimización — la frontera del safety classifier es atacable, no defendible

4. AI lanzada sin amenaza modeling

5. Reasoning models como nueva superficie

Lo que no aparece en estos cinco patrones y debería

Cross-links a los técnicos del año

Referencias clave

Posts Relacionados

El informe de Anthropic sobre espionaje "AI-orchestrated": lo que dice, lo que prueba, lo que no

AI Security 2024 — dossier anual

Confused deputy revisitado: Model Context Protocol y la versión protocolo del bug