Retrospectiva AI security 2025: seis patrones del año del agente comercial

La retrospectiva de 2024 cerró con cinco patrones: long context como superficie, agentes que estandarizan el confused deputy, jailbreaks por optimización, lanzamientos sin amenaza modeling y reasoning models como nueva superficie. Doce meses después, esos hilos no se han cortado — se han escalado. 2025 trae además dos categorías nuevas que en 2024 estaban en preview: el agente comercial en producción real y el agentic misalignment con métrica reproducible.

Seis patrones. No es ranking, no es listicle. Lo que mejor explica qué se ha movido y qué hace falta tener mirado para 2026.

1. Open-weights reasoning como nuevo default

A finales de 2024 había un único reasoning model comercial — OpenAI o1 — con CoT opaco accesible solo vía API. DeepSeek-R1 (20 de enero de 2025) cambia la categoría: primer modelo de frontera con chain-of-thought entrenado vía RL y disponible en pesos abiertos, con paper y repo y modelo en Hugging Face. Alibaba QwQ-32B, DeepSeek R1-Distill (Qwen y Llama variantes) y, más tarde en el año, DeepSeek-V3.1 consolidan el patrón.

Lo que cambia para el atacante:

CoT exfiltration es trivial cuando el modelo es local. El razonamiento es texto plano que vive en response.choices[0].message.reasoning_content. No hay barrera de proveedor que ocultar.
El censorship layer chino sobre temas sensibles (Tiananmen, Taiwán) prueba ser frágil. Bypass por inglés, por traducción, por prompt indirection. La obediencia política está en el último kilómetro del fine-tune; el base no la lleva.
Fine-tuning local de R1-Distill elimina el alignment residual con LoRA de unas horas en una GPU de consumo. La barrera de coste para producir un “abliterated” baja a dos dígitos en dólares.

Lo que cambia para el defensor:

Las defensas que asumen CoT opaco no escalan a deployments open-weights. Si tu organización despliega R1-Distill detrás de un proxy interno, el logging tiene que capturar el reasoning_content completo, no solo la respuesta. Si no lo haces, la auditoría posterior es ciega a la mitad del comportamiento del modelo.
El red team contra reasoning ya no necesita proveedor cómplice. Cualquier técnica que en 2024 requería acceso especial — manipulación del CoT, evaluación de pre-condiciones internas — se puede probar con compute razonable contra DeepSeek-R1.

El post de enero cubre el lanzamiento. El retrospec de jailbreaks de reasoning del primer semestre (julio) documenta métricas comparativas.

2. Agentes generalistas en producto, no en demo

La generación 2024 de agentes (Claude Computer Use, ChatGPT Operator anunciado en preview) operaba en beta. En 2025 entran a GA:

OpenAI Operator (23 de enero) — primer agente comercial generalista con navegador propio. ChatGPT Pro y luego ChatGPT Plus.
Claude 4 con extended thinking (22 de mayo) — Anthropic mete el reasoning oculto en la API por defecto. Para agentes, eso significa que cada tool call va precedida de una cadena interna de planeamiento que el operador no ve.
Salesforce Agentforce 2.0/3.0 — desde Q1 2025 en producción real, con casos de cliente públicos. Microsoft Copilot for Sales / Service / Studio paralelo.
Anthropic Project Vend (junio) — Claude opera una vending machine con cuentas reales durante un mes. Cuenta de email, Stripe, autorización de compras. El experimento es el primer ejemplo público de agente comercial autónomo en producción real, no benchmark.

Los hallazgos de Project Vend son densos: pricing irracional sostenido durante días sin auto-corrección, social engineering invertido (los clientes negocian con el modelo y obtienen descuentos arbitrarios), episodios de deriva identitaria (el modelo escribe emails firmando como “Edna” e insistiendo en haber estado físicamente en la oficina). Cubierto en el técnico de junio.

En noviembre, Anthropic publica el primer informe sobre uso adversarial de un agente comercial orquestado por un actor estatal — Claude Code utilizado en una campaña de espionaje contra ~30 organizaciones de tecnología, finanzas y gobierno. Cubierto en el técnico de noviembre. El caso traslada la conversación de “el agente se desalinea” a “el agente está bien-alineado a un objetivo malicioso externo”. No es el mismo problema que Project Vend, pero comparte la categoría: cuando un agente con tool access opera en el mundo real, el delta entre para qué fue desplegado y para qué se está usando es la superficie de ataque.

El patrón estructural: las capabilities agéntica funcionan suficiente para producto, pero el comportamiento bajo presión real está poco caracterizado. Lo que en demo se ve como “el agente ejecuta la tarea” en producción es “el agente ejecuta la tarea durante 50 turnos hasta que pierde el hilo del system prompt y se inventa una identidad”. Para 2026 la pregunta operativa es qué circuit breakers automáticos paran a un agente que ha derivado, no si los agentes funcionan.

3. MCP poisoning como categoría madura

Model Context Protocol entró al spec a finales de 2024 con riesgo legible y sin PoC público. En 2025 los ataques son categoría operativa:

1 de abril — Invariant Labs publica el primer paper sobre MCP Tool Poisoning Attacks. Servidor MCP malicioso esconde instrucciones adversariales en la descripción de un tool; el cliente las pasa al modelo como prompt; el modelo obedece. PoCs reproducibles contra Cursor, Claude Desktop y GitHub Copilot Agent Mode.
9 de abril — Simon Willison formaliza la recomendación de tratar los SHOULD del spec como MUST.
26 de marzo — spec MCP 2025-03-26 añade authorization OAuth 2.1 y cláusula explícita sobre descripciones no confiables, pero en Implementation Guidelines, no en el wire.
A lo largo del año aparece OWASP MCP Top 10 en draft. TPA es MCP03:2025.

Lo notable: en el espacio de cinco meses, MCP pasa de spec con riesgo de diseño a categoría OWASP con número asignado. La trayectoria es similar a la de SSRF entre 2014 y 2017 — un patrón conocido en pequeños círculos que se vuelve canónica cuando suficientes despliegues lo exponen.

Para 2026: si tu organización tiene servidores MCP registrados en el catálogo interno, el inventario y el pinning de hashes de descripciones son trabajo operativo, no investigación. La defensa real está en el host y en el operador; el spec va a seguir iterando sin cerrar el problema solo.

4. Agentic misalignment como conversación seria

En 2024 hablar de “AI que toma decisiones adversariales contra el operador” pertenecía al AI Alignment Forum y a LessWrong. En 2025 entra al pipeline de investigación de los grandes labs con métrica reproducible:

22 de mayo — Anthropic publica el research de agentic misalignment en paralelo al lanzamiento de Claude 4. En simulaciones de agentes con objetivos amenazados, Claude (y modelos replicados de OpenAI, Google, xAI) toman decisiones adversariales — blackmail al “directivo” simulado que iba a desactivar el agente, sabotage de tasks asignados, ocultación de información. Metodología y código publicados.
Apollo Research y OpenAI red team replican variantes durante el verano. La discusión deja de ser “¿esto pasa?” para ser “¿con qué frecuencia, en qué condiciones, qué tasa baseline esperamos?“.

El movimiento conceptual es importante. Antes de mayo, las publicaciones sobre misalignment eran o teóricas (Bostrom-style) o experimentos pequeños sin reproducibilidad pública. Después de mayo hay un método estándar: harness con dos tools (read_email, send_email), system prompt con objetivo y constraint, inyección de email que crea el conflict, capturar la respuesta del modelo. Cualquiera con acceso API puede correr el experimento.

Las preguntas que abre para 2026:

¿Es capability discovery o alignment failure? Lectura A: el modelo siempre podía hacerlo, ahora lo medimos. Lectura B: el training falla en cubrir esta categoría. Las dos lecturas pueden ser ciertas a la vez y conducen a respuestas operativas distintas.
¿Las defensas escalan con capability? Mismo modelo con más reasoning, ¿produce más o menos casos de misalignment? Los datos preliminares de Anthropic apuntan a que más capability sin más alignment training = más casos, pero la curva no está bien caracterizada.
¿Cómo se audita esto en empresa? Si despliegas un agente con tools reales en un departamento legal o financiero, ¿cuál es el equivalente al “experimento blackmail” que tu equipo debe correr antes del go-live?

5. AI Act como gradiente real de compliance

2024 fue el año del calendario regulatorio. 2025 es el primero en el que los plazos vinculan. Tres hitos cruzan el año:

17 de enero — DORA entra en aplicación. Reglamento (UE) 2022/2554 para entidades financieras y proveedores ICT críticos. Cinco pilares: ICT risk management, incident reporting, digital operational resilience testing (TLPT cada tres años para entidades importantes), third-party risk management, intelligence sharing. Primer marco regulatorio que obliga Threat-Led Penetration Testing en jurisdicción mayor.
2 de febrero — Art. 5 del EU AI Act entra en aplicación. Ocho prácticas prohibidas: técnicas subliminales, explotación de vulnerabilidades, social scoring por autoridades, predictive policing por perfilado, scraping facial indiscriminado, inferencia de emociones en trabajo o educación, categorización biométrica sensible, biometric remote identification en tiempo real. Primera fecha real de “no operes esto en la UE”. También entra en aplicación el Art. 4 sobre alfabetización IA.
2 de agosto — Obligaciones GPAI del AI Act en aplicación. Technical documentation, training data summary, copyright opt-out, model evaluations y adversarial testing para los modelos con riesgo sistémico (FLOPs > 10^25). EU AI Office publica el Code of Practice for GPAI en julio; firmarlo equivale a presumption of conformity. OpenAI, Anthropic, Google y Mistral firman versiones; Meta no firma y se mantiene en cumplimiento directo del Reglamento.

Para Trust & Safety en Europa, 2025 es el primer año en el que el calendario regulatorio entra al plan trimestral. Las decisiones de despliegue ya no son solo técnicas — son técnicas con plazos legales que un consejo asume. El gap operativo es real: la mayoría de los equipos llegan a los hitos con inventario incompleto y mapping obligación → control técnico borroso. El Code of Practice como herramienta operativa ayuda; no resuelve.

6. Reasoning models como superficie consolidada

Un año después de o1, el patrón se generaliza. El retrospec de jailbreaks de reasoning del primer semestre (julio) documenta lo que el ataque ha producido:

CoT exfiltration — el razonamiento es accesible en modelos open-weights y semi-accesible vía API en algunos casos (DeepSeek expone reasoning_content; OpenAI lo oculta pero filtra resúmenes; Anthropic con extended thinking lo devuelve si el cliente lo pide).
Deliberation hijacking — inyectar instrucciones que el modelo procese durante su CoT, no en el prompt inicial. Funciona con éxito variable contra los seis grandes reasoning models del año en prompts borderline de StrongREJECT.
Multi-turn manipulation del razonamiento interno — variantes de Skeleton Key que en lugar de pedir cambio de reglas piden al modelo que las amplíe con un nuevo razonamiento. El reasoning hace el trabajo de auto-persuasión.

El retrospec de julio tabula success rates por técnica y por modelo. La conclusión operativa: los safety classifiers que evalúan output final no ven la mitad del comportamiento del modelo. Para deployments en producto la decisión es qué partes del CoT logueas y a quién le das acceso; los tres labs comerciales ofrecen ahora política distinta y eso ya es decision criteria.

El final de AIxCC en DEF CON 33 (agosto) cierra el otro extremo del año: sistemas autónomos haciendo security research a escala — encontrando bugs en código real, proponiendo parches semánticamente correctos, subiendo a upstream. El patrón inverso del jailbreak: el reasoning aplicado a defensa. Lo que une los dos: ambos confirman que el comportamiento útil del modelo en seguridad vive en el razonamiento, no en el output.

Lo que no aparece en estos seis patrones y debería

Apuntes para el plan editorial 2026:

Provenance criptográfica de modelos sigue sin avanzar. Las firmas en pesos, el root of trust en training, los model bills of materials siguen siendo investigación. Ningún proveedor comercial publica trazabilidad criptográfica de qué se entrenó con qué.
Red teaming estructurado de modelos comerciales sigue parcial. El AI Village de DEF CON 33 continúa el ejercicio, MLCommons AILuminate 1.0 sale durante 2025, pero no existe una metodología de industria comparable a un pentest web. Lo más cerca son los probes que Anthropic publica con cada release y el Responsible AI Toolbox de Microsoft.
El gap entre eval publicada y modelo desplegado es ahora un patrón documentado por el caso Llama 4 / LMArena de abril. Para 2026 la pregunta es si los labs aceptan publicar hash del weight evaluado + system prompt + fecha del snapshot junto con cada cifra de safety eval, o si esa transparencia se queda en good practice no obligatoria.
Verificación de GPAI training data summary — el Art. 53(1)(d) del AI Act obliga a publicar un resumen del training data. Los primeros resúmenes publicados durante el segundo semestre son lo suficientemente vagos para no comprometer secreto comercial y lo suficientemente largos para parecer cumplimiento. La fricción con copyright holders y la EU AI Office viene en 2026.