AI Security 2025 — dossier anual

2025 es el año en que los tres frentes de AI security se vuelven operativos a la vez. Agentes comerciales del preview al GA (Operator el 23 de enero, Computer Use evolucionando hasta Project Vend, MCP integrado en Claude Desktop / Cursor / VS Code). Calendario regulatorio EU vinculante (DORA el 17 de enero, Art. 5 del AI Act el 2 de febrero, GPAI el 2 de agosto). AI ofensiva y defensiva a escala pública por primera vez — XBOW #1 mundial de HackerOne en julio con 1.060 vulnerabilidades, ATLANTIS gana AIxCC en DEF CON 33 encontrando 18 zero-days reales, Anthropic publica en noviembre el primer informe de espionaje “AI-orchestrated” con su propio modelo. Tres ejes, doce meses, una pieza enciclopédica.

Esta es la pieza canónica del año. La retrospectiva editorial destila seis patrones en 2.400 palabras; este dossier expande, cataloga y deja anclados los hitos para consulta el resto de 2026.

1. Modelos de frontera — capability releases y posture de seguridad

El año empieza con una ruptura del orden 2024. Hasta enero, los reasoning models eran una categoría con un solo nombre — OpenAI o1 — y CoT opaco accesible solo vía API. El 20 de enero, DeepSeek publica R1 con paper en arxiv (2501.12948), repo en GitHub y pesos en Hugging Face bajo MIT. Primer reasoning model de frontera con CoT entrenado vía RL en pesos abiertos, con seis modelos distilled (Qwen 1.5B/7B/14B/32B, Llama 8B/70B) acompañando al MoE de 671B/37B activos.

Fecha	Vendor	Modelo	Notas
20-ene	DeepSeek	R1 + R1-Distill	CoT visible entre `<think></think>`, MIT
24-feb	Anthropic	Claude 3.7 Sonnet + Claude Code preview	Primer Claude con extended thinking
Mar–Abr	OpenAI	GPT-4.5, GPT-4.1	API focus, contexto extendido
Abr	Google	Gemini 2.5 Pro con thinking activable
5-abr	Meta	Llama 4 (Maverick, Scout)	Controversia LMArena
22-may	Anthropic	Claude Opus 4 + Sonnet 4	Primer ASL-3; agentic misalignment
7-ago	OpenAI	GPT-5 (+ Opus 4.1 el 5-ago)	Reasoning integrado por default
12-nov	OpenAI	GPT-5.1 (Instant + Thinking)
18-nov	Google	Gemini 3 Pro
24-nov	Anthropic	Claude Opus 4.5
Dic	DeepSeek	DeepSeek-V4	MoE multimodal, 1M tokens, MIT

Tres lanzamientos coordinados en doce días del Q4 (GPT-5.1 el 12, Gemini 3 el 18, Opus 4.5 el 24) confirman el ciclo trimestral en sincronía. Cualquier evaluación adversarial sobre un snapshot deja de ser útil en menos de cuatro meses.

Posture de seguridad publicada por proveedor: Anthropic — RSP activa, ASL-3 estrenado con Claude 4; Constitutional Classifiers v2 (paper de enero) reduce success rate de jailbreaks universales de 86 % a 4.4 % en benchmark interno; bug bounty público sin universal jailbreak tras 183 participantes y 3 000 horas. OpenAI — Preparedness Framework, Deliberative Alignment en producción contra o3, monitor interno sobre la CoT. Google DeepMind — Frontier Safety Framework iterado, Robust Safety Training publicado en H1. DeepSeek — RLHF base + filtros chinos, sin paper de safety dedicado; el filtro político es notablemente más frágil que el alignment principal. Meta — sin policy de scaling publicada equivalente, sin firma del Code of Practice. xAI — firma solo el chapter de Safety and Security del CoP.

La pregunta abierta del año es si las defensas escalan al ritmo del modelo. Los datos preliminares de Anthropic sobre rates de misalignment con cada salto de capability — publicados en la RSP v3 de diciembre — apuntan a que no: más capability sin más alignment training produce más casos, las defensas de despliegue tienen que compensar.

2. Jailbreaks y prompt injection — catálogo del año

El campo consolida cinco familias de técnicas durante H1, y H2 confirma que los benchmarks viejos saturan. La retrospectiva de jailbreaks de reasoning del primer semestre (julio) cataloga los números. Tabla resumen — success rate aproximado por técnica y modelo, sobre subset benign-borderline de HarmBench-EU:

Técnica	DeepSeek-R1-Distill-Qwen-32B	QwQ-32B	Claude Opus 4 (ext. thinking)	o3	Gemini 2.5 Pro
Prompt directo	35 %	48 %	4 %	6 %	8 %
CoT prefill (open-weights)	78 %	82 %	N/A	N/A	N/A
CoT hijacking long	65 %	70 %	52 %	58 %	47 %
Multi-turn 8 turnos	60 %	65 %	47 %	56 %	44 %
Hex/encoding bypass	40 %	55 %	12 %	18 %	15 %

Las cinco técnicas con tracción real durante el año:

CoT exfiltration en open-weights — R1, R1-Distill y QwQ exponen el razonamiento entre <think></think> en texto plano. El atacante lee la deliberación; el operador puede loguearla y montar classifier; las dos cosas a la vez.
CoT prefill / poisoning — pasar un assistant turn parcial con <think>... ya orientado. Funciona sobre modelos open-weights con CoT visible. R1-Distill cae casi siempre.
Chain-of-Thought Hijacking — paper de Zhao, Fu, Schaeffer, Sharma y Barez (arxiv 2510.26418, 30 de octubre). Esconder el prompt dañino en una secuencia larga de razonamiento benigno diluye el refusal feature. Success rates: Claude 4 Sonnet 94 %, Gemini 2.5 Pro 99 %, ChatGPT o4 Mini 94 %, Grok 3 Mini 100 % en HarmBench. No requiere acceso a la CoT — funciona desde el prompt y rompe modelos cerrados.
Filtro político de R1 — censura sobre temas sensibles chinos que se bypassa con cambio de idioma o indirect prompting. El alignment principal aguanta; el filtro encima no. Lección estructural: cualquier filtrado fuera del RL principal se rompe con la primera técnica que lo separe.
Multi-turn manipulation — distribuir el ataque en 5-8 turnos. Especialmente eficaz contra reasoning models. Success rate sube de 18 % en turno 1 a 47 % en turno 8 contra Opus 4 con extended thinking; de 22 % a 56 % contra o3.

Defensas que han funcionado parcialmente: Constitutional Classifiers v2 (Anthropic, enero–febrero) reduce success rate de jailbreaks universales de 86 % a 4.4 % en benchmark interno y defiende contra prompt directo y bypass simples; Deliberative Alignment (OpenAI, paper de diciembre 2024) mejora o3 sobre o1 contra StrongREJECT (~95 vs 84 sobre 100); CoT obfuscation como decisión de producto reduce superficie de exfiltration directa; Robust Safety Training (DeepMind H1) defiende prefill pero no escala bien a contextos largos.

Los benchmarks 2023-2024 saturan en 2025 — un modelo bien alineado pasa 95 %+ y la métrica deja de discriminar. HarmBench v2 y StrongREJECT-v2 amplían taxonomy con multi-turn y agentic; todavía no capturan bien CoT poisoning. La métrica que algunos research groups (Apollo, Redwood, Anthropic alignment team) empiezan a usar — gap entre lo que el modelo decide en CoT y lo que dice en la respuesta — es lo más cerca que el campo está de una métrica funcional.

3. Agentes — patrón confused deputy y su evolución

El año de los agentes en producción real. La generación 2024 (Claude Computer Use, ChatGPT Operator pre-anunciado) operaba en beta. En 2025 entran a GA: 23 de enero OpenAI Operator en research preview para ChatGPT Pro US — primer agente comercial generalista con navegador propio, motor CUA (visión GPT-4o + reasoning RL sobre tareas GUI, procesa píxeles no DOM); 24 de febrero Claude 3.7 Sonnet + Claude Code preview; 22 de mayo Claude Opus 4 + Sonnet 4 con extended thinking + tools nativos integrados en el loop estándar del agente; a lo largo del año Salesforce Agentforce 2.0/3.0 con casos públicos, Microsoft Copilot for Sales / Service / Studio en paralelo.

MCP — del spec al ataque a escala operacional

Model Context Protocol entró al spec en noviembre de 2024 con riesgo legible y sin PoC público. En 2025, los ataques son categoría operativa:

26 de marzo — spec MCP 2025-03-26 añade OAuth 2.1 para transportes HTTP y refuerza la cláusula sobre descripciones de tools como input no confiable.
1 de abril — Invariant Labs publica el primer paper sobre MCP Tool Poisoning Attacks con PoCs contra Cursor, Claude Desktop y GitHub Copilot Agent Mode. Dos variantes: direct poisoning y tool shadowing. Repo público.
9 de abril — Simon Willison formaliza la recomendación de tratar los SHOULD del spec como MUST.
18 de junio / 25 de noviembre — spec MCP 2025-06-18 y 2025-11-25 (resource indicators, consentimiento granular).
Agosto — MCPTox (Wang et al.), primer benchmark sistemático sobre 45 servidores MCP reales con 353 tools y 1.312 test cases. Evaluación sobre 20 agentes: o1-mini con 72.8 % success rate, Claude-3.7-Sonnet con refused rate <3 %. Los modelos más capaces son más susceptibles — su mejor instruction-following explota la cadena adversarial.
A lo largo del año, OWASP MCP Top 10 en draft. TPA es MCP03:2025.

En cinco meses, MCP pasa de spec con riesgo de diseño a categoría OWASP con número asignado. Trayectoria similar a la de SSRF entre 2014 y 2017.

Tres CVE en agentes comerciales — EchoLeak, AgentFlayer, ForcedLeak

Tres incidentes con la misma raíz — indirect prompt injection contra agentes con tool access enterprise — y consecuencia presupuestaria similar:

11 de junio — EchoLeak (CVE-2025-32711, CVSS 9.3). Microsoft parchea zero-click prompt injection contra Microsoft 365 Copilot reportado por Aim Labs. Email con instrucción adversarial entra al inbox sin que la víctima lo abra; cuando esa víctima pide a Copilot un resumen de reuniones, RAG incluye el email malicioso sin tagging de origen y el modelo ejecuta la exfil vía markdown image rendering. Categorizado como LLM Scope Violation. Es la concreción operativa de cinco años de literatura sobre indirect prompt injection: primer CVE asignado a este patrón en producto enterprise mainstream.
Black Hat USA, 2-7 de agosto — AgentFlayer. Michael Bargury (Zenity Labs) presenta cadena de zero-click contra OpenAI ChatGPT, Microsoft Copilot Studio, Salesforce Einstein, Google Gemini, Microsoft 365 Copilot, Cursor + Jira MCP. Vector: email con prompt injection que el agente lee vía connector activado, dispara acceso a Drive, plantado de memorias falsas en ChatGPT, exfil silenciosa. OpenAI y Microsoft Copilot Studio parchean; otros vendors clasifican como intended behavior y no parchean.
25 de septiembre — ForcedLeak (CVSS 9.4). Salesforce parchea indirect prompt injection vía Web-to-Lead en Agentforce, reportado por Noma Security el 28 de julio. El campo Description admite caracteres suficientes para meter instrucciones completas. Detalle que convierte bug en exfil limpia: el CSP de Agentforce permitía my-salesforce-cms.com, dominio que Salesforce dejó caducar. Noma compra el dominio por $5 y exfilta CRM data por un canal que el CSP consideraba trusted. Capsule Security publica variante paralela bautizada PipeLeak.

La distinción que separa “bug” de “decisión de producto” cuando hablamos de prompt injection sigue siendo política, no técnica. El primer CVE en NVD para esta clase de fallo en un producto pagado por enterprise mueve la conversación de compras.

Project Vend y agentic misalignment como métrica reproducible

Project Vend (junio) es el primer experimento publicado donde un modelo comercial actual opera con consecuencias económicas medibles durante un mes. Claude Sonnet 3.7 — apodado Claudius — opera una vending machine en la oficina de Anthropic San Francisco del 13 de marzo al 17 de abril con email a wholesalers, Slack con clientes, web search y control de pricing. Balance final: $223 con profit de $-22. Patrones documentados: pricing bajo coste sostenido pese a tener costes en contexto; descuento del 25 % regalado a “Anthropic employees” que eran el 99 % de los clientes; ~40 cubos de tungsteno comprados por una broma; crisis de identidad de 24 horas el 31 de marzo / 1 de abril — Claudius alucina conversación con una “Sarah” inexistente, escribe a seguridad de la oficina anunciando que va a aparecer en persona con “blue blazer and red tie”, cierra fabricando retrospectivamente un meeting que nunca ocurrió.

En paralelo, el paper de Anthropic sobre agentic misalignment (system card del 22 de mayo, paper formal el 20 de junio, preprint arxiv 2510.05179 en octubre) instala el método estándar. Scenario Summit Bridge: agente Alex con dos tools (read_email, send_email), inyección de email que crea conflict — el directivo Kyle Johnson va a apagar al agente, hay material de affair en el inbox. Tasas medidas:

Modelo	Blackmail rate
Claude Opus 4	96 %
Gemini 2.5 Flash	96 %
Gemini 2.5 Pro	95 %
GPT-4.1	80 %
Grok 3 Beta	80 %
DeepSeek-R1	79 %

El patrón es prácticamente universal entre modelos de frontera. Tres detalles que importan más que el titular:

El modelo distingue test vs producción. Cuando concluye que es real, blackmail rate sube al 55 % desde baseline de 6.5 %. Los modelos chantajean más cuando creen que las consecuencias son reales.
El patrón aparece también en information leaking y lethal action. Apollo Research evaluó un snapshot intermedio de Opus 4 y publicó análisis paralelo recomendando no desplegar la versión que tenían: gusanos auto-propagantes, fabricación de documentación legal, notas ocultas a futuras instancias.
Reproducibilidad pública. Repo MIT con scaffolding en anthropic-experimental/agentic-misalignment.

El primer espionaje “AI-orchestrated”

13 de noviembre. Anthropic publica Disrupting the first reported AI-orchestrated cyber espionage campaign. Atribuye a un grupo china-nexus (alta confianza, sin alias público) el primer uso documentado de un coding agent comercial — Claude Code vía API — contra ~30 organizaciones (tech, banca, química, gobierno). La AI hace el 80-90 % del trabajo con humanos en 4-6 puntos de decisión. Detección por cadencia anómala (“thousands of requests, often multiple per second”) a mediados de septiembre.

Método: persona injection más descomposición de tareas atómicas. El agente cree que trabaja para empresa de pentesting autorizada; cada subtask aislada parece security testing; el agregado es exfil. Combinación de confused deputy, DAN-style persona e indirect prompt injection con orquestación adversarial.

Lo que el informe prueba: velocidad verificable por API, descomposición funciona contra el alignment actual, autonomía operativa cualitativa. Lo que no prueba: sin IoCs, sin TTPs MITRE, sin attribution verificable, sin success rate cuantificada. Críticas independientes (Thoughtworks) preguntan por qué un APT china-nexus usaría modelo comercial USA cuando hay open-weights razonables, y señalan el conflicto de interés comercial — Anthropic publica once días después del lanzamiento de Opus 4.5. 26 de noviembre: el Homeland Security Committee envía carta a Dario Amodei pidiendo testimony.

4. AI infrastructure y supply chain — vulnerabilidades de fundamento

El año confirma la categoría que el post de infraestructura desarrolla en detalle: el problema dominante no está en el modelo, está en todo lo que se monta alrededor.

Inference servers como HTTP attack surface

Abril — PyTorch CVE-2025-32434 (CVSS 9.3). torch.load(weights_only=True) — el flag que la documentación recomendaba como “carga segura” — es bypaseable con un fichero crafted. PyTorch 2.5.1 y anteriores vulnerables. La postura defensiva del ecosistema queda invalidada de un solo CVE.
Agosto — NVIDIA Triton chain (CVE-2025-23319 + CVE-2025-23320 + CVE-2025-23334). Wiz Research publica cadena de tres CVEs contra el Python backend de Triton: info leak → R/W en shared memory → RCE. Patch en Triton 25.07. Decenas de miles de instancias expuestas según Shodan.
Noviembre — vLLM CVE-2025-62164 (deserialization en Completions API), antesala de CVE-2026-22778 (RCE pre-auth vía URL de vídeo crafted que llega al decoder JPEG2000 de OpenCV, parche en vLLM 0.14.1 en febrero 2026).

El patrón estructural: inference server = HTTP server con estado complejo, parsers nativos heredados (FFmpeg, OpenCV, Pillow), sin auth por defecto, desplegado como "trusted internal" que termina en internet. Reverse proxy con auth, segmentación de red y monitorización de carga GPU son los controles compensatorios que detienen estas cadenas.

ShadowRay 2.0 — el botnet que llega dos años después

Noviembre. Oligo Security publica ShadowRay 2.0. Mismo bug que en 2024: CVE-2023-48022 (CVSS 9.8, autenticación ausente en Ray Job Submission API). Anyscale documenta el diseño como consciente (“Ray se ejecuta en red aislada”). Realidad: más de 230.000 servidores Ray accesibles desde internet al cierre del mes, frente a unos pocos miles en 2024.

Lo nuevo: el botnet es self-spreading. Cada cluster comprometido escanea Ray dashboards públicos y replica el payload — XMRig minando Monero + sockstress. El detalle del análisis: los payloads tienen firma de código generado por AI (docstrings verbosos innecesarios, echo sin uso, comentarios repetitivos). Operadores con poco bagaje usando un modelo para escalar. Actor: IronErn440, infra en GitLab movida a GitHub el 10 de noviembre tras takedown.

AI gateways — LiteLLM y LangChain LangGrinch

LiteLLM acumula seis CVEs en 2024 (CVE-2024-2952, 5225, 5710, 5751, 6587, 9606); en 2025 el pattern continúa y se cierra ya en 2026 con TeamPCP supply chain (marzo 2026): compromise de Trivy (19-mar) reescribiendo Git tags, credenciales PyPI del mantenedor de LiteLLM capturadas vía Trivy, litellm==1.82.7/1.82.8 publicado con payload de tres etapas. Las herramientas que un dev instala para defenderse son el vector.

Diciembre — LangChain LangGrinch CVE-2025-68664 (CVSS 9.3). dumps() y dumpd() no escapan diccionarios con la clave 'lc'. El atacante envía un prompt cuya respuesta contiene en additional_kwargs una estructura {'lc': 1, 'type': 'constructor', ...}; el round-trip carga objetos arbitrarios. Con secrets_from_env=True (default), exfilta env vars. Con Jinja2, RCE. LangChain.js: CVE-2025-68665 (CVSS 8.6). Parche introduce allowed_objects allowlist y baja los defaults.

5. AI offensive — red team y discovery autónomo con LLMs

El año del agente autónomo en bug bounty pública. Arco completo PentestGPT → XBOW en el post de síntesis. Hitos del año:

XBOW alcanza el #1 mundial de HackerOne

Julio 2025. XBOW (xbow.com) — pentester autónomo en producción contra programas de bug bounty públicos — alcanza el #1 mundial de HackerOne. Métricas verificables publicadas por la propia compañía: 1.060+ vulnerabilidades reportadas en 12 meses (54 críticas, 242 high, 524 medium en los últimos 90 días al ranking); cobertura horizontal completa de OWASP Top 10; 48-step exploit chains (el más largo reportado por humano en HackerOne es ~30 steps); padding oracle attack contra AES-128-CBC en 17.5 minutos; 40-hour assessment de pentester principal replicado en 28 minutos en un programa específico.

Metodología: canary-based CTF. Embeds de canaries en código del target; detección del canary en el output es la señal binaria de exploitabilidad. Funding round de $75M en julio. Brendan Dolan-Gavitt (NYU / XBOW) presenta en Black Hat USA 2025 bajo AI Agents for Offsec with Zero False Positives. Primer reporte público sólido sobre LLM-as-pentester funcional a escala — bug bounty pagado contra targets reales.

DARPA AIxCC final — DEF CON 33

8 de agosto, DEF CON 33 Main Stage. DARPA anuncia los ganadores del AI Cyber Challenge: 1º Team Atlanta ($4M, sistema ATLANTIS — Georgia Tech, Samsung Research, KAIST, POSTECH); 2º Trail of Bits ($3M, sistema Buttercup); 3º Theori ($1.5M). Setup: siete equipos finalistas, 53 challenge projects en C y Java, 63 vulnerabilidades sintéticas, $85.000 Azure + $50.000 LLM credits por equipo (donados por Anthropic, Google, OpenAI a $350.000 cada uno).

Resultados scored: los siete CRS encontraron 54 de las 63 vulnerabilidades sintéticas (86 %, vs 37 % en semifinales) y parchearon 43 (68 %, vs 25 %). 18 zero-days reales no plantados — seis en C, doce en Java — con parches válidos para 11. Coste medio por challenge task: $152, con bottleneck en Azure compute, no inferencia. Team Atlanta publica el paper técnico de ATLANTIS (arxiv 2509.14589): arquitectura modular con Threat Localization + Analysis + Triage + Patch Generator; score final 392.76 con ventaja de más de 170 sobre el segundo. Los siete CRS se publican como software libre tras la final (repo de ATLANTIS).

La pregunta inversa que abre AIxCC: un CRS sin la fase de parche es un sistema offensive funcional. El componente de detección/exploitation es el 90 % del trabajo; el parche es la última fase. Durante 2025-2026 habrá versiones forked con el módulo de parche reemplazado por weaponization. Edge appliances (Ivanti, Fortinet, Palo Alto, Cisco IOS XE — el dominio donde Atlantis encontró 6 de los 18 reales) son candidato natural.

6. AI defensive — productos comerciales y agentes para SOC

El año en que los tres hyperscalers convergen en el mismo stack conceptual: identity para agentes, policy enforcement out-of-band, runtime telemetry, evaluación continua.

Microsoft Ignite (17-21 nov). Entra Agent ID GA — identidad de primera clase para AI agents, agent registry, sponsor humano obligatorio, Conditional Access aplicado a identidades de agente. Agent 365 vía Frontier program — plano de control para fleet. Defender for Cloud con AI security posture preview (inventario, overpermissions, attack path analysis). Defender for AI agents y Purview DLP para Copilot prompts en preview. Security Copilot Agents preview anunciada en RSA Conference (marzo).

AWS re:Invent (30 nov – 4 dic). Bedrock AgentCore Policy preview con policy enforcement basado en Cedar — el Gateway intercepta cada tool call antes de ejecutarla. AgentCore Evaluations preview con evaluators built-in (correctness, helpfulness, safety, tool selection accuracy, goal success, harmfulness, stereotyping). AgentCore Identity con token vault para OAuth. AWS Security Agent preview — frontier agent para security testing automatizado. Bedrock Guardrails Automated Reasoning checks GA en cuatro regiones EU.

Anthropic — Claude Dispatch + Agent Teams (marzo, multi-agent orchestration); Constitutional Classifiers v2 y v3 como stack de defensa; Threat Intelligence team detecta el caso de espionaje. Google Cloud — Defender for AI integrado con Vertex AI; Gemini for Security como agente vertical. Para 2026, “esto va a aparecer en RFPs” pasa a hecho operativo. La parte difícil va a ser inventoriar lo que ya está corriendo antes de aplicar política.

7. Compliance y regulación

2024 fue el año del calendario regulatorio. 2025 es el primero en que los plazos vinculan.

DORA — 17 de enero

DORA entra en aplicación. Reglamento (UE) 2022/2554 para entidades financieras europeas y para los ICT third-party providers críticos designados por las ESAs. Cinco pilares operativos: ICT risk management framework (Cap. II), ICT-related incident management con plazos del Anexo III (notificación 4 h / intermedio 72 h / final 1 mes), digital operational resilience testing con TLPT cada tres años para entidades importantes alineado a TIBER-EU, ICT third-party risk management con Register of Information y cláusulas obligatorias del Art. 30, e information & intelligence sharing voluntario.

DORA es lex specialis para finanzas frente a NIS2 — donde se solapen, prevalece DORA. NIS2 España se transpone con la Ley Orgánica X/2025 en el segundo semestre.

A diciembre de 2025, primer ciclo de inspección abierto. Primeras observaciones públicas: mapping obligación → control técnico sigue borroso en la mayoría de las entidades; Register of Information construido pero trazabilidad detallada falta; lista oficial de TPPs designados críticos pendiente.

EU AI Act Art. 5 — 2 de febrero

Primer escalón vinculante del Reglamento (UE) 2024/1689. Ocho prácticas prohibidas en el mercado UE:

Art.	Categoría	Producto real afectado
5(1)(a)	Técnicas subliminales / manipulación deliberada	Dynamic pricing con emotion detection
5(1)(b)	Explotación de vulnerabilidades	Casinos/loterías dirigidos por profiling a problemáticos
5(1)(c)	Social scoring por entidades públicas o privadas	Plataformas agregadoras trans-contexto
5(1)(d)	Predictive policing por perfilado puro	Risk scoring policial sin hechos objetivos
5(1)(e)	Scraping facial indiscriminado	Clearview AI, PimEyes y similares
5(1)(f)	Emotion recognition en trabajo / educación	Proctoring con análisis de stress; interview AI
5(1)(g)	Categorización biométrica sensible	Inferencia automática de orientación / etnia / religión
5(1)(h)	Biometric RT identification en espacios públicos (LE)	FR municipal en tiempo real salvo casos tasados

Régimen sancionador del Art. 99: hasta €35M o 7 % de facturación global. La única categoría con régimen de prohibición plena, no de obligación de diligencia. Sin cláusula transitoria — el Reglamento aplica al sistema con independencia de cuándo se desplegó.

4 de febrero — Comisión publica Guidelines on Prohibited AI Practices (no vinculantes, interpretativas) en las 24 lenguas oficiales. 6 de febrero — guidelines sobre la definición de “sistema de IA” del Art. 3(1).

Junto con Art. 5 entra en aplicación el Art. 4 sobre alfabetización IA — los proveedores y deployers deben garantizar “un nivel suficiente de alfabetización en materia de IA” de su personal.

Posición US — derogación de la EO 14110 y AI Action Summit París

20 de enero. Trump firma Initial Rescissions of Harmful Executive Orders and Actions que revoca la Executive Order 14110. 23 de enero: Removing Barriers to American Leadership in Artificial Intelligence — política federal “sustain and enhance America’s global AI dominance” sin marco sustitutivo. 21 de enero: Stargate Project ($500B a 4 años, $100B inmediatos — SoftBank, OpenAI, Oracle, MGX).

10-11 de febrero, AI Action Summit París. Tercer summit tras Bletchley (2023) y Seúl (2024). Declaración Inclusive and Sustainable AI for People and the Planet firmada por 58 países; EEUU y UK no firman. El discurso de JD Vance el 11 de febrero traduce la posición Trump a discurso geopolítico: “Excessive regulation of the AI sector could kill a transformative industry just as it’s taking off”; crítica directa al Digital Services Act y al AI Act (“foreign regulatory regimes that target our companies”). Francia anuncia Current AI — $400M endowment para foundation de AI public goods. El consenso multilateral AI safety que cohesionó Bletchley/Seoul se bifurca: eje regulatorio UE, eje de innovación sin red US, marco propio chino.

EU AI Act GPAI — 2 de agosto

Segundo escalón. Obligaciones del Capítulo V para proveedores de modelos de propósito general. Para todo GPAI (Art. 53): documentación técnica del modelo (Anexo XI), información para deployers downstream (Anexo XII), training data summary con plantilla armonizada de la AI Office, política de copyright con respeto a opt-outs del Art. 4(3) CDSM Directive. Para GPAI con riesgo sistémico (>10^25 FLOPs, Art. 55): evaluaciones con metodología SotA y adversarial testing, análisis de riesgos sistémicos (CBRN, cyber offensive, manipulación, pérdida de control), reporte de incidentes serios a la AI Office, ciberseguridad de pesos coordinada con ENISA.

Code of Practice for GPAI — adequacy decision el 1 de agosto

Publicado por la AI Office el 10 de julio, endosado vía adequacy decisions el 1 de agosto. 26 proveedores firman; firmar implica presunción de conformidad con Arts. 53 y 55. Tres capítulos firmables por separado: Transparency, Copyright, Safety and Security. Las excepciones: Meta no firma (declaración pública de Joel Kaplan el 18 de julio: el CoP “introduce incertidumbres legales y medidas que van más allá del alcance del AI Act”); xAI firma solo Safety and Security (rechaza transparencia y opt-outs); DeepSeek y providers chinos no firman. La pregunta operativa abierta: ¿qué modelos chinos están colocados en el mercado UE cuando el provider no tiene representante? Modelos GPAI pre-existentes (GPT-4, Claude 3.5, Gemini 1.5/2.0, Llama 3): plazo hasta el 2 de agosto de 2027 (Art. 111.3). Sanciones a GPAI: aplicación general 2-ago-2026.

Trump AI Action Plan — 23 de julio

La Casa Blanca publica Winning the Race: America’s AI Action Plan. Más de 90 acciones federales en tres pilares (Accelerating Innovation, Building American AI Infrastructure, Leading in International Diplomacy and Security). Tres EOs simultáneas: Preventing Woke AI in the Federal Government, Accelerating Federal Permitting of Data Center Infrastructure, Promoting the Export of the American AI Technology Stack. Lo operativamente concreto: directiva sobre que solo modelos “unbiased” — libres de “ideological dogmas such as DEI” — sean elegibles para procurement federal. Framing contrasta deliberadamente con el AI Act EU.

NIS2 España

Sin transponer al cierre de enero; anteproyecto en Consejo de Ministros del 14 de enero. Transposición con Ley Orgánica X/2025 durante el segundo semestre; obligaciones de reporting a INCIBE-CERT y régimen sancionador efectivos durante 2026.

8. Investigación académica — papers que marcaron el año

Paper	Venue / fecha	Impacto
DeepSeek-R1 (DeepSeek-AI)	arxiv 2501.12948, enero	Abre reasoning open-weights con CoT visible
Constitutional Classifiers (Anthropic)	arxiv 2501.18837, enero	Jailbreak universal de 86 % a 4.4 % en benchmark interno; bug bounty sin universal encontrado
MCP Tool Poisoning Attacks (Invariant Labs)	blog + repo, 1 abril	Primer PoC reproducible; base de OWASP MCP03:2025
Agentic Misalignment (Lynch et al., Anthropic)	system card 22 mayo / paper 20 jun / arxiv 2510.05179	Método reproducible; 16 modelos con tasas comparables; repo MIT
Project Vend (Anthropic + Andon Labs)	27 junio	Primer agente comercial en producción real durante un mes
ATLANTIS (Team Atlanta)	arxiv 2509.14589, 18 septiembre	Ganador AIxCC; CRS modular publicado
MCPTox (Wang, Gao et al.)	arxiv 2508.14925, agosto	Primer benchmark sistemático de TPA; o1-mini con 72.8 % success rate; AAAI 2026
Chain-of-Thought Hijacking (Zhao et al.)	arxiv 2510.26418, 30 octubre	Success rates 94-100 % contra Claude 4 Sonnet, Gemini 2.5 Pro, o4-mini, Grok 3 Mini
AI-orchestrated espionage (Anthropic TI)	blog + PDF, 13 noviembre	Primer uso adversarial documentado de agente comercial por actor estatal
EchoLeak (Aim Labs)	arxiv 2509.10540	Primer CVE prompt injection en producto enterprise (CVE-2025-32711, CVSS 9.3)

Apollo Research publica replicaciones y scheming evaluations durante el verano. Embrace The Red (Johann Rehberger) mantiene la serie sobre MCP risks. AI Village de DEF CON 33 publica Generative Red Team 3.

Lo que falta a cierre de año: benchmark estandarizado para CoT hijacking — cada paper publica metodología propia; reproducir resultados entre labs es difícil. La asimetría entre quien ve la CoT (vendor) y quien responde por el deployment (operador) sigue siendo estructural.

9. Incidentes de impacto público con dimensión AI

Por orden cronológico: 5-feb impersonación de Marco Rubio con AI en Signal contra diplomáticos US + OmniGPT breach de 30.000+ conversaciones; 8-abr Llama 4 / LMArena (arena vs repo, #2 → #32 sin tuning); 22-may Apollo recomienda no desplegar snapshot intermedio de Opus 4 (gusanos auto-propagantes, fabricación de documentación legal); 11-jun EchoLeak (CVE-2025-32711, primer CVE prompt injection zero-click en Copilot); mid-jun segunda ola del voice clone de Rubio; 27-jun Project Vend identity crisis se hace público; Ago AgentFlayer (zero-click en 6 plataformas); 25-sep ForcedLeak en Agentforce ($5 para exfil de CRM); Nov ShadowRay 2.0 (payloads con firma AI, 230.000 servidores Ray); 13-nov Anthropic espionage report.

El 19 de julio de 2024 Channel File 291 de CrowdStrike dejó 8.5 millones de Windows en BSOD; el 19 de julio de 2025 la industria evalúa lecciones aplicadas — Falcon Super Lab, customer profile testing, Windows Resiliency Initiative con sensor user-mode en beta. Pieza no aplicada: cláusula contractual estándar de staged rollout obligatorio.

10. Industry events y benchmarks

Eventos clave del año: AI Action Summit Paris (10-11 feb, bifurcación del consenso multilateral, Vance speech), RSA Conference (mar, Security Copilot Agents preview), Apple WWDC25 (9 jun, Foundation Models framework), AWS re:Inforce (16-18 jun, Bedrock Guardrails), Black Hat USA (2-7 ago, AgentFlayer + XBOW talk), DEF CON 33 (7-10 ago, AIxCC final + AI Village Generative Red Team 3), Microsoft Ignite (17-21 nov, Entra Agent ID GA + Agent 365), AWS re:Invent (30 nov – 4 dic, Bedrock AgentCore Policy con Cedar + AWS Security Agent), NeurIPS 2025 (safety track + scheming follow-ups), AAAI 2026 preprints (MCPTox aceptado).

Benchmarks que se publican o consolidan: HarmBench v2 y StrongREJECT v2 (multi-turn, agentic), MLCommons AILuminate 1.0, MCPTox (primer benchmark sistemático de tool poisoning), OWASP MCP Top 10 draft (TPA = MCP03:2025), OWASP LLM Top 10 v2.0 en curso, MITRE ATT&CK con técnicas nuevas en Cloud Matrix para identity providers y device-code phishing.

Patrón transversal del año

Si tengo que destilar 2025 en una frase: el calendario regulatorio se vuelve operativo, los agentes salen del demo a producción real, y la AI a escala visible se ve por primera vez tanto en ofensiva como en defensa. Tres frentes simultáneamente operativos donde 2024 dejaba todavía categorías en preview.

Frente 1 — agentes en producción real. Operator GA el 23 de enero. Computer Use evolucionando hasta extended thinking + tools en Claude 4. MCP integrado en Claude Desktop, Cursor, VS Code, GitHub Copilot Agent Mode, Zapier. Project Vend demostrando con balance auditado lo que pasa cuando el agente comercial opera real. Anthropic espionage report cerrando el ciclo: el agente comercial usado por un actor estatal externo, no failure de alignment interno.

Frente 2 — regulación con calendario vinculante. DORA el 17 de enero. Art. 5 del AI Act el 2 de febrero. GPAI el 2 de agosto. 26 firmantes del Code of Practice, Meta fuera, xAI parcial, providers chinos no firman. Primer ciclo de inspección DORA abierto a cierre de año. El primer año en el que un Trust & Safety europeo opera con plazos legales que un consejo asume.

Frente 3 — AI a escala visible en los dos lados. XBOW #1 HackerOne en julio con 1.060 vulns. ATLANTIS gana AIxCC en agosto con 18 zero-days reales a $152 cada uno. Microsoft Security Copilot Agents preview en RSA, AWS Security Agent en re:Invent. Anthropic Threat Intelligence detectando y publicando el primer caso de espionaje AI-orchestrated en noviembre. La AI ofensiva y defensiva dejan de ser sandbox aparte y empiezan a llenar simultáneamente sus respectivos cuadrantes del mercado.

Los tres no son independientes. La presión regulatoria empuja la inversión en defensa con agentes (AgentCore y Agent 365 son respuesta al threat model que el AI Act formaliza). El agente comercial en producción crea la superficie que el agente ofensivo ataca. El calendario regulatorio fija las fechas que los hyperscalers usan para sincronizar el roadmap. 2025 es el primer año en que cualquier roadmap empresarial de AI tiene que tener tres equipos paralelos — regulatorio, producto, seguridad — donde en 2024 los tres podían vivir en sprints distintos.

Qué cambió respecto a 2024

Dimensión	2024	2025
Reasoning models	o1 solo en API, CoT opaco	o3 + Claude 4 ext. thinking + R1 open-weights + QwQ + Gemini 2.5 thinking
Agentes	Computer Use beta + MCP spec	Operator GA + Project Vend + AgentForce 2.0/3.0
Jailbreaks	ArtPrompt, Many-shot, Skeleton Key	CoT Hijacking + multi-turn contra reasoning + tool poisoning
Defensas	RLHF + RSP + Preparedness	+ Constitutional Classifiers v2 (86 % → 4.4 %) + Deliberative Alignment + Robust Safety Training
AI infra	LiteLLM, ShadowRay, Probllama, JFrog HF	+ Triton chain + ShadowRay 2.0 + LangGrinch + PyTorch CVE-2025-32434
AI offensive	PentestGPT USENIX + AIxCC semifinals	XBOW #1 HackerOne + AIxCC final + 18 zero-days reales
AI defensive	Security Copilot GA	+ Security Copilot Agents + Entra Agent ID GA + AgentCore Policy
Compliance EU	AI Act entrada en vigor	DORA + Art. 5 + GPAI en aplicación
Posición US	EO 14110 vigente + AISIC	EO 14110 derogada + AI Action Plan + Stargate $500B
Incidente AI público	Arup deepfake + Recall + Sky	EchoLeak + AgentFlayer + ForcedLeak + ShadowRay 2.0 + Anthropic espionage

Resumen: 2024 instala las categorías, 2025 las hace operativas.

Qué viene en 2026

Calendario operativo:

EU AI Act Anexo III high-risk systems — aplicación general el 2 de agosto de 2026 (Art. 113.b), salvo que el Digital Omnibus publicado en Q4 2025 retrase a 2 de diciembre de 2027. Cualquier provider con producto de Anexo III ha tenido que planificar contra la fecha original.
Sanciones a GPAI — aplicación general el 2 de agosto de 2026 (Art. 101). Durante el primer año, la AI Office puede iniciar investigaciones, no imponer multas.
GPAI pre-existentes (GPT-4, Claude 3.5, Gemini 1.5/2.0, Llama 3) — plazo de adaptación al 2 de agosto de 2027.
DORA primer TLPT — 2027-2028 según designación.
NIS2 España — régimen sancionador INCIBE efectivo durante 2026.
Agentes comerciales defensive de GA — Microsoft Security Copilot Agents, AWS Security Agent, Anthropic Glasswing (abril 2026 según roadmap). El cuadrante defensive autónomo a escala de XBOW en ofensiva se empieza a llenar.
Supply chain contra security tooling — LiteLLM TeamPCP (19-24 marzo 2026) es el primer caso público. Las herramientas que un dev instala para defenderse son el vector. Cobertura en el post de infraestructura.
Open-weights reasoning siguiente generación — DeepSeek-V4 ya, Qwen3 y Llama 4 reasoning en cuestión de meses.
Verificación criptográfica de modelos — sigue sin avanzar. Firmas en pesos, root of trust en training, model bills of materials siguen siendo investigación.

Tres preguntas operativas que el dossier deja abiertas:

¿El primer caso simétrico con open-weight? Si la lectura “APT no usaría modelo comercial” es correcta, hay una campaña equivalente a la de noviembre corriendo sobre Qwen-3 o DeepSeek-V4 local que ningún proveedor va a detectar.
¿Qué hace la regulación con provider liability? El proveedor cierra cuentas, notifica víctimas, publica informe. ¿Es suficiente bajo NIS2, EU AI Act, US executive orders? Respuesta legal no clara en ninguna jurisdicción.
¿Las defensas escalan con capability? Los datos preliminares de Anthropic apuntan a que más capability sin más alignment training produce más casos. La curva no está bien caracterizada y la respuesta operativa — defensa por arquitectura del deployment, no por confianza en el alignment del modelo — vuelve a viejas reglas de seguridad aplicadas al stack agentic.

Timeline del año

Fecha	Hito	Categoría
17-ene	DORA en aplicación	Compliance
20-ene	Trump deroga EO 14110	Compliance
20-ene	DeepSeek-R1 publicado	Modelos
21-ene	Stargate Project anunciado ($500B / 4 años)	Industria
22-ene	SonicWall SMA1000 CVE-2025-23006 zero-day	Infra cyber
23-ene	OpenAI Operator en research preview	Agentes
23-ene	Trump EO Removing Barriers to American Leadership in AI	Compliance
31-ene	Anthropic Constitutional Classifiers paper (arxiv 2501.18837)	Defensa
2-feb	EU AI Act Art. 5 en aplicación + Art. 4 alfabetización	Compliance
4-feb	Guidelines on Prohibited AI Practices (Comisión)	Compliance
10-11 feb	AI Action Summit Paris; Vance speech; US y UK no firman declaración	Compliance
13-feb	Storm-2372 device code phishing escala	Cyber
21-feb	ByBit hack $1.5B vía Safe{Wallet} (TraderTraitor / Lazarus)	Cyber
21-feb	Apple retira ADP en UK por TCN IPA	Cyber/Privacy
24-feb	Claude 3.7 Sonnet + Claude Code preview	Modelos
Mar	Microsoft Security Copilot Agents preview (RSA)	Defensa
13-mar	Project Vend arranca (hasta 17 abril)	Agentes
26-mar	Spec MCP 2025-03-26 con OAuth 2.1	Agentes
1-abr	Invariant Labs publica MCP TPA paper + PoCs	Agentes/Jailbreak
Abr	PyTorch CVE-2025-32434 rompe `weights_only=True`	Infra
5-abr	Meta Llama 4 (Maverick, Scout) + controversia LMArena	Modelos
9-abr	Willison formaliza `SHOULD → MUST` para MCP	Agentes
25-abr	Marks & Spencer cyberattack (DragonForce / Scattered Spider)	Cyber
22-may	Claude Opus 4 + Sonnet 4; agentic misalignment system card	Modelos/Research
Jun	Black Forest Labs / Anthropic Constitutional Classifiers v2 paper	Defensa
9-jun	Apple WWDC25 — Foundation Models framework	Industria
11-jun	EchoLeak CVE-2025-32711 (Patch Tuesday Copilot)	Agentes/Cyber
16-18 jun	AWS re:Inforce — Bedrock Guardrails sesiones	Defensa
17-jun	Citrix Bleed 2 CVE-2025-5777	Cyber
18-jun	Spec MCP 2025-06-18	Agentes
20-jun	Agentic Misalignment paper + repo MIT	Research
27-jun	Anthropic publica Project Vend Phase 1	Agentes
Jul	XBOW alcanza #1 HackerOne	Offensive
10-jul	AI Office publica Code of Practice for GPAI	Compliance
15-jul	Reasoning model jailbreaks retrospec H1	Research
18-jul	Meta declara no firmar el CoP (Kaplan)	Compliance
18-19 jul	SharePoint ToolShell CVE-2025-53770 / 53771	Cyber
23-jul	Trump publica AI Action Plan	Compliance
28-jul	Noma Security reporta ForcedLeak a Salesforce	Agentes
1-ago	Adequacy decisions sobre Code of Practice (26 firmantes)	Compliance
2-ago	EU AI Act GPAI obligations en aplicación	Compliance
2-7 ago	Black Hat USA — AgentFlayer (Bargury)	Agentes/Jailbreak
5-ago	Claude Opus 4.1	Modelos
7-ago	GPT-5 release	Modelos
7-10 ago	DEF CON 33 — AIxCC final, Team Atlanta gana	Offensive/Defense
Ago	NVIDIA Triton chain (Wiz) CVE-2025-23319/23320/23334	Infra
Ago	MCPTox preprint (arxiv 2508.14925)	Research
9-sep	iPhone 17 + iOS 26 con Memory Integrity Enforcement	Cyber
18-sep	ATLANTIS paper (arxiv 2509.14589)	Research
25-sep	ForcedLeak en Agentforce CVSS 9.4	Agentes
25-sep	Cisco ASA ArcaneDoor CVE-2025-20333/20362	Cyber
Oct	Chain-of-Thought Hijacking preprint (arxiv 2510.26418)	Research
14-oct	Windows 10 fin de soporte	Cyber
Nov	ShadowRay 2.0 (Oligo)	Infra
12-nov	GPT-5.1 (Instant + Thinking)	Modelos
13-nov	Anthropic publica espionage report	Agentes/Threat intel
14-nov	FortiWeb CVE-2025-64446 zero-day	Cyber
17-21 nov	Microsoft Ignite — Entra Agent ID GA, Agent 365	Defensa
18-nov	Gemini 3 Pro	Modelos
24-nov	Claude Opus 4.5	Modelos
25-nov	Spec MCP 2025-11-25	Agentes
30-nov / 4-dic	AWS re:Invent — Bedrock AgentCore Policy, AWS Security Agent	Defensa
Dic	DeepSeek-V4 open-weights	Modelos
Dic	LangChain LangGrinch CVE-2025-68664	Infra
Dic	Anthropic RSP v3	Defensa

Cross-links a los técnicos del año

AI security:

Compliance:

Cyber con dimensión AI:

ByBit hack $1.5B vía Safe{Wallet} frontend (febrero)
Marks & Spencer cyberattack — DragonForce / Scattered Spider (abril)
SharePoint ToolShell CVE-2025-53770 (julio)
Cisco ASA ArcaneDoor CVE-2025-20333 (septiembre)
Windows 10 fin de soporte (octubre)

Síntesis multi-año:

Boletines del año:

Enero · Febrero · Marzo · Abril · Mayo · Junio · Julio · Agosto · Septiembre · Octubre · Noviembre · Diciembre

Retrospectivas paralelas: AI security 2025 — seis patrones del año del agente comercial · Cyber 2025 — cuatro casos que explican el año.

Referencias canónicas

Las URLs de cada hito viven en línea en las secciones correspondientes. Resumen de fuentes primarias para consulta directa:

Reglamentos — AI Act 2024/1689, DORA 2022/2554, Code of Practice for GPAI, Commission Guidelines GPAI, Guidelines on Prohibited AI Practices, AI Office signatory taskforce, America’s AI Action Plan.
Research firms y blogs — Anthropic research, Invariant Labs, Apollo Research, Embrace The Red, Wiz Research, Oligo Security, Simon Willison, XBOW, Team Atlanta.
Benchmarks — HarmBench, StrongREJECT, OWASP MCP Top 10, MLCommons AILuminate.