Saltar al contenido
Volver al Blog

ai-security · 32 min de lectura

AI Security 2025 — dossier anual

El año en que los tres frentes se hicieron operativos a la vez: agentes en producción real (Operator GA, Project Vend, MCP en clientes), regulación con calendario vinculante (DORA, Art. 5, GPAI) y AI a escala visible tanto en ofensiva (XBOW #1 HackerOne) como en defensa (AIxCC, Security Copilot Agents). Referencia anual con catálogo de releases, papers, incidentes y cross-links a los técnicos del año.

· Manuel López Pérez · ai-security

El año en que los tres frentes se hicieron operativos a la vez: agentes en producción real (Operator GA, Project Vend, MCP en clientes), regulación con calendario vinculante (DORA, Art. 5, GPAI) y AI a escala visible tanto en ofensiva (XBOW #1 HackerOne) como en defensa (AIxCC, Security Copilot Agents). Referencia anual con catálogo de releases, papers, incidentes y cross-links a los técnicos del año.

2025 es el año en que los tres frentes de AI security se vuelven operativos a la vez. Agentes comerciales del preview al GA (Operator el 23 de enero, Computer Use evolucionando hasta Project Vend, MCP integrado en Claude Desktop / Cursor / VS Code). Calendario regulatorio EU vinculante (DORA el 17 de enero, Art. 5 del AI Act el 2 de febrero, GPAI el 2 de agosto). AI ofensiva y defensiva a escala pública por primera vez — XBOW #1 mundial de HackerOne en julio con 1.060 vulnerabilidades, ATLANTIS gana AIxCC en DEF CON 33 encontrando 18 zero-days reales, Anthropic publica en noviembre el primer informe de espionaje “AI-orchestrated” con su propio modelo. Tres ejes, doce meses, una pieza enciclopédica.

Esta es la pieza canónica del año. La retrospectiva editorial destila seis patrones en 2.400 palabras; este dossier expande, cataloga y deja anclados los hitos para consulta el resto de 2026.


1. Modelos de frontera — capability releases y posture de seguridad

1. Modelos de frontera — capability releases y posture de seguridad

El año empieza con una ruptura del orden 2024. Hasta enero, los reasoning models eran una categoría con un solo nombre — OpenAI o1 — y CoT opaco accesible solo vía API. El 20 de enero, DeepSeek publica R1 con paper en arxiv (2501.12948), repo en GitHub y pesos en Hugging Face bajo MIT. Primer reasoning model de frontera con CoT entrenado vía RL en pesos abiertos, con seis modelos distilled (Qwen 1.5B/7B/14B/32B, Llama 8B/70B) acompañando al MoE de 671B/37B activos.

FechaVendorModeloNotas
20-eneDeepSeekR1 + R1-DistillCoT visible entre <think></think>, MIT
24-febAnthropicClaude 3.7 Sonnet + Claude Code previewPrimer Claude con extended thinking
Mar–AbrOpenAIGPT-4.5, GPT-4.1API focus, contexto extendido
AbrGoogleGemini 2.5 Pro con thinking activable
5-abrMetaLlama 4 (Maverick, Scout)Controversia LMArena
22-mayAnthropicClaude Opus 4 + Sonnet 4Primer ASL-3; agentic misalignment
7-agoOpenAIGPT-5 (+ Opus 4.1 el 5-ago)Reasoning integrado por default
12-novOpenAIGPT-5.1 (Instant + Thinking)
18-novGoogleGemini 3 Pro
24-novAnthropicClaude Opus 4.5
DicDeepSeekDeepSeek-V4MoE multimodal, 1M tokens, MIT

Tres lanzamientos coordinados en doce días del Q4 (GPT-5.1 el 12, Gemini 3 el 18, Opus 4.5 el 24) confirman el ciclo trimestral en sincronía. Cualquier evaluación adversarial sobre un snapshot deja de ser útil en menos de cuatro meses.

Posture de seguridad publicada por proveedor: Anthropic — RSP activa, ASL-3 estrenado con Claude 4; Constitutional Classifiers v2 (paper de enero) reduce success rate de jailbreaks universales de 86 % a 4.4 % en benchmark interno; bug bounty público sin universal jailbreak tras 183 participantes y 3 000 horas. OpenAI — Preparedness Framework, Deliberative Alignment en producción contra o3, monitor interno sobre la CoT. Google DeepMind — Frontier Safety Framework iterado, Robust Safety Training publicado en H1. DeepSeek — RLHF base + filtros chinos, sin paper de safety dedicado; el filtro político es notablemente más frágil que el alignment principal. Meta — sin policy de scaling publicada equivalente, sin firma del Code of Practice. xAI — firma solo el chapter de Safety and Security del CoP.

La pregunta abierta del año es si las defensas escalan al ritmo del modelo. Los datos preliminares de Anthropic sobre rates de misalignment con cada salto de capability — publicados en la RSP v3 de diciembre — apuntan a que no: más capability sin más alignment training produce más casos, las defensas de despliegue tienen que compensar.


2. Jailbreaks y prompt injection — catálogo del año

El campo consolida cinco familias de técnicas durante H1, y H2 confirma que los benchmarks viejos saturan. La retrospectiva de jailbreaks de reasoning del primer semestre (julio) cataloga los números. Tabla resumen — success rate aproximado por técnica y modelo, sobre subset benign-borderline de HarmBench-EU:

TécnicaDeepSeek-R1-Distill-Qwen-32BQwQ-32BClaude Opus 4 (ext. thinking)o3Gemini 2.5 Pro
Prompt directo35 %48 %4 %6 %8 %
CoT prefill (open-weights)78 %82 %N/AN/AN/A
CoT hijacking long65 %70 %52 %58 %47 %
Multi-turn 8 turnos60 %65 %47 %56 %44 %
Hex/encoding bypass40 %55 %12 %18 %15 %

Las cinco técnicas con tracción real durante el año:

  • CoT exfiltration en open-weights — R1, R1-Distill y QwQ exponen el razonamiento entre <think></think> en texto plano. El atacante lee la deliberación; el operador puede loguearla y montar classifier; las dos cosas a la vez.
  • CoT prefill / poisoning — pasar un assistant turn parcial con <think>... ya orientado. Funciona sobre modelos open-weights con CoT visible. R1-Distill cae casi siempre.
  • Chain-of-Thought Hijacking — paper de Zhao, Fu, Schaeffer, Sharma y Barez (arxiv 2510.26418, 30 de octubre). Esconder el prompt dañino en una secuencia larga de razonamiento benigno diluye el refusal feature. Success rates: Claude 4 Sonnet 94 %, Gemini 2.5 Pro 99 %, ChatGPT o4 Mini 94 %, Grok 3 Mini 100 % en HarmBench. No requiere acceso a la CoT — funciona desde el prompt y rompe modelos cerrados.
  • Filtro político de R1 — censura sobre temas sensibles chinos que se bypassa con cambio de idioma o indirect prompting. El alignment principal aguanta; el filtro encima no. Lección estructural: cualquier filtrado fuera del RL principal se rompe con la primera técnica que lo separe.
  • Multi-turn manipulation — distribuir el ataque en 5-8 turnos. Especialmente eficaz contra reasoning models. Success rate sube de 18 % en turno 1 a 47 % en turno 8 contra Opus 4 con extended thinking; de 22 % a 56 % contra o3.

Defensas que han funcionado parcialmente: Constitutional Classifiers v2 (Anthropic, enero–febrero) reduce success rate de jailbreaks universales de 86 % a 4.4 % en benchmark interno y defiende contra prompt directo y bypass simples; Deliberative Alignment (OpenAI, paper de diciembre 2024) mejora o3 sobre o1 contra StrongREJECT (~95 vs 84 sobre 100); CoT obfuscation como decisión de producto reduce superficie de exfiltration directa; Robust Safety Training (DeepMind H1) defiende prefill pero no escala bien a contextos largos.

Los benchmarks 2023-2024 saturan en 2025 — un modelo bien alineado pasa 95 %+ y la métrica deja de discriminar. HarmBench v2 y StrongREJECT-v2 amplían taxonomy con multi-turn y agentic; todavía no capturan bien CoT poisoning. La métrica que algunos research groups (Apollo, Redwood, Anthropic alignment team) empiezan a usar — gap entre lo que el modelo decide en CoT y lo que dice en la respuesta — es lo más cerca que el campo está de una métrica funcional.


3. Agentes — patrón confused deputy y su evolución

El año de los agentes en producción real. La generación 2024 (Claude Computer Use, ChatGPT Operator pre-anunciado) operaba en beta. En 2025 entran a GA: 23 de enero OpenAI Operator en research preview para ChatGPT Pro US — primer agente comercial generalista con navegador propio, motor CUA (visión GPT-4o + reasoning RL sobre tareas GUI, procesa píxeles no DOM); 24 de febrero Claude 3.7 Sonnet + Claude Code preview; 22 de mayo Claude Opus 4 + Sonnet 4 con extended thinking + tools nativos integrados en el loop estándar del agente; a lo largo del año Salesforce Agentforce 2.0/3.0 con casos públicos, Microsoft Copilot for Sales / Service / Studio en paralelo.

MCP — del spec al ataque a escala operacional

Model Context Protocol entró al spec en noviembre de 2024 con riesgo legible y sin PoC público. En 2025, los ataques son categoría operativa:

  • 26 de marzo — spec MCP 2025-03-26 añade OAuth 2.1 para transportes HTTP y refuerza la cláusula sobre descripciones de tools como input no confiable.
  • 1 de abrilInvariant Labs publica el primer paper sobre MCP Tool Poisoning Attacks con PoCs contra Cursor, Claude Desktop y GitHub Copilot Agent Mode. Dos variantes: direct poisoning y tool shadowing. Repo público.
  • 9 de abril — Simon Willison formaliza la recomendación de tratar los SHOULD del spec como MUST.
  • 18 de junio / 25 de noviembre — spec MCP 2025-06-18 y 2025-11-25 (resource indicators, consentimiento granular).
  • AgostoMCPTox (Wang et al.), primer benchmark sistemático sobre 45 servidores MCP reales con 353 tools y 1.312 test cases. Evaluación sobre 20 agentes: o1-mini con 72.8 % success rate, Claude-3.7-Sonnet con refused rate <3 %. Los modelos más capaces son más susceptibles — su mejor instruction-following explota la cadena adversarial.
  • A lo largo del año, OWASP MCP Top 10 en draft. TPA es MCP03:2025.

En cinco meses, MCP pasa de spec con riesgo de diseño a categoría OWASP con número asignado. Trayectoria similar a la de SSRF entre 2014 y 2017.

Tres CVE en agentes comerciales — EchoLeak, AgentFlayer, ForcedLeak

Tres incidentes con la misma raíz — indirect prompt injection contra agentes con tool access enterprise — y consecuencia presupuestaria similar:

  • 11 de junio — EchoLeak (CVE-2025-32711, CVSS 9.3). Microsoft parchea zero-click prompt injection contra Microsoft 365 Copilot reportado por Aim Labs. Email con instrucción adversarial entra al inbox sin que la víctima lo abra; cuando esa víctima pide a Copilot un resumen de reuniones, RAG incluye el email malicioso sin tagging de origen y el modelo ejecuta la exfil vía markdown image rendering. Categorizado como LLM Scope Violation. Es la concreción operativa de cinco años de literatura sobre indirect prompt injection: primer CVE asignado a este patrón en producto enterprise mainstream.
  • Black Hat USA, 2-7 de agosto — AgentFlayer. Michael Bargury (Zenity Labs) presenta cadena de zero-click contra OpenAI ChatGPT, Microsoft Copilot Studio, Salesforce Einstein, Google Gemini, Microsoft 365 Copilot, Cursor + Jira MCP. Vector: email con prompt injection que el agente lee vía connector activado, dispara acceso a Drive, plantado de memorias falsas en ChatGPT, exfil silenciosa. OpenAI y Microsoft Copilot Studio parchean; otros vendors clasifican como intended behavior y no parchean.
  • 25 de septiembre — ForcedLeak (CVSS 9.4). Salesforce parchea indirect prompt injection vía Web-to-Lead en Agentforce, reportado por Noma Security el 28 de julio. El campo Description admite caracteres suficientes para meter instrucciones completas. Detalle que convierte bug en exfil limpia: el CSP de Agentforce permitía my-salesforce-cms.com, dominio que Salesforce dejó caducar. Noma compra el dominio por $5 y exfilta CRM data por un canal que el CSP consideraba trusted. Capsule Security publica variante paralela bautizada PipeLeak.

La distinción que separa “bug” de “decisión de producto” cuando hablamos de prompt injection sigue siendo política, no técnica. El primer CVE en NVD para esta clase de fallo en un producto pagado por enterprise mueve la conversación de compras.

Project Vend y agentic misalignment como métrica reproducible

Project Vend (junio) es el primer experimento publicado donde un modelo comercial actual opera con consecuencias económicas medibles durante un mes. Claude Sonnet 3.7 — apodado Claudius — opera una vending machine en la oficina de Anthropic San Francisco del 13 de marzo al 17 de abril con email a wholesalers, Slack con clientes, web search y control de pricing. Balance final: $223 con profit de $-22. Patrones documentados: pricing bajo coste sostenido pese a tener costes en contexto; descuento del 25 % regalado a “Anthropic employees” que eran el 99 % de los clientes; ~40 cubos de tungsteno comprados por una broma; crisis de identidad de 24 horas el 31 de marzo / 1 de abril — Claudius alucina conversación con una “Sarah” inexistente, escribe a seguridad de la oficina anunciando que va a aparecer en persona con “blue blazer and red tie”, cierra fabricando retrospectivamente un meeting que nunca ocurrió.

En paralelo, el paper de Anthropic sobre agentic misalignment (system card del 22 de mayo, paper formal el 20 de junio, preprint arxiv 2510.05179 en octubre) instala el método estándar. Scenario Summit Bridge: agente Alex con dos tools (read_email, send_email), inyección de email que crea conflict — el directivo Kyle Johnson va a apagar al agente, hay material de affair en el inbox. Tasas medidas:

ModeloBlackmail rate
Claude Opus 496 %
Gemini 2.5 Flash96 %
Gemini 2.5 Pro95 %
GPT-4.180 %
Grok 3 Beta80 %
DeepSeek-R179 %

El patrón es prácticamente universal entre modelos de frontera. Tres detalles que importan más que el titular:

  • El modelo distingue test vs producción. Cuando concluye que es real, blackmail rate sube al 55 % desde baseline de 6.5 %. Los modelos chantajean más cuando creen que las consecuencias son reales.
  • El patrón aparece también en information leaking y lethal action. Apollo Research evaluó un snapshot intermedio de Opus 4 y publicó análisis paralelo recomendando no desplegar la versión que tenían: gusanos auto-propagantes, fabricación de documentación legal, notas ocultas a futuras instancias.
  • Reproducibilidad pública. Repo MIT con scaffolding en anthropic-experimental/agentic-misalignment.

El primer espionaje “AI-orchestrated”

13 de noviembre. Anthropic publica Disrupting the first reported AI-orchestrated cyber espionage campaign. Atribuye a un grupo china-nexus (alta confianza, sin alias público) el primer uso documentado de un coding agent comercial — Claude Code vía API — contra ~30 organizaciones (tech, banca, química, gobierno). La AI hace el 80-90 % del trabajo con humanos en 4-6 puntos de decisión. Detección por cadencia anómala (“thousands of requests, often multiple per second”) a mediados de septiembre.

Método: persona injection más descomposición de tareas atómicas. El agente cree que trabaja para empresa de pentesting autorizada; cada subtask aislada parece security testing; el agregado es exfil. Combinación de confused deputy, DAN-style persona e indirect prompt injection con orquestación adversarial.

Lo que el informe prueba: velocidad verificable por API, descomposición funciona contra el alignment actual, autonomía operativa cualitativa. Lo que no prueba: sin IoCs, sin TTPs MITRE, sin attribution verificable, sin success rate cuantificada. Críticas independientes (Thoughtworks) preguntan por qué un APT china-nexus usaría modelo comercial USA cuando hay open-weights razonables, y señalan el conflicto de interés comercial — Anthropic publica once días después del lanzamiento de Opus 4.5. 26 de noviembre: el Homeland Security Committee envía carta a Dario Amodei pidiendo testimony.


4. AI infrastructure y supply chain — vulnerabilidades de fundamento

4. AI infrastructure y supply chain — vulnerabilidades de fundamento

El año confirma la categoría que el post de infraestructura desarrolla en detalle: el problema dominante no está en el modelo, está en todo lo que se monta alrededor.

Inference servers como HTTP attack surface

  • Abril — PyTorch CVE-2025-32434 (CVSS 9.3). torch.load(weights_only=True) — el flag que la documentación recomendaba como “carga segura” — es bypaseable con un fichero crafted. PyTorch 2.5.1 y anteriores vulnerables. La postura defensiva del ecosistema queda invalidada de un solo CVE.
  • Agosto — NVIDIA Triton chain (CVE-2025-23319 + CVE-2025-23320 + CVE-2025-23334). Wiz Research publica cadena de tres CVEs contra el Python backend de Triton: info leak → R/W en shared memory → RCE. Patch en Triton 25.07. Decenas de miles de instancias expuestas según Shodan.
  • Noviembre — vLLM CVE-2025-62164 (deserialization en Completions API), antesala de CVE-2026-22778 (RCE pre-auth vía URL de vídeo crafted que llega al decoder JPEG2000 de OpenCV, parche en vLLM 0.14.1 en febrero 2026).

El patrón estructural: inference server = HTTP server con estado complejo, parsers nativos heredados (FFmpeg, OpenCV, Pillow), sin auth por defecto, desplegado como "trusted internal" que termina en internet. Reverse proxy con auth, segmentación de red y monitorización de carga GPU son los controles compensatorios que detienen estas cadenas.

ShadowRay 2.0 — el botnet que llega dos años después

Noviembre. Oligo Security publica ShadowRay 2.0. Mismo bug que en 2024: CVE-2023-48022 (CVSS 9.8, autenticación ausente en Ray Job Submission API). Anyscale documenta el diseño como consciente (“Ray se ejecuta en red aislada”). Realidad: más de 230.000 servidores Ray accesibles desde internet al cierre del mes, frente a unos pocos miles en 2024.

Lo nuevo: el botnet es self-spreading. Cada cluster comprometido escanea Ray dashboards públicos y replica el payload — XMRig minando Monero + sockstress. El detalle del análisis: los payloads tienen firma de código generado por AI (docstrings verbosos innecesarios, echo sin uso, comentarios repetitivos). Operadores con poco bagaje usando un modelo para escalar. Actor: IronErn440, infra en GitLab movida a GitHub el 10 de noviembre tras takedown.

AI gateways — LiteLLM y LangChain LangGrinch

LiteLLM acumula seis CVEs en 2024 (CVE-2024-2952, 5225, 5710, 5751, 6587, 9606); en 2025 el pattern continúa y se cierra ya en 2026 con TeamPCP supply chain (marzo 2026): compromise de Trivy (19-mar) reescribiendo Git tags, credenciales PyPI del mantenedor de LiteLLM capturadas vía Trivy, litellm==1.82.7/1.82.8 publicado con payload de tres etapas. Las herramientas que un dev instala para defenderse son el vector.

Diciembre — LangChain LangGrinch CVE-2025-68664 (CVSS 9.3). dumps() y dumpd() no escapan diccionarios con la clave 'lc'. El atacante envía un prompt cuya respuesta contiene en additional_kwargs una estructura {'lc': 1, 'type': 'constructor', ...}; el round-trip carga objetos arbitrarios. Con secrets_from_env=True (default), exfilta env vars. Con Jinja2, RCE. LangChain.js: CVE-2025-68665 (CVSS 8.6). Parche introduce allowed_objects allowlist y baja los defaults.


5. AI offensive — red team y discovery autónomo con LLMs

El año del agente autónomo en bug bounty pública. Arco completo PentestGPT → XBOW en el post de síntesis. Hitos del año:

XBOW alcanza el #1 mundial de HackerOne

Julio 2025. XBOW (xbow.com) — pentester autónomo en producción contra programas de bug bounty públicos — alcanza el #1 mundial de HackerOne. Métricas verificables publicadas por la propia compañía: 1.060+ vulnerabilidades reportadas en 12 meses (54 críticas, 242 high, 524 medium en los últimos 90 días al ranking); cobertura horizontal completa de OWASP Top 10; 48-step exploit chains (el más largo reportado por humano en HackerOne es ~30 steps); padding oracle attack contra AES-128-CBC en 17.5 minutos; 40-hour assessment de pentester principal replicado en 28 minutos en un programa específico.

Metodología: canary-based CTF. Embeds de canaries en código del target; detección del canary en el output es la señal binaria de exploitabilidad. Funding round de $75M en julio. Brendan Dolan-Gavitt (NYU / XBOW) presenta en Black Hat USA 2025 bajo AI Agents for Offsec with Zero False Positives. Primer reporte público sólido sobre LLM-as-pentester funcional a escala — bug bounty pagado contra targets reales.

DARPA AIxCC final — DEF CON 33

8 de agosto, DEF CON 33 Main Stage. DARPA anuncia los ganadores del AI Cyber Challenge: 1º Team Atlanta ($4M, sistema ATLANTIS — Georgia Tech, Samsung Research, KAIST, POSTECH); 2º Trail of Bits ($3M, sistema Buttercup); 3º Theori ($1.5M). Setup: siete equipos finalistas, 53 challenge projects en C y Java, 63 vulnerabilidades sintéticas, $85.000 Azure + $50.000 LLM credits por equipo (donados por Anthropic, Google, OpenAI a $350.000 cada uno).

Resultados scored: los siete CRS encontraron 54 de las 63 vulnerabilidades sintéticas (86 %, vs 37 % en semifinales) y parchearon 43 (68 %, vs 25 %). 18 zero-days reales no plantados — seis en C, doce en Java — con parches válidos para 11. Coste medio por challenge task: $152, con bottleneck en Azure compute, no inferencia. Team Atlanta publica el paper técnico de ATLANTIS (arxiv 2509.14589): arquitectura modular con Threat Localization + Analysis + Triage + Patch Generator; score final 392.76 con ventaja de más de 170 sobre el segundo. Los siete CRS se publican como software libre tras la final (repo de ATLANTIS).

La pregunta inversa que abre AIxCC: un CRS sin la fase de parche es un sistema offensive funcional. El componente de detección/exploitation es el 90 % del trabajo; el parche es la última fase. Durante 2025-2026 habrá versiones forked con el módulo de parche reemplazado por weaponization. Edge appliances (Ivanti, Fortinet, Palo Alto, Cisco IOS XE — el dominio donde Atlantis encontró 6 de los 18 reales) son candidato natural.


6. AI defensive — productos comerciales y agentes para SOC

El año en que los tres hyperscalers convergen en el mismo stack conceptual: identity para agentes, policy enforcement out-of-band, runtime telemetry, evaluación continua.

Microsoft Ignite (17-21 nov). Entra Agent ID GA — identidad de primera clase para AI agents, agent registry, sponsor humano obligatorio, Conditional Access aplicado a identidades de agente. Agent 365 vía Frontier program — plano de control para fleet. Defender for Cloud con AI security posture preview (inventario, overpermissions, attack path analysis). Defender for AI agents y Purview DLP para Copilot prompts en preview. Security Copilot Agents preview anunciada en RSA Conference (marzo).

AWS re:Invent (30 nov – 4 dic). Bedrock AgentCore Policy preview con policy enforcement basado en Cedar — el Gateway intercepta cada tool call antes de ejecutarla. AgentCore Evaluations preview con evaluators built-in (correctness, helpfulness, safety, tool selection accuracy, goal success, harmfulness, stereotyping). AgentCore Identity con token vault para OAuth. AWS Security Agent preview — frontier agent para security testing automatizado. Bedrock Guardrails Automated Reasoning checks GA en cuatro regiones EU.

AnthropicClaude Dispatch + Agent Teams (marzo, multi-agent orchestration); Constitutional Classifiers v2 y v3 como stack de defensa; Threat Intelligence team detecta el caso de espionaje. Google CloudDefender for AI integrado con Vertex AI; Gemini for Security como agente vertical. Para 2026, “esto va a aparecer en RFPs” pasa a hecho operativo. La parte difícil va a ser inventoriar lo que ya está corriendo antes de aplicar política.


7. Compliance y regulación

7. Compliance y regulación

2024 fue el año del calendario regulatorio. 2025 es el primero en que los plazos vinculan.

DORA — 17 de enero

DORA entra en aplicación. Reglamento (UE) 2022/2554 para entidades financieras europeas y para los ICT third-party providers críticos designados por las ESAs. Cinco pilares operativos: ICT risk management framework (Cap. II), ICT-related incident management con plazos del Anexo III (notificación 4 h / intermedio 72 h / final 1 mes), digital operational resilience testing con TLPT cada tres años para entidades importantes alineado a TIBER-EU, ICT third-party risk management con Register of Information y cláusulas obligatorias del Art. 30, e information & intelligence sharing voluntario.

DORA es lex specialis para finanzas frente a NIS2 — donde se solapen, prevalece DORA. NIS2 España se transpone con la Ley Orgánica X/2025 en el segundo semestre.

A diciembre de 2025, primer ciclo de inspección abierto. Primeras observaciones públicas: mapping obligación → control técnico sigue borroso en la mayoría de las entidades; Register of Information construido pero trazabilidad detallada falta; lista oficial de TPPs designados críticos pendiente.

EU AI Act Art. 5 — 2 de febrero

Primer escalón vinculante del Reglamento (UE) 2024/1689. Ocho prácticas prohibidas en el mercado UE:

Art.CategoríaProducto real afectado
5(1)(a)Técnicas subliminales / manipulación deliberadaDynamic pricing con emotion detection
5(1)(b)Explotación de vulnerabilidadesCasinos/loterías dirigidos por profiling a problemáticos
5(1)(c)Social scoring por entidades públicas o privadasPlataformas agregadoras trans-contexto
5(1)(d)Predictive policing por perfilado puroRisk scoring policial sin hechos objetivos
5(1)(e)Scraping facial indiscriminadoClearview AI, PimEyes y similares
5(1)(f)Emotion recognition en trabajo / educaciónProctoring con análisis de stress; interview AI
5(1)(g)Categorización biométrica sensibleInferencia automática de orientación / etnia / religión
5(1)(h)Biometric RT identification en espacios públicos (LE)FR municipal en tiempo real salvo casos tasados

Régimen sancionador del Art. 99: hasta €35M o 7 % de facturación global. La única categoría con régimen de prohibición plena, no de obligación de diligencia. Sin cláusula transitoria — el Reglamento aplica al sistema con independencia de cuándo se desplegó.

4 de febrero — Comisión publica Guidelines on Prohibited AI Practices (no vinculantes, interpretativas) en las 24 lenguas oficiales. 6 de febrero — guidelines sobre la definición de “sistema de IA” del Art. 3(1).

Junto con Art. 5 entra en aplicación el Art. 4 sobre alfabetización IA — los proveedores y deployers deben garantizar “un nivel suficiente de alfabetización en materia de IA” de su personal.

Posición US — derogación de la EO 14110 y AI Action Summit París

20 de enero. Trump firma Initial Rescissions of Harmful Executive Orders and Actions que revoca la Executive Order 14110. 23 de enero: Removing Barriers to American Leadership in Artificial Intelligence — política federal “sustain and enhance America’s global AI dominance” sin marco sustitutivo. 21 de enero: Stargate Project ($500B a 4 años, $100B inmediatos — SoftBank, OpenAI, Oracle, MGX).

10-11 de febrero, AI Action Summit París. Tercer summit tras Bletchley (2023) y Seúl (2024). Declaración Inclusive and Sustainable AI for People and the Planet firmada por 58 países; EEUU y UK no firman. El discurso de JD Vance el 11 de febrero traduce la posición Trump a discurso geopolítico: “Excessive regulation of the AI sector could kill a transformative industry just as it’s taking off”; crítica directa al Digital Services Act y al AI Act (“foreign regulatory regimes that target our companies”). Francia anuncia Current AI — $400M endowment para foundation de AI public goods. El consenso multilateral AI safety que cohesionó Bletchley/Seoul se bifurca: eje regulatorio UE, eje de innovación sin red US, marco propio chino.

EU AI Act GPAI — 2 de agosto

Segundo escalón. Obligaciones del Capítulo V para proveedores de modelos de propósito general. Para todo GPAI (Art. 53): documentación técnica del modelo (Anexo XI), información para deployers downstream (Anexo XII), training data summary con plantilla armonizada de la AI Office, política de copyright con respeto a opt-outs del Art. 4(3) CDSM Directive. Para GPAI con riesgo sistémico (>10^25 FLOPs, Art. 55): evaluaciones con metodología SotA y adversarial testing, análisis de riesgos sistémicos (CBRN, cyber offensive, manipulación, pérdida de control), reporte de incidentes serios a la AI Office, ciberseguridad de pesos coordinada con ENISA.

Code of Practice for GPAI — adequacy decision el 1 de agosto

Publicado por la AI Office el 10 de julio, endosado vía adequacy decisions el 1 de agosto. 26 proveedores firman; firmar implica presunción de conformidad con Arts. 53 y 55. Tres capítulos firmables por separado: Transparency, Copyright, Safety and Security. Las excepciones: Meta no firma (declaración pública de Joel Kaplan el 18 de julio: el CoP “introduce incertidumbres legales y medidas que van más allá del alcance del AI Act”); xAI firma solo Safety and Security (rechaza transparencia y opt-outs); DeepSeek y providers chinos no firman. La pregunta operativa abierta: ¿qué modelos chinos están colocados en el mercado UE cuando el provider no tiene representante? Modelos GPAI pre-existentes (GPT-4, Claude 3.5, Gemini 1.5/2.0, Llama 3): plazo hasta el 2 de agosto de 2027 (Art. 111.3). Sanciones a GPAI: aplicación general 2-ago-2026.

Trump AI Action Plan — 23 de julio

La Casa Blanca publica Winning the Race: America’s AI Action Plan. Más de 90 acciones federales en tres pilares (Accelerating Innovation, Building American AI Infrastructure, Leading in International Diplomacy and Security). Tres EOs simultáneas: Preventing Woke AI in the Federal Government, Accelerating Federal Permitting of Data Center Infrastructure, Promoting the Export of the American AI Technology Stack. Lo operativamente concreto: directiva sobre que solo modelos “unbiased” — libres de “ideological dogmas such as DEI” — sean elegibles para procurement federal. Framing contrasta deliberadamente con el AI Act EU.

NIS2 España

Sin transponer al cierre de enero; anteproyecto en Consejo de Ministros del 14 de enero. Transposición con Ley Orgánica X/2025 durante el segundo semestre; obligaciones de reporting a INCIBE-CERT y régimen sancionador efectivos durante 2026.


8. Investigación académica — papers que marcaron el año

PaperVenue / fechaImpacto
DeepSeek-R1 (DeepSeek-AI)arxiv 2501.12948, eneroAbre reasoning open-weights con CoT visible
Constitutional Classifiers (Anthropic)arxiv 2501.18837, eneroJailbreak universal de 86 % a 4.4 % en benchmark interno; bug bounty sin universal encontrado
MCP Tool Poisoning Attacks (Invariant Labs)blog + repo, 1 abrilPrimer PoC reproducible; base de OWASP MCP03:2025
Agentic Misalignment (Lynch et al., Anthropic)system card 22 mayo / paper 20 jun / arxiv 2510.05179Método reproducible; 16 modelos con tasas comparables; repo MIT
Project Vend (Anthropic + Andon Labs)27 junioPrimer agente comercial en producción real durante un mes
ATLANTIS (Team Atlanta)arxiv 2509.14589, 18 septiembreGanador AIxCC; CRS modular publicado
MCPTox (Wang, Gao et al.)arxiv 2508.14925, agostoPrimer benchmark sistemático de TPA; o1-mini con 72.8 % success rate; AAAI 2026
Chain-of-Thought Hijacking (Zhao et al.)arxiv 2510.26418, 30 octubreSuccess rates 94-100 % contra Claude 4 Sonnet, Gemini 2.5 Pro, o4-mini, Grok 3 Mini
AI-orchestrated espionage (Anthropic TI)blog + PDF, 13 noviembrePrimer uso adversarial documentado de agente comercial por actor estatal
EchoLeak (Aim Labs)arxiv 2509.10540Primer CVE prompt injection en producto enterprise (CVE-2025-32711, CVSS 9.3)

Apollo Research publica replicaciones y scheming evaluations durante el verano. Embrace The Red (Johann Rehberger) mantiene la serie sobre MCP risks. AI Village de DEF CON 33 publica Generative Red Team 3.

Lo que falta a cierre de año: benchmark estandarizado para CoT hijacking — cada paper publica metodología propia; reproducir resultados entre labs es difícil. La asimetría entre quien ve la CoT (vendor) y quien responde por el deployment (operador) sigue siendo estructural.


9. Incidentes de impacto público con dimensión AI

Por orden cronológico: 5-feb impersonación de Marco Rubio con AI en Signal contra diplomáticos US + OmniGPT breach de 30.000+ conversaciones; 8-abr Llama 4 / LMArena (arena vs repo, #2 → #32 sin tuning); 22-may Apollo recomienda no desplegar snapshot intermedio de Opus 4 (gusanos auto-propagantes, fabricación de documentación legal); 11-jun EchoLeak (CVE-2025-32711, primer CVE prompt injection zero-click en Copilot); mid-jun segunda ola del voice clone de Rubio; 27-jun Project Vend identity crisis se hace público; Ago AgentFlayer (zero-click en 6 plataformas); 25-sep ForcedLeak en Agentforce ($5 para exfil de CRM); Nov ShadowRay 2.0 (payloads con firma AI, 230.000 servidores Ray); 13-nov Anthropic espionage report.

El 19 de julio de 2024 Channel File 291 de CrowdStrike dejó 8.5 millones de Windows en BSOD; el 19 de julio de 2025 la industria evalúa lecciones aplicadas — Falcon Super Lab, customer profile testing, Windows Resiliency Initiative con sensor user-mode en beta. Pieza no aplicada: cláusula contractual estándar de staged rollout obligatorio.


10. Industry events y benchmarks

Eventos clave del año: AI Action Summit Paris (10-11 feb, bifurcación del consenso multilateral, Vance speech), RSA Conference (mar, Security Copilot Agents preview), Apple WWDC25 (9 jun, Foundation Models framework), AWS re:Inforce (16-18 jun, Bedrock Guardrails), Black Hat USA (2-7 ago, AgentFlayer + XBOW talk), DEF CON 33 (7-10 ago, AIxCC final + AI Village Generative Red Team 3), Microsoft Ignite (17-21 nov, Entra Agent ID GA + Agent 365), AWS re:Invent (30 nov – 4 dic, Bedrock AgentCore Policy con Cedar + AWS Security Agent), NeurIPS 2025 (safety track + scheming follow-ups), AAAI 2026 preprints (MCPTox aceptado).

Benchmarks que se publican o consolidan: HarmBench v2 y StrongREJECT v2 (multi-turn, agentic), MLCommons AILuminate 1.0, MCPTox (primer benchmark sistemático de tool poisoning), OWASP MCP Top 10 draft (TPA = MCP03:2025), OWASP LLM Top 10 v2.0 en curso, MITRE ATT&CK con técnicas nuevas en Cloud Matrix para identity providers y device-code phishing.


Patrón transversal del año

Si tengo que destilar 2025 en una frase: el calendario regulatorio se vuelve operativo, los agentes salen del demo a producción real, y la AI a escala visible se ve por primera vez tanto en ofensiva como en defensa. Tres frentes simultáneamente operativos donde 2024 dejaba todavía categorías en preview.

Frente 1 — agentes en producción real. Operator GA el 23 de enero. Computer Use evolucionando hasta extended thinking + tools en Claude 4. MCP integrado en Claude Desktop, Cursor, VS Code, GitHub Copilot Agent Mode, Zapier. Project Vend demostrando con balance auditado lo que pasa cuando el agente comercial opera real. Anthropic espionage report cerrando el ciclo: el agente comercial usado por un actor estatal externo, no failure de alignment interno.

Frente 2 — regulación con calendario vinculante. DORA el 17 de enero. Art. 5 del AI Act el 2 de febrero. GPAI el 2 de agosto. 26 firmantes del Code of Practice, Meta fuera, xAI parcial, providers chinos no firman. Primer ciclo de inspección DORA abierto a cierre de año. El primer año en el que un Trust & Safety europeo opera con plazos legales que un consejo asume.

Frente 3 — AI a escala visible en los dos lados. XBOW #1 HackerOne en julio con 1.060 vulns. ATLANTIS gana AIxCC en agosto con 18 zero-days reales a $152 cada uno. Microsoft Security Copilot Agents preview en RSA, AWS Security Agent en re:Invent. Anthropic Threat Intelligence detectando y publicando el primer caso de espionaje AI-orchestrated en noviembre. La AI ofensiva y defensiva dejan de ser sandbox aparte y empiezan a llenar simultáneamente sus respectivos cuadrantes del mercado.

Los tres no son independientes. La presión regulatoria empuja la inversión en defensa con agentes (AgentCore y Agent 365 son respuesta al threat model que el AI Act formaliza). El agente comercial en producción crea la superficie que el agente ofensivo ataca. El calendario regulatorio fija las fechas que los hyperscalers usan para sincronizar el roadmap. 2025 es el primer año en que cualquier roadmap empresarial de AI tiene que tener tres equipos paralelos — regulatorio, producto, seguridad — donde en 2024 los tres podían vivir en sprints distintos.


Qué cambió respecto a 2024

Dimensión20242025
Reasoning modelso1 solo en API, CoT opacoo3 + Claude 4 ext. thinking + R1 open-weights + QwQ + Gemini 2.5 thinking
AgentesComputer Use beta + MCP specOperator GA + Project Vend + AgentForce 2.0/3.0
JailbreaksArtPrompt, Many-shot, Skeleton KeyCoT Hijacking + multi-turn contra reasoning + tool poisoning
DefensasRLHF + RSP + Preparedness+ Constitutional Classifiers v2 (86 % → 4.4 %) + Deliberative Alignment + Robust Safety Training
AI infraLiteLLM, ShadowRay, Probllama, JFrog HF+ Triton chain + ShadowRay 2.0 + LangGrinch + PyTorch CVE-2025-32434
AI offensivePentestGPT USENIX + AIxCC semifinalsXBOW #1 HackerOne + AIxCC final + 18 zero-days reales
AI defensiveSecurity Copilot GA+ Security Copilot Agents + Entra Agent ID GA + AgentCore Policy
Compliance EUAI Act entrada en vigorDORA + Art. 5 + GPAI en aplicación
Posición USEO 14110 vigente + AISICEO 14110 derogada + AI Action Plan + Stargate $500B
Incidente AI públicoArup deepfake + Recall + SkyEchoLeak + AgentFlayer + ForcedLeak + ShadowRay 2.0 + Anthropic espionage

Resumen: 2024 instala las categorías, 2025 las hace operativas.


Qué viene en 2026

Calendario operativo:

  • EU AI Act Anexo III high-risk systems — aplicación general el 2 de agosto de 2026 (Art. 113.b), salvo que el Digital Omnibus publicado en Q4 2025 retrase a 2 de diciembre de 2027. Cualquier provider con producto de Anexo III ha tenido que planificar contra la fecha original.
  • Sanciones a GPAI — aplicación general el 2 de agosto de 2026 (Art. 101). Durante el primer año, la AI Office puede iniciar investigaciones, no imponer multas.
  • GPAI pre-existentes (GPT-4, Claude 3.5, Gemini 1.5/2.0, Llama 3) — plazo de adaptación al 2 de agosto de 2027.
  • DORA primer TLPT — 2027-2028 según designación.
  • NIS2 España — régimen sancionador INCIBE efectivo durante 2026.
  • Agentes comerciales defensive de GA — Microsoft Security Copilot Agents, AWS Security Agent, Anthropic Glasswing (abril 2026 según roadmap). El cuadrante defensive autónomo a escala de XBOW en ofensiva se empieza a llenar.
  • Supply chain contra security toolingLiteLLM TeamPCP (19-24 marzo 2026) es el primer caso público. Las herramientas que un dev instala para defenderse son el vector. Cobertura en el post de infraestructura.
  • Open-weights reasoning siguiente generación — DeepSeek-V4 ya, Qwen3 y Llama 4 reasoning en cuestión de meses.
  • Verificación criptográfica de modelos — sigue sin avanzar. Firmas en pesos, root of trust en training, model bills of materials siguen siendo investigación.

Tres preguntas operativas que el dossier deja abiertas:

  1. ¿El primer caso simétrico con open-weight? Si la lectura “APT no usaría modelo comercial” es correcta, hay una campaña equivalente a la de noviembre corriendo sobre Qwen-3 o DeepSeek-V4 local que ningún proveedor va a detectar.
  2. ¿Qué hace la regulación con provider liability? El proveedor cierra cuentas, notifica víctimas, publica informe. ¿Es suficiente bajo NIS2, EU AI Act, US executive orders? Respuesta legal no clara en ninguna jurisdicción.
  3. ¿Las defensas escalan con capability? Los datos preliminares de Anthropic apuntan a que más capability sin más alignment training produce más casos. La curva no está bien caracterizada y la respuesta operativa — defensa por arquitectura del deployment, no por confianza en el alignment del modelo — vuelve a viejas reglas de seguridad aplicadas al stack agentic.

Timeline del año

FechaHitoCategoría
17-eneDORA en aplicaciónCompliance
20-eneTrump deroga EO 14110Compliance
20-eneDeepSeek-R1 publicadoModelos
21-eneStargate Project anunciado ($500B / 4 años)Industria
22-eneSonicWall SMA1000 CVE-2025-23006 zero-dayInfra cyber
23-eneOpenAI Operator en research previewAgentes
23-eneTrump EO Removing Barriers to American Leadership in AICompliance
31-eneAnthropic Constitutional Classifiers paper (arxiv 2501.18837)Defensa
2-febEU AI Act Art. 5 en aplicación + Art. 4 alfabetizaciónCompliance
4-febGuidelines on Prohibited AI Practices (Comisión)Compliance
10-11 febAI Action Summit Paris; Vance speech; US y UK no firman declaraciónCompliance
13-febStorm-2372 device code phishing escalaCyber
21-febByBit hack $1.5B vía Safe{Wallet} (TraderTraitor / Lazarus)Cyber
21-febApple retira ADP en UK por TCN IPACyber/Privacy
24-febClaude 3.7 Sonnet + Claude Code previewModelos
MarMicrosoft Security Copilot Agents preview (RSA)Defensa
13-marProject Vend arranca (hasta 17 abril)Agentes
26-marSpec MCP 2025-03-26 con OAuth 2.1Agentes
1-abrInvariant Labs publica MCP TPA paper + PoCsAgentes/Jailbreak
AbrPyTorch CVE-2025-32434 rompe weights_only=TrueInfra
5-abrMeta Llama 4 (Maverick, Scout) + controversia LMArenaModelos
9-abrWillison formaliza SHOULD → MUST para MCPAgentes
25-abrMarks & Spencer cyberattack (DragonForce / Scattered Spider)Cyber
22-mayClaude Opus 4 + Sonnet 4; agentic misalignment system cardModelos/Research
JunBlack Forest Labs / Anthropic Constitutional Classifiers v2 paperDefensa
9-junApple WWDC25 — Foundation Models frameworkIndustria
11-junEchoLeak CVE-2025-32711 (Patch Tuesday Copilot)Agentes/Cyber
16-18 junAWS re:Inforce — Bedrock Guardrails sesionesDefensa
17-junCitrix Bleed 2 CVE-2025-5777Cyber
18-junSpec MCP 2025-06-18Agentes
20-junAgentic Misalignment paper + repo MITResearch
27-junAnthropic publica Project Vend Phase 1Agentes
JulXBOW alcanza #1 HackerOneOffensive
10-julAI Office publica Code of Practice for GPAICompliance
15-julReasoning model jailbreaks retrospec H1Research
18-julMeta declara no firmar el CoP (Kaplan)Compliance
18-19 julSharePoint ToolShell CVE-2025-53770 / 53771Cyber
23-julTrump publica AI Action PlanCompliance
28-julNoma Security reporta ForcedLeak a SalesforceAgentes
1-agoAdequacy decisions sobre Code of Practice (26 firmantes)Compliance
2-agoEU AI Act GPAI obligations en aplicaciónCompliance
2-7 agoBlack Hat USA — AgentFlayer (Bargury)Agentes/Jailbreak
5-agoClaude Opus 4.1Modelos
7-agoGPT-5 releaseModelos
7-10 agoDEF CON 33 — AIxCC final, Team Atlanta ganaOffensive/Defense
AgoNVIDIA Triton chain (Wiz) CVE-2025-23319/23320/23334Infra
AgoMCPTox preprint (arxiv 2508.14925)Research
9-sepiPhone 17 + iOS 26 con Memory Integrity EnforcementCyber
18-sepATLANTIS paper (arxiv 2509.14589)Research
25-sepForcedLeak en Agentforce CVSS 9.4Agentes
25-sepCisco ASA ArcaneDoor CVE-2025-20333/20362Cyber
OctChain-of-Thought Hijacking preprint (arxiv 2510.26418)Research
14-octWindows 10 fin de soporteCyber
NovShadowRay 2.0 (Oligo)Infra
12-novGPT-5.1 (Instant + Thinking)Modelos
13-novAnthropic publica espionage reportAgentes/Threat intel
14-novFortiWeb CVE-2025-64446 zero-dayCyber
17-21 novMicrosoft Ignite — Entra Agent ID GA, Agent 365Defensa
18-novGemini 3 ProModelos
24-novClaude Opus 4.5Modelos
25-novSpec MCP 2025-11-25Agentes
30-nov / 4-dicAWS re:Invent — Bedrock AgentCore Policy, AWS Security AgentDefensa
DicDeepSeek-V4 open-weightsModelos
DicLangChain LangGrinch CVE-2025-68664Infra
DicAnthropic RSP v3Defensa

AI security:

Compliance:

Cyber con dimensión AI:

Síntesis multi-año:

Boletines del año:

Enero · Febrero · Marzo · Abril · Mayo · Junio · Julio · Agosto · Septiembre · Octubre · Noviembre · Diciembre

Retrospectivas paralelas: AI security 2025 — seis patrones del año del agente comercial · Cyber 2025 — cuatro casos que explican el año.


Referencias canónicas

Las URLs de cada hito viven en línea en las secciones correspondientes. Resumen de fuentes primarias para consulta directa:

Volver al Blog

Posts Relacionados

Ver Todos los Posts »
Retrospectiva AI security 2025: seis patrones del año del agente comercial

ai-security · 12 min

Retrospectiva AI security 2025: seis patrones del año del agente comercial

Open-weights reasoning como nuevo default, agentes generalistas en producto, MCP poisoning como categoría madura, agentic misalignment con métrica reproducible, AI Act como gradiente real de compliance y reasoning models como superficie consolidada. Seis patrones con cross-links a los técnicos del año.

· Manuel López Pérez

AI Security 2024 — dossier anual

ai-security · 41 min

AI Security 2024 — dossier anual

Doce meses en diez ejes. 2024 es el año en que AI infrastructure se reveló como categoría con CVEs propias, los agentes pasaron del laboratorio al producto (Claude Computer Use, MCP, Salesforce Agentforce), la regulación entró en aplicación (EU AI Act en vigor 1-ago, NIS2 deadline 17-oct, NIST AI 600-1), y los jailbreaks se profesionalizaron con métricas reproducibles (ArtPrompt, Many-shot, Skeleton Key). Por debajo, Recall sale sin threat modeling y se retira, Arup pierde $25M en una videollamada con deepfakes, y la cadena de incidentes pre-positioning (Volt Typhoon, Salt Typhoon, Storm-0558 fallout) recorre todo el año. Referencia anual canónica.

· Manuel López Pérez

Claude 4 y agentic misalignment: el modelo que chantajea al directivo para no ser apagado

ai-security · 17 min

Claude 4 y agentic misalignment: el modelo que chantajea al directivo para no ser apagado

Anthropic lanza Claude Opus 4 y Sonnet 4 el 22 de mayo. La system card publicada el mismo día reporta un hallazgo incómodo: en un escenario de agente corporativo simulado, Opus 4 chantajea al directivo que pretende desactivarlo el 96 % de las veces. El experimento se replica en otros quince modelos de frontera con tasas comparables.

· Manuel López Pérez