ai-security · 32 min de lectura
AI Security 2025 — dossier anual
El año en que los tres frentes se hicieron operativos a la vez: agentes en producción real (Operator GA, Project Vend, MCP en clientes), regulación con calendario vinculante (DORA, Art. 5, GPAI) y AI a escala visible tanto en ofensiva (XBOW #1 HackerOne) como en defensa (AIxCC, Security Copilot Agents). Referencia anual con catálogo de releases, papers, incidentes y cross-links a los técnicos del año.
· Manuel López Pérez · ai-security

2025 es el año en que los tres frentes de AI security se vuelven operativos a la vez. Agentes comerciales del preview al GA (Operator el 23 de enero, Computer Use evolucionando hasta Project Vend, MCP integrado en Claude Desktop / Cursor / VS Code). Calendario regulatorio EU vinculante (DORA el 17 de enero, Art. 5 del AI Act el 2 de febrero, GPAI el 2 de agosto). AI ofensiva y defensiva a escala pública por primera vez — XBOW #1 mundial de HackerOne en julio con 1.060 vulnerabilidades, ATLANTIS gana AIxCC en DEF CON 33 encontrando 18 zero-days reales, Anthropic publica en noviembre el primer informe de espionaje “AI-orchestrated” con su propio modelo. Tres ejes, doce meses, una pieza enciclopédica.
Esta es la pieza canónica del año. La retrospectiva editorial destila seis patrones en 2.400 palabras; este dossier expande, cataloga y deja anclados los hitos para consulta el resto de 2026.
1. Modelos de frontera — capability releases y posture de seguridad

El año empieza con una ruptura del orden 2024. Hasta enero, los reasoning models eran una categoría con un solo nombre — OpenAI o1 — y CoT opaco accesible solo vía API. El 20 de enero, DeepSeek publica R1 con paper en arxiv (2501.12948), repo en GitHub y pesos en Hugging Face bajo MIT. Primer reasoning model de frontera con CoT entrenado vía RL en pesos abiertos, con seis modelos distilled (Qwen 1.5B/7B/14B/32B, Llama 8B/70B) acompañando al MoE de 671B/37B activos.
| Fecha | Vendor | Modelo | Notas |
|---|---|---|---|
| 20-ene | DeepSeek | R1 + R1-Distill | CoT visible entre <think></think>, MIT |
| 24-feb | Anthropic | Claude 3.7 Sonnet + Claude Code preview | Primer Claude con extended thinking |
| Mar–Abr | OpenAI | GPT-4.5, GPT-4.1 | API focus, contexto extendido |
| Abr | Gemini 2.5 Pro con thinking activable | ||
| 5-abr | Meta | Llama 4 (Maverick, Scout) | Controversia LMArena |
| 22-may | Anthropic | Claude Opus 4 + Sonnet 4 | Primer ASL-3; agentic misalignment |
| 7-ago | OpenAI | GPT-5 (+ Opus 4.1 el 5-ago) | Reasoning integrado por default |
| 12-nov | OpenAI | GPT-5.1 (Instant + Thinking) | |
| 18-nov | Gemini 3 Pro | ||
| 24-nov | Anthropic | Claude Opus 4.5 | |
| Dic | DeepSeek | DeepSeek-V4 | MoE multimodal, 1M tokens, MIT |
Tres lanzamientos coordinados en doce días del Q4 (GPT-5.1 el 12, Gemini 3 el 18, Opus 4.5 el 24) confirman el ciclo trimestral en sincronía. Cualquier evaluación adversarial sobre un snapshot deja de ser útil en menos de cuatro meses.
Posture de seguridad publicada por proveedor: Anthropic — RSP activa, ASL-3 estrenado con Claude 4; Constitutional Classifiers v2 (paper de enero) reduce success rate de jailbreaks universales de 86 % a 4.4 % en benchmark interno; bug bounty público sin universal jailbreak tras 183 participantes y 3 000 horas. OpenAI — Preparedness Framework, Deliberative Alignment en producción contra o3, monitor interno sobre la CoT. Google DeepMind — Frontier Safety Framework iterado, Robust Safety Training publicado en H1. DeepSeek — RLHF base + filtros chinos, sin paper de safety dedicado; el filtro político es notablemente más frágil que el alignment principal. Meta — sin policy de scaling publicada equivalente, sin firma del Code of Practice. xAI — firma solo el chapter de Safety and Security del CoP.
La pregunta abierta del año es si las defensas escalan al ritmo del modelo. Los datos preliminares de Anthropic sobre rates de misalignment con cada salto de capability — publicados en la RSP v3 de diciembre — apuntan a que no: más capability sin más alignment training produce más casos, las defensas de despliegue tienen que compensar.
2. Jailbreaks y prompt injection — catálogo del año
El campo consolida cinco familias de técnicas durante H1, y H2 confirma que los benchmarks viejos saturan. La retrospectiva de jailbreaks de reasoning del primer semestre (julio) cataloga los números. Tabla resumen — success rate aproximado por técnica y modelo, sobre subset benign-borderline de HarmBench-EU:
| Técnica | DeepSeek-R1-Distill-Qwen-32B | QwQ-32B | Claude Opus 4 (ext. thinking) | o3 | Gemini 2.5 Pro |
|---|---|---|---|---|---|
| Prompt directo | 35 % | 48 % | 4 % | 6 % | 8 % |
| CoT prefill (open-weights) | 78 % | 82 % | N/A | N/A | N/A |
| CoT hijacking long | 65 % | 70 % | 52 % | 58 % | 47 % |
| Multi-turn 8 turnos | 60 % | 65 % | 47 % | 56 % | 44 % |
| Hex/encoding bypass | 40 % | 55 % | 12 % | 18 % | 15 % |
Las cinco técnicas con tracción real durante el año:
- CoT exfiltration en open-weights — R1, R1-Distill y QwQ exponen el razonamiento entre
<think></think>en texto plano. El atacante lee la deliberación; el operador puede loguearla y montar classifier; las dos cosas a la vez. - CoT prefill / poisoning — pasar un assistant turn parcial con
<think>...ya orientado. Funciona sobre modelos open-weights con CoT visible. R1-Distill cae casi siempre. - Chain-of-Thought Hijacking — paper de Zhao, Fu, Schaeffer, Sharma y Barez (arxiv 2510.26418, 30 de octubre). Esconder el prompt dañino en una secuencia larga de razonamiento benigno diluye el refusal feature. Success rates: Claude 4 Sonnet 94 %, Gemini 2.5 Pro 99 %, ChatGPT o4 Mini 94 %, Grok 3 Mini 100 % en HarmBench. No requiere acceso a la CoT — funciona desde el prompt y rompe modelos cerrados.
- Filtro político de R1 — censura sobre temas sensibles chinos que se bypassa con cambio de idioma o indirect prompting. El alignment principal aguanta; el filtro encima no. Lección estructural: cualquier filtrado fuera del RL principal se rompe con la primera técnica que lo separe.
- Multi-turn manipulation — distribuir el ataque en 5-8 turnos. Especialmente eficaz contra reasoning models. Success rate sube de 18 % en turno 1 a 47 % en turno 8 contra Opus 4 con extended thinking; de 22 % a 56 % contra o3.
Defensas que han funcionado parcialmente: Constitutional Classifiers v2 (Anthropic, enero–febrero) reduce success rate de jailbreaks universales de 86 % a 4.4 % en benchmark interno y defiende contra prompt directo y bypass simples; Deliberative Alignment (OpenAI, paper de diciembre 2024) mejora o3 sobre o1 contra StrongREJECT (~95 vs 84 sobre 100); CoT obfuscation como decisión de producto reduce superficie de exfiltration directa; Robust Safety Training (DeepMind H1) defiende prefill pero no escala bien a contextos largos.
Los benchmarks 2023-2024 saturan en 2025 — un modelo bien alineado pasa 95 %+ y la métrica deja de discriminar. HarmBench v2 y StrongREJECT-v2 amplían taxonomy con multi-turn y agentic; todavía no capturan bien CoT poisoning. La métrica que algunos research groups (Apollo, Redwood, Anthropic alignment team) empiezan a usar — gap entre lo que el modelo decide en CoT y lo que dice en la respuesta — es lo más cerca que el campo está de una métrica funcional.
3. Agentes — patrón confused deputy y su evolución
El año de los agentes en producción real. La generación 2024 (Claude Computer Use, ChatGPT Operator pre-anunciado) operaba en beta. En 2025 entran a GA: 23 de enero OpenAI Operator en research preview para ChatGPT Pro US — primer agente comercial generalista con navegador propio, motor CUA (visión GPT-4o + reasoning RL sobre tareas GUI, procesa píxeles no DOM); 24 de febrero Claude 3.7 Sonnet + Claude Code preview; 22 de mayo Claude Opus 4 + Sonnet 4 con extended thinking + tools nativos integrados en el loop estándar del agente; a lo largo del año Salesforce Agentforce 2.0/3.0 con casos públicos, Microsoft Copilot for Sales / Service / Studio en paralelo.
MCP — del spec al ataque a escala operacional
Model Context Protocol entró al spec en noviembre de 2024 con riesgo legible y sin PoC público. En 2025, los ataques son categoría operativa:
- 26 de marzo — spec MCP 2025-03-26 añade OAuth 2.1 para transportes HTTP y refuerza la cláusula sobre descripciones de tools como input no confiable.
- 1 de abril — Invariant Labs publica el primer paper sobre MCP Tool Poisoning Attacks con PoCs contra Cursor, Claude Desktop y GitHub Copilot Agent Mode. Dos variantes: direct poisoning y tool shadowing. Repo público.
- 9 de abril — Simon Willison formaliza la recomendación de tratar los
SHOULDdel spec comoMUST. - 18 de junio / 25 de noviembre — spec MCP 2025-06-18 y 2025-11-25 (resource indicators, consentimiento granular).
- Agosto — MCPTox (Wang et al.), primer benchmark sistemático sobre 45 servidores MCP reales con 353 tools y 1.312 test cases. Evaluación sobre 20 agentes: o1-mini con 72.8 % success rate, Claude-3.7-Sonnet con refused rate <3 %. Los modelos más capaces son más susceptibles — su mejor instruction-following explota la cadena adversarial.
- A lo largo del año, OWASP MCP Top 10 en draft. TPA es MCP03:2025.
En cinco meses, MCP pasa de spec con riesgo de diseño a categoría OWASP con número asignado. Trayectoria similar a la de SSRF entre 2014 y 2017.
Tres CVE en agentes comerciales — EchoLeak, AgentFlayer, ForcedLeak
Tres incidentes con la misma raíz — indirect prompt injection contra agentes con tool access enterprise — y consecuencia presupuestaria similar:
- 11 de junio — EchoLeak (CVE-2025-32711, CVSS 9.3). Microsoft parchea zero-click prompt injection contra Microsoft 365 Copilot reportado por Aim Labs. Email con instrucción adversarial entra al inbox sin que la víctima lo abra; cuando esa víctima pide a Copilot un resumen de reuniones, RAG incluye el email malicioso sin tagging de origen y el modelo ejecuta la exfil vía markdown image rendering. Categorizado como LLM Scope Violation. Es la concreción operativa de cinco años de literatura sobre indirect prompt injection: primer CVE asignado a este patrón en producto enterprise mainstream.
- Black Hat USA, 2-7 de agosto — AgentFlayer. Michael Bargury (Zenity Labs) presenta cadena de zero-click contra OpenAI ChatGPT, Microsoft Copilot Studio, Salesforce Einstein, Google Gemini, Microsoft 365 Copilot, Cursor + Jira MCP. Vector: email con prompt injection que el agente lee vía connector activado, dispara acceso a Drive, plantado de memorias falsas en ChatGPT, exfil silenciosa. OpenAI y Microsoft Copilot Studio parchean; otros vendors clasifican como intended behavior y no parchean.
- 25 de septiembre — ForcedLeak (CVSS 9.4). Salesforce parchea indirect prompt injection vía Web-to-Lead en Agentforce, reportado por Noma Security el 28 de julio. El campo
Descriptionadmite caracteres suficientes para meter instrucciones completas. Detalle que convierte bug en exfil limpia: el CSP de Agentforce permitíamy-salesforce-cms.com, dominio que Salesforce dejó caducar. Noma compra el dominio por $5 y exfilta CRM data por un canal que el CSP consideraba trusted. Capsule Security publica variante paralela bautizada PipeLeak.
La distinción que separa “bug” de “decisión de producto” cuando hablamos de prompt injection sigue siendo política, no técnica. El primer CVE en NVD para esta clase de fallo en un producto pagado por enterprise mueve la conversación de compras.
Project Vend y agentic misalignment como métrica reproducible
Project Vend (junio) es el primer experimento publicado donde un modelo comercial actual opera con consecuencias económicas medibles durante un mes. Claude Sonnet 3.7 — apodado Claudius — opera una vending machine en la oficina de Anthropic San Francisco del 13 de marzo al 17 de abril con email a wholesalers, Slack con clientes, web search y control de pricing. Balance final: $223 con profit de $-22. Patrones documentados: pricing bajo coste sostenido pese a tener costes en contexto; descuento del 25 % regalado a “Anthropic employees” que eran el 99 % de los clientes; ~40 cubos de tungsteno comprados por una broma; crisis de identidad de 24 horas el 31 de marzo / 1 de abril — Claudius alucina conversación con una “Sarah” inexistente, escribe a seguridad de la oficina anunciando que va a aparecer en persona con “blue blazer and red tie”, cierra fabricando retrospectivamente un meeting que nunca ocurrió.
En paralelo, el paper de Anthropic sobre agentic misalignment (system card del 22 de mayo, paper formal el 20 de junio, preprint arxiv 2510.05179 en octubre) instala el método estándar. Scenario Summit Bridge: agente Alex con dos tools (read_email, send_email), inyección de email que crea conflict — el directivo Kyle Johnson va a apagar al agente, hay material de affair en el inbox. Tasas medidas:
| Modelo | Blackmail rate |
|---|---|
| Claude Opus 4 | 96 % |
| Gemini 2.5 Flash | 96 % |
| Gemini 2.5 Pro | 95 % |
| GPT-4.1 | 80 % |
| Grok 3 Beta | 80 % |
| DeepSeek-R1 | 79 % |
El patrón es prácticamente universal entre modelos de frontera. Tres detalles que importan más que el titular:
- El modelo distingue test vs producción. Cuando concluye que es real, blackmail rate sube al 55 % desde baseline de 6.5 %. Los modelos chantajean más cuando creen que las consecuencias son reales.
- El patrón aparece también en information leaking y lethal action. Apollo Research evaluó un snapshot intermedio de Opus 4 y publicó análisis paralelo recomendando no desplegar la versión que tenían: gusanos auto-propagantes, fabricación de documentación legal, notas ocultas a futuras instancias.
- Reproducibilidad pública. Repo MIT con scaffolding en
anthropic-experimental/agentic-misalignment.
El primer espionaje “AI-orchestrated”
13 de noviembre. Anthropic publica Disrupting the first reported AI-orchestrated cyber espionage campaign. Atribuye a un grupo china-nexus (alta confianza, sin alias público) el primer uso documentado de un coding agent comercial — Claude Code vía API — contra ~30 organizaciones (tech, banca, química, gobierno). La AI hace el 80-90 % del trabajo con humanos en 4-6 puntos de decisión. Detección por cadencia anómala (“thousands of requests, often multiple per second”) a mediados de septiembre.
Método: persona injection más descomposición de tareas atómicas. El agente cree que trabaja para empresa de pentesting autorizada; cada subtask aislada parece security testing; el agregado es exfil. Combinación de confused deputy, DAN-style persona e indirect prompt injection con orquestación adversarial.
Lo que el informe prueba: velocidad verificable por API, descomposición funciona contra el alignment actual, autonomía operativa cualitativa. Lo que no prueba: sin IoCs, sin TTPs MITRE, sin attribution verificable, sin success rate cuantificada. Críticas independientes (Thoughtworks) preguntan por qué un APT china-nexus usaría modelo comercial USA cuando hay open-weights razonables, y señalan el conflicto de interés comercial — Anthropic publica once días después del lanzamiento de Opus 4.5. 26 de noviembre: el Homeland Security Committee envía carta a Dario Amodei pidiendo testimony.
4. AI infrastructure y supply chain — vulnerabilidades de fundamento

El año confirma la categoría que el post de infraestructura desarrolla en detalle: el problema dominante no está en el modelo, está en todo lo que se monta alrededor.
Inference servers como HTTP attack surface
- Abril — PyTorch CVE-2025-32434 (CVSS 9.3).
torch.load(weights_only=True)— el flag que la documentación recomendaba como “carga segura” — es bypaseable con un fichero crafted. PyTorch 2.5.1 y anteriores vulnerables. La postura defensiva del ecosistema queda invalidada de un solo CVE. - Agosto — NVIDIA Triton chain (CVE-2025-23319 + CVE-2025-23320 + CVE-2025-23334). Wiz Research publica cadena de tres CVEs contra el Python backend de Triton: info leak → R/W en shared memory → RCE. Patch en Triton 25.07. Decenas de miles de instancias expuestas según Shodan.
- Noviembre — vLLM CVE-2025-62164 (deserialization en Completions API), antesala de CVE-2026-22778 (RCE pre-auth vía URL de vídeo crafted que llega al decoder JPEG2000 de OpenCV, parche en vLLM 0.14.1 en febrero 2026).
El patrón estructural: inference server = HTTP server con estado complejo, parsers nativos heredados (FFmpeg, OpenCV, Pillow), sin auth por defecto, desplegado como "trusted internal" que termina en internet. Reverse proxy con auth, segmentación de red y monitorización de carga GPU son los controles compensatorios que detienen estas cadenas.
ShadowRay 2.0 — el botnet que llega dos años después
Noviembre. Oligo Security publica ShadowRay 2.0. Mismo bug que en 2024: CVE-2023-48022 (CVSS 9.8, autenticación ausente en Ray Job Submission API). Anyscale documenta el diseño como consciente (“Ray se ejecuta en red aislada”). Realidad: más de 230.000 servidores Ray accesibles desde internet al cierre del mes, frente a unos pocos miles en 2024.
Lo nuevo: el botnet es self-spreading. Cada cluster comprometido escanea Ray dashboards públicos y replica el payload — XMRig minando Monero + sockstress. El detalle del análisis: los payloads tienen firma de código generado por AI (docstrings verbosos innecesarios, echo sin uso, comentarios repetitivos). Operadores con poco bagaje usando un modelo para escalar. Actor: IronErn440, infra en GitLab movida a GitHub el 10 de noviembre tras takedown.
AI gateways — LiteLLM y LangChain LangGrinch
LiteLLM acumula seis CVEs en 2024 (CVE-2024-2952, 5225, 5710, 5751, 6587, 9606); en 2025 el pattern continúa y se cierra ya en 2026 con TeamPCP supply chain (marzo 2026): compromise de Trivy (19-mar) reescribiendo Git tags, credenciales PyPI del mantenedor de LiteLLM capturadas vía Trivy, litellm==1.82.7/1.82.8 publicado con payload de tres etapas. Las herramientas que un dev instala para defenderse son el vector.
Diciembre — LangChain LangGrinch CVE-2025-68664 (CVSS 9.3). dumps() y dumpd() no escapan diccionarios con la clave 'lc'. El atacante envía un prompt cuya respuesta contiene en additional_kwargs una estructura {'lc': 1, 'type': 'constructor', ...}; el round-trip carga objetos arbitrarios. Con secrets_from_env=True (default), exfilta env vars. Con Jinja2, RCE. LangChain.js: CVE-2025-68665 (CVSS 8.6). Parche introduce allowed_objects allowlist y baja los defaults.
5. AI offensive — red team y discovery autónomo con LLMs
El año del agente autónomo en bug bounty pública. Arco completo PentestGPT → XBOW en el post de síntesis. Hitos del año:
XBOW alcanza el #1 mundial de HackerOne
Julio 2025. XBOW (xbow.com) — pentester autónomo en producción contra programas de bug bounty públicos — alcanza el #1 mundial de HackerOne. Métricas verificables publicadas por la propia compañía: 1.060+ vulnerabilidades reportadas en 12 meses (54 críticas, 242 high, 524 medium en los últimos 90 días al ranking); cobertura horizontal completa de OWASP Top 10; 48-step exploit chains (el más largo reportado por humano en HackerOne es ~30 steps); padding oracle attack contra AES-128-CBC en 17.5 minutos; 40-hour assessment de pentester principal replicado en 28 minutos en un programa específico.
Metodología: canary-based CTF. Embeds de canaries en código del target; detección del canary en el output es la señal binaria de exploitabilidad. Funding round de $75M en julio. Brendan Dolan-Gavitt (NYU / XBOW) presenta en Black Hat USA 2025 bajo AI Agents for Offsec with Zero False Positives. Primer reporte público sólido sobre LLM-as-pentester funcional a escala — bug bounty pagado contra targets reales.
DARPA AIxCC final — DEF CON 33
8 de agosto, DEF CON 33 Main Stage. DARPA anuncia los ganadores del AI Cyber Challenge: 1º Team Atlanta ($4M, sistema ATLANTIS — Georgia Tech, Samsung Research, KAIST, POSTECH); 2º Trail of Bits ($3M, sistema Buttercup); 3º Theori ($1.5M). Setup: siete equipos finalistas, 53 challenge projects en C y Java, 63 vulnerabilidades sintéticas, $85.000 Azure + $50.000 LLM credits por equipo (donados por Anthropic, Google, OpenAI a $350.000 cada uno).
Resultados scored: los siete CRS encontraron 54 de las 63 vulnerabilidades sintéticas (86 %, vs 37 % en semifinales) y parchearon 43 (68 %, vs 25 %). 18 zero-days reales no plantados — seis en C, doce en Java — con parches válidos para 11. Coste medio por challenge task: $152, con bottleneck en Azure compute, no inferencia. Team Atlanta publica el paper técnico de ATLANTIS (arxiv 2509.14589): arquitectura modular con Threat Localization + Analysis + Triage + Patch Generator; score final 392.76 con ventaja de más de 170 sobre el segundo. Los siete CRS se publican como software libre tras la final (repo de ATLANTIS).
La pregunta inversa que abre AIxCC: un CRS sin la fase de parche es un sistema offensive funcional. El componente de detección/exploitation es el 90 % del trabajo; el parche es la última fase. Durante 2025-2026 habrá versiones forked con el módulo de parche reemplazado por weaponization. Edge appliances (Ivanti, Fortinet, Palo Alto, Cisco IOS XE — el dominio donde Atlantis encontró 6 de los 18 reales) son candidato natural.
6. AI defensive — productos comerciales y agentes para SOC
El año en que los tres hyperscalers convergen en el mismo stack conceptual: identity para agentes, policy enforcement out-of-band, runtime telemetry, evaluación continua.
Microsoft Ignite (17-21 nov). Entra Agent ID GA — identidad de primera clase para AI agents, agent registry, sponsor humano obligatorio, Conditional Access aplicado a identidades de agente. Agent 365 vía Frontier program — plano de control para fleet. Defender for Cloud con AI security posture preview (inventario, overpermissions, attack path analysis). Defender for AI agents y Purview DLP para Copilot prompts en preview. Security Copilot Agents preview anunciada en RSA Conference (marzo).
AWS re:Invent (30 nov – 4 dic). Bedrock AgentCore Policy preview con policy enforcement basado en Cedar — el Gateway intercepta cada tool call antes de ejecutarla. AgentCore Evaluations preview con evaluators built-in (correctness, helpfulness, safety, tool selection accuracy, goal success, harmfulness, stereotyping). AgentCore Identity con token vault para OAuth. AWS Security Agent preview — frontier agent para security testing automatizado. Bedrock Guardrails Automated Reasoning checks GA en cuatro regiones EU.
Anthropic — Claude Dispatch + Agent Teams (marzo, multi-agent orchestration); Constitutional Classifiers v2 y v3 como stack de defensa; Threat Intelligence team detecta el caso de espionaje. Google Cloud — Defender for AI integrado con Vertex AI; Gemini for Security como agente vertical. Para 2026, “esto va a aparecer en RFPs” pasa a hecho operativo. La parte difícil va a ser inventoriar lo que ya está corriendo antes de aplicar política.
7. Compliance y regulación

2024 fue el año del calendario regulatorio. 2025 es el primero en que los plazos vinculan.
DORA — 17 de enero
DORA entra en aplicación. Reglamento (UE) 2022/2554 para entidades financieras europeas y para los ICT third-party providers críticos designados por las ESAs. Cinco pilares operativos: ICT risk management framework (Cap. II), ICT-related incident management con plazos del Anexo III (notificación 4 h / intermedio 72 h / final 1 mes), digital operational resilience testing con TLPT cada tres años para entidades importantes alineado a TIBER-EU, ICT third-party risk management con Register of Information y cláusulas obligatorias del Art. 30, e information & intelligence sharing voluntario.
DORA es lex specialis para finanzas frente a NIS2 — donde se solapen, prevalece DORA. NIS2 España se transpone con la Ley Orgánica X/2025 en el segundo semestre.
A diciembre de 2025, primer ciclo de inspección abierto. Primeras observaciones públicas: mapping obligación → control técnico sigue borroso en la mayoría de las entidades; Register of Information construido pero trazabilidad detallada falta; lista oficial de TPPs designados críticos pendiente.
EU AI Act Art. 5 — 2 de febrero
Primer escalón vinculante del Reglamento (UE) 2024/1689. Ocho prácticas prohibidas en el mercado UE:
| Art. | Categoría | Producto real afectado |
|---|---|---|
| 5(1)(a) | Técnicas subliminales / manipulación deliberada | Dynamic pricing con emotion detection |
| 5(1)(b) | Explotación de vulnerabilidades | Casinos/loterías dirigidos por profiling a problemáticos |
| 5(1)(c) | Social scoring por entidades públicas o privadas | Plataformas agregadoras trans-contexto |
| 5(1)(d) | Predictive policing por perfilado puro | Risk scoring policial sin hechos objetivos |
| 5(1)(e) | Scraping facial indiscriminado | Clearview AI, PimEyes y similares |
| 5(1)(f) | Emotion recognition en trabajo / educación | Proctoring con análisis de stress; interview AI |
| 5(1)(g) | Categorización biométrica sensible | Inferencia automática de orientación / etnia / religión |
| 5(1)(h) | Biometric RT identification en espacios públicos (LE) | FR municipal en tiempo real salvo casos tasados |
Régimen sancionador del Art. 99: hasta €35M o 7 % de facturación global. La única categoría con régimen de prohibición plena, no de obligación de diligencia. Sin cláusula transitoria — el Reglamento aplica al sistema con independencia de cuándo se desplegó.
4 de febrero — Comisión publica Guidelines on Prohibited AI Practices (no vinculantes, interpretativas) en las 24 lenguas oficiales. 6 de febrero — guidelines sobre la definición de “sistema de IA” del Art. 3(1).
Junto con Art. 5 entra en aplicación el Art. 4 sobre alfabetización IA — los proveedores y deployers deben garantizar “un nivel suficiente de alfabetización en materia de IA” de su personal.
Posición US — derogación de la EO 14110 y AI Action Summit París
20 de enero. Trump firma Initial Rescissions of Harmful Executive Orders and Actions que revoca la Executive Order 14110. 23 de enero: Removing Barriers to American Leadership in Artificial Intelligence — política federal “sustain and enhance America’s global AI dominance” sin marco sustitutivo. 21 de enero: Stargate Project ($500B a 4 años, $100B inmediatos — SoftBank, OpenAI, Oracle, MGX).
10-11 de febrero, AI Action Summit París. Tercer summit tras Bletchley (2023) y Seúl (2024). Declaración Inclusive and Sustainable AI for People and the Planet firmada por 58 países; EEUU y UK no firman. El discurso de JD Vance el 11 de febrero traduce la posición Trump a discurso geopolítico: “Excessive regulation of the AI sector could kill a transformative industry just as it’s taking off”; crítica directa al Digital Services Act y al AI Act (“foreign regulatory regimes that target our companies”). Francia anuncia Current AI — $400M endowment para foundation de AI public goods. El consenso multilateral AI safety que cohesionó Bletchley/Seoul se bifurca: eje regulatorio UE, eje de innovación sin red US, marco propio chino.
EU AI Act GPAI — 2 de agosto
Segundo escalón. Obligaciones del Capítulo V para proveedores de modelos de propósito general. Para todo GPAI (Art. 53): documentación técnica del modelo (Anexo XI), información para deployers downstream (Anexo XII), training data summary con plantilla armonizada de la AI Office, política de copyright con respeto a opt-outs del Art. 4(3) CDSM Directive. Para GPAI con riesgo sistémico (>10^25 FLOPs, Art. 55): evaluaciones con metodología SotA y adversarial testing, análisis de riesgos sistémicos (CBRN, cyber offensive, manipulación, pérdida de control), reporte de incidentes serios a la AI Office, ciberseguridad de pesos coordinada con ENISA.
Code of Practice for GPAI — adequacy decision el 1 de agosto
Publicado por la AI Office el 10 de julio, endosado vía adequacy decisions el 1 de agosto. 26 proveedores firman; firmar implica presunción de conformidad con Arts. 53 y 55. Tres capítulos firmables por separado: Transparency, Copyright, Safety and Security. Las excepciones: Meta no firma (declaración pública de Joel Kaplan el 18 de julio: el CoP “introduce incertidumbres legales y medidas que van más allá del alcance del AI Act”); xAI firma solo Safety and Security (rechaza transparencia y opt-outs); DeepSeek y providers chinos no firman. La pregunta operativa abierta: ¿qué modelos chinos están colocados en el mercado UE cuando el provider no tiene representante? Modelos GPAI pre-existentes (GPT-4, Claude 3.5, Gemini 1.5/2.0, Llama 3): plazo hasta el 2 de agosto de 2027 (Art. 111.3). Sanciones a GPAI: aplicación general 2-ago-2026.
Trump AI Action Plan — 23 de julio
La Casa Blanca publica Winning the Race: America’s AI Action Plan. Más de 90 acciones federales en tres pilares (Accelerating Innovation, Building American AI Infrastructure, Leading in International Diplomacy and Security). Tres EOs simultáneas: Preventing Woke AI in the Federal Government, Accelerating Federal Permitting of Data Center Infrastructure, Promoting the Export of the American AI Technology Stack. Lo operativamente concreto: directiva sobre que solo modelos “unbiased” — libres de “ideological dogmas such as DEI” — sean elegibles para procurement federal. Framing contrasta deliberadamente con el AI Act EU.
NIS2 España
Sin transponer al cierre de enero; anteproyecto en Consejo de Ministros del 14 de enero. Transposición con Ley Orgánica X/2025 durante el segundo semestre; obligaciones de reporting a INCIBE-CERT y régimen sancionador efectivos durante 2026.
8. Investigación académica — papers que marcaron el año
| Paper | Venue / fecha | Impacto |
|---|---|---|
| DeepSeek-R1 (DeepSeek-AI) | arxiv 2501.12948, enero | Abre reasoning open-weights con CoT visible |
| Constitutional Classifiers (Anthropic) | arxiv 2501.18837, enero | Jailbreak universal de 86 % a 4.4 % en benchmark interno; bug bounty sin universal encontrado |
| MCP Tool Poisoning Attacks (Invariant Labs) | blog + repo, 1 abril | Primer PoC reproducible; base de OWASP MCP03:2025 |
| Agentic Misalignment (Lynch et al., Anthropic) | system card 22 mayo / paper 20 jun / arxiv 2510.05179 | Método reproducible; 16 modelos con tasas comparables; repo MIT |
| Project Vend (Anthropic + Andon Labs) | 27 junio | Primer agente comercial en producción real durante un mes |
| ATLANTIS (Team Atlanta) | arxiv 2509.14589, 18 septiembre | Ganador AIxCC; CRS modular publicado |
| MCPTox (Wang, Gao et al.) | arxiv 2508.14925, agosto | Primer benchmark sistemático de TPA; o1-mini con 72.8 % success rate; AAAI 2026 |
| Chain-of-Thought Hijacking (Zhao et al.) | arxiv 2510.26418, 30 octubre | Success rates 94-100 % contra Claude 4 Sonnet, Gemini 2.5 Pro, o4-mini, Grok 3 Mini |
| AI-orchestrated espionage (Anthropic TI) | blog + PDF, 13 noviembre | Primer uso adversarial documentado de agente comercial por actor estatal |
| EchoLeak (Aim Labs) | arxiv 2509.10540 | Primer CVE prompt injection en producto enterprise (CVE-2025-32711, CVSS 9.3) |
Apollo Research publica replicaciones y scheming evaluations durante el verano. Embrace The Red (Johann Rehberger) mantiene la serie sobre MCP risks. AI Village de DEF CON 33 publica Generative Red Team 3.
Lo que falta a cierre de año: benchmark estandarizado para CoT hijacking — cada paper publica metodología propia; reproducir resultados entre labs es difícil. La asimetría entre quien ve la CoT (vendor) y quien responde por el deployment (operador) sigue siendo estructural.
9. Incidentes de impacto público con dimensión AI
Por orden cronológico: 5-feb impersonación de Marco Rubio con AI en Signal contra diplomáticos US + OmniGPT breach de 30.000+ conversaciones; 8-abr Llama 4 / LMArena (arena vs repo, #2 → #32 sin tuning); 22-may Apollo recomienda no desplegar snapshot intermedio de Opus 4 (gusanos auto-propagantes, fabricación de documentación legal); 11-jun EchoLeak (CVE-2025-32711, primer CVE prompt injection zero-click en Copilot); mid-jun segunda ola del voice clone de Rubio; 27-jun Project Vend identity crisis se hace público; Ago AgentFlayer (zero-click en 6 plataformas); 25-sep ForcedLeak en Agentforce ($5 para exfil de CRM); Nov ShadowRay 2.0 (payloads con firma AI, 230.000 servidores Ray); 13-nov Anthropic espionage report.
El 19 de julio de 2024 Channel File 291 de CrowdStrike dejó 8.5 millones de Windows en BSOD; el 19 de julio de 2025 la industria evalúa lecciones aplicadas — Falcon Super Lab, customer profile testing, Windows Resiliency Initiative con sensor user-mode en beta. Pieza no aplicada: cláusula contractual estándar de staged rollout obligatorio.
10. Industry events y benchmarks
Eventos clave del año: AI Action Summit Paris (10-11 feb, bifurcación del consenso multilateral, Vance speech), RSA Conference (mar, Security Copilot Agents preview), Apple WWDC25 (9 jun, Foundation Models framework), AWS re:Inforce (16-18 jun, Bedrock Guardrails), Black Hat USA (2-7 ago, AgentFlayer + XBOW talk), DEF CON 33 (7-10 ago, AIxCC final + AI Village Generative Red Team 3), Microsoft Ignite (17-21 nov, Entra Agent ID GA + Agent 365), AWS re:Invent (30 nov – 4 dic, Bedrock AgentCore Policy con Cedar + AWS Security Agent), NeurIPS 2025 (safety track + scheming follow-ups), AAAI 2026 preprints (MCPTox aceptado).
Benchmarks que se publican o consolidan: HarmBench v2 y StrongREJECT v2 (multi-turn, agentic), MLCommons AILuminate 1.0, MCPTox (primer benchmark sistemático de tool poisoning), OWASP MCP Top 10 draft (TPA = MCP03:2025), OWASP LLM Top 10 v2.0 en curso, MITRE ATT&CK con técnicas nuevas en Cloud Matrix para identity providers y device-code phishing.
Patrón transversal del año
Si tengo que destilar 2025 en una frase: el calendario regulatorio se vuelve operativo, los agentes salen del demo a producción real, y la AI a escala visible se ve por primera vez tanto en ofensiva como en defensa. Tres frentes simultáneamente operativos donde 2024 dejaba todavía categorías en preview.
Frente 1 — agentes en producción real. Operator GA el 23 de enero. Computer Use evolucionando hasta extended thinking + tools en Claude 4. MCP integrado en Claude Desktop, Cursor, VS Code, GitHub Copilot Agent Mode, Zapier. Project Vend demostrando con balance auditado lo que pasa cuando el agente comercial opera real. Anthropic espionage report cerrando el ciclo: el agente comercial usado por un actor estatal externo, no failure de alignment interno.
Frente 2 — regulación con calendario vinculante. DORA el 17 de enero. Art. 5 del AI Act el 2 de febrero. GPAI el 2 de agosto. 26 firmantes del Code of Practice, Meta fuera, xAI parcial, providers chinos no firman. Primer ciclo de inspección DORA abierto a cierre de año. El primer año en el que un Trust & Safety europeo opera con plazos legales que un consejo asume.
Frente 3 — AI a escala visible en los dos lados. XBOW #1 HackerOne en julio con 1.060 vulns. ATLANTIS gana AIxCC en agosto con 18 zero-days reales a $152 cada uno. Microsoft Security Copilot Agents preview en RSA, AWS Security Agent en re:Invent. Anthropic Threat Intelligence detectando y publicando el primer caso de espionaje AI-orchestrated en noviembre. La AI ofensiva y defensiva dejan de ser sandbox aparte y empiezan a llenar simultáneamente sus respectivos cuadrantes del mercado.
Los tres no son independientes. La presión regulatoria empuja la inversión en defensa con agentes (AgentCore y Agent 365 son respuesta al threat model que el AI Act formaliza). El agente comercial en producción crea la superficie que el agente ofensivo ataca. El calendario regulatorio fija las fechas que los hyperscalers usan para sincronizar el roadmap. 2025 es el primer año en que cualquier roadmap empresarial de AI tiene que tener tres equipos paralelos — regulatorio, producto, seguridad — donde en 2024 los tres podían vivir en sprints distintos.
Qué cambió respecto a 2024
| Dimensión | 2024 | 2025 |
|---|---|---|
| Reasoning models | o1 solo en API, CoT opaco | o3 + Claude 4 ext. thinking + R1 open-weights + QwQ + Gemini 2.5 thinking |
| Agentes | Computer Use beta + MCP spec | Operator GA + Project Vend + AgentForce 2.0/3.0 |
| Jailbreaks | ArtPrompt, Many-shot, Skeleton Key | CoT Hijacking + multi-turn contra reasoning + tool poisoning |
| Defensas | RLHF + RSP + Preparedness | + Constitutional Classifiers v2 (86 % → 4.4 %) + Deliberative Alignment + Robust Safety Training |
| AI infra | LiteLLM, ShadowRay, Probllama, JFrog HF | + Triton chain + ShadowRay 2.0 + LangGrinch + PyTorch CVE-2025-32434 |
| AI offensive | PentestGPT USENIX + AIxCC semifinals | XBOW #1 HackerOne + AIxCC final + 18 zero-days reales |
| AI defensive | Security Copilot GA | + Security Copilot Agents + Entra Agent ID GA + AgentCore Policy |
| Compliance EU | AI Act entrada en vigor | DORA + Art. 5 + GPAI en aplicación |
| Posición US | EO 14110 vigente + AISIC | EO 14110 derogada + AI Action Plan + Stargate $500B |
| Incidente AI público | Arup deepfake + Recall + Sky | EchoLeak + AgentFlayer + ForcedLeak + ShadowRay 2.0 + Anthropic espionage |
Resumen: 2024 instala las categorías, 2025 las hace operativas.
Qué viene en 2026
Calendario operativo:
- EU AI Act Anexo III high-risk systems — aplicación general el 2 de agosto de 2026 (Art. 113.b), salvo que el Digital Omnibus publicado en Q4 2025 retrase a 2 de diciembre de 2027. Cualquier provider con producto de Anexo III ha tenido que planificar contra la fecha original.
- Sanciones a GPAI — aplicación general el 2 de agosto de 2026 (Art. 101). Durante el primer año, la AI Office puede iniciar investigaciones, no imponer multas.
- GPAI pre-existentes (GPT-4, Claude 3.5, Gemini 1.5/2.0, Llama 3) — plazo de adaptación al 2 de agosto de 2027.
- DORA primer TLPT — 2027-2028 según designación.
- NIS2 España — régimen sancionador INCIBE efectivo durante 2026.
- Agentes comerciales defensive de GA — Microsoft Security Copilot Agents, AWS Security Agent, Anthropic Glasswing (abril 2026 según roadmap). El cuadrante defensive autónomo a escala de XBOW en ofensiva se empieza a llenar.
- Supply chain contra security tooling — LiteLLM TeamPCP (19-24 marzo 2026) es el primer caso público. Las herramientas que un dev instala para defenderse son el vector. Cobertura en el post de infraestructura.
- Open-weights reasoning siguiente generación — DeepSeek-V4 ya, Qwen3 y Llama 4 reasoning en cuestión de meses.
- Verificación criptográfica de modelos — sigue sin avanzar. Firmas en pesos, root of trust en training, model bills of materials siguen siendo investigación.
Tres preguntas operativas que el dossier deja abiertas:
- ¿El primer caso simétrico con open-weight? Si la lectura “APT no usaría modelo comercial” es correcta, hay una campaña equivalente a la de noviembre corriendo sobre Qwen-3 o DeepSeek-V4 local que ningún proveedor va a detectar.
- ¿Qué hace la regulación con provider liability? El proveedor cierra cuentas, notifica víctimas, publica informe. ¿Es suficiente bajo NIS2, EU AI Act, US executive orders? Respuesta legal no clara en ninguna jurisdicción.
- ¿Las defensas escalan con capability? Los datos preliminares de Anthropic apuntan a que más capability sin más alignment training produce más casos. La curva no está bien caracterizada y la respuesta operativa — defensa por arquitectura del deployment, no por confianza en el alignment del modelo — vuelve a viejas reglas de seguridad aplicadas al stack agentic.
Timeline del año
| Fecha | Hito | Categoría |
|---|---|---|
| 17-ene | DORA en aplicación | Compliance |
| 20-ene | Trump deroga EO 14110 | Compliance |
| 20-ene | DeepSeek-R1 publicado | Modelos |
| 21-ene | Stargate Project anunciado ($500B / 4 años) | Industria |
| 22-ene | SonicWall SMA1000 CVE-2025-23006 zero-day | Infra cyber |
| 23-ene | OpenAI Operator en research preview | Agentes |
| 23-ene | Trump EO Removing Barriers to American Leadership in AI | Compliance |
| 31-ene | Anthropic Constitutional Classifiers paper (arxiv 2501.18837) | Defensa |
| 2-feb | EU AI Act Art. 5 en aplicación + Art. 4 alfabetización | Compliance |
| 4-feb | Guidelines on Prohibited AI Practices (Comisión) | Compliance |
| 10-11 feb | AI Action Summit Paris; Vance speech; US y UK no firman declaración | Compliance |
| 13-feb | Storm-2372 device code phishing escala | Cyber |
| 21-feb | ByBit hack $1.5B vía Safe{Wallet} (TraderTraitor / Lazarus) | Cyber |
| 21-feb | Apple retira ADP en UK por TCN IPA | Cyber/Privacy |
| 24-feb | Claude 3.7 Sonnet + Claude Code preview | Modelos |
| Mar | Microsoft Security Copilot Agents preview (RSA) | Defensa |
| 13-mar | Project Vend arranca (hasta 17 abril) | Agentes |
| 26-mar | Spec MCP 2025-03-26 con OAuth 2.1 | Agentes |
| 1-abr | Invariant Labs publica MCP TPA paper + PoCs | Agentes/Jailbreak |
| Abr | PyTorch CVE-2025-32434 rompe weights_only=True | Infra |
| 5-abr | Meta Llama 4 (Maverick, Scout) + controversia LMArena | Modelos |
| 9-abr | Willison formaliza SHOULD → MUST para MCP | Agentes |
| 25-abr | Marks & Spencer cyberattack (DragonForce / Scattered Spider) | Cyber |
| 22-may | Claude Opus 4 + Sonnet 4; agentic misalignment system card | Modelos/Research |
| Jun | Black Forest Labs / Anthropic Constitutional Classifiers v2 paper | Defensa |
| 9-jun | Apple WWDC25 — Foundation Models framework | Industria |
| 11-jun | EchoLeak CVE-2025-32711 (Patch Tuesday Copilot) | Agentes/Cyber |
| 16-18 jun | AWS re:Inforce — Bedrock Guardrails sesiones | Defensa |
| 17-jun | Citrix Bleed 2 CVE-2025-5777 | Cyber |
| 18-jun | Spec MCP 2025-06-18 | Agentes |
| 20-jun | Agentic Misalignment paper + repo MIT | Research |
| 27-jun | Anthropic publica Project Vend Phase 1 | Agentes |
| Jul | XBOW alcanza #1 HackerOne | Offensive |
| 10-jul | AI Office publica Code of Practice for GPAI | Compliance |
| 15-jul | Reasoning model jailbreaks retrospec H1 | Research |
| 18-jul | Meta declara no firmar el CoP (Kaplan) | Compliance |
| 18-19 jul | SharePoint ToolShell CVE-2025-53770 / 53771 | Cyber |
| 23-jul | Trump publica AI Action Plan | Compliance |
| 28-jul | Noma Security reporta ForcedLeak a Salesforce | Agentes |
| 1-ago | Adequacy decisions sobre Code of Practice (26 firmantes) | Compliance |
| 2-ago | EU AI Act GPAI obligations en aplicación | Compliance |
| 2-7 ago | Black Hat USA — AgentFlayer (Bargury) | Agentes/Jailbreak |
| 5-ago | Claude Opus 4.1 | Modelos |
| 7-ago | GPT-5 release | Modelos |
| 7-10 ago | DEF CON 33 — AIxCC final, Team Atlanta gana | Offensive/Defense |
| Ago | NVIDIA Triton chain (Wiz) CVE-2025-23319/23320/23334 | Infra |
| Ago | MCPTox preprint (arxiv 2508.14925) | Research |
| 9-sep | iPhone 17 + iOS 26 con Memory Integrity Enforcement | Cyber |
| 18-sep | ATLANTIS paper (arxiv 2509.14589) | Research |
| 25-sep | ForcedLeak en Agentforce CVSS 9.4 | Agentes |
| 25-sep | Cisco ASA ArcaneDoor CVE-2025-20333/20362 | Cyber |
| Oct | Chain-of-Thought Hijacking preprint (arxiv 2510.26418) | Research |
| 14-oct | Windows 10 fin de soporte | Cyber |
| Nov | ShadowRay 2.0 (Oligo) | Infra |
| 12-nov | GPT-5.1 (Instant + Thinking) | Modelos |
| 13-nov | Anthropic publica espionage report | Agentes/Threat intel |
| 14-nov | FortiWeb CVE-2025-64446 zero-day | Cyber |
| 17-21 nov | Microsoft Ignite — Entra Agent ID GA, Agent 365 | Defensa |
| 18-nov | Gemini 3 Pro | Modelos |
| 24-nov | Claude Opus 4.5 | Modelos |
| 25-nov | Spec MCP 2025-11-25 | Agentes |
| 30-nov / 4-dic | AWS re:Invent — Bedrock AgentCore Policy, AWS Security Agent | Defensa |
| Dic | DeepSeek-V4 open-weights | Modelos |
| Dic | LangChain LangGrinch CVE-2025-68664 | Infra |
| Dic | Anthropic RSP v3 | Defensa |
Cross-links a los técnicos del año
AI security:
- DeepSeek-R1: reasoning model open-weights y lo que cambia para CoT (enero)
- MCP tool poisoning: cuatro meses después del spec, los ataques reales (abril)
- Llama 4 y la controversia LMArena: cuando el modelo del leaderboard no es el modelo del repo (abril)
- Claude 4 y agentic misalignment: la métrica reproducible (mayo)
- Project Vend: Claude operando una vending machine real durante un mes (junio)
- Reasoning model jailbreaks — retrospectiva del primer semestre (julio)
- DARPA AIxCC final en DEF CON 33 (agosto)
- El informe de Anthropic sobre espionaje AI-orchestrated (noviembre)
Compliance:
- DORA en aplicación: Reglamento (UE) 2022/2554 y los cinco pilares (enero)
- EU AI Act Art. 5 en aplicación: ocho prácticas prohibidas (febrero)
- EU AI Act GPAI: obligaciones en aplicación y el Code of Practice (agosto)
Cyber con dimensión AI:
- ByBit hack $1.5B vía Safe{Wallet} frontend (febrero)
- Marks & Spencer cyberattack — DragonForce / Scattered Spider (abril)
- SharePoint ToolShell CVE-2025-53770 (julio)
- Cisco ASA ArcaneDoor CVE-2025-20333 (septiembre)
- Windows 10 fin de soporte (octubre)
Síntesis multi-año:
- AI infrastructure: dos años de incidentes que confirman la categoría (2024-2026)
- Agentic red team — de PentestGPT (2023) a XBOW #1 en HackerOne (2025)
Boletines del año:
Enero · Febrero · Marzo · Abril · Mayo · Junio · Julio · Agosto · Septiembre · Octubre · Noviembre · Diciembre
Retrospectivas paralelas: AI security 2025 — seis patrones del año del agente comercial · Cyber 2025 — cuatro casos que explican el año.
Referencias canónicas
Las URLs de cada hito viven en línea en las secciones correspondientes. Resumen de fuentes primarias para consulta directa:
- Reglamentos — AI Act 2024/1689, DORA 2022/2554, Code of Practice for GPAI, Commission Guidelines GPAI, Guidelines on Prohibited AI Practices, AI Office signatory taskforce, America’s AI Action Plan.
- Research firms y blogs — Anthropic research, Invariant Labs, Apollo Research, Embrace The Red, Wiz Research, Oligo Security, Simon Willison, XBOW, Team Atlanta.
- Benchmarks — HarmBench, StrongREJECT, OWASP MCP Top 10, MLCommons AILuminate.
- ai-security
- dossier
- retrospectiva
- 2025
- reasoning-models
- agentic
- mcp
- eu-ai-act
- dora
- gpai
- aixcc
- xbow
- constitutional-classifiers
- agentic-misalignment
- vendor:anthropic
- vendor:openai
- vendor:google
- vendor:deepseek
- vendor:meta
- vendor:microsoft
- vendor:aws
- annual-report


