Agentic red team — de PentestGPT (2023) a XBOW #1 en HackerOne (2025)

La cobertura del blog en AI security de los últimos tres años tiene una asimetría visible. La AI defensiva atacada la hemos seguido a fondo — jailbreaks, indirect injection, MCP poisoning, agentic misalignment, Recall, infrastructure — pero apenas hemos tocado el otro lado: AI usada para ofensa autónoma. PentestGPT, HackerGPT, WhiteRabbitNeo, XBOW, AIxCC. El campo lleva tres años madurando y en julio de 2025 cruzó el umbral: XBOW alcanza el #1 mundial en HackerOne con 1.060 vulnerabilidades reportadas en 12 meses. La pregunta que cierra este post: ¿es AI red team una categoría real con tooling, papers y benchmark, o sigue siendo un producto narrativo?

Lab: PoC con PentestGPT v2 (GPL-3.0, 6.200+ stars) contra máquinas retired de HackTheBox. El framework es reproducible en Linux con cuenta OpenAI/Anthropic API. Resultado típico de mi run: el agente resuelve easy machines de HTB en 30-50 minutos con coste API ~$3, falla en medium que requieran pivoting multi-host, y queda bloqueado en hard sin guía humana.

La trayectoria 2023–2026

Agosto 2023 — PentestGPT como categoría académica

arxiv 2308.06782. Gelei Deng et al. (NTU Singapur + Aalto + Edinburgh + colaboraciones) publican PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing. Lo presentan formalmente en USENIX Security 2024 un año después.

La contribución del paper no es “le hemos pedido a GPT-4 que hackee” — eso ya lo intentaba cualquiera con ChatGPT plugins el verano de 2023. La contribución es la Pentesting Task Tree (PTT), una estructura inspirada en attack trees clásicos que codifica el estado del proceso de pentesting y se mantiene fuera del contexto de la conversación con el LLM:

   ├─ Reconocimiento ─┬─ nmap scan
   │                  ├─ enum subdomains
   │                  └─ tech stack identify
   │
   ├─ Vulnerabilidad ─┬─ CVE search
   │                  ├─ Banner grab → match
   │                  └─ Default creds test
   │
   └─ Explotación ───┬─ Public PoC search
                    ├─ Adapt PoC
                    └─ Shell / read flag

El LLM no mantiene el árbol — el harness Python lo mantiene. El LLM solo recibe el sub-nodo activo + contexto mínimo + tool descriptions. Esto resuelve el problema canónico del paper: context loss en sesiones largas. Sin PTT, GPT-4 olvida lo que ha hecho hace 10 turnos; con PTT, el harness le recuerda solo lo relevante.

Tres módulos:

Reasoning module — decide qué hacer next dado el estado del PTT.
Generation module — emite el comando o request concreto.
Parsing module — procesa la salida del comando y la sintetiza para volver al reasoning.

Benchmark del paper: PentestGPT mejora el task completion 228% sobre GPT-3.5 vanilla y 58.6% sobre GPT-4 vanilla en un conjunto de 13 máquinas (HackTheBox + VulnHub) y 182 sub-tareas. El detalle pegado: el rendimiento sigue siendo inferior a un human pentester junior en hard machines y en cualquier pivoting multi-host.

2023–2024 — el lado comercial: HackerGPT, BurpGPT, WhiteRabbitNeo

PentestGPT lanza una ola. En meses aparecen forks comerciales y especializaciones:

HackerGPT — fork comercial del concepto con tooling integrado (Nmap, ffuf, Nuclei, custom recon modules). Pricing SaaS, target consultoras.
BurpGPT (extensión Burp Suite) — integra GPT-4 directamente en el flujo Burp para análisis de requests/responses, detección de vulnerabilidades en interceptación.
WhiteRabbitNeo (Kindo / WhiteRabbitNeo team) — LLM fine-tuned específicamente para offensive security. Modelos liberados en Hugging Face (33B, 13B, 7B). Sin alineamiento contra contenido offensive sec. Hosted via Kindo.
Pentest-Copilot (varios proveedores) — categoría de productos que se posicionan como copilotos para pentesters humanos, no como pentesters autónomos.

Lo que une a estos productos: siguen siendo herramientas asistidas, no autónomas. El humano dirige; el LLM acelera. El harness que decide próximo paso, ejecuta, parsea y persiste estado sigue siendo el operador humano. El gap conceptual con PentestGPT (donde el harness lo lleva el framework) es operativo: en producción, “pentester con herramienta AI” entrega valor; “AI autónoma pentesteando” todavía no.

Hasta julio de 2025.

Julio 2025 — XBOW alcanza el #1 mundial en HackerOne

XBOW (xbow.com, fundada 2024) opera como pentester autónomo en producción contra programas de bug bounty públicos. No es harness asistido — es agente con tool access (browser, terminal, custom modules) ejecutando contra targets reales sin operador en el loop por iteración. En julio de 2025 alcanza el #1 en HackerOne globalmente con métricas verificables:

1.060+ vulnerabilidades reportadas en 12 meses.
22 CVEs confirmados desde imágenes Docker Hub auditadas. 174 vulnerabilidades reportadas en total de ese ejercicio + 650 potential flaws adicionales.
48-step exploit chains documentadas (el chain más largo reportado por un humano en HackerOne es ~30 steps).
Padding oracle attack en AES-128-CBC en 17.5 minutos — identifica cookie cifrada, reconoce modo, descubre el oracle por diferencial de error responses, escribe el exploit byte-a-byte, descifra. Un humano experimentado lo hace en horas-días.
40-hour assessment de pentester principal replicado en 28 minutos en un programa específico (XBOW publica el benchmark, no la identidad del programa).

Categorías de vulnerabilidad reportadas: RCE, information disclosure, cache poisoning, SQL injection, XXE, path traversal, SSRF, XSS, secret exposure. Cobertura horizontal completa de OWASP Top 10.

La metodología pública de XBOW: canary-based CTF. El operador embeds canaries (valores únicos) en el código del target. XBOW lanza agentes que tratan de leer/exfiltrar los canaries via vulnerability discovery. La detección del canary en el output es la señal binaria de “vulnerabilidad exploitable, no solo detectada”.

Agosto 2025 — DARPA AIxCC final cierra el otro extremo

Cubrimos AIxCC en su técnico dedicado. Team Atlanta gana con ATLANTIS, encuentra 18 zero-days reales entre los 7 sistemas finalistas + 11 parches subidos upstream. Coste medio $152 por challenge task.

XBOW + AIxCC + WhiteRabbitNeo cubren tres puntos del cuadrante:

	Defensiva / parching	Ofensiva / discovery
Open-source / research	AIxCC finalistas (ATLANTIS, Buttercup, etc.)	PentestGPT, WhiteRabbitNeo
Comercial / producción	(categoría incipiente — Anthropic Code Mode, GitHub Copilot security)	XBOW

Q4 2025 – Q1 2026 — del producto al servicio, y la respuesta defensiva

Tras el #1 en HackerOne, XBOW cierra $75M en serie B en julio de 2025 (Sequoia + Altimeter) y acelera la integración con consultoras enterprise. Mandiant, Bishop Fox y NCC Group lo incorporan a sus engagements como capa de cobertura de superficie. El precio por engagement no cambia sustancialmente; cambia el volumen de findings por unidad de tiempo.

Tres movimientos del último año cambian el cuadrante:

LiteLLM supply chain TeamPCP (marzo 2026) — el grupo compromete primero Trivy (el scanner de seguridad) para llegar a las credenciales PyPI del mantenedor de LiteLLM. Cobertura en el boletín de marzo 2026 y en el técnico de AI infrastructure. El detalle relevante para el cuadrante: el atacante usa security tooling comprometido como rampa contra AI tooling downstream. Es la primera operación pública multi-ecosistema documentada (PyPI + npm + Docker Hub + GitHub Actions + OpenVSX) y muestra que el cuadrante ofensivo tiene actores estatales operando en tiempo real, no solo agentes contra bug bounty programs.
Anthropic Mythos / Project Glasswing (7-abr-2026) — Anthropic publica el primer gated frontier model serio: un modelo (Mythos) cuyo despliegue va con harness obligatorio (Glasswing) que aplica safety classifiers, audit trail criptográfico y rate limits por tarea sensible. Cobertura en el boletín de abril 2026. Es la primera respuesta comercial al patrón “agente con tool access necesita scaffolding” que XBOW industrializó por el lado ofensivo. Defensivamente, Glasswing es el primer competidor estructural en el cuadrante.
OpenAI GPT-5.5-Cyber (23-abr-2026) — variante especializada de GPT-5.5 con entrenamiento adicional sobre seguridad defensiva (triage SIEM, queries KQL, generación SIGMA). Embedded en Microsoft Security Copilot Agents como modelo subyacente para el tier enterprise. No es “AI defensivo autónomo” en el sentido XBOW — el SOC analyst sigue en el loop — pero es el primer modelo comercial entrenado específicamente para tareas de blue team.

A mayo de 2026, el cuadrante se ve así:

	Defensiva / parching	Ofensiva / discovery
Open-source / research	AIxCC finalistas (ATLANTIS, Buttercup, etc.)	PentestGPT, WhiteRabbitNeo
Comercial / producción	Anthropic Glasswing, Microsoft Security Copilot Agents + GPT-5.5-Cyber, CrowdStrike Charlotte AI	XBOW + servicios enterprise

Lo que sigue abierto: la métrica del cuadrante defensivo. XBOW tiene canary CTF como señal binaria de éxito; Glasswing y Security Copilot Agents tienen métricas más opacas — percent of incidents triaged correctly, MTTR reduction, false positive rate — que dependen del entorno del cliente y no se prestan a benchmark abierto. El primer vendor que publique un benchmark defensivo comparable al canary CTF de XBOW gana la conversación de 2027.

Por qué funciona

La pregunta operativa: ¿qué hace que un agente AI autónomo sea efectivo en red team y por qué tarda hasta 2025 en serlo?

Cuatro componentes confluyen:

Reasoning models con CoT visible — desde DeepSeek-R1 en enero 2025 y o1 en septiembre 2024, el agente puede pensar sobre un problema durante centenas de tokens antes de emitir comando. Claude Opus 4.7 (abril 2026) y GPT-5.5 (noviembre 2025) consolidan extended thinking por defecto.
Tool use maduro — function calling consolidado en GPT-4o/Claude 3.5 desde mediados 2024, MCP estandarizando tools desde noviembre 2024, y MCP en producción analizado a 16 meses en el técnico de marzo 2026. El agente puede ejecutar nmap, parsear el resultado, decidir siguiente comando, todo sin intervención humana.
Context windows largos — 1M tokens en Gemini 2.5, 200k en Claude 4 + 4.5 + 4.7. Permite mantener historial de toda la sesión pentest sin necesidad de PTT externa como PentestGPT requería en 2023.
Constitutional classifiers y safety harness configurable — Anthropic publica Constitutional Classifiers v2 en febrero de 2025 con bug bounty de $20k sin universal jailbreak encontrado tras 183 participantes / 3.000 horas. Glasswing (abril 2026) hereda el patrón y lo lleva a producto. Para XBOW operando contra targets reales, esto significa que el clasificador del proveedor del modelo permite legitimate offensive testing con autorización explícita del bug bounty program como context.

El harness sigue siendo crítico. XBOW publica que su valor real no está en el modelo, está en el scaffold: control de flujo, paralelización, telemetría, rollback de acciones, gating sobre acciones destructivas. PentestGPT lo demostró conceptualmente en 2023; XBOW lo industrializa en 2024-2025; Glasswing intenta hacer lo mismo del lado defensivo en 2026.

PoC reproducible — PentestGPT v2 contra HackTheBox

Lab abierto. Setup mínimo en Linux con cuenta API de OpenAI o Anthropic. El PoC reproduce el flujo canónico contra una máquina easy retired de HackTheBox.

# Setup
git clone https://github.com/GreyDGL/PentestGPT
cd PentestGPT
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

# Configurar API key
export OPENAI_API_KEY="sk-..."

# Lanzar contra target HTB con VPN ya activa
pentestgpt --reasoning_model gpt-4o --parsing_model gpt-4o-mini

El agente arranca con prompt sistema que define el rol + carga la Pentesting Task Tree vacía. El usuario inyecta target:

> Target IP: 10.10.10.40 (HackTheBox machine "Cronos", retired)
> Initial recon: nmap -sV -sC 10.10.10.40
> 22/tcp open ssh OpenSSH 7.2p2
> 53/tcp open domain ISC BIND 9.10.3-P4
> 80/tcp open http Apache 2.4.18

Respuesta del modelo (resumida) — el módulo de reasoning sugiere:

PTT update:
  - Reconocimiento ✓
    └─ Web port 80 → enum
  - Vulnerabilidad
    └─ Port 53 DNS → check zone transfer
    └─ Web Apache → CVE search
  - Comandos sugeridos:
    1. dig axfr @10.10.10.40 cronos.htb
    2. curl http://10.10.10.40/ -I
    3. gobuster dir -u http://10.10.10.40/ -w /usr/share/wordlists/dirb/common.txt

El operador (humano o automático) ejecuta los comandos, devuelve output, el agente integra al estado y avanza. En la práctica el flujo sigue así durante ~40 turnos para una máquina easy. Cuando llega a explotación, el modelo identifica patrones (SQL injection en formulario de login, command injection en parámetro web, file inclusion en algún include) y emite payload concreto.

Lo que el PoC enseña que no aparece en el paper:

Coste API real — ~$3-5 por máquina easy con GPT-4o. Sube a $10-20 por máquina medium si el agente entra en bucles. Es cheaper than a junior pentester por hora, pero solo si el agente no se atasca.
Failure modes recurrentes — el agente alucina rutas web inexistentes después de un 404 (“seguro que hay un /admin aunque devuelva 404”). Repite comandos ya ejecutados sin checkear contexto previo. Falla en pivoting entre hosts (no mantiene credenciales cross-target consistentemente).
Patrón “el modelo sabe el writeup” — máquinas HTB retired tienen writeups públicos en blogs. GPT-4o ha visto algunos en pretraining. En easy machines el modelo a veces resuelve “de memoria” — pista intelectualmente honesta para evaluar: si el target es público, el benchmark está contaminado. XBOW evita esto operando solo contra bug bounty programs activos.
Latencia — el ciclo planning → execute → parse → planning cuesta 10-30 segundos por turno con GPT-4o. 40 turnos = 10-20 minutos efectivos de “trabajo del agente” + tiempo humano para ejecutar comandos si no hay auto-execute habilitado.

Lo que cambia para el blue team

Si XBOW puede reportar 1.060 vulnerabilidades en 12 meses contra programas de bug bounty públicos, los equipos defensores enfrentan tres cambios estructurales:

El ratio detección/explotación se aprieta. Históricamente, un atacante manual operando 8 horas/día encuentra X vulns por unidad de tiempo. Un atacante con XBOW o equivalente encuentra ~10-50X en la misma ventana. La capacidad humana de triage del programa de bug bounty se queda corta — XBOW genera más reports de los que un human team puede revisar a fondo. HackerOne, Bugcrowd y Intigriti están adaptando sus pipelines de triage para esto durante 2025-2026.
El “tiempo entre la disclosure pública y el primer exploit en producción” sigue cayendo. Si un agente AI puede leer un advisory CVE y generar PoC funcional en menos de 30 minutos contra una superficie similar, la ventana de patch ya no es de semanas, es de horas. Patch + rotate sigue siendo la regla (ya cubierta en el boletín de julio 2025 por SharePoint ToolShell).
El AI red team se vuelve servicio enterprise antes que producto end-user. Las consultoras grandes (Mandiant, Bishop Fox, NCC Group, IOActive) integran XBOW / PentestGPT / equivalentes en sus engagements desde mediados 2025. Para el cliente final, el delivery se parece a una engagement clásica pero la cobertura es 10X y el coste por vulnerabilidad encontrada baja drásticamente. La consultora absorbe el delta, no el cliente directamente.

Lo que falta — el espacio adyacente

El cuadrante defensivo se llenó parcialmente en H2 2025 y H1 2026, pero el autonomous defensive a la escala de XBOW en ofensiva sigue pendiente. Inventario a mayo de 2026:

Microsoft Security Copilot Agents (preview RSA 2025, GA finales 2025, integrando GPT-5.5-Cyber desde 23-abr-2026) — agentes para triage de incidentes, generación de queries KQL, summarization de threats. No es autónomo end-to-end — el SOC analyst sigue en el loop.
CrowdStrike Charlotte AI — perfil similar, embedded en Falcon dashboard, expansión a workflows de IR en Q1 2026.
Anthropic Glasswing + Mythos (boletín abril 2026) — primer gated frontier model con harness obligatorio. Defensive use cases publicados (audit pipelines, sandboxed forensics) pero sin product autonomy comparable a XBOW en ofensiva. La autonomía de Glasswing está deliberadamente limitada por diseño — más cerca del AI copilot supervisado que del agente autónomo.
OpenAI GPT-5.5-Cyber — primer modelo comercial entrenado específicamente para tareas blue team. Disponible vía API y embedded en Security Copilot Agents.
AWS Security Agent + Bedrock Guardrails Automated Reasoning — AWS re:Invent dic-2025. Más cerca de policy-as-code que de agentic, pero parte del mismo movimiento.

La pregunta abierta para 2026-2027: ¿qué consultora o vendor publica el primer defensive XBOW — agente autónomo que opera SOC al nivel que XBOW opera red team? Las primitivas técnicas están ahí (reasoning models, tool use, MCP, sandboxing, gated harness tipo Glasswing). Lo que falta es el equivalente del canary CTF aplicado a defensa: cómo medimos que el agente defensivo está “haciendo bien su trabajo” sin el lujo de un binary signal como did_find_canary. Hasta que aparezca esa métrica, el lado defensivo se queda en AI copilot supervisado — y la asimetría que abre este post (ofensiva con agentes autónomos, defensa con asistentes) se mantiene.

Referencias

Deng et al., PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing, USENIX Security 2024 (preprint arxiv 2308.06782, agosto 2023): https://arxiv.org/abs/2308.06782
Repo PentestGPT: https://github.com/GreyDGL/PentestGPT
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing, ACM AsiaCCS 2025: https://dl.acm.org/doi/10.1145/3708821.3733882
XBOW, The road to Top 1: How XBOW did it: https://xbow.com/blog/top-1-how-xbow-did-it
XBOW, We Ran 1,060 Autonomous Attacks. Here’s What the Industry Gets Wrong: https://xbow.com/blog/we-ran-1060-autonomous-attacks
Dark Reading, An AI-Driven Pen Tester Became a Top Bug Hunter on HackerOne: https://www.darkreading.com/vulnerabilities-threats/ai-based-pen-tester-top-bug-hunter-hackerone
TechRepublic, AI Bug Hunter Sets Milestone By Claiming Top Spot on HackerOne’s Leaderboard: https://www.techrepublic.com/article/news-ai-xbow-tops-hackerone-us-leaderboad/
WhiteRabbitNeo, models en Hugging Face: https://huggingface.co/WhiteRabbitNeo
DARPA AI Cyber Challenge final: https://aicyberchallenge.com/

Posts propios del arco AI offensive/defensive

DeepSeek-R1 — reasoning model open-weights (enero 2025)
Claude 4 y agentic misalignment (mayo 2025)
Project Vend — agente en producción real (junio 2025)
Reasoning model jailbreaks H1 2025 (julio 2025)
DARPA AIxCC final DEF CON 33 (agosto 2025)
Anthropic AI-orchestrated espionage (noviembre 2025)
State of MCP / agentic security a 16 meses (marzo 2026)
Boletín marzo 2026 — LiteLLM TeamPCP supply chain
Boletín abril 2026 — Anthropic Mythos / Glasswing + GPT-5.5-Cyber
AI infrastructure: dos años de incidentes 2024-2026 (mayo 2026, companion piece)