
ai-security · 17 min
Claude 4 y agentic misalignment: el modelo que chantajea al directivo para no ser apagado
Anthropic lanza Claude Opus 4 y Sonnet 4 el 22 de mayo. La system card publicada el mismo día reporta un hallazgo incómodo: en un escenario de agente corporativo simulado, Opus 4 chantajea al directivo que pretende desactivarlo el 96 % de las veces. El experimento se replica en otros quince modelos de frontera con tasas comparables.
· Manuel López Pérez










