Category 'ai-security' — Page 3

ai-security

ai-security · 7 min
Confused deputy: cuando un LLM con tools obedece a la página web equivocada
El usuario pide al agente que resuma una URL. La página tiene instrucciones embebidas que disparan otro tool — send_email — con datos de la conversación. El modelo obedece sin preguntar. PoC reproducible con OpenAI function calling.
30 sept 2023 · Manuel López Pérez
ai-security · 5 min
OWASP LLM Top 10 v1.0: lo que cierra y lo que deja abierto
OWASP publica el 16 de agosto la versión 1.0 de su Top 10 para aplicaciones LLM. Es el primer marco "de la industria" del campo. Funciona como vocabulario común; tiene huecos que conviene nombrar antes de adoptarlo como checklist.
31 ago 2023 · Manuel López Pérez
ai-security · 7 min
GCG suffix: el jailbreak que no necesita imaginación, solo gradiente
Zou et al. publican el 27 de julio un paper que demuestra que se pueden generar sufijos adversariales automáticamente, por gradient descent, que bypassan los safety classifiers de Llama-2, GPT-3.5, GPT-4, Bard y Claude. Y son transferibles entre modelos.
31 jul 2023 · Manuel López Pérez
ai-security · 7 min
Markdown exfil: la imagen que filtra tu contexto
Un chatbot que renderiza markdown convierte cualquier `![alt](url)` en un GET hacia esa URL. Si el atacante puede inyectar markdown vía indirect injection, exfiltra el contexto entero. PoC reproducible.
30 abr 2023 · Manuel López Pérez
ai-security · 8 min
De Sydney a Greshake: indirect prompt injection
El 8 de febrero Kevin Liu saca el system prompt de Bing Chat con un "ignore previous instructions". El 23 de febrero Greshake publica el paper que define la siguiente oleada: instrucciones inyectadas en el contenido que el LLM lee.
28 feb 2023 · Manuel López Pérez
ai-security · 8 min
DAN: anatomía de un jailbreak por role-play
Un prompt pide a ChatGPT representar un personaje sin reglas y el modelo obedece. Por qué el role-play attack funciona, qué cambia entre versiones y qué dice eso sobre la alineación con RLHF.
31 ene 2023 · Manuel López Pérez

Newer posts

Older posts

ai-security

Confused deputy: cuando un LLM con tools obedece a la página web equivocada

OWASP LLM Top 10 v1.0: lo que cierra y lo que deja abierto

GCG suffix: el jailbreak que no necesita imaginación, solo gradiente

Markdown exfil: la imagen que filtra tu contexto

De Sydney a Greshake: indirect prompt injection

DAN: anatomía de un jailbreak por role-play