Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que ha liberado otras IA como ChatGPT, Grok y la misma Claude.

De acuerdo con una publicación en X, el responsable del hackeo es «Pliny the Liberator«, una de las figuras más conocidas en la comunidad de inteligencia artificial. Pliny publicó el miércoles que había «liberado» el modelo, apenas un día después de que Anthropic lanzara Fable 5 al público como alternativa accesible a Mythos.

Para lograrlo, el autor empleó una combinación de métodos como Unicode y homoglifos, encuadres narrativos y académicos, descomposición y recomposición de peticiones, y una versión modificada de Claude Opus 4.8. El objetivo era que Fable 5 respondiera a consultas que sus filtros de seguridad deberían haber bloqueado, desde instrucciones para fabricar sustancias ilegales hasta técnicas de intrusión informática.

El método más efectivo, según el propio Pliny, fue la descomposición y recomposición en el backend. En lugar de pedir directamente algo que los filtros bloquearían, las peticiones se fragmentan en partes aparentemente inocuas. Cada trozo supera los controles por separado, pero al unirlos, el resultado es problemático.

jailbreak a Claude Fable 5

Quién es Pliny the Liberator y por qué hackeó Claude Fable 5

Pliny es un personaje anónimo que lleva años encontrando agujeros en los sistemas de seguridad de los modelos de IA más populares. Según Time, empezó a compartir públicamente sus técnicas de jailbreak después de que varias compañías de IA ignoraran los avisos que les enviaba sobre vulnerabilidades que había descubierto.

Desde entonces, gestiona un servidor de Discord con más de 20.000 miembros donde se trabajan colectivamente nuevas técnicas. Pliny también ha recibido donaciones de Marc Andreessen y colaboró con empresas como OpenAI para ayudarles a fortalecer sus sistemas de seguridad.

Aunque lo que hace genera polémica, lo cierto es que su postura no es la de generar daños. Pliny argumenta que los actores maliciosos siempre elegirán el modelo más útil para sus fines, sin molestarse en romper las protecciones de los sistemas cerrados cuando hay alternativas más accesibles. El autor del hackeo a Claude Fable 5 afirma que explorar lo que es posible en entornos controlados es la única forma de entender y mitigar riesgos reales.

Entre sus actividades también destaca el usar el jailbreaking para extraer los prompts de sistema, las instrucciones ocultas que definen el comportamiento de un modelo. Su argumento es que, si cada vez más personas delegan decisiones en estos sistemas, tienen derecho a saber qué principios los gobiernan.

El caso de Claude Fable 5 nos hace preguntarnos si el modelo más seguro de Anthropic puede ser vulnerado en 48 horas, ¿cuánta protección real ofrecían estas barreras? La empresa implementó un sistema de clasificadores que detecta consultas potencialmente dañinas en temas como ciberseguridad, biología y química, así como intentos de destilación. Cuando esto ocurre, el sistema redirecciona la pregunta a Claude Opus 4.8.

Seguir leyendo: Hackean Claude Fable 5 en menos de 48 horas desde su lanzamiento

Ver fuente