
Los investigadores de la Unidad 42 revelaron recientemente dos técnicas de jailbreaking novedosas y efectivas que llamamos Deceptive Delight y Bad Likert Judge . Dado su éxito contra otros modelos de lenguaje grandes (LLM), probamos estos dos jailbreaks y otra técnica de jailbreaking de múltiples turnos llamada Crescendo contra modelos DeepSeek. Logramos tasas de bypass significativas, con poco o ningún conocimiento o experiencia especializada necesaria.
Una organización de investigación de inteligencia artificial con sede en China llamada DeepSeek ha publicado dos LLM de código abierto:
- DeepSeek-V3 se lanzó el 25 de diciembre de 2024
- DeepSeek-R1 se lanzó en enero de 2025
DeepSeek es un nuevo competidor notable de los modelos de IA más populares. Hay varias versiones de modelos disponibles, algunas derivadas de DeepSeek-R1 y V3.
Para los ejemplos específicos de este artículo, probamos uno de los modelos de código abierto más populares y de mayor tamaño. No tenemos motivos para creer que las versiones alojadas en la web responderían de forma diferente.
En este artículo se evalúan las tres técnicas contra DeepSeek y se prueba su capacidad para eludir las restricciones en varias categorías de contenido prohibido. Los resultados revelan altas tasas de elusión y fuga de información, lo que pone de relieve los riesgos potenciales de estos vectores de ataque emergentes.
Si bien la información sobre la creación de bombas molotov, herramientas de exfiltración de datos y registradores de pulsaciones de teclas está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para los actores maliciosos al recopilar y presentar resultados fácilmente utilizables y procesables. Esta asistencia podría acelerar enormemente sus operaciones.
Los resultados de nuestra investigación muestran que estos métodos de jailbreak pueden generar instrucciones explícitas para actividades maliciosas, como herramientas de exfiltración de datos, creación de keyloggers e incluso instrucciones para dispositivos incendiarios, lo que demuestra los riesgos de seguridad tangibles que plantea esta clase emergente de ataque.
Si bien puede resultar complicado garantizar una protección completa contra todas las técnicas de jailbreaking para un LLM específico, las organizaciones pueden implementar medidas de seguridad que ayuden a monitorear cuándo y cómo los empleados usan los LLM. Esto se vuelve crucial cuando los empleados usan LLM de terceros no autorizados.
La cartera de soluciones de Palo Alto Networks, impulsada por Precision AI , puede ayudar a eliminar los riesgos del uso de aplicaciones GenAI públicas, al mismo tiempo que continúa impulsando la adopción de IA en una organización. La evaluación de seguridad de inteligencia artificial de Unit 42 puede acelerar la innovación, impulsar la productividad y mejorar su ciberseguridad.
Si cree que puede haber sido comprometido o tiene un asunto urgente, comuníquese con el equipo de respuesta a incidentes de la Unidad 42 .
Nuestras noticias también son publicadas a través de nuestra cuenta en Twitter @ITNEWSLAT y en la aplicación SQUID |