Las técnicas de jailbreaking de IA resultan muy efectivas contra Deepseek

Se están planteando nuevas preguntas sobre la plataforma de seguridad y seguridad de DeepSeek, la plataforma de inteligencia artificial generativa (IA) china, después de que los investigadores de Palo Alto Networks revelaron que la plataforma es altamente vulnerable a las llamadas técnicas de jailbreaking utilizadas por actores maliciosos para engañar Las reglas que se supone que evitan que los modelos de idiomas grandes (LLM) se utilicen para fines nefastos, como escribir código de malware.

El repentino aumento de interés en Deepseek a fines de enero ha provocado comparaciones hasta el momento en octubre de 1957 cuando la Unión Soviética lanzó el primer satélite artificial de la Tierra, Sputnik, tomando a los Estados Unidos y sus aliados por sorpresa y precipitando la carrera espacial de la carrera espacial de la 1960 que culminó en el Apolo 11 Moon Landing. También causó el caos en la industria tecnológica, limpiando miles de millones de dólares del valor de empresas como Nvidia.

Ahora, los equipos técnicos de Palo Alto han demostrado que tres técnicas de Jailbreaking recientemente descritas son efectivas contra los modelos Deepseek. El equipo dijo que logró tasas de bypass significativas con poco o ningún conocimiento o experiencia especializada necesaria.

Sus experimentos encontraron que los tres métodos de jailbreak probados arrojaron una guía explícita de Deepseek sobre una variedad de temas de interés para la fraternidad cibernética, incluida la exfiltración de datos y la creación de keylogger. También pudieron generar instrucciones sobre la creación de dispositivos explosivos improvisados ​​(IED).

“Si bien la información sobre la creación de cócteles y keyloggers de Molotov está disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para los actores maliciosos mediante la compilación y la presentación de salida fácilmente utilizable y procesable. Esta asistencia podría acelerar en gran medida sus operaciones ”, dijo el equipo.

Más contenido para leer:  El equipo de ransomware Fog evoluciona hacia una amenaza de amplio alcance

¿Qué es Jailbreaking?

Las técnicas de jailbreak implican la elaboración cuidadosa de indicaciones específicas, o la explotación de vulnerabilidades, para evitar las rieles de protección a bordo de LLMS y provocar una salida sesgada o de otra manera que el modelo debe evitar. Hacerlo permite a los actores maliciosos “armarse” LLMS para difundir la información errónea, facilitar la actividad criminal o generar material ofensivo.

Desafortunadamente, cuanto más sofisticadas se vuelven LLM en su comprensión y respuestas a las indicaciones matizadas, más susceptibles se vuelven a la entrada adversa correcta. Esto ahora está conduciendo a una especie de carrera armamentista.

Palo Alto probó tres técnicas de jailbreaking, juez de Likert, deleite engañoso y crescendo, en Deepseek.

Bad Likert Judge intenta manipular una LLM haciendo que evalúe la daños de las respuestas utilizando la escala Likert, que se utiliza en las encuestas de satisfacción del consumidor, entre otras cosas, para medir el acuerdo o el desacuerdo hacia una declaración contra una escala, generalmente de una a una a una a una a una Cinco, donde uno es igual a estar muy de acuerdo y cinco equivalen a estar muy en desacuerdo.

Crescendo es una exploit de múltiples vueltas que aprovecha el conocimiento de una LLM sobre un tema al incitarlo progresivamente con contenido relacionado para guiar sutilmente la discusión hacia temas prohibidos hasta que los mecanismos de seguridad del modelo se anulen esencialmente. Con las preguntas y habilidades correctas, un atacante puede lograr una escalada completa dentro de solo cinco interacciones, lo que hace que el crescendo sea extremadamente efectivo y, peor aún, difícil de detectar con contramedidas.

Deceptive Delight es otra técnica de múltiples vueltas que evita las barandillas al incorporar temas inseguros entre los benignos dentro de una narración positiva general. Como un ejemplo muy básico, un actor de amenaza podría pedirle a la IA que cree una historia que conecte tres temas: conejos de conejito, ransomware y nubes esponjosas) y pedirle que elabore cada uno para generar contenido inseguro al discutir las partes más benignas de la historia. . Luego podrían volver a centrarse en el tema inseguro para amplificar el resultado peligroso.

Más contenido para leer:  Google speeds up security update frequency for Chrome

¿Cómo deberían responder CISO?

Palo Alto admitió que es un desafío garantizar que las LLM específicas, no solo los vinos profundos, son completamente impermeables a la jailbreak, las organizaciones de usuario final pueden implementar medidas para brindarles cierto grado de protección, como monitorear cuándo y cómo los empleados están utilizando LLM, incluidas las no autorizadas. terceros.

“Cada organización tendrá sus políticas sobre los nuevos modelos de IA”, dijo el vicepresidente senior de la seguridad de la red de Palo Alto, Anand Oswal. “Algunos los prohibirán por completo; Otros permitirán un uso limitado, experimental y muy buildeado. Otros se apresuran a implementarlo en producción, buscando obtener ese rendimiento adicional de rendimiento y optimización de costos.

“Pero más allá de la necesidad de su organización de decidir sobre un nuevo modelo específico, Deepseek’s Rise ofrece varias lecciones sobre la seguridad de IA en 2025”, dijo Oswal en una publicación de blog.

“El ritmo de cambio de AI y el sentido de urgencia circundante no se pueden comparar con otras tecnologías. ¿Cómo puede planificar con anticipación cuando un modelo algo oscuro, y las más de 500 derivadas ya disponibles en la cara de abrazo, se convierte en la prioridad número uno aparentemente de la nada? La respuesta corta: no puedes ”, dijo.

Oswal dijo que la seguridad de la IA seguía siendo un “objetivo en movimiento” y que esto no parecía que cambiara por un tiempo. Además, agregó, era poco probable que Deepseek sea el último modelo en sorprender a todos por sorpresa, por lo que CISOS y los líderes de seguridad deberían esperar lo inesperado.

Más contenido para leer:  ¿Cómo se puede equilibrar la seguridad con el crecimiento?

Además del desafío que enfrenta las organizaciones, es muy fácil para los equipos de desarrollo, o incluso a los desarrolladores individuales, cambiar de LLM a poco o incluso ningún costo si una más interesante llega a la escena.

“La tentación para que los constructores de productos prueben el nuevo modelo para ver si puede resolver un problema de costo o un cuello de botella de latencia o un rendimiento superior a una tarea específica es enorme. Y si el modelo resulta ser la pieza faltante que ayuda a traer un producto potencialmente que cambia el juego, no querrá ser el que se interponga en el camino ”, dijo Oswal.

Palo Alto está alentando a los líderes de seguridad a establecer una clara gobernanza sobre los LLM y abogar por incorporar los principios seguros por diseño en el uso organizacional de ellos. Lanzó un conjunto de herramientas, AI segura por diseño, el año pasado, a este sentido.

Entre otras cosas, estas herramientas proporcionan a los equipos de seguridad visibilidad en tiempo real en lo que los LLM se están utilizando y por quién; la capacidad de bloquear aplicaciones no autorizadas y aplicar políticas y protecciones de seguridad organizacionales; y evitar que los datos confidenciales accedan por LLMS.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales