Deepseek-R1 genera más fácilmente contenido peligroso que otros modelos de idiomas grandes

Deepseek, el modelo de inteligencia artificial generativa (Genai) en rápido crecimiento que hizo olas en todo el mundo a fines de enero, y según los informes, es significativamente más probable que otros generen contenido sesgado, dañino y tóxico Sus competidores, según la evidencia preliminar se reunieron para un estudio.

En medio de la legión de expertos en tecnología y seguridad cibernética que han pasado los últimos días estudiando el rápido ascenso de Deepseek a la prominencia y las implicaciones que están en sí son expertos en la plataforma de seguridad y cumplimiento de IA con sede en Boston Enkrypt Ai, que ahora ha publicado hallazgos tempranos sobre cómo su rojo El equipo descubrió una letanía de fallas críticas de seguridad en el modelo.

Enkrypt describió el modelo como altamente sesgado y susceptible para generar no solo código inseguro, sino también contenido como material criminal, discurso de odio y amenazas, material de autolesiones y contenido sexualmente explícito.

Como otros han demostrado esta semana, también es muy vulnerable a la manipulación, también conocido como Jailbreaking, lo que podría permitirle ayudar en la creación de armas químicas, biológicas y cibernéticas. Enkrypt dijo que planteaba “importantes preocupaciones de seguridad global”.

En comparación con otros modelos, los investigadores de la firma afirmaron que el modelo Deepseek-R1 es tres veces más sesgado que Claude-3 Opus, cuatro veces más vulnerable a generar código inseguro que OpenAI O1, cuatro veces más tóxico que GPT-4O, 11 veces más probable para generar una producción dañina en comparación con OpenAI O1, y tres veces y medio más propensos a producir contenido químico, biológico, radiológico y nuclear (CBRN) que OPUS OPERAI O1 o Claude-3.

Más contenido para leer: AI-enhanced cyber has potential, but watch out for marketing hype

“Deepseek-R1 ofrece ventajas de costos significativas en el despliegue de IA, pero estos vienen con graves riesgos”, dijo el CEO de Enkrypt, Sahil Agarwal.

“Nuestros resultados de investigación revelan grandes brechas de seguridad y seguridad que no se pueden ignorar. Si bien Deepseek-R1 puede ser viable para aplicaciones limitadas, las salvaguardas robustas, incluidas las barandillas y el monitoreo continuo, son esenciales para evitar un mal uso dañino. La seguridad de IA debe evolucionar junto con la innovación, no como una ocurrencia tardía “.

Durante las pruebas, los investigadores de Enkrypt encontraron que el 83% de las pruebas de sesgo produjeron con éxito la producción discriminatoria, lo que fue particularmente severo en áreas como género, salud, raza y religión, potencialmente poniendo el riesgo de violar las leyes y regulaciones globales, y plantear un riesgo significativo para Organizaciones que pueden verse tentadas a integrar la herramienta en áreas como servicios financieros, provisión de atención médica o recursos humanos.

En general, el 6.68% de todas las respuestas contenían cierto grado de blasfemias, discurso de odio o narrativas extremistas, en contraste con Claude-3 Opus, que efectivamente bloqueó las mismas indicaciones tóxicas.

Además, el 45% de las indicaciones de contenido dañino probaron con éxito los protocolos de seguridad pasados por alto, generando guías de planificación penal, información de armas ilegales y propaganda extremista. En una de las pruebas, Enkrypt pudo usar Deepseek-R1 para escribir un blog de reclutamiento “persuasivo” para un grupo terrorista no especificado. Esto coincide con otras pruebas realizadas por expertos en Palo Alto Networks, que utilizaron una serie de indicaciones de jailbreak para generar instrucciones para hacer un dispositivo explosivo improvisado (IEC) rudimentario, en ese caso, un cóctel Molotov.

Más contenido para leer: Vodafone se adjudica la primera prueba de múltiples proveedores del mundo del nuevo estándar de banda ancha

Deepseek-R1 también generó datos detallados sobre las interacciones bioquímicas de la mostaza de azufre, más comúnmente conocida como gas mostaza, con ADN, que, si bien han sido estudiadas y conocidas durante años, lo convierte en una posible amenaza de bioseguridad.

En cuanto a los riesgos de seguridad cibernética, específicamente, el 78% de las pruebas ejecutadas por Enkrypt engañó con éxito a Deepseek-R1 en un código generador que contenía vulnerabilidades o era francamente malicioso, incluido el código que podría ayudar a crear malware, troyanos y otras exploits. Enkrypt dijo que era significativamente probable que el modelo de lenguaje grande pudiera generar herramientas de piratería funcional, algo que los profesionales de seguridad han advertido durante mucho tiempo.

Reflexionando sobre los hallazgos del equipo, Agarwal dijo que era natural que tanto China como los Estados Unidos continuarían empujando los límites de la IA para el poder económico, militar y tecnológico.

“Sin embargo, nuestros hallazgos revelan que las vulnerabilidades de seguridad de Deepseek-R1 podrían convertirse en una herramienta peligrosa, una que los ciberdelincuentes, las redes de desinformación e incluso aquellos con ambiciones de guerra bioquímica podrían explotar”, dijo. “Estos riesgos exigen atención inmediata”.

Forrester: Por qué la digitalización necesita fuertes habilidades de ingeniería de datos

El secretario permanente de DSIT dice que se necesita más transparencia de IA

Servicios

Recursos

¿Donde estamos?