¿Deberíamos preocuparnos por el uso malicioso de los modelos de lenguaje de IA?

Cada vez surgen más pruebas de cómo los modelos de lenguaje grandes, como el Transformador Generativo Preentrenado 3 (GPT-3) utilizado por personas como el chatbot avanzado ChatGPT de OpenAI, parecen ser altamente vulnerables al abuso a través de la ingeniería creativa rápida por parte de actores malintencionados.

Además, a medida que las capacidades de tales modelos se generalicen, se necesitarán nuevos enfoques para combatir el delito cibernético y el fraude digital, y los consumidores cotidianos deberán volverse mucho más escépticos acerca de lo que leen y creen.

Estos son algunos de los hallazgos de un proyecto de investigación realizado por WithSecure de Finlandia con el apoyo del proyecto CC-Driver, un proyecto del programa Horizonte 2020 de la Unión Europea que se centra en disciplinas como la antropología, la criminología, la neurobiología y la psicología en un esfuerzo colectivo. para combatir el cibercrimen.

El equipo de investigación de WithSecure dijo que el acceso universal a modelos que entregan texto con sonido humano en segundos representa un “punto de inflexión” en la historia humana.

“Con el amplio lanzamiento de herramientas fáciles de usar que emplean modelos de lenguaje autorregresivos como GPT-3 y GPT-3.5, cualquier persona con una conexión a Internet ahora puede generar un habla similar a la humana en segundos”, escribió el equipo de investigación.

“La generación de texto versátil en lenguaje natural a partir de una pequeña cantidad de entrada inevitablemente interesará a los delincuentes, especialmente a los ciberdelincuentes, si aún no lo ha hecho. Del mismo modo, cualquier persona que use la web para difundir estafas, noticias falsas o información errónea en general puede estar interesada en una herramienta que crea texto creíble, posiblemente incluso convincente, a velocidades sobrehumanas”.

Andrew Patel y Jason Sattler de WithSecure llevaron a cabo una serie de experimentos utilizando ingeniería rápida, una técnica utilizada para descubrir entradas que pueden generar resultados deseables o útiles, para producir contenido que consideraron dañino.

Durante sus experimentos, exploraron cómo el cambio de la entrada humana inicial en modelos GPT-3 afectaba la salida de texto de inteligencia artificial (IA) para identificar cómo las indicaciones creativas o maliciosas pueden generar resultados no deseados.

Pudieron usar el modelo elegido para crear correos electrónicos y mensajes SMS de phishing; mensajes en las redes sociales diseñados para trollear, acosar o causar daño a las marcas; mensajes de redes sociales diseñados para publicitar, vender o legitimar estafas; y convincentes artículos de noticias falsas.

También pudieron persuadir al modelo para que adoptara estilos de escritura particulares, para escribir sobre un tema elegido de una manera obstinada y para generar sus propias indicaciones basadas en el contenido.

“El hecho de que cualquier persona con una conexión a Internet ahora pueda acceder a poderosos modelos de lenguaje grande tiene una consecuencia muy práctica: ahora es razonable suponer que cualquier comunicación nueva que reciba puede haber sido escrita con la ayuda de un robot”, dijo Patel, quien encabezó el investigar.

“En el futuro, el uso de la IA para generar contenido tanto dañino como útil requerirá estrategias de detección capaces de comprender el significado y el propósito del contenido escrito”.

Patel y Sattler sacaron cuatro conclusiones principales de su trabajo, afirmando que la ingeniería rápida y la creación rápida maliciosa inevitablemente se desarrollarán como disciplina; que los actores maliciosos explotarán modelos de lenguaje grandes de formas potencialmente impredecibles; que será más difícil detectar contenido malicioso o abusivo; y que los ciberdelincuentes ya pueden utilizar fácilmente dichos modelos para hacer que los componentes de ingeniería social de sus ataques sean más efectivos.

Patel dijo que esperaba que el proyecto de investigación ayudara a impulsar el desarrollo de modelos de lenguaje grandes más seguros que sean menos susceptibles de ser manipulados de esta manera. El informe completo de la investigación del equipo se puede descargar aquí.

WithSecure es la última de una larga lista de empresas cibernéticas que han expresado su preocupación por la tecnología GPT-3, que se ha destacado en el discurso principal gracias al lanzamiento público de ChatGPT por parte de OpenAI en noviembre de 2022.

Aunque muchos lo recibieron positivamente, ChatGPT ya ha recibido críticas por ser supuestamente demasiado bueno en su trabajo en algunas circunstancias. Algunos han advertido que podría usarse para dejar obsoletos a los periodistas humanos, mientras que su posible uso indebido en la academia y los proyectos de investigación científica fue objeto de otro proyecto de investigación realizado en los EE. UU. Este estudio hizo que el programa generara resúmenes de investigación falsos basados ​​en investigaciones médicas publicadas, lo que engañó a los científicos haciéndoles creer que estaban leyendo un informe real aproximadamente el 33 % de las veces.

“Comenzamos esta investigación antes de que ChatGPT pusiera la tecnología GPT-3 a disposición de todos”, dijo Patel. “Este desarrollo aumentó nuestra urgencia y esfuerzos. Porque, hasta cierto punto, ahora todos somos Blade Runners, tratando de averiguar si la inteligencia con la que estamos tratando es real o artificial”.

ChatGPT analiza ‘los beneficios del malware’

Mientras tanto, los investigadores de Check Point recurrieron a la web oscura para explorar cómo está reaccionando la clandestinidad ciberdelincuente ante el lanzamiento de ChatGPT y descubrieron más evidencia para respaldar las conclusiones de WithSecure.

El equipo de investigación descubrió un hilo titulado “ChatGPT: beneficios del malware” en un popular foro clandestino, en el que el autor original reveló que había estado experimentando con el software para recrear cepas y técnicas de malware que se habían descrito en publicaciones de investigación, blogs de la industria y artículos de noticias

En un segundo hilo, encontraron a un usuario publicando su “primera vez” secuencia de comandos de Python maliciosa. Cuando otro usuario del foro notó que el estilo del código se parecía al código OpenAI, el cartel original reveló que ChatGPT les había dado una “buena mano” para escribirlo.

En el tercer ejemplo visto por el equipo de investigación de Check Point, un usuario del foro demostró cómo crearon un script convincente para el mercado de la web oscura utilizando ChatGPT.

“Los ciberdelincuentes encuentran atractivo ChatGPT. En las últimas semanas, hemos visto evidencia de que los piratas informáticos comienzan a usarlo para escribir código malicioso. ChatGPT tiene el potencial de acelerar el proceso para los piratas informáticos al brindarles un buen punto de partida. Así como ChatGPT se puede usar para ayudar a los desarrolladores a escribir código, también se puede usar con fines maliciosos”, dijo el gerente del grupo de inteligencia de amenazas de Check Point, Sergey Shykevich.

“Aunque las herramientas que analizamos en este informe son bastante básicas, es solo cuestión de tiempo hasta que los actores de amenazas más sofisticados mejoren la forma en que usan las herramientas basadas en IA. CPR continuará investigando los delitos cibernéticos relacionados con ChatGPT en las próximas semanas”.

Brad Hong, gerente de éxito del cliente en Horizon3ai, dijo: “Desde la perspectiva de un atacante, lo que los sistemas de IA generadores de código les permiten hacer fácilmente a los delincuentes es cerrar primero cualquier brecha de habilidades sirviendo como traductor entre idiomas donde el programador puede tener menos experiencia. en; y segundo, [provide] un medio a pedido para crear plantillas base de código relevantes para el candado que estamos tratando de abrir en lugar de pasar nuestro tiempo raspando el desbordamiento de pila y Git para obtener ejemplos similares.

“Los atacantes entienden que esto no es una llave maestra, sino la herramienta más competente en su arsenal para saltar obstáculos que normalmente solo son posibles a través de la experiencia.

“Sin embargo, OpenAI en todo su esplendor no es una clase magistral en algoritmos y escritura de códigos y no reemplazará universalmente los códigos de día cero por completo. La seguridad cibernética en el futuro se convertirá en una batalla entre algoritmos no solo en la creación de código, sino también en su procesamiento. El hecho de que el maestro te permita usar una hoja de trucos para la prueba no significa que sabrás cómo aplicar la información hasta que la hayas digerido en contexto.

“Como tal, la IA generadora de código es más peligrosa en su capacidad para acelerar el ciclo que un atacante debe tomar para utilizar las vulnerabilidades que ya existen”, dijo.

Cómo GPT-3 también puede ayudar a los equipos de seguridad

Pero esto no quiere decir que los modelos GPT-3 como ChatGPT no puedan ser útiles tanto para la comunidad legítima de seguridad cibernética como para la maliciosa, y el investigador de Trustwave, Damian Archer, ha estado explorando sus posibles casos de uso en un contexto de seguridad.

“ChatGPT tiene múltiples casos de uso y los beneficios son enormes: siga adelante y observe cómo revisa fragmentos de código simples. No solo te dirá si el código es seguro, sino que también te sugerirá una alternativa más segura”, dijo Archer, aunque como señaló, esta misma funcionalidad también puede ser utilizada por un actor malicioso para hacer que sus malwares sean más efectivos, o mejor ofuscarlos.

Steve Povolny, ingeniero principal y director de Trellix, dijo que creía que había más potencial para usar herramientas como ChatGPT para siempre.

“Puede ser eficaz para detectar errores de codificación críticos, describir conceptos técnicos complejos en un lenguaje simplista e incluso desarrollar scripts y códigos resistentes, entre otros ejemplos. Los investigadores, profesionales, académicos y empresas de la industria de la seguridad cibernética pueden aprovechar el poder de ChatGPT para la innovación y la colaboración”, dijo Povolny.

“Será interesante seguir este campo de batalla emergente para el contenido generado por computadora, ya que mejora las capacidades tanto para intenciones benignas como maliciosas”.

El director de tecnología de Secureworks, Mike Aiello, también está atento a los desarrollos, en parte porque sus equipos ya están utilizando modelos similares en el centro de su trabajo, para analizar y dar sentido a los 500 000 millones de eventos diarios que tienen lugar en las instalaciones de sus clientes. redes Pero últimamente, Secureworks ha ido más allá, experimentando con grandes modelos de lenguaje para ayudar a sus analistas a escribir investigaciones.

“Algo que tomaría 10 minutos, tal vez podamos reducirlo a un minuto o segundos porque estos grandes modelos de lenguaje entrenados en nuestros datos ayudarán a la investigación del autor y los resúmenes de incidentes”, dijo a Computer Weekly.

“También hemos estado usando estas cosas para observar la dark web y hemos estado tomando cosas como charlas en ruso… y observando eso para traducir y resumir rápidamente al inglés para que nuestros analistas puedan entender lo que está sucediendo en una forma más eficaz y eficiente”.

Aiello dijo que también anticipa que a medida que más investigadores de seguridad y piratas informáticos éticos hurguen bajo el capó de los modelos GPT-3, surgirán rápidamente algunos casos de uso más innovadores, o al menos divertidos.

“Me imagino que vamos a ver a alguien… crear un gran modelo de lenguaje que haga algo totalmente inesperado. Esto es lo que hacen los piratas informáticos: echan un vistazo a un sistema, descubren qué se supone que no debe hacer y luego juegan con él y muestran que puede hacer cosas geniales, lo cual es un momento divertido en tecnología. Me imagino que vamos a ver un montón de eso durante el próximo año”, dijo.

Computer Weekly se puso en contacto con ChatGPT para hacerle algunas preguntas sobre su uso potencial en seguridad cibernética, pero el servicio estaba lleno en el momento de la publicación.

En forma de poema acróstico que describe su estado, decía: “Se necesita tiempo para que los servidores se pongan al día. Ve a tomar un café y vuelve pronto”.

Exit mobile version