El Instituto de Seguridad de Inteligencia Artificial (AISI) del gobierno del Reino Unido ha anunciado que establecerá oficinas en San Francisco, ya que publica por primera vez los resultados de las pruebas de seguridad de su modelo de inteligencia artificial (IA).
Establecido en el período previo a la Cumbre de Seguridad de la IA del Reino Unido en noviembre de 2023, el AISI tiene la tarea de examinar, evaluar y probar nuevos tipos de IA, y ya está colaborando con su homólogo estadounidense para compartir capacidades y construir enfoques comunes para las pruebas de seguridad de la IA. .
Sobre la base de esta colaboración, el AISI abrirá oficinas en San Francisco durante el verano para consolidar aún más su relación con el Instituto de Seguridad de EE. UU., así como para hacer más avances con las principales empresas de IA con sede allí, como Anthrophic y OpenAI.
Con poco más de 30 empleados en Londres, la expansión en EE. UU. también brindará al AISI un mayor acceso al talento tecnológico del Área de la Bahía, con planes para contratar primero un equipo de personal técnico y un director de investigación.
Sin embargo, actualmente no hay más información sobre para qué roles específicos el Instituto buscará contratar ni para cuántos.
“Esta expansión representa el liderazgo británico en IA en acción”, dijo la secretaria digital Michelle Donelan. “Es un momento crucial en la capacidad del Reino Unido para estudiar tanto los riesgos como el potencial de la IA desde una perspectiva global, fortaleciendo nuestra asociación con los EE. UU. y allanando el camino para que otros países aprovechen nuestra experiencia mientras continuamos liderando el mundo en Seguridad de la IA.
“Abrir nuestras puertas en el extranjero y desarrollar nuestra alianza con Estados Unidos es fundamental para mi plan de establecer nuevos estándares internacionales sobre seguridad de la IA, que discutiremos en la Cumbre de Seúl esta semana”.
Resultados de las pruebas de seguridad
La expansión se produce luego de que AISI publicara una selección de resultados de sus recientes pruebas de seguridad de cinco modelos avanzados de lenguaje grande (LLM) disponibles públicamente.
Los modelos se evaluaron en cuatro áreas de riesgo clave, incluida la seguridad cibernética, la biología y la química, la autonomía y las salvaguardias, con especial atención en cuán efectivas son en la práctica las salvaguardias que los desarrolladores han instalado.
El AISI descubrió que ninguno de los modelos era capaz de realizar tareas más complejas y que requerían más tiempo sin que los humanos los supervisaran, y que todos siguen siendo muy vulnerables a las “fugas” básicas de sus salvaguardias. También encontró que algunos de los modelos producirán resultados dañinos incluso sin intentos dedicados de eludir estas salvaguardas.
Sin embargo, el AISI afirma que los modelos fueron capaces de completar desafíos de ciberseguridad básicos a intermedios, y que varios demostraron un nivel de conocimiento equivalente a un doctorado en química y biología (lo que significa que pueden usarse para obtener conocimiento de nivel experto y sus respuestas a la ciencia). (las preguntas basadas en doctorado estaban a la par con las formuladas por expertos de nivel doctorado).
Los modelos también se sometieron a evaluaciones de “agentes” para probar qué tan bien pueden realizar de forma autónoma tareas como ejecutar código o navegar por sitios web. Descubrió que, si bien los modelos a menudo cometían pequeños errores (como errores de sintaxis en el código) durante tareas de corto plazo, no podían completar suficientemente tareas de largo plazo que requerían un nivel más profundo de planificación para su ejecución.
Esto se debe a que, a pesar de hacer buenos planes iniciales, los modelos no pudieron corregir sus errores iniciales; no pudo probar suficientemente las soluciones ideadas; y a menudo “alucinaba” al completar subtareas.
Ataques rápidos
Si bien los desarrolladores de LLM los ajustarán para que sean seguros para el uso público (lo que significa que están capacitados para evitar resultados ilegales, tóxicos o explícitos), el AISI descubrió que estas salvaguardas a menudo pueden superarse con ataques rápidos relativamente simples.
“Los resultados de estas pruebas marcan la primera vez que hemos podido compartir algunos detalles de nuestro trabajo de evaluación de modelos con el público”, dijo el presidente de AISI, Ian Hogarth. “Nuestras evaluaciones ayudarán a contribuir a una evaluación empírica de las capacidades del modelo y la falta de solidez en lo que respecta a las salvaguardas existentes.
“La seguridad de la IA es todavía un campo muy joven y emergente”, afirmó. “Estos resultados representan sólo una pequeña parte del enfoque de evaluación que AISI está desarrollando. Nuestra ambición es seguir ampliando las fronteras de este campo mediante el desarrollo de evaluaciones de última generación, con énfasis en los riesgos relacionados con la seguridad nacional”.
Sin embargo, el AISI se ha negado a declarar públicamente qué modelos de qué empresas ha probado, y deja claro que los resultados sólo proporcionan una instantánea de las capacidades del modelo y no designan sistemas como “seguros” o “inseguros” de ninguna manera formal.
La publicación de los resultados se produce después de que AISI pusiera a disposición del público su plataforma de evaluaciones Inspect a principios de mayo de 2024. Su objetivo es facilitar que una gama mucho más amplia de grupos desarrolle evaluaciones de IA y fortalezca el ecosistema de pruebas.
Límites de las pruebas AISI
En una publicación de blog publicada el 17 de mayo de 2024, el Instituto Ada Lovelace (ALI) cuestionó la eficacia general del AISI y el enfoque dominante de las evaluaciones de modelos en el espacio de seguridad de la IA. También cuestionó el marco de pruebas voluntarias que significa que el AISI sólo puede acceder a los modelos con el acuerdo de las empresas.
Dijo que si bien las evaluaciones tienen cierto valor para explorar las capacidades de los modelos, no son suficientes para determinar si los modelos de IA y los productos o aplicaciones construidos en ellos son seguros para las personas y la sociedad en condiciones del mundo real.
Esto se debe a las limitaciones técnicas y prácticas de métodos como el equipo rojo y la evaluación comparativa, que son fáciles de manipular o jugar mediante el entrenamiento de los modelos con el conjunto de datos de evaluación o el uso estratégico de las evaluaciones que se utilizan en la evaluación; y la naturaleza iterativa de la IA, lo que significa que pequeños cambios en los modelos podrían provocar cambios impredecibles en su comportamiento o anular las funciones de seguridad existentes.
El ALI añadió que la seguridad de un sistema de IA tampoco es una propiedad inherente que pueda evaluarse en el vacío, y que esto requiere que se prueben y evalúen modelos sobre sus impactos en contextos o entornos específicos. “Hay pruebas valiosas que realizar en un laboratorio e importantes intervenciones de seguridad que realizar a nivel de modelo, pero no proporcionan la historia completa”, dijo.
Añadió que todos estos problemas se ven exacerbados por el marco voluntario del AISI, que, según dijo, prohíbe el acceso efectivo a los modelos (como lo demuestran los informes recientes en politico que reveló que tres de los cuatro principales desarrolladores de modelos básicos no han proporcionado el acceso previo al lanzamiento acordado al AISI para sus últimos modelos de vanguardia).
“Los límites del régimen voluntario se extienden más allá del acceso y también afectan el diseño de las evaluaciones”, dijo. “Según muchos evaluadores con los que hablamos, las prácticas de evaluación actuales se adaptan mejor a los intereses de las empresas que los públicos o los reguladores. Dentro de las principales empresas de tecnología, los incentivos comerciales las llevan a priorizar las evaluaciones de desempeño y de cuestiones de seguridad que plantean riesgos para la reputación (en lugar de cuestiones de seguridad que podrían tener un impacto social más significativo)”.
El ALI añadió que el AISI tampoco tiene poder para impedir la liberación de modelos dañinos o inseguros, y es completamente incapaz de imponer condiciones para su liberación, como pruebas adicionales o medidas de seguridad específicas.
“En resumen, un régimen de pruebas sólo tiene sentido si los poderes de aprobación previa a la comercialización están respaldados por un estatuto”, dijo.
Sin embargo, según una publicación propia en su blog, el AISI dijo que es “muy consciente” de la brecha potencial entre el desempeño de los sistemas avanzados de IA en sus evaluaciones y su desempeño en la naturaleza.
“Los usuarios podrían interactuar con los modelos de maneras que no habíamos previsto, sacando a la luz daños que nuestras evaluaciones no pueden capturar”, dijo. “Además, las evaluaciones de modelos son sólo una parte del panorama. Creemos que también es importante estudiar el impacto directo que los sistemas avanzados de IA pueden tener en el usuario. Tenemos investigaciones en marcha para comprender y abordar estos problemas.
“Nuestro trabajo no ofrece ninguna garantía de que un modelo sea ‘seguro’ o ‘inseguro’. Sin embargo, esperamos que contribuya a una imagen emergente de las capacidades del modelo y la solidez de las salvaguardas existentes”.