El brazo de investigación de Meta ha abierto varios de sus proyectos internos de inteligencia artificial (IA) a la comunidad de investigación en general en un intento por ayudarlo a mejorar sus modelos de IA.
Fundamental AI Research (Fair) es el grupo de investigación científica abierta de la empresa de redes sociales. Está formado por entre 500 y 600 personas en Europa y América del Norte y se centra en resolver problemas centrales de la IA.
Fair ha lanzado recientemente varios artefactos de investigación nuevos que espera permitan a la comunidad de investigación innovar, explorar y descubrir nuevas formas de aplicar la IA a escala.
Estos incluyen Chameleon, que proporciona una arquitectura unificada para entrada y salida de texto e imágenes; predicción de múltiples tokens para entrenar modelos de lenguaje para predecir múltiples palabras futuras a la vez; y AudioSeal, una técnica de marca de agua de audio.
Al analizar el papel de Fair en el negocio del gigante de las redes sociales, Joëlle Pineau, vicepresidenta de investigación de IA de Meta, dice: “No somos necesariamente el equipo que incorpora esas innovaciones al producto. Estamos totalmente centrados en resolver la IA”.
Fair comparte públicamente la investigación junto con bases de códigos, conjuntos de datos, modelos, recetas de capacitación y guías de seguridad. Si bien el grupo se centra en la innovación fundamental, la investigación se comparte internamente con el equipo de investigación aplicada de Meta que, según ella, toma el modelo y descubre cómo pasar de un concepto como el nuevo Chameleon y trabaja con los equipos de productos de Meta para convertirlo en un producto.
“A lo largo de los años, varias de nuestras innovaciones se han convertido en productos”, afirma Pineau. “Si has visto las gafas Meta (gafas inteligentes), el modelo de IA que ejecuta surgió de nuestra investigación. El primer modelo de Llama salió de nuestro laboratorio de investigación. Pero como Llama 2 y 3 se centran en el producto, están desarrollados por la IA generativa de Meta. [GenAI] equipo, que es más un equipo de investigación aplicada”.
Nuevos modelos abiertos
Meta Chameleon utiliza tokenización para texto e imágenes. Según la empresa, esto permite un enfoque más unificado y hace que el modelo sea más fácil de diseñar, mantener y escalar. Las áreas de aplicación incluyen la generación de subtítulos creativos para imágenes o el uso de una combinación de mensajes de texto e imágenes para crear una escena completamente nueva.
Con Chameleon, Pineau dice que el modelo utiliza texto e imágenes para razonar sobre propiedades específicas. “Hemos entrenado a Chameleon hasta alrededor de 30 mil millones de parámetros, lo cual es mucho más pequeño que, por ejemplo, modelos como Llama, GPT, etc.”, dice. “Pero tenemos una prueba de concepto que funciona hasta un tamaño determinado.
“Los equipos de investigación aplicada tienen la capacidad de ampliarlo más o hacerlo funcionar con diferentes tipos de datos y bajo diferentes limitaciones”, dice Pineau.
La segunda investigación que Meta ha hecho pública es un nuevo enfoque para la tokenización. La mayoría de los modelos de lenguaje grande (LLM) modernos tienen un objetivo de entrenamiento simple: predecir la siguiente palabra. Si bien este enfoque es simple y escalable, Meta dice que también es ineficiente. Requiere varios órdenes de magnitud más texto del que necesitan los niños para aprender el mismo grado de fluidez en el lenguaje.
Pineau dice que la predicción de múltiples tokens se inspiró directamente en el trabajo sobre generación de código. “Existe la oportunidad de generar eventualmente muchos tokens de forma estructurada, no sólo de forma lineal”, afirma.
“Mientras que los LLM clásicos simplemente generan una palabra tras otra y la linealización del producto de los tokens de salida, para el código, muchas personas no escriben un token a la vez. Escribes la estructura del código, luego escribes algunas de las subestructuras y luego resuelves los detalles en términos de las estructuras, y avanzas y retrocedes en diferentes niveles de abstracción a medida que construyes el código”.
Esto, añade, es mucho más complejo que el enfoque lineal utilizado en los LLM.
Debate cerrado versus abierto
Cuando se le preguntó si hay lugar para los modelos cerrados de IA, Pineau cree que un modelo de IA debería abrirse cuando existan salvaguardas para garantizar que no cause riesgos indebidos.
“En el caso de nuestro modelo Chameleon, después de realizar un análisis de riesgos, decidimos no liberar las capacidades de generación de imágenes”, dice. “El modelo es capaz de generar imágenes, pero sentimos que las medidas de seguridad no son lo suficientemente maduras”.
Otro modelo desarrollado por Fair, que ha sido publicado pero no difundido, es el de síntesis de voz. “A los pocos segundos de la grabación de voz de un individuo, básicamente podemos generar un discurso que imita la voz de alguien hasta el punto de que resulta engañoso”, dice Pineau.
Entonces, ¿deberías intentarlo? Si bien los nuevos modelos de IA que Meta ha lanzado están abiertos, Pineau dice que hay una curva de aprendizaje razonable para descubrir cómo hacerlos funcionar, pero las personas que usan modelos de manera rutinaria, como los disponibles a través de Hugging Face, deberían estar en condiciones de ponerse en marcha con relativa facilidad.
“Tenemos personas que toman un modelo como Llama y lo ajustan, y en 48 horas hay una versión ajustada disponible que aparece en algunos de los [AI model] tablas de clasificación”, dice. “Realmente depende de tu nivel de competencia”.
Comenzar no requiere hardware de alta gama. Ella dice que en algunos casos, los modelos están disponibles en diferentes tamaños: los modelos más pequeños pueden ejecutarse en una sola unidad de procesamiento de gráficos y es más fácil comenzar con ellos. “Los modelos más grandes requieren más conocimiento de los sistemas distribuidos para obtener el nivel requerido de rendimiento”, afirma Pineau.