La empresa de datos e inteligencia artificial (IA) Databricks ha presentado DBRX, un modelo de lenguaje grande (LLM) de propósito general que, según afirma, puede superar a otros modelos de código abierto.
La compañía dijo que DBRX supera a los LLM de código abierto existentes, como Llama 2 70B y Mixtral-8x7B, en puntos de referencia de la industria que incluyen comprensión de lenguajes, programación, matemáticas y lógica.
“DBRX democratiza la capacitación y el ajuste de LLM personalizados y de alto rendimiento para cada empresa, de modo que ya no necesiten depender de un pequeño puñado de modelos cerrados”, dijo la compañía.
Ali Ghodsi, cofundador y director ejecutivo de Databricks, dijo que DBRX permite a las empresas crear “capacidades de razonamiento personalizadas basadas en sus propios datos”. Debido a que DBRX supera a GPT-3.5 en la mayoría de los puntos de referencia, dijo que debería acelerar la tendencia que Databricks está viendo entre sus clientes: organizaciones que reemplazan modelos propietarios con modelos de código abierto.
DBRX supera a GPT-3.5 en comprensión de lenguajes (MMLU), programación (HumanEval) y matemáticas (GSM8K), dijo Databricks.
DBRX fue desarrollado por Mosaic AI y entrenado en Nvidia DGX Cloud. Databricks optimizó DBRX para lograr eficiencia con una arquitectura de combinación de expertos (MoE), basada en el proyecto de código abierto MegaBlocks. El modelo resultante es hasta dos veces más eficiente en computación que otros LLM líderes disponibles, dijo la compañía.
DBRX está disponible en GitHub y Hugging Face para uso comercial y de investigación. En la plataforma Databricks, las empresas pueden interactuar con DBRX y crear modelos DBRX personalizados a partir de sus propios datos únicos. DBRX también está disponible en Amazon Web Services (AWS) y Google Cloud, así como directamente en Microsoft Azure a través de Azure Databricks. También se espera que DBRX esté disponible a través de la API del catálogo de Nvidia y sea compatible con el microservicio de inferencia NIM de Nvidia.
Si bien el modelo es de código abierto, Databricks también ofrece servicios relacionados para ayudar a las empresas a crear e implementar aplicaciones de IA generativa (GenAI) con calidad de producción.
Naveen Rao, ladrillos de datos
“Este será, con diferencia, el mejor modelo de código abierto que existe: supera a GPT-3.5 en calidad y es completamente de código abierto y, lo que es más, hemos innovado en la arquitectura informática de este modelo”, afirmó Naveen Rao. vicepresidente de GenAI en Databricks.
Rao dijo que la arquitectura de combinación de expertos utilizada en el modelo es similar a tener 16 modelos en uno.
“Cuando consulta el modelo y dice ‘generar este resultado’, se necesita un subconjunto (cuatro de ellos) para crear la respuesta. Esto es útil porque se difunde el conocimiento entre los diferentes expertos y se tiene esta ruta aprendida que determina que ‘estos expertos son los que deben solicitar esta respuesta’”, dijo.
“Podemos obtener la velocidad y latencia de un modelo pequeño con las capacidades de un modelo mucho más grande. Esto es algo que, por su arquitectura informática, es extremadamente rápido. Es completamente de código abierto, [so] Las empresas pueden tomar este modelo, pueden desarrollarlo, ajustarlo y ser dueños de los pesos del modelo; esa es una pieza crucial aquí. Obtienen la mejor economía por la calidad”, dijo a Computer Weekly.
Ser de código abierto debería permitir que los clientes se sientan más cómodos compartiendo sus datos porque tienen más control sobre el modelo que con un modelo de código cerrado.
“Creemos en un mundo donde las empresas puedan desarrollar propiedad intelectual [intellectual property] para sus propósitos y ejercer esa propiedad intelectual como deseen. Ser capaz de ajustar un modelo y disponer de él detrás de un firewall al que nunca podrás acceder no es creación de IP. En realidad, se trata de la creación de propiedad intelectual para el proveedor modelo”, afirmó Rao.
Rao añadió que las industrias reguladas se muestran reacias a utilizar sus datos más importantes y sensibles para entrenar modelos propietarios, en parte porque no tienen control.
Hacer que el modelo sea de código abierto ofrece a los clientes empresariales un incentivo para utilizarlo en una variedad de casos de uso, añadió. “Toda esta idea de portabilidad es muy importante y es muy difícil hacerlo si no es de código abierto”, afirmó.
Si los clientes pueden llevar el modelo a otra parte, eso le dará a Databricks el incentivo para agregar valor a sus clientes y al mismo tiempo brindarles la flexibilidad que necesitan, dijo.
En los anuncios de Databricks se incluyeron comentarios de clientes, incluido Zoom, que dijo que esperaba “evaluar el potencial de DBRX para hacer que la capacitación y el servicio de modelos de IA generativos personalizados sean más rápidos y rentables para nuestros casos de uso principales”.
Mike O’Rourke, jefe de IA y servicios de datos de Nasdaq, dijo: “La combinación de un sólido desempeño del modelo y una economía de servicio favorable es el tipo de innovación que buscamos a medida que aumentamos nuestro uso de IA generativa en Nasdaq”.
Podría ser que, después de un período de dominación por un pequeño número de empresas, el mercado de GenAI empresarial esté empezando a cambiar.
Databricks es una de varias empresas, grandes y pequeñas, incluidas Meta (Llama 2) Google (Gemma), xAI (Grok), Mistral AI, Hugging Face y más, que ofrecen varias opciones GenAI de código abierto.
Según la firma de capital riesgo (VC) Andreessen Horowitz, las herramientas GenAI de código cerrado representaron entre el 80% y el 90% del mercado el año pasado, y la mayor parte de la participación fue para OpenAI. Pero su investigación ha descubierto que la mitad de los ejecutivos empresariales con los que habló ahora prefieren modelos de código abierto.
“A partir de 2024, las empresas esperan un cambio significativo en el uso hacia el código abierto, y algunas apuntan expresamente a una división 50/50, en comparación con la división 80% cerrada/20% abierta en 2023”, dijo la firma de capital de riesgo.
Dijo que si bien las empresas todavía están interesadas en personalizar modelos, con el aumento de modelos de código abierto de alta calidad, la mayoría está optando por utilizar generación de recuperación aumentada (RAG) o ajustar un modelo de código abierto.
Si bien el impacto real de GenAI aún no está claro, un estudio reciente encontró que la IA podría ayudar a automatizar una amplia gama del trabajo realizado por los funcionarios públicos en cientos de servicios gubernamentales. Otra encuesta encontró que el 80% de los líderes empresariales había invertido en alguna forma de IA en 2023, pero dijo que las mayores barreras para preparar la fuerza laboral para la IA incluían la falta de experiencia organizacional, el escepticismo de los empleados y la falta de regulación.