Rag Ai: “Hazlo tú mismo”, dice el científico de datos de Nueva York

Las organizaciones deben construir su propia generación basada en inteligencia artificial (basada en Genai) en la generación de recuperación aumentada (RAG) con productos de fuentes abiertas como Deepseek y Llama.

Esto es según Alaa Moussawi, científico jefe de datos del Consejo de la Ciudad de Nueva York, quien recientemente habló en el evento tecnológico Leap 2025 en Arabia Saudita.

El evento, celebrado cerca de la capital saudita, Riad, se especializó en IA y llegó cuando el reino del desierto anunció $ 15 mil millones de inversión planificada en IA.

Pero, dice Moussawi, no hay nada que detenga a ninguna organización que pruebe y despliegue la IA con muy poco desembolso, ya que describió el primer proyecto del consejo en 2018.

El Consejo de la Ciudad de Nueva York es la rama legislativa del gobierno de la ciudad de Nueva York que es el principal responsable de aprobar leyes y presupuestos en la ciudad. El consejo tiene 51 funcionarios electos más abogados y analistas de políticas.

Lo que el equipo de Moussawi se propuso hacer fue hacer que el proceso legislativo sea más basado en hechos y impulsado por la evidencia y hacer que el trabajo cotidiano de abogados, analistas de políticas y funcionarios electos sea más suave.

Primera aplicación de IA integrada en 2018

Con ese fin, el equipo de Moussawi construyó su primera aplicación similar a la IA, un verificador duplicado para la legislación, para el uso de producción en el consejo en 2018.

Cada vez que un miembro del Consejo tiene una idea para la legislación, se pone en la base de datos y es un estampado de tiempo para que se pueda verificar la originalidad y acreditado al funcionario electo que hizo que esa ley se concretara.

Hay decenas de miles de ideas en el sistema y un paso clave en el proceso legislativo es verificar si se ha propuesto una idea antes.

“Si lo era, entonces la idea debe ser acreditada a ese funcionario”, dice Moussawi. “Es algo muy polémico. Hemos tenido errores que ocurrieron en el pasado donde un proyecto de ley llegó al punto de ser votado y finalmente otro miembro del consejo recordó que habían propuesto la idea, pero la persona que había hecho el cheque duplicada manualmente se había perdido de alguna manera “.

Según los estándares de hoy, es un modelo rudimentario, dice Moussawi. Utiliza el Word2Vec de Google, que se lanzó en 2013 y captura información sobre el significado de las palabras basadas en quienes lo rodean.

“Es algo lento”, dice Moussawi. “Pero lo importante es que si bien puede tomar un poco de tiempo, cinco o 10 segundos para devolver la clasificación de similitud, es mucho más rápido que un humano y hace que sus trabajos sean mucho más fáciles”.

Vector incrustación

La tecnología clave detrás del comprobante duplicada es la incrustación de vectores, que es efectivamente una lista de números, los vectores, que representan la posición de una palabra en un espacio vectorial de alta dimensión.

“Eso a menudo podría consistir en más de mil dimensiones”, dice Moussawi. “Una incrustación vectorial es realmente solo una lista de números”.

Moussawi demostró la idea simplificando las cosas a dos vectores. En un juego de cartas, por ejemplo, puedes tomar el vector para la “regalía” y el vector para la “mujer” y deberían darte el vector para “reina” si los agregas.

“Las fuertes integridades vectoriales pueden derivar estas relaciones de los datos”, dice Moussawi. “Del mismo modo, si agregaste los vectores para ‘Royalty’ y ‘Men’, puedes esperar obtener el vector para ‘Rey'”.

Esa es esencialmente la tecnología en el duplicado del consejo. Se entrena usando el conjunto completo de textos para generar sus incrustaciones vectoriales.

“Luego resume sobre todas las palabras incrustaciones para crear un vector de ideas”, dice. “Podemos medir la distancia entre esta idea para una ley y otra idea para una ley. Puede medirlo con su regla si estuviera trabajando con un espacio bidimensional, o si aplica el teorema de Pitágoras extendido a un espacio dimensional superior, que es bastante sencillo. Y eso es todo lo que hay: la medida de la distancia entre dos ideas “.

Moussawi es un firme defensor de que las organizaciones deben ensuciarse las manos con IA generativa (Genai). Es un doctorado de ingeniería de software y un estudiante cercano de desarrollos, a través de las diversas iteraciones de las redes neuronales, pero está interesada en enfatizar sus limitaciones.

“Los modelos de texto de IA, incluidos los modelos de vanguardia que usamos hoy, son simplemente predecir la siguiente mejor palabra en una secuencia de palabras y repetir el proceso”, dice. “Entonces, por ejemplo, si le pregunta a un modelo de idioma grande [LLM]”¿Por qué el pollo cruzó la carretera?”, Va a bombearlo al modelo y predecir la siguiente palabra, “el” y el siguiente, “pollo”, etc.

“Eso es realmente todo lo que está haciendo, y esto debería hacerte entender por qué los LLM en realidad no son inteligentes o no tienen un verdadero pensamiento como nosotros.

“Por el contrario, te estoy explicando un concepto y estoy tratando de transmitir esa idea y estoy encontrando las palabras para expresar esa idea. Un modelo de lenguaje grande no tiene idea de qué palabra vendrá a continuación en la secuencia. No está pensando en un concepto “.

Según Moussawi, el gran avance en la comunidad científica que llegó en 2020 fue que el cómputo, los conjuntos de datos y los parámetros podrían escalar y escalar y podría seguir lanzando más poder de cómputo y obtener un mejor rendimiento.

Hace hincapié en que las organizaciones deben tener en cuenta que la ciencia detrás de los algoritmos no es conocimiento secreto: “Tenemos todos estos modelos de código abierto como Deepseek y Llama. Pero la conclusión importante es que la arquitectura fundamental de la tecnología realmente no cambió mucho, solo lo hicimos más eficiente. Estos LLM no aprendieron a pensar mágicamente. De repente, lo hicimos más eficiente “.

Por qué deberías hacer bricolaje ai

En la fecha, Moussawi dice que el Consejo de la Ciudad de Nueva York ha prohibido el uso de LLM de terceros en el lugar de trabajo debido a las preocupaciones de seguridad. Esto significa que la organización ha optado por modelos de código abierto que evitan las preocupaciones de seguridad que vienen con suscripciones basadas en la nube o API de terceros.

“Con el lanzamiento de los primeros modelos de llamas, comenzamos a jugar en nuestro clúster local, y tú también deberías. Hay implementaciones de C ++ que se pueden ejecutar en su computadora portátil. Puedes hacer una inferencia sorprendentemente buena, y es excelente para desarrollar una prueba de concepto, que es lo que hicimos en el consejo.

“Lo primero que debe hacer es indexar documentos en alguna base de datos vectorial. Todo este es el trabajo que simplemente hace una vez en el back -end para configurar su sistema, por lo que está listo para ser consultado en función de la base de datos Vector que ha creado.

“A continuación, debe configurar una tubería para recuperar los documentos relevantes para una consulta dada. La idea es que le pregunte un aviso y ejecutaría ese vector contra su base de datos vectorial: notas legales que ha almacenado en su base de datos vectorial o resúmenes de lenguaje sencillo u otros documentos legales que ha copiado desde donde sea, dependiendo de su dominio.

“Este proceso se conoce como generación o trapo aumentada de recuperación y es una excelente manera de proporcionar a su modelo un alcance sobre a qué debe limitarse su salida. Esto reduce significativamente las alucinaciones y, dado que está extrayendo los documentos con los que está respondiendo de la base de datos de vector, puede citar fuentes “.

Estos, dice Moussawi, proporcionan barandillas para su modelo y le dan al usuario final una forma de garantizar que la salida sea legítima porque se están citando fuentes.

Y eso es exactamente lo que hizo el equipo de Moussawi, y su mensaje, mientras espera la entrega de la primera GPU del equipo de ciencias de datos del Consejo, es: “¿Qué estás esperando?”