El panorama de datos actual presenta desafíos sin precedentes para las organizaciones, debido a la necesidad de que las empresas procesen miles de documentos en numerosos formatos de datos. Estos, como Bogdan Raduta, jefe de investigación de Flowx.ai, señala, pueden variar desde PDF y hojas de cálculo, imágenes, multimedia, que deben reunirse y procesarse en información significativa.
Cada fuente de datos tiene su propio modelo de datos y requisitos, y a menos que puedan reunirse de manera significativa, las organizaciones terminan tratando con silos de datos. Esto puede significar que los usuarios se ven obligados a moverse entre una aplicación y otra, y cortar y pegar información de diferentes sistemas para obtener información útil para impulsar la toma de decisiones informadas.
Sin embargo, los enfoques tradicionales de ingeniería de datos luchan con la complejidad de atraer datos en diferentes formatos. “Mientras que ETL convencional [extract, translate and load] Las tuberías de datos se destacan en el procesamiento de datos estructurados, se vacilan al confrontar la ambigüedad y la variabilidad de la información del mundo real ”, dice Raduta. Lo que esto significa es que los sistemas basados en reglas se vuelven frágiles y costosos de mantener a medida que crece la variedad de fuentes de datos.
En su experiencia, incluso las plataformas de integración modernas, diseñadas para flujos de trabajo impulsados por la interfaz de programación de aplicaciones (API), luchan con la comprensión semántica requerida para procesar el contenido del lenguaje natural de manera efectiva.
Con toda la exageración que rodea la inteligencia artificial (IA) y los datos, la industria tecnológica realmente debería poder manejar este nivel de heterogeneidad de datos. Pero, Jesse Anderson, director gerente de Big Data Institute, argumenta que hay una falta de comprensión de los roles y habilidades de trabajo necesarias para las ciencias de los datos.
Una idea errónea, según Anderson, es que los científicos de datos se han confundido tradicionalmente con las personas que crean modelos y hacen todo el trabajo de ingeniería requerido. Pero él dice: “Si alguna vez quieres escuchar cómo no se puede hacer algo relacionado con los datos, solo vaya al” sin equipo “para el almacenamiento de datos, y se le dirá:” No, no se puede hacer. ‘. “
Esta percepción de la realidad no es un buen augurio para la industria, dice, porque los proyectos de datos no van a ninguna parte.
Desarrollo de una mentalidad de ingeniería de datos
Anderson cree que parte de la confusión proviene de las dos definiciones bastante diferentes del rol de ingeniería de datos.
Una definición describe una persona centrada en el lenguaje de consulta estructurada (SQL). Esto, dice, es alguien que puede extraer información de diferentes fuentes de datos escribiendo consultas usando SQL.
La otra definición es un ingeniero de software con conocimiento especializado en la creación de sistemas de datos. Tales individuos, dice Anderson, pueden escribir código y escribir consultas SQL. Más importante aún, pueden crear sistemas complejos para datos donde una persona centrada en SQL depende totalmente de sistemas menos complejos, a menudo dependiendo de herramientas de bajo código o sin código.
“La capacidad de escribir código es una parte clave de un ingeniero de datos que es ingeniero de software”, dice. A medida que los requisitos complicados provienen del diseño empresarial y del sistema, Anderson dice que estos ingenieros de datos tienen las habilidades necesarias para crear estos sistemas complejos.
Sin embargo, si fuera fácil crear el equipo de ingeniería de datos adecuado en primer lugar, todos lo habrían hecho. “Algunos profundos cambios organizacionales y técnicos son necesarios”, dice Anderson. “Tendrá que convencer a su nivel C de financiar el equipo, convencer a RRHH de que tendrá que pagarles bien y convencer a las empresas de que trabajar con un equipo de ingeniería de datos competente puede resolver sus problemas de datos”.
En su experiencia, seguir el camino correcto para la ingeniería de datos requiere un esfuerzo concertado, lo que significa que no evoluciona orgánicamente a medida que los equipos asumen diferentes proyectos.
Lecciones de la ciencia
Al recordar un problema reciente con el acceso a los datos, Justin Pront, director senior de productos de Tetrascience, dice: “Cuando una importante compañía farmacéutica recientemente intentó usar IA para analizar un año de datos de bioprocesamiento, golpean un muro familiar para cada ingeniero de datos: su Los datos eran técnicamente “accesibles” pero prácticamente inutilizables “.
Pront dice que las lecturas de instrumentos de la compañía se sentaron en formatos patentados, por lo que los metadatos críticos residían en sistemas desconectados. Lo que esto significaba, dice, es que las preguntas simples, como preguntar sobre las condiciones para un experimento en particular, requerían el trabajo de detective manual en múltiples bases de datos.
“Este escenario destaca una verdad que he observado repetidamente: los datos científicos representan la prueba de estrés final para las arquitecturas de datos empresariales. Mientras que la mayoría de las organizaciones luchan con los silos de datos, los datos científicos llevan estos desafíos a sus límites absolutos ”, dice.
Por ejemplo, el análisis de datos científicos se basa en conjuntos numéricos multidimensionales, que Pront dice que proviene de “una variedad vertiginosa de instrumentos confidenciales, notas no estructuradas escritas por científicos de banco, pares de valor clave inconsistentes y flujos de trabajo tan complejos que los más cortos totales 40 pasos totales 40 pasos . “
Para Pront, existen tres principios clave de la ingeniería de datos científicos que cualquier organización que busque mejorar la ingeniería de datos necesita controlar. Estos son el cambio de las arquitecturas centradas en el archivo a los datos, la importancia de preservar el contexto desde la fuente a través de la transformación a través de la ingeniería de datos y la necesidad de patrones de acceso a datos unificados que satisfagan necesidades de análisis inmediatas y futuras.
Según Pront, los desafíos que enfrentan los ingenieros de datos en las ciencias de la vida ofrecen valiosas lecciones que podrían beneficiar a cualquier empresa intensiva en datos. “Preservar el contexto, garantizar la integridad de los datos y permitir diversos flujos de trabajo analíticos se aplican mucho más allá de los dominios científicos y los casos de uso”, dice.
Discutiendo el cambio a una arquitectura centrada en datos, agrega: “Al igual que muchos usuarios empresariales, los científicos tradicionalmente ven los archivos como su contenedor de datos primarios. Sin embargo, presenta información del segmento en silos de acceso limitado y elimina el contexto crucial. Si bien esto funciona para el científico individual que analiza sus resultados de ensayo para obtener datos en su cuaderno de laboratorio electrónico (ELN) o Sistema de Gestión Informática de Laboratorio (LIMS), realiza cualquier análisis agregado o exploratorio o IA y ML [machine learning] tiempo de ingeniería y laboratorio intensivo “.
Pront cree que la ingeniería de datos moderna debería centrarse en la información, preservando relaciones y metadatos que hacen que los datos sean valiosos. Para Pront, esto significa usar plataformas que capturan y mantienen el linaje de datos, las métricas de calidad y el contexto de uso.
En términos de integridad de datos, dice: “Incluso las alteraciones menores de los datos en el trabajo científico, como omitir un cero final en una lectura decimal, pueden conducir a una interpretación errónea o conclusiones no válidas. Esto impulsa la necesidad de adquisición de datos inmutables y tuberías de procesamiento repetibles que preservan los valores originales al tiempo que habilitan diferentes vistas de datos “.
En industrias reguladas como la atención médica, el sector farmacéutico y los servicios financieros, la integridad de los datos de la adquisición en un archivo o sistema de origen a través de la transformación y el análisis de datos no es negociable.
Mirando el acceso a los datos para los científicos, Pront dice que existe una tensión entre la accesibilidad inmediata y la utilidad futura. Esta es claramente una situación que enfrentan muchas organizaciones. “Los científicos quieren y necesitan acceso sin problemas a los datos en sus herramientas de análisis preferidas, por lo que terminan con herramientas generalizadas basadas en escritorio, como hojas de cálculo o software de visualización localizada. Así es como terminamos con más silos ”, dice.
Sin embargo, como señala Pront, también utilizan conjuntos de datos basados en la nube colocados con sus herramientas de análisis para garantizar el mismo análisis rápido, mientras que toda la empresa se beneficia de tener los datos preparados y listos para aplicaciones avanzadas, capacitación de IA y, cuando sea necesario, presentaciones regulatorias. Él dice que los casos de datos de Data basados en formatos de almacenamiento abierto como Delta e Iceberg han surgido en respuesta a estas necesidades, ofreciendo gobernanza unificada y patrones de acceso flexible.
Flujos de datos de ingeniería
Volviendo al desafío de dar sentido a todos los diferentes tipos de datos que una organización necesita procesar, como lo ha señalado Raduta de Flowx.ai, ETL está muy por debajo de lo que las empresas ahora necesitan ahora.
Una área prometedora de IA que el sector tecnológico ha desarrollado son los modelos de idiomas grandes (LLM). Raduta dice que los LLM ofrecen un enfoque fundamentalmente diferente para la ingeniería de datos. En lugar de confiar en las reglas de transformación determinista inherentes a las herramientas ETL, dice: “Los LLM pueden comprender el contexto y extraer el significado del contenido no estructurado, convirtiendo efectivamente cualquier documento en una fuente de datos consultable”.
Para Raduta, esto significa que los LLM ofrecen una arquitectura completamente nueva para el procesamiento de datos. En su base se encuentra una capa de ingestión inteligente que puede manejar diversas fuentes de entrada. Pero a diferencia de los sistemas ETL tradicionales, Raduta dice que la capa inteligente de ingestión no solo extrae información de las fuentes de datos, sino que tiene la capacidad de comprender lo que todas las diferentes fuentes de datos que ingieren realmente están diciendo.
Es poco probable que haya un enfoque único para la ingeniería de datos. El Pront de Tetrascience insta a los líderes de TI a considerar la ingeniería de datos como una práctica que evoluciona con el tiempo. Como señala Anderson del Big Data Institute, las habilidades necesarias para evolucionar la ingeniería de datos, combinar las habilidades de programación y las habilidades tradicionales de ciencia de datos de una manera que significa que los líderes de TI deberán convencer a la junta y sus personas con recursos humanos que atraen las habilidades de ingeniería de datos correctas. Deberá pagar una prima por el personal.