La forma en que las organizaciones almacenan, gestionan y analizan datos siempre será un desafío dado el constante ataque de datos a los sistemas de TI corporativos. Es como si los equipos de TI siempre estuvieran tratando de ponerse al día.
Según Veritas, la empresa promedio almacena alrededor de 10 PB (petabytes) de datos, lo que equivale a alrededor de 23 mil millones de archivos, el 52 % de los cuales son datos no clasificados (u oscuros) y el 33 % son redundantes, obsoletos y triviales. Si bien esto inevitablemente afecta los costos de almacenamiento y la seguridad cibernética (esa es otra historia), analizar y obtener información a partir de estos datos no es fácil. Exige un enfoque diferente a cómo se gestionan tradicionalmente los datos, a medida que cada vez más organizaciones trabajan con relaciones de datos cada vez más complejas.
Sin duda, la inteligencia artificial generativa (GenAI) se está convirtiendo en una consideración cada vez mayor, especialmente cuando se trata del pensamiento corporativo en torno a la gestión de datos. Pero en estos momentos es una especie de arma de doble filo. Las ventajas –a menudo beneficios que acaparan los titulares– están influyendo en los miembros de la junta directiva. Según una investigación de Capgemini, el 96% de los ejecutivos citan la GenAI como un tema candente de discusión en la sala de juntas. Pero cuando se trata de realidades prácticas, todavía existe cierta incertidumbre.
Como revela la séptima encuesta anual de Couchbase a líderes globales de TI, las empresas están luchando con arquitecturas de datos que no logran gestionar las demandas de datos. La investigación afirma que esta lucha equivale a un promedio de 4 millones de dólares en gastos desperdiciados. Alrededor del 42% de los encuestados culpan de esto a la dependencia de tecnología heredada que no puede cumplir con los requisitos digitales, mientras que el 36% cita problemas para acceder o administrar los datos requeridos.
Lo que está claro es que las bases de datos relacionales no pueden moverse lo suficientemente rápido para soportar las demandas de las aplicaciones modernas con uso intensivo de datos, y las empresas están sufriendo como resultado.
La gestión de conjuntos de datos estructurados y no estructurados ha dado lugar a diferentes enfoques. Por ejemplo, las bases de datos de gráficos (un tipo de base de datos NoSQL) se consideran cada vez más esenciales para la combinación moderna de bases de datos que las organizaciones necesitan para satisfacer sus necesidades de datos. Curiosamente, los resultados de la encuesta de Couchbase muestran que el 31% de las empresas tienen arquitecturas de bases de datos consolidadas, por lo que las aplicaciones no pueden acceder a múltiples versiones de datos, y que sólo el 25% de las empresas tienen una base de datos de alto rendimiento que puede gestionar datos no estructurados a alta velocidad.
Bases de datos NoSQL en acción
Entonces, ¿quién utiliza gráficos y otras bases de datos NoSQL y por qué? ¿Puede ayudar un enfoque de múltiples bases de datos o simplemente significa más complejidad de administrar? Según Rohan Whitehead, especialista en datos del Institute of Analytics (IoA), un organismo profesional para profesionales de análisis y ciencia de datos, las razones principales para adoptar bases de datos gráficas son su eficiencia en el manejo de datos altamente interconectados y su capacidad para realizar consultas complejas con baja latencia.
“Proporcionan una forma natural e intuitiva de modelar redes del mundo real, lo que las hace ideales para casos de uso en los que comprender las relaciones entre los puntos de datos es crucial”, afirma.
Ejemplos de usuarios destacados incluyen redes sociales, como Facebook, que quieren analizar las relaciones a través de gráficos sociales. Los proveedores de servicios financieros también utilizan bases de datos gráficas para la detección de fraudes, mapeando patrones de transacciones para descubrir anomalías que podrían indicar actividades fraudulentas. Y las empresas de la cadena de suministro utilizan bases de datos gráficas para optimizar la logística analizando las relaciones entre proveedores, productos y rutas.
“Las bases de datos NoSQL se adoptan ampliamente en industrias como el comercio electrónico, IoT [internet of things] y análisis en tiempo real”, dice Whitehead. “Los gigantes del comercio electrónico como Amazon y eBay utilizan bases de datos orientadas a documentos como MongoDB para gestionar catálogos de productos, lo que permite actualizaciones rápidas y flexibles sin la necesidad de implicaciones de esquemas complejos”.
Agrega que las aplicaciones de IoT, como las de las ciudades inteligentes o la automatización industrial, se benefician de la “escalabilidad y flexibilidad de tiendas de valores clave como Redis, que pueden manejar la alta velocidad de los datos generados por los sensores. En el análisis en tiempo real, las empresas utilizan tiendas de familias de columnas como Cassandra para procesar y analizar grandes volúmenes de datos en streaming, lo que permite una rápida toma de decisiones y conocimientos”.
Escalabilidad y flexibilidad
Si bien las bases de datos de gráficos son eficientes en el manejo de datos interconectados y realizan consultas de baja latencia, NoSQL puede escalar horizontalmente, manejar datos no estructurados y funcionar bien en entornos distribuidos. La clave aquí es la capacidad de gestionar diferentes modelos de datos y admitir diversas cargas de trabajo.
“Hoy en día, muchos equipos utilizan gráficos porque son una opción flexible y eficaz para muchos sistemas de datos modernos”, afirma Jim Webber, científico jefe de Neo4j. “Los gráficos se adaptan a muchos ámbitos porque los datos altamente asociativos (es decir, gráficos) prevalecen en muchos ámbitos empresariales. Los gráficos son ahora una tecnología de propósito general de la misma manera que las bases de datos relacionales, y la mayoría de los problemas se pueden razonar fácilmente como gráficos”.
Como ejemplo, señala uno de los grandes clientes bancarios de Neo4j que quiere “conocer su perfil de riesgo consultando transitivamente una red compleja de participaciones”. Según Webber, la organización había iniciado y abandonado repetidamente el proyecto, después de intentar hacerlo funcionar utilizando tablas relacionales. En otro ejemplo, Webber dice que Transport for London utiliza gráficos para actuar más rápido en la reparación y el mantenimiento de las redes de carreteras de Londres, “ahorrándole a la ciudad alrededor de £600 millones al año”.
Otro cliente de Neo4j es ExpectAI, una consultora con sede en Londres que utiliza tecnología de bases de datos gráficas para soluciones sobre el cambio climático. Según el director ejecutivo y fundador Anand Verma, la tecnología gráfica ha permitido a la empresa “navegar por un vasto ecosistema de datos públicos y privados, al tiempo que proporciona la trazabilidad y el contexto necesarios para reducir el pesimismo en torno al lavado verde percibido”.
Verma agrega que la flexibilidad de las bases de datos gráficas le ha dado a la empresa lo que necesita para capturar de manera efectiva relaciones complejas en sus datos. “Esto, a su vez, proporciona la información y los conocimientos potentes que nuestros clientes necesitan para tomar medidas rentables y al mismo tiempo reducir su huella de carbono”, afirma.
Pero es la parte de IA del nombre de la empresa la que realmente agrega valor a la oferta. Verma sugiere que la IA está ayudando a la tecnología a organizar datos no estructurados, lo que a su vez permite la búsqueda semántica y la indexación de vectores.
“Esto está ayudando a los usuarios a interpretar sus datos a través de una PNL. [natural language processing] preguntas y respuestas conversacionales [questions and answers] interfaz”, dice Verma. “Nuestro objetivo final con esta tecnología es contribuir significativamente a la reducción de 500 megatones de emisiones de carbono en todo el mundo para 2030”.
Es un objetivo digno y un buen ejemplo de cómo la tecnología de gráficos está transformando las relaciones de datos y permitiendo que florezcan ideas comerciales de datos nuevas y complejas. El uso de la IA aumentará invariablemente a medida que las organizaciones busquen reducir las funciones manuales, aumentar los tiempos de consulta y aumentar los conocimientos.
IA y NoSQL
Whitehead de IoA dice que las bases de datos gráficas son “particularmente adecuadas para aplicaciones de IA que requieren comprender y analizar las relaciones dentro de los datos”. Agrega que la tecnología puede admitir algoritmos avanzados para el reconocimiento de patrones, la detección de comunidades y la búsqueda de rutas, que son cruciales para tareas como sistemas de recomendación, detección de fraude y gráficos de conocimiento.
Para Ken LaPorte, gerente del grupo de ingeniería de infraestructura de datos de Bloomberg, la IA ya ha tenido un impacto significativo, pero con NoSQL, la empresa ha visto mucho interés interno en “hacer uso de Apache AGE, la extensión de base de datos de gráficos, junto con PostgreSQL”. .
“Se ha utilizado para todo, desde el linaje de datos (rastreo de datos a medida que se mueven a través de los sistemas) hasta paneles de control de implementación complejos. El poder analítico de Apache AGE combinado con los ricos conjuntos de datos de Bloomberg ha sido una historia de éxito natural para nosotros”.
Por lo tanto, la IA está resultando invaluable a medida que las empresas luchan con el volumen cada vez mayor de información estructurada y no estructurada necesaria para tomar decisiones informadas.
“A medida que estamos viendo un aumento exponencial en la información financiera en todas las clases de activos, Bloomberg continúa invirtiendo en una serie de tecnologías diferentes para garantizar que podamos ejecutar nuestra estrategia integral de IA”, agrega LaPorte. “Las bases de datos de gráficos y vectores son partes clave de ese esfuerzo, además de los componentes de búsqueda de vectores integrados en otras tecnologías de datos. Esto abarca la búsqueda dispersa tradicional hasta búsquedas vectoriales (o semánticas) densas más impulsadas por IA”.
Las bases de datos NoSQL, con su capacidad para manejar grandes volúmenes de datos, son parte integral de las aplicaciones de IA. Admiten la ingesta y consulta de datos en tiempo real, esenciales para aplicaciones de IA que requieren procesamiento de datos y toma de decisiones inmediatos, como mantenimiento predictivo y análisis en tiempo real.
En Bloomberg, por ejemplo, las capacidades de análisis de datos en tiempo real de las bases de datos gráficas respaldan aplicaciones de inteligencia artificial que exigen información instantánea, como precios dinámicos y detección de anomalías.
“Los modelos de datos flexibles de las bases de datos NoSQL permiten el almacenamiento y procesamiento de tipos de datos complejos y variados, lo que resulta ventajoso para las aplicaciones de IA que necesitan manejar datos no estructurados como texto, imágenes y datos de sensores”, afirma Whitehead de IoA. Como ejemplo, dice: “El modelo orientado a documentos de MongoDB facilita el almacenamiento y la recuperación de datos basados en JSON, que se utilizan comúnmente en los flujos de trabajo de IA”.
Dirección futura de la base de datos
Whitehead sugiere que el futuro de las bases de datos gráficas “parece prometedor”, y se espera un crecimiento en su adopción a medida que más organizaciones reconozcan el valor de analizar datos interconectados. “Industrias como la atención sanitaria, las telecomunicaciones y las finanzas dependerán cada vez más de las bases de datos de gráficos para sus capacidades analíticas”, afirma, y añade que los desarrollos futuros probablemente se centrarán en mejorar el análisis de gráficos y una integración más profunda con las tecnologías de IA.
Espere ver a los proveedores de la nube ampliar sus ofertas de bases de datos, promocionando soluciones más sólidas, escalables e integradas. Graph y otras bases de datos NoSQL están “preparadas para un crecimiento e innovación significativos”, dice Whitehead.
No está solo en este pensamiento. El consenso es que las capacidades coincidirán con la visión creciente de la industria, con la integración de la IA permitiendo aplicaciones más inteligentes y basadas en datos.
LaPorte de Bloomberg tiene un consejo: “Todo el mundo necesita experimentar. Es necesario pensar en un caso de uso. Puede confiar en productos como DataStax AstraDB, OpenAI, etc., para crear una solución lista para producción en poco tiempo y medir su valor de inmediato. Luego, si la dirección parece lo suficientemente buena, se pueden invertir más recursos para optimizar el caso de uso”.