Lagos de datos en la nube: ¿dónde encajan y cuáles son sus beneficios?

Muchas empresas están avanzando hacia el uso de lagos de datos para ayudar a gestionar cantidades cada vez mayores de información.

Estos grandes repositorios permiten a las organizaciones recopilar y almacenar datos estructurados y no estructurados antes de entregarlos para su posterior gestión y procesamiento en un almacén de datos, una base de datos, una aplicación empresarial o a científicos de datos y herramientas de análisis e inteligencia artificial (IA).

Y, dados los volúmenes potencialmente enormes de datos en juego y la necesidad de escalar a medida que crece el negocio, cada vez más organizaciones están considerando la nube como una ubicación para un lago de datos.

¿Qué es un lago de datos?

Los lagos de datos contienen datos sin procesar. Desde el lago de datos, los datos viajan en sentido descendente, generalmente para su posterior procesamiento o hacia una base de datos o una aplicación empresarial. El lago de datos es donde se recopilan los diversos flujos de datos de la empresa, ya sea de la cadena de suministro, los clientes, el marketing, el inventario o los datos de los sensores de la planta o la maquinaria.

Los datos de un lago de datos pueden ser estructurados, no estructurados o semiestructurados. Las empresas pueden utilizar el etiquetado de metadatos para ayudar a encontrar activos, pero se supone que los datos fluirán hacia aplicaciones especializadas o serán trabajados por científicos y desarrolladores de datos.

Amazon Web Services (AWS) ofrece una buena definición funcional: un lago de datos es un “repositorio centralizado que le permite almacenar todos sus datos estructurados y no estructurados a cualquier escala. Puede almacenar sus datos tal cual, sin tener que estructurarlos primero”.

Esto contrasta con un almacén de datos, donde la información se almacena en bases de datos a las que pueden acceder los empleados y las aplicaciones empresariales.

Lagos de datos en la nube: características clave

La característica clave de un lago de datos en la nube es su escala, seguida de cerca por la facilidad de gestión. Los lagos de datos de los proveedores de nube a hiperescala se ejecutan en almacenamiento de objetos y ofrecen una capacidad prácticamente ilimitada. Es probable que la única limitación sea el presupuesto de almacenamiento de datos de la empresa.

Al igual que con otras tecnologías de almacenamiento en la nube, los lagos de datos en la nube pueden ampliarse y reducirse para permitir a los clientes ajustar la capacidad y, por lo tanto, los costos, según los requisitos comerciales. El hiperescalador es responsable de agregar capacidad, mantenimiento de hardware y software, redundancia y seguridad, y así le quita esa carga al equipo de ciencia de datos.

“Los servicios de lago de datos administrados por hiperescaladores en la nube permiten a los equipos de ingeniería de datos centrarse en el análisis de negocios, liberándolos de las tediosas tareas de mantener la infraestructura del lago de datos en el sitio”, dice Srivatsa Nori, experto en datos de PA Consulting.

“La alta confiabilidad, disponibilidad y tecnología actualizada que ofrecen los hiperescaladores de la nube hacen que las infraestructuras de lagos de datos administrados sean cada vez más populares, ya que garantizan un rendimiento sólido y un tiempo de inactividad mínimo”.

Los proveedores de nube también ofrecen auditorías y controles de acceso sofisticados, añade, así como facturación simplificada a través de herramientas como el etiquetado de recursos.

Y, aunque hasta ahora los lagos de datos y los almacenes de datos han estado en gran medida separados, se están acercando, ya sea funcionando en una única plataforma o como “almacén de datos”.

“En una arquitectura de datos moderna, hay un lugar para el lago y el almacén de datos, ya que cumplen propósitos complementarios”, afirma Nori. “La nube proporciona un entorno poderoso para unificar ambos enfoques”.

Pros y contras de los lagos de datos en la nube

La mayoría de los beneficios del almacenamiento en la nube a hiperescala se aplican igualmente a los lagos de datos en la nube, incluida la escala, la flexibilidad y la facilidad de administración.

Las organizaciones también evitan la necesidad de realizar gastos de capital iniciales y los largos plazos de entrega que conllevan la construcción del centro de datos y la instalación de hardware.

Frente a esto, las organizaciones deben considerar la posible pérdida de control, especialmente sobre los costos. La naturaleza flexible del almacenamiento en la nube puede significar un aumento de los costos si un lago de datos se utiliza más de lo esperado. Los equipos de datos también deben considerar la salida y los posibles costos de ancho de banda, especialmente cuando mueven datos “descendentes” a bases de datos y otras aplicaciones.

La seguridad, la confidencialidad y la soberanía de los datos siguen siendo barreras para algunas organizaciones. Las regulaciones pueden imponer límites sobre dónde las organizaciones guardan datos, y los datos sin procesar y no procesados ​​pueden ser muy confidenciales. Los hiperescaladores ahora ofrecen zonas de disponibilidad y límites geográficos sobre dónde guardan los datos de los clientes. Los CIO y CDO deben garantizar que esos límites cumplan con los requisitos comerciales.

Sin embargo, el rendimiento no suele ser una barrera para los proyectos de lagos de datos a gran escala porque el procesamiento pesado se lleva a cabo más adelante. El rendimiento importa más a nivel del almacén de datos, donde el almacenamiento en bloque (ya sea en la nube o local) se utiliza para el almacenamiento de bases de datos.

Ofertas de lagos de datos de hiperescaladores

Para las empresas que crean lagos de datos en la nube, Microsoft ofrece Azure Data Lake Storage (ADLS), así como Azure Synapse para análisis y Azure Purview para gobierno de datos. ADLS Gen2 combina ADLS Gen1 con Azure Blob Storage, mientras que Synapse trabaja con datos estructurados y no estructurados, para data lakehouses.

AWS proporciona AWS Lake Formation para crear lagos de datos en el almacenamiento S3. Esto se combina con Athena, Redshift Spectrum y SageMaker para acceso a datos, análisis y aprendizaje automático.

Google adopta un enfoque ligeramente diferente, combinando Google Cloud Storage con herramientas de código abierto, BigQuery y VertexAI. Google también ofrece BigLake, que puede combinar almacenamiento en GCP, S3 y Azure, además de crear una arquitectura unificada para lagos y almacenes de datos, y lo que Google llama un “lago de datos de formato abierto”.

Exit mobile version