El concepto de Lakehouse tiene como objetivo fusionar el lago de datos y el almacén de datos

La casa del lago de datos: no es un retiro de verano para administradores de bases de datos (DBA) o científicos de datos con exceso de trabajo, es un concepto que intenta cerrar la brecha entre el almacén de datos y el lago de datos.

En otras palabras, el lago de datos tiene como objetivo unir la flexibilidad y el costo relativamente bajo del lago de datos con la facilidad de acceso y soporte para las capacidades de análisis empresarial que se encuentran en los almacenes de datos.

En este artículo, veremos las características del data lakehouse y daremos algunas sugerencias a los proveedores que lo ponen a disposición.

Limitaciones del lago y preocupaciones del almacén

Recapitulemos las características clave del lago de datos y el almacén de datos para dejar claro dónde encaja la idea del lago de datos.

Los lagos de datos se conciben como la ubicación más ascendente para la gestión de datos empresariales. Es donde fluyen todos los datos de la organización y donde pueden vivir en un formato más o menos sin procesar, que va desde archivos de imagen y PDF no estructurados a estructurados hasta bases de datos, a través de XML, JSON, etc. Quizás haya una funcionalidad de tipo búsqueda a través de metadatos y los científicos de datos podrían realizar algún análisis ad hoc.

No es probable que las capacidades de procesamiento sean críticas u optimizadas para flujos de trabajo particulares, y lo mismo ocurre con el almacenamiento.

Los almacenes de datos, por otro lado, están en el extremo opuesto de las cosas. Aquí, los conjuntos de datos, posiblemente después de las fases exploratorias de trabajo en el lago de datos, están disponibles para análisis más regulares y de rutina.

El almacén de datos coloca los datos en un formato más empaquetado y procesado. Habrá sido explorado, evaluado, discutido y presentado para un acceso rápido y regular, y casi invariablemente son datos estructurados.

Mientras tanto, la computación y el almacenamiento en la arquitectura del almacén de datos se optimizarán para los tipos de acceso y procesamiento requeridos.

Al otro lado del lago hasta la casa del lago

La casa del lago de datos intenta cerrar la brecha entre el lago de datos y el almacén de datos. Entre la gran masa amorfa del lago con sus innumerables formatos y la falta de usabilidad en términos del día a día, y el almacén de datos ajustado, altamente estructurado y relativamente costoso.

Básicamente, la idea del lago de datos contempla la introducción de soporte para ACID (atomicidad, consistencia, aislamiento y durabilidad): procesos transaccionales con la capacidad de que múltiples partes lean y escriban datos al mismo tiempo. También debería haber una forma de hacer cumplir los esquemas y garantizar la gobernanza con formas de razonar sobre la integridad de los datos.

Pero la idea de la casa del lago de datos también es, en parte, una respuesta al surgimiento de datos no estructurados (o semiestructurados) que podrían estar en una variedad de formatos, incluidos aquellos que podrían ser potencialmente analizados por inteligencia artificial (IA) y aprendizaje automático (ML ) herramientas, como texto, imágenes, video y audio.

Eso también significa soporte para una variedad de tipos de cargas de trabajo. Donde el almacén de datos significa invariablemente el uso de bases de datos, el lago de datos puede ser el sitio de la ciencia de datos, AI / ML, SQL y otras formas de análisis.

Una ventaja clave es que se puede acceder a una amplia variedad de datos de manera más rápida y sencilla con una variedad más amplia de herramientas, como Python, R y aprendizaje automático, e integradas con aplicaciones empresariales.

Dónde explorar la casa del lago de datos

Un pionero en la idea de ese lago de datos es Databricks, que obtuvo $ 1 mil millones de fondos a principios de este año. Databricks es un colaborador de la casa del lago de datos en la nube de Delta Lake de código abierto. Los analistas han visto una ronda de financiación tan grande como la confianza de los inversores en un enfoque que tiene como objetivo facilitar el acceso de las empresas a conjuntos de datos grandes y variados.

Mientras tanto, Databricks está disponible en Amazon Web Services (AWS), mientras que el gigante de la nube también posiciona su producto de almacenamiento de datos Redshift como una arquitectura de casa de lago, con la capacidad de realizar consultas en fuentes de datos estructuradas (bases de datos relacionales) y no estructuradas (S3, Redshift). La esencia aquí es que las aplicaciones pueden consultar cualquier fuente de datos sin la preparación requerida para el almacenamiento de datos.

Microsoft Azure tiene Azure Databricks, que utiliza el motor Delta Lake y Spark con compatibilidad con la interfaz de programación de aplicaciones (API) para SQL, Python, R y Scala, además de bibliotecas de aprendizaje automático y computación de Azure optimizadas.

Databricks y Google también anunciaron la disponibilidad en Google Cloud Platform a principios de este año y la integración con BigQuery de Google y Google Cloud AI Platform.

Otro proveedor en el juego de Lakehouse es Snowflake, que afirma ser el creador del término y promociona su capacidad para proporcionar una plataforma de datos y análisis en el almacenamiento de datos y escenarios menos estructurados.

Más contenido para leer:  Cómo se establece SASE para determinar el futuro

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales