¿Qué es un data lakehouse?

Hay organizaciones de todo el mundo que buscan soluciones de almacenamiento para gestionar los requisitos de volumen, latencia, resiliencia y acceso a los datos del Big Data. Inicialmente, las empresas usaban las pilas tecnológicas que ya tenían para que sus data lakes ofrecieran las mismas funciones que los almacenes, así como para adaptar sus almacenes de datos para gestionar grandes cantidades de datos semiestructurados u optar por conservar los datos en ambas ubicaciones.

En última instancia, estas estrategias se tradujeron en un aumento de los costes, la insatisfacción de los usuarios y la duplicación de datos en toda la empresa. El data lakehouse ha surgido como una nueva arquitectura de datos híbrida que tiene como objetivo ofrecer las mejores ventajas de los almacenes de datos y los data lakes, al tiempo que elimina los puntos débiles de ambos sistemas.

Google Cloud es una solución de data lakehouse nativa de la nube, muy escalable y segura que se basa en nuestro almacenamiento de bajo coste, nuestros motores de computación sin servidor y nuestras potentes soluciones de gestión de datos. Consulta más información sobre cómo puedes crear un data lakehouse abierto en Google Cloud.

Definición de data lakehouse

Un data lakehouse es una arquitectura de datos que combina un data lake y un almacén de datos. Los data lakehouses favorecen el aprendizaje automático, la inteligencia empresarial y las analíticas predictivas, lo que permite a las empresas sacar partido del almacenamiento flexible y de bajo coste para todo tipo de datos (estructurados, sin estructurar y semiestructurados), al tiempo que ofrecen estructuras y funciones de gestión de datos.

¿Qué es un lakehouse?

Un data lakehouse es una arquitectura de datos moderna que crea una única plataforma combinando las principales ventajas de los data lakes (grandes repositorios de datos en bruto en su forma original) y los almacenes de datos (conjuntos organizados de datos estructurados). En concreto, los data lakehouses permiten a las organizaciones utilizar un almacenamiento de bajo coste para almacenar grandes cantidades de datos en bruto mientras proporcionan estructuras y funciones de gestión de datos.

Antes, los almacenes de datos y los data lakes tenían que implementarse como arquitecturas independientes y aisladas para no sobrecargar los sistemas subyacentes y crear contención por los mismos recursos. Para ello, las empresas utilizaban almacenes de datos para almacenar datos estructurados para la inteligencia empresarial (BI), informes y lagos de datos para almacenar datos sin estructurar y semiestructurados para almacenar cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático. Sin embargo, este enfoque debía cambiar de forma periódica los datos entre los dos sistemas para procesarlos conjuntamente, lo que suponía mayor complejidad, más costes y problemas relacionados con la actualización, la duplicación y la coherencia de los datos.

El objetivo de los data lakehouses es acabar con estos silos y ofrecer la flexibilidad, escalabilidad y agilidad necesarias para que tus datos generen valor para tu negocio, y no una ineficiencia.

Diferencias entre data lakehouse, data lake y almacén de datos

El término "data lakehouse" combina dos tipos de repositorios de datos: el almacén de datos y el data lake. Entonces, ¿qué diferencias hay entre un data lakehouse, un data lake y un almacén de datos?

Almacenes de datos

Los almacenes de datos proporcionan acceso rápido a compatibilidad con datos y SQL para los usuarios empresariales que necesitan generar informes y estadísticas para tomar decisiones. Todos los datos deben pasar por la fase de extracción, transformación y carga (ETL). Esto significa que se optimiza con un formato o esquema específico en función del caso práctico antes de cargarlo para admitir consultas de alto rendimiento y la integridad de los datos. Sin embargo, este método limita la flexibilidad de acceso a los datos y genera costes adicionales si es necesario trasladarlos para utilizarlos en el futuro.

Data lakes

Los data lakes almacenan grandes cantidades de datos estructurados y sin estructurar en su formato nativo. A diferencia de los almacenes de datos, los datos se procesan, limpian y transforman durante los análisis para que la velocidad de carga sea más rápida, por lo que son ideales para el procesamiento de Big Data, el aprendizaje automático y las analíticas predictivas. Sin embargo, requieren experiencia en la ciencia de datos, lo que limita el conjunto de personas que pueden utilizar los datos y, si no se mantienen de forma adecuada, la calidad de los datos se puede deteriorar con el tiempo. Los data lakes también dificultan la obtención de consultas en tiempo real, ya que los datos no se procesan, por lo que posiblemente tengan que limpiarse, procesar, ingerir e integrar antes de poder usarse.

Data lakehouse

Un data lakehouse combina esos dos enfoques para crear una única estructura que te permite acceder a datos y aprovecharlos para muchos fines, como la inteligencia empresarial, la ciencia de datos, IA o el aprendizaje automático. En otras palabras, un data lakehouse recoge todos los datos no estructurados, estructurados y semiestructurados de tu organización y los almacena en un almacenamiento de bajo coste. Además, ofrece a todos los usuarios la posibilidad de organizar y consultar los datos según sus necesidades.

Características de un data lakehouse

Estas son algunas de las funciones clave de un data lakehouse:

Un solo almacén de datos de bajo coste para todos los tipos de datos (estructurados, sin estructurar y semiestructurados)
Funciones de gestión de datos para aplicar esquemas, aplicar el gobierno de datos y proporcionar procesos de extracción, transformación y carga (ETL) y limpieza de datos
Compatibilidad de las transacciones con las propiedades ACID (atomicidad, coherencia, aislamiento y durabilidad) para asegurar la coherencia de los datos cuando varios usuarios leen y escriben datos simultáneamente
Formatos de almacenamiento estandarizados que se pueden usar en varios programas de software
Streamings de extremo a extremo que permiten la ingestión de datos y la generación de estadísticas en tiempo real
Separa los recursos de computación y almacenamiento para asegurar la escalabilidad para un conjunto diverso de cargas de trabajo
Interoperabilidad con motores de código abierto, como Apache Spark, y plataformas de analíticas basadas en SQL, como BigQuery
Gobierno integral y gestión de metadatos en todos tus datos
Acceso directo de las aplicaciones de inteligencia empresarial a los datos de origen del lakehouse para reducir la duplicación de datos

¿Cómo funciona un data lakehouse?

A la hora de hacer que un data lakehouse funcione, hay que tener en cuenta sus objetivos. El objetivo de los data lakehouses es centralizar las distintas fuentes de datos y simplificar los esfuerzos de ingeniería para que todos los miembros de tu organización puedan ser usuarios de datos.

Los data lakehouse utilizan el mismo bajo coste de almacenamiento de objetos en la nube de los data lakes para proporcionar almacenamiento bajo demanda y facilitar el aprovisionamiento y el escalado. Al igual que los data lakes, pueden capturar y almacenar grandes volúmenes de todo tipo de datos en formato sin procesar. El lakehouse integra capas de metadatos en este almacén para proporcionar funciones similares a las de un almacén, como esquemas estructurados, compatibilidad con transacciones ACID, gobierno de datos y otras funciones de gestión y optimización de datos.

Ventajas de usar un data lakehouse

Arquitectura simplificada Con un data lakehouse se eliminan los silos de dos plataformas distintas, solo tienes que centrarte en gestionar y mantener un único repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tengas que extraer ni preparar los datos para usarlos en un almacén de datos.	Datos de mejor calidad Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas data lakehouse, lo que te permite asegurar la coherencia. Además, los lakehouses reducen el tiempo que se tarda en ofrecer datos nuevos, lo que permite que los datos estén más actualizados.	Costes más bajos Almacena grandes volúmenes de datos en un almacenamiento de bajo coste y elimina la necesidad de mantener tanto un almacén de datos como un data lake. Los data lakehouses también ayudan a reducir los costes derivados de los procesos de extracción, transformación y carga (ETL) y de la anulación de duplicados.
Mayor fiabilidad Los data lakehouses reducen las transferencias de datos de extracción, transformación y carga (ETL) entre varios sistemas, lo que reduce las posibilidades de que se produzcan problemas de calidad o técnicos con la transferencia de datos.	Gobernanza de datos mejorada Los data lakehouses se agrupan en un mismo lugar para consolidar los datos y los recursos, lo que facilita la implementación, las pruebas y los controles de gobernanza y seguridad.	Reducción de la duplicación de datos Cuantas más copias de datos haya en sistemas diferentes, más probabilidades habrá de que sean incoherentes y menos fiables. Con los data lakehouses, puedes tener una única fuente de datos que toda la empresa puede compartir para tomar decisiones, lo que evita incoherencias y costes adicionales de almacenamiento derivados de la duplicación de datos.
Cargas de trabajo diversas Puedes conectar varias herramientas directamente a la casa del lago para admitir cargas de trabajo de analíticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.	Alta escalabilidad El bajo coste del almacenamiento de objetos en la nube de data lakehouses te permite separar la computación del almacenamiento para proporcionar una escalabilidad casi ilimitada e instantánea. Puedes escalar la potencia de computación y el almacenamiento de forma independiente según las necesidades de tu empresa.

Arquitectura simplificada

Con un data lakehouse se eliminan los silos de dos plataformas distintas, solo tienes que centrarte en gestionar y mantener un único repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tengas que extraer ni preparar los datos para usarlos en un almacén de datos.

Datos de mejor calidad

Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas data lakehouse, lo que te permite asegurar la coherencia. Además, los lakehouses reducen el tiempo que se tarda en ofrecer datos nuevos, lo que permite que los datos estén más actualizados.

Costes más bajos

Almacena grandes volúmenes de datos en un almacenamiento de bajo coste y elimina la necesidad de mantener tanto un almacén de datos como un data lake. Los data lakehouses también ayudan a reducir los costes derivados de los procesos de extracción, transformación y carga (ETL) y de la anulación de duplicados.

Mayor fiabilidad

Los data lakehouses reducen las transferencias de datos de extracción, transformación y carga (ETL) entre varios sistemas, lo que reduce las posibilidades de que se produzcan problemas de calidad o técnicos con la transferencia de datos.

Gobernanza de datos mejorada

Los data lakehouses se agrupan en un mismo lugar para consolidar los datos y los recursos, lo que facilita la implementación, las pruebas y los controles de gobernanza y seguridad.

Reducción de la duplicación de datos

Cuantas más copias de datos haya en sistemas diferentes, más probabilidades habrá de que sean incoherentes y menos fiables. Con los data lakehouses, puedes tener una única fuente de datos que toda la empresa puede compartir para tomar decisiones, lo que evita incoherencias y costes adicionales de almacenamiento derivados de la duplicación de datos.

Cargas de trabajo diversas

Puedes conectar varias herramientas directamente a la casa del lago para admitir cargas de trabajo de analíticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.

Alta escalabilidad

El bajo coste del almacenamiento de objetos en la nube de data lakehouses te permite separar la computación del almacenamiento para proporcionar una escalabilidad casi ilimitada e instantánea. Puedes escalar la potencia de computación y el almacenamiento de forma independiente según las necesidades de tu empresa.

Retos al usar un data lakehouse

El concepto de data lakehouse ha evolucionado con el tiempo, ya que las empresas quieren tener la máxima flexibilidad en el almacenamiento de datos y más opciones e interoperabilidad con los motores de procesamiento de datos y analíticas. Además, crear data lakehouses también es difícil de construir desde cero y ahora deben estar profundamente conectados a las funciones de IA. En la mayoría de los casos, deberás optar por una solución de data lakehouse lista para usar o utilizar una plataforma como Google Cloud que ofrece todos los componentes necesarios para crear una arquitectura abierta de lakehouse.

Capas de arquitectura de un data lakehouse

Una arquitectura de data lakehouse consta de las siguientes capas:

Capa de almacenamiento: la capa de almacenamiento es la capa de data lake que se aplica a todos los datos en bruto. Por lo general, se trata de un almacén de objetos de bajo coste para todos los conjuntos de datos no estructurados, estructurados y semiestructurados. Está desvinculado de los recursos de computación para que la informática se pueda escalar de forma independiente.
Capa de staging: se trata de la capa de metadatos que se encuentra sobre la capa de data lake. Ofrece un catálogo detallado sobre todos los objetos de datos almacenados en el almacenamiento, lo que te permite aplicar funciones de gestión de datos, como la implementación de esquemas, las propiedades ACID, la indexación, el almacenamiento en caché y el control de acceso.
Capa semántica: la capa semántica (es decir la capa lakehouse) muestra todos tus datos para que los usuarios puedan usar aplicaciones cliente y herramientas de analíticas para acceder a los datos y aprovecharlos para hacer pruebas y presentar la inteligencia empresarial.

Apache Iceberg está transformando los data lakehouses

Apache Iceberg está revolucionando las arquitecturas de lakehouse al proporcionar un formato de tabla abierto que ofrece funciones similares a las de un almacén de datos (como transacciones ACID, evolución de esquemas y viaje en el tiempo) directamente en los data lakes almacenados en almacenes de objetos. Esto permite a las empresas crear plataformas de datos muy escalables, eficaces y flexibles que sean interoperables en varios motores de analíticas y que no obliguen a depender de un proveedor.

La estrategia de Google Cloud ha sido proporcionar a las empresas un data lakehouse abierto, gestionado y de alto rendimiento basado en BigLake, un motor de almacenamiento unificado que ofrece una implementación nativa de Apache Iceberg en Cloud Storage, donde puedes utilizar los motores de código abierto que elijas directamente en los datos de Iceberg. BigLake Metastore simplifica la gestión de datos y se integra con Dataplex Universal Catalog para ofrecer un gobierno unificado. Puedes aplicar un control de acceso pormenorizado y agilizar el rendimiento de las consultas en los datos distribuidos.

Esta combinación, junto con el almacenamiento y la potencia de computación de BigQuery, se sitúa en el centro de la arquitectura de data lakehouse gestionada y de alto rendimiento que admite cargas de trabajo de analíticas avanzadas, streaming, IA y aprendizaje automático con Iceberg. BigQuery no solo está integrado en el ecosistema de Google Cloud, sino que también te permite utilizar tecnologías de partners y de software libre para reunir en un único sistema las mejores funciones de los lagos y almacenes.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Habla con un especialista del equipo de ventas de Google Cloud y explícale tu reto único al detalle.