Hay organizaciones de todo el mundo que buscan soluciones de almacenamiento para gestionar los requisitos de volumen, latencia, resiliencia y acceso a los datos del Big Data. Inicialmente, las empresas usaban las pilas tecnológicas que ya tenían para que sus data lakes ofrecieran las mismas funciones que los almacenes, así como para adaptar sus almacenes de datos para gestionar grandes cantidades de datos semiestructurados u optar por conservar los datos en ambas ubicaciones.
En última instancia, estas estrategias se tradujeron en un aumento de los costes, la insatisfacción de los usuarios y la duplicación de datos en toda la empresa. El data lakehouse ha surgido como una nueva arquitectura de datos híbrida que tiene como objetivo ofrecer las mejores ventajas de los almacenes de datos y los data lakes, al tiempo que elimina los puntos débiles de ambos sistemas.
Google Cloud es una solución de data lakehouse nativa de la nube, muy escalable y segura que se basa en nuestro almacenamiento de bajo coste, nuestros motores de computación sin servidor y nuestras potentes soluciones de gestión de datos. Consulta más información sobre cómo puedes crear un data lakehouse abierto en Google Cloud.
Un data lakehouse es una arquitectura de datos que combina un data lake y un almacén de datos. Los data lakehouses favorecen el aprendizaje automático, la inteligencia empresarial y las analíticas predictivas, lo que permite a las empresas sacar partido del almacenamiento flexible y de bajo coste para todo tipo de datos (estructurados, sin estructurar y semiestructurados), al tiempo que ofrecen estructuras y funciones de gestión de datos.
Un data lakehouse es una arquitectura de datos moderna que crea una única plataforma combinando las principales ventajas de los data lakes (grandes repositorios de datos en bruto en su forma original) y los almacenes de datos (conjuntos organizados de datos estructurados). En concreto, los data lakehouses permiten a las organizaciones utilizar un almacenamiento de bajo coste para almacenar grandes cantidades de datos en bruto mientras proporcionan estructuras y funciones de gestión de datos.
Antes, los almacenes de datos y los data lakes tenían que implementarse como arquitecturas independientes y aisladas para no sobrecargar los sistemas subyacentes y crear contención por los mismos recursos. Para ello, las empresas utilizaban almacenes de datos para almacenar datos estructurados para la inteligencia empresarial (BI), informes y lagos de datos para almacenar datos sin estructurar y semiestructurados para almacenar cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático. Sin embargo, este enfoque debía cambiar de forma periódica los datos entre los dos sistemas para procesarlos conjuntamente, lo que suponía mayor complejidad, más costes y problemas relacionados con la actualización, la duplicación y la coherencia de los datos.
El objetivo de los data lakehouses es acabar con estos silos y ofrecer la flexibilidad, escalabilidad y agilidad necesarias para que tus datos generen valor para tu negocio, y no una ineficiencia.
El término "data lakehouse" combina dos tipos de repositorios de datos: el almacén de datos y el data lake. Entonces, ¿qué diferencias hay entre un data lakehouse, un data lake y un almacén de datos?
Los almacenes de datos proporcionan acceso rápido a compatibilidad con datos y SQL para los usuarios empresariales que necesitan generar informes y estadísticas para tomar decisiones. Todos los datos deben pasar por la fase de extracción, transformación y carga (ETL). Esto significa que se optimiza con un formato o esquema específico en función del caso práctico antes de cargarlo para admitir consultas de alto rendimiento y la integridad de los datos. Sin embargo, este método limita la flexibilidad de acceso a los datos y genera costes adicionales si es necesario trasladarlos para utilizarlos en el futuro.
Los data lakes almacenan grandes cantidades de datos estructurados y sin estructurar en su formato nativo. A diferencia de los almacenes de datos, los datos se procesan, limpian y transforman durante los análisis para que la velocidad de carga sea más rápida, por lo que son ideales para el procesamiento de Big Data, el aprendizaje automático y las analíticas predictivas. Sin embargo, requieren experiencia en la ciencia de datos, lo que limita el conjunto de personas que pueden utilizar los datos y, si no se mantienen de forma adecuada, la calidad de los datos se puede deteriorar con el tiempo. Los data lakes también dificultan la obtención de consultas en tiempo real, ya que los datos no se procesan, por lo que posiblemente tengan que limpiarse, procesar, ingerir e integrar antes de poder usarse.
Un data lakehouse combina esos dos enfoques para crear una única estructura que te permite acceder a datos y aprovecharlos para muchos fines, como la inteligencia empresarial, la ciencia de datos, IA o el aprendizaje automático. En otras palabras, un data lakehouse recoge todos los datos no estructurados, estructurados y semiestructurados de tu organización y los almacena en un almacenamiento de bajo coste. Además, ofrece a todos los usuarios la posibilidad de organizar y consultar los datos según sus necesidades.
Estas son algunas de las funciones clave de un data lakehouse:
A la hora de hacer que un data lakehouse funcione, hay que tener en cuenta sus objetivos. El objetivo de los data lakehouses es centralizar las distintas fuentes de datos y simplificar los esfuerzos de ingeniería para que todos los miembros de tu organización puedan ser usuarios de datos.
Los data lakehouse utilizan el mismo bajo coste de almacenamiento de objetos en la nube de los data lakes para proporcionar almacenamiento bajo demanda y facilitar el aprovisionamiento y el escalado. Al igual que los data lakes, pueden capturar y almacenar grandes volúmenes de todo tipo de datos en formato sin procesar. El lakehouse integra capas de metadatos en este almacén para proporcionar funciones similares a las de un almacén, como esquemas estructurados, compatibilidad con transacciones ACID, gobierno de datos y otras funciones de gestión y optimización de datos.
Arquitectura simplificada Con un data lakehouse se eliminan los silos de dos plataformas distintas, solo tienes que centrarte en gestionar y mantener un único repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tengas que extraer ni preparar los datos para usarlos en un almacén de datos. | Datos de mejor calidad Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas data lakehouse, lo que te permite asegurar la coherencia. Además, los lakehouses reducen el tiempo que se tarda en ofrecer datos nuevos, lo que permite que los datos estén más actualizados. | Costes más bajos Almacena grandes volúmenes de datos en un almacenamiento de bajo coste y elimina la necesidad de mantener tanto un almacén de datos como un data lake. Los data lakehouses también ayudan a reducir los costes derivados de los procesos de extracción, transformación y carga (ETL) y de la anulación de duplicados. |
Mayor fiabilidad Los data lakehouses reducen las transferencias de datos de extracción, transformación y carga (ETL) entre varios sistemas, lo que reduce las posibilidades de que se produzcan problemas de calidad o técnicos con la transferencia de datos. | Gobernanza de datos mejorada Los data lakehouses se agrupan en un mismo lugar para consolidar los datos y los recursos, lo que facilita la implementación, las pruebas y los controles de gobernanza y seguridad. | Reducción de la duplicación de datos Cuantas más copias de datos haya en sistemas diferentes, más probabilidades habrá de que sean incoherentes y menos fiables. Con los data lakehouses, puedes tener una única fuente de datos que toda la empresa puede compartir para tomar decisiones, lo que evita incoherencias y costes adicionales de almacenamiento derivados de la duplicación de datos. |
Cargas de trabajo diversas Puedes conectar varias herramientas directamente a la casa del lago para admitir cargas de trabajo de analíticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio. | Alta escalabilidad El bajo coste del almacenamiento de objetos en la nube de data lakehouses te permite separar la computación del almacenamiento para proporcionar una escalabilidad casi ilimitada e instantánea. Puedes escalar la potencia de computación y el almacenamiento de forma independiente según las necesidades de tu empresa. |
Arquitectura simplificada
Con un data lakehouse se eliminan los silos de dos plataformas distintas, solo tienes que centrarte en gestionar y mantener un único repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tengas que extraer ni preparar los datos para usarlos en un almacén de datos.
Datos de mejor calidad
Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas data lakehouse, lo que te permite asegurar la coherencia. Además, los lakehouses reducen el tiempo que se tarda en ofrecer datos nuevos, lo que permite que los datos estén más actualizados.
Costes más bajos
Almacena grandes volúmenes de datos en un almacenamiento de bajo coste y elimina la necesidad de mantener tanto un almacén de datos como un data lake. Los data lakehouses también ayudan a reducir los costes derivados de los procesos de extracción, transformación y carga (ETL) y de la anulación de duplicados.
Mayor fiabilidad
Los data lakehouses reducen las transferencias de datos de extracción, transformación y carga (ETL) entre varios sistemas, lo que reduce las posibilidades de que se produzcan problemas de calidad o técnicos con la transferencia de datos.
Gobernanza de datos mejorada
Los data lakehouses se agrupan en un mismo lugar para consolidar los datos y los recursos, lo que facilita la implementación, las pruebas y los controles de gobernanza y seguridad.
Reducción de la duplicación de datos
Cuantas más copias de datos haya en sistemas diferentes, más probabilidades habrá de que sean incoherentes y menos fiables. Con los data lakehouses, puedes tener una única fuente de datos que toda la empresa puede compartir para tomar decisiones, lo que evita incoherencias y costes adicionales de almacenamiento derivados de la duplicación de datos.
Cargas de trabajo diversas
Puedes conectar varias herramientas directamente a la casa del lago para admitir cargas de trabajo de analíticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.
Alta escalabilidad
El bajo coste del almacenamiento de objetos en la nube de data lakehouses te permite separar la computación del almacenamiento para proporcionar una escalabilidad casi ilimitada e instantánea. Puedes escalar la potencia de computación y el almacenamiento de forma independiente según las necesidades de tu empresa.
El concepto de data lakehouse ha evolucionado con el tiempo, ya que las empresas quieren tener la máxima flexibilidad en el almacenamiento de datos y más opciones e interoperabilidad con los motores de procesamiento de datos y analíticas. Además, crear data lakehouses también es difícil de construir desde cero y ahora deben estar profundamente conectados a las funciones de IA. En la mayoría de los casos, deberás optar por una solución de data lakehouse lista para usar o utilizar una plataforma como Google Cloud que ofrece todos los componentes necesarios para crear una arquitectura abierta de lakehouse.
Una arquitectura de data lakehouse consta de las siguientes capas:
Apache Iceberg está revolucionando las arquitecturas de lakehouse al proporcionar un formato de tabla abierto que ofrece funciones similares a las de un almacén de datos (como transacciones ACID, evolución de esquemas y viaje en el tiempo) directamente en los data lakes almacenados en almacenes de objetos. Esto permite a las empresas crear plataformas de datos muy escalables, eficaces y flexibles que sean interoperables en varios motores de analíticas y que no obliguen a depender de un proveedor.
La estrategia de Google Cloud ha sido proporcionar a las empresas un data lakehouse abierto, gestionado y de alto rendimiento basado en BigLake, un motor de almacenamiento unificado que ofrece una implementación nativa de Apache Iceberg en Cloud Storage, donde puedes utilizar los motores de código abierto que elijas directamente en los datos de Iceberg. BigLake Metastore simplifica la gestión de datos y se integra con Dataplex Universal Catalog para ofrecer un gobierno unificado. Puedes aplicar un control de acceso pormenorizado y agilizar el rendimiento de las consultas en los datos distribuidos.
Esta combinación, junto con el almacenamiento y la potencia de computación de BigQuery, se sitúa en el centro de la arquitectura de data lakehouse gestionada y de alto rendimiento que admite cargas de trabajo de analíticas avanzadas, streaming, IA y aprendizaje automático con Iceberg. BigQuery no solo está integrado en el ecosistema de Google Cloud, sino que también te permite utilizar tecnologías de partners y de software libre para reunir en un único sistema las mejores funciones de los lagos y almacenes.