这是indexloc提供的服务,不要输入任何密码

¿Qué es un data lakehouse?

Las organizaciones de todo el mundo buscan soluciones de almacenamiento para administrar los requisitos de volumen, latencia, resiliencia y acceso a los macrodatos. Inicialmente, las empresas usaron sus pilas tecnológicas existentes e intentaron que sus data lakes entregaran las mismas capacidades que un almacén, ajustando sus almacenes de datos para manejar grandes cantidades de estructuras semiestructuradas o mantuvieron los datos en ambos. 

En última instancia, estos enfoques dieron como resultado costos elevados, usuarios insatisfechos y datos duplicados en toda la empresa. El data lakehouse surgió como una nueva arquitectura de datos híbrida que busca ofrecer los mejores beneficios de los almacenes de datos y los data lakes, a la vez que elimina las debilidades de ambos sistemas. 

Google Cloud proporciona una solución de data lakehouses nativa de la nube, altamente escalable y segura basada en nuestras ofertas de almacenamiento de bajo costo, motores de procesamiento sin servidores y administración de datos potente. Obtén más información para crear un data lakehouse abierto en Google Cloud.

Definición de data lakehouse

Un data lakehouse es una arquitectura de datos que combina un data lake y un almacén de datos. Los data lakehouses permiten el aprendizaje automático, la inteligencia empresarial y las estadísticas predictivas, lo que ayuda a que las organizaciones aprovechen el almacenamiento flexible y de bajo costo para todo tipo de datos estructurados, no estructurados y semiestructurados, a la vez que proporciona estructuras de datos y funciones de administración de datos.

¿Qué es un data lakehouse?

Un data lakehouse es una arquitectura de datos moderna que crea una plataforma única mediante la combinación de los beneficios clave de los data lakes (grandes repositorios de datos sin procesar en su forma original) y los almacenes de datos (conjuntos organizados de datos estructurados). En particular, los data lakehouses permiten que las organizaciones usen almacenamiento de bajo costo para almacenar grandes cantidades de datos sin procesar y proporcionar funciones de estructura y administración de datos. 

Antes, los almacenes de datos en la nube y los data lakes tenían que implementarse como arquitecturas separadas y de silos a fin de evitar sobrecargar los sistemas subyacentes y crear contención para los mismos recursos. Las empresas usaban almacenes de datos para almacenar datos estructurados para la inteligencia empresarial (IE) y los informes, y data lakes con el objetivo de almacenar datos no estructurados y semiestructurados para las cargas de trabajo de Inteligencia Artificial (IA) y aprendizaje automático (AA). Sin embargo, este enfoque requería que los datos se cambiaran de forma periódica entre los dos sistemas separados cuando los datos de cualquiera de las arquitecturas debían procesarse juntos, lo que generaba complejidad, mayores costos y problemas relacionados con la actualidad de los datos, la duplicación y la coherencia. 

El objetivo de los data lakehouses es acabar con estos silos y ofrecer la flexibilidad, la escalabilidad y la agilidad necesarias para garantizar que los datos generen valor para tu empresa, en lugar de ineficiencias.

Diferencias entre data lakehouse, data lake y almacén de datos

El término “data lakehouse” combina dos tipos de repositorios de datos existentes: el almacén de datos y el data lake. Entonces, ¿cuáles son las diferencias exactas entre data lakehouse, data lake y almacén de datos? 

Almacenes de datos

Los almacenes de datos proporcionan acceso rápido a los datos y a la compatibilidad de SQL para los usuarios empresariales que necesitan generar informes y estadísticas para tomar decisiones. Todos los datos deben pasar por la fase ETL (extraer, transformar y cargar). Esto significa que está optimizado en un formato o esquema específico, según el caso de uso antes de cargarlo para admitir consultas de alto rendimiento e integridad de los datos. Sin embargo, este enfoque limita la flexibilidad del acceso a los datos y crea costos adicionales si es necesario transferir los datos para usarlos en el futuro. 

Data lakes

Los data lakes almacenan grandes cantidades de datos no estructurados y estructurados en su formato nativo. A diferencia de los almacenes de datos, los datos se procesan, limpian y transforman durante el análisis a fin de permitir velocidades de carga más rápidas, por lo que son ideales para el procesamiento de macrodatos, el aprendizaje automático o las estadísticas predictivas. Sin embargo, requieren de experiencia en ciencia de datos, lo que limita el conjunto de personas que pueden usar los datos y, si no se mantienen de forma apropiada, su calidad puede deteriorarse con el tiempo. Además, los data lakes dificultan la obtención de consultas en tiempo real, ya que los datos no se procesan, por lo que aún deben limpiarse, procesarse, transferirse e integrarse para poder usarlos. 

Data lakehouse

Un data lakehouse fusiona estos dos enfoques para crear una única estructura que te permita acceder a los datos y aprovecharlos para muchos propósitos diferentes, desde la IE hasta la ciencia de datos, la IA y el aprendizaje automático. En otras palabras, un data lakehouse captura todos los datos estructurados, no estructurados y semiestructurados de tu organización y los almacena en un almacenamiento de bajo costo, a la vez que ofrece la capacidad de todos los usuarios de organizar y explorar los datos según sus necesidades. 

Características de un data lakehouse

Las características clave de los data lakehouses son las siguientes: 

  • Almacén de datos de bajo costo para datos únicos para todos los tipos de datos (estructurados, no estructurados y semiestructurados) 
  • Funciones de administración de datos para aplicar esquemas, aplicar la administración de datos y proporcionar procesos de ETL y limpieza de datos
  • Compatibilidad con transacciones para propiedades ACID (atomicidad, coherencia, aislamiento y durabilidad) a fin de garantizar la coherencia de los datos cuando varios usuarios leen y escriben datos en simultáneo 
  • Formatos de almacenamiento estandarizados que se pueden usar en varios programas de software
  • Transmisión de extremo a extremo para admitir la transferencia de datos y la generación de estadísticas en tiempo real 
  • Recursos de procesamiento y almacenamiento separados para garantizar la escalabilidad de un conjunto diverso de cargas de trabajo
  • Interoperabilidad con motores de código abierto como Apache Spark y plataformas de análisis basadas en SQL como BigQuery
  • Administración de extremo a extremo y administración de metadatos en todos tus datos
  • Acceso directo para aplicaciones de IE a los datos de origen en el lakehouse para reducir la duplicación de datos 

¿Cómo funciona un data lakehouse?

Cuando se trata de hacer que un data lakehouse funcione, es importante tener en cuenta lo que intenta lograr. Los data lakehouses tienen como objetivo centralizar fuentes de datos dispares y simplificar los esfuerzos de ingeniería para que todos los miembros de la organización puedan ser usuarios de datos. 

Un data lakehouse usa el mismo almacenamiento de objetos en la nube de bajo costo que los data lakes para proporcionar almacenamiento a pedido a fin de facilitar el aprovisionamiento y el escalamiento. Al igual que un data lake, puede capturar y almacenar grandes volúmenes de todos los tipos de datos sin procesar. Lakehouse integra capas de metadatos en este almacén para proporcionar capacidades similares a las de un almacén, como esquemas estructurados, compatibilidad con transacciones ACID, administración de datos y otras funciones de administración y optimización de datos.

Beneficios de usar un data lakehouse

Arquitectura simplificada

Un data lakehouse quita los silos de dos plataformas separadas, por lo que solo debes enfocarte en administrar y mantener un solo repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tienes que extraer o preparar datos para usarlos en un almacén de datos. 

Mejor calidad de los datos 

Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas de los data lakehouses, lo que te permite garantizar la coherencia. Además, los data lakehouses reducen el tiempo que tardan los datos nuevos en estar disponibles, lo que garantiza datos más recientes.

Costos más bajos

Almacena grandes volúmenes de datos en almacenamiento de bajo costo y elimina la necesidad de mantener un almacén de datos y un data lake. Los data lakehouses también reducen los costos de los procesos de ETL y la deduplicación. 

Mayor confiabilidad

Los data lakehouses reducen las transferencias de datos de ETL entre varios sistemas, lo que reduce la posibilidad de que ocurran problemas técnicos o de calidad que pueden ocurrir con el movimiento de datos. 

Administración de datos mejorada

Los datos y recursos se consolidan en un solo lugar con los data lakehouse, lo que facilita la implementación, la prueba y la entrega de los controles de administración y seguridad. 

Reducción de la duplicación de datos

Cuantas más copias de datos existan en sistemas dispares, más probable será que sean inconsistentes y menos confiables. Con los data lakehouses, puedes obtener una única fuente de datos que se puede compartir con toda la empresa para tomar decisiones, a fin de evitar incoherencias y costos de almacenamiento adicionales causados por la duplicación de datos.

Cargas de trabajo diversas

Puedes conectar varias herramientas directamente al lakehouse para admitir cargas de trabajo de estadísticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.

Alta escalabilidad

El almacenamiento de objetos en la nube de bajo costo de los data lakehouses te permite separar el procesamiento del almacenamiento para proporcionar escalabilidad instantánea y casi ilimitada. Puedes escalar la potencia de procesamiento y el almacenamiento por separado según las necesidades de tu negocio.

Arquitectura simplificada

Un data lakehouse quita los silos de dos plataformas separadas, por lo que solo debes enfocarte en administrar y mantener un solo repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tienes que extraer o preparar datos para usarlos en un almacén de datos. 

Mejor calidad de los datos 

Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas de los data lakehouses, lo que te permite garantizar la coherencia. Además, los data lakehouses reducen el tiempo que tardan los datos nuevos en estar disponibles, lo que garantiza datos más recientes.

Costos más bajos

Almacena grandes volúmenes de datos en almacenamiento de bajo costo y elimina la necesidad de mantener un almacén de datos y un data lake. Los data lakehouses también reducen los costos de los procesos de ETL y la deduplicación. 

Mayor confiabilidad

Los data lakehouses reducen las transferencias de datos de ETL entre varios sistemas, lo que reduce la posibilidad de que ocurran problemas técnicos o de calidad que pueden ocurrir con el movimiento de datos. 

Administración de datos mejorada

Los datos y recursos se consolidan en un solo lugar con los data lakehouse, lo que facilita la implementación, la prueba y la entrega de los controles de administración y seguridad. 

Reducción de la duplicación de datos

Cuantas más copias de datos existan en sistemas dispares, más probable será que sean inconsistentes y menos confiables. Con los data lakehouses, puedes obtener una única fuente de datos que se puede compartir con toda la empresa para tomar decisiones, a fin de evitar incoherencias y costos de almacenamiento adicionales causados por la duplicación de datos.

Cargas de trabajo diversas

Puedes conectar varias herramientas directamente al lakehouse para admitir cargas de trabajo de estadísticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.

Alta escalabilidad

El almacenamiento de objetos en la nube de bajo costo de los data lakehouses te permite separar el procesamiento del almacenamiento para proporcionar escalabilidad instantánea y casi ilimitada. Puedes escalar la potencia de procesamiento y el almacenamiento por separado según las necesidades de tu negocio.

Desafíos de usar un data lakehouse

El concepto de un data lakehouse ha evolucionado con el tiempo, ya que las organizaciones quieren la máxima flexibilidad en el almacenamiento de datos y más opciones e interoperabilidad con los motores de procesamiento de datos y análisis. Además, los data lakehouses son complejos de construir desde cero y ahora deben estar profundamente conectados a las capacidades de IA. En la mayoría de los casos, deberás optar por una solución de data lakehouse lista para usar o usar una plataforma como Google Cloud que ofrezca todos los componentes necesarios a fin de admitir una arquitectura de lakehouse abierta.

Capas de la arquitectura de data lakehouse

Una arquitectura de data lakehouse consta de las siguientes capas: 

  • Capa de almacenamiento: La capa de almacenamiento es la capa del data lake para todos los datos sin procesar, en general, un almacén de objetos de bajo costo para todos tus conjuntos de datos no estructurados, estructurados y semiestructurados. Está separado de los recursos de procesamiento, por lo que el procesamiento puede escalar de forma independiente. 
  • Capa de etapa de pruebas: La capa de etapa de pruebas es la capa de metadatos que se ubica en la parte superior de la capa de data lake. Proporciona un catálogo detallado sobre todos los objetos de datos almacenados, lo que te permite aplicar funciones de administración de datos, como la aplicación de esquemas, las propiedades ACID, la indexación, el almacenamiento en caché y el control de acceso.
  • Capa semántica: La capa semántica, la capa del lakehouse, expone todos tus datos para su uso, donde los usuarios pueden usar apps cliente y herramientas de estadísticas a fin de acceder y aprovechar los datos para experimentar y presentar inteligencia empresarial. 

Apache Iceberg está transformando los data lakehouses

Apache Iceberg revoluciona las arquitecturas de lakehouse con un formato de tabla abierta que aporta capacidades similares a las de un almacén de datos, como transacciones ACID, evolución de esquemas y viaje en el tiempo, directamente a los data lakes en el almacenamiento de objetos. Esto permite a las empresas crear plataformas de datos altamente escalables, flexibles y con alto rendimiento que son interoperables en varios motores de análisis y evitan depender de un solo proveedor. 

El enfoque de Google Cloud ha sido brindar a las empresas un data lakehouse abierto, administrado y con alto rendimiento impulsado por BigLake, un motor de almacenamiento unificado que ofrece una implementación nativa para Apache Iceberg en Cloud Storage, en la que puedes aprovechar los motores de código abierto que quieras directamente en los datos de Iceberg. BigLake Metastore ayuda a simplificar la administración de datos y se integra en Dataplex Universal Catalog para una administración unificada. Puedes aplicar un control de acceso detallado y acelerar el rendimiento de las consultas en todos los datos distribuidos. 

Este enfoque se combina con el poder de almacenamiento y procesamiento de BigQuery en el centro del data lakehouse administrado y de alto rendimiento que admite cargas de trabajo de IA/AA con Iceberg, análisis avanzado y transmisión. BigQuery no solo está integrado en el ecosistema de Google Cloud, sino que también te permite usar tecnologías de socios y de código abierto para combinar lo mejor de las capacidades de lakes y almacenes en un solo sistema.

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.
Habla con un especialista en ventas de Google Cloud para analizar tu desafío único en más detalle.
Google Cloud