BigQuery, la plataforma de datos completamente administrada de Google Cloud, es una solución rentable y escalable para la integración y el análisis de datos.
Descripción general
ELT (extracción, carga y transformación) es el patrón recomendado de Google Cloud para la integración de datos. La ELT implica extraer datos de los sistemas de origen, cargarlos en BigQuery y, luego, transformarlos en el formato deseado para el análisis. A diferencia del ETL (extraer, transformar y cargar), que implica transformar los datos antes de cargarlos en un almacén de datos, el enfoque ELT te permite usar toda la potencia de BigQuery para realizar transformaciones de datos y cualquier usuario de SQL para desarrollar de forma eficaz canalizaciones de integración de datos.
El enfoque de ELT acelera el tiempo de salida al mercado, ya que ofrece un marco de trabajo centrado en los datos y conocido que minimiza la curva de aprendizaje. ELT también elimina la necesidad de una infraestructura de ETL separada, lo que reduce los costos asociados con la transformación de datos antes de la carga.
La arquitectura de BigQuery permite una escalabilidad masiva y un procesamiento paralelo, lo que posibilita el manejo eficiente de conjuntos de datos grandes y transformaciones complejas. La ELT facilita la administración de datos, ya que centraliza los datos en BigQuery, lo que permite políticas de seguridad y calidad de los datos coherentes que están integradas en la plataforma.
BigQuery admite varios formatos y fuentes de datos, incluido Apache Iceberg, que proporciona flexibilidad para integrar datos diversos. También hay flexibilidad en la elección del idioma, además de la elección de los datos. Un beneficio principal de la ELT es que SQL se adapta a varias canalizaciones de SDLC.
Transfiere datos a BigQuery
Transfiere datos a BigQuery | La ruta de integración de datos de BigQuery con ELT |
---|---|
Etapa | Solución |
Extracción y carga | Carga por lotes: El Servicio de transferencia de datos (DTS) de BigQuery automatiza la carga masiva de datos de fuentes de datos compatibles a BigQuery. Carga de transmisión: Suscripciones de Pub/Sub a BigQuery escribe mensajes de Pub/Sub en una tabla de BigQuery existente a medida que se reciben. Captura de datos modificados (CDC): Datastream permite la captura de datos modificados (CDC) no intrusiva de bases de datos para BigQuery. Federación a fuentes de datos externas: BigQuery admite la federación a varias fuentes de datos externas que no requieren el movimiento de datos. |
Transformar | Las capacidades de transformación de BigQuery se crean con Dataform, una herramienta para crear, probar y documentar de forma colaborativa la transformación de datos de SQL con el lenguaje de manipulación de datos (DML) de BigQuery. Para facilitarte la transformación de datos, creamos dos experiencias potentes que aprovechan Dataform: Transformación de datos potenciada por IA: La preparación de datos de BigQuery (en versión preliminar) proporciona sugerencias inteligentes para limpiar, transformar y enriquecer datos, lo que puede reducir el tiempo y el esfuerzo necesarios para las tareas de preparación de datos. Transformación de datos visual basada en SQL: Los flujos de trabajo de BigQuery (en versión preliminar) proporcionan una experiencia del usuario visual para crear de forma interactiva flujos de trabajo simples. |
Migración de datos a gran escala | Además de los patrones que se mencionaron anteriormente, las migraciones a Google Cloud pueden implicar migraciones masivas de datos de almacenes de datos existentes a BigQuery. El Servicio de migración de BigQuery es un servicio totalmente administrado que permite a los clientes cargar almacenes de datos existentes en BigQuery para realizar análisis de datos adicionales. |
Transfiere datos a BigQuery
La ruta de integración de datos de BigQuery con ELT
Extracción y carga
Carga por lotes: El Servicio de transferencia de datos (DTS) de BigQuery automatiza la carga masiva de datos de fuentes de datos compatibles a BigQuery.
Carga de transmisión: Suscripciones de Pub/Sub a BigQuery escribe mensajes de Pub/Sub en una tabla de BigQuery existente a medida que se reciben.
Captura de datos modificados (CDC): Datastream permite la captura de datos modificados (CDC) no intrusiva de bases de datos para BigQuery.
Federación a fuentes de datos externas: BigQuery admite la federación a varias fuentes de datos externas que no requieren el movimiento de datos.
Transformar
Las capacidades de transformación de BigQuery se crean con Dataform, una herramienta para crear, probar y documentar de forma colaborativa la transformación de datos de SQL con el lenguaje de manipulación de datos (DML) de BigQuery. Para facilitarte la transformación de datos, creamos dos experiencias potentes que aprovechan Dataform:
Transformación de datos potenciada por IA: La preparación de datos de BigQuery (en versión preliminar) proporciona sugerencias inteligentes para limpiar, transformar y enriquecer datos, lo que puede reducir el tiempo y el esfuerzo necesarios para las tareas de preparación de datos.
Transformación de datos visual basada en SQL: Los flujos de trabajo de BigQuery (en versión preliminar) proporcionan una experiencia del usuario visual para crear de forma interactiva flujos de trabajo simples.
Migración de datos a gran escala
Además de los patrones que se mencionaron anteriormente, las migraciones a Google Cloud pueden implicar migraciones masivas de datos de almacenes de datos existentes a BigQuery. El Servicio de migración de BigQuery es un servicio totalmente administrado que permite a los clientes cargar almacenes de datos existentes en BigQuery para realizar análisis de datos adicionales.
Cómo funciona
BigQuery ofrece a los ingenieros de datos y desarrolladores de aplicaciones una amplia cartera de productos y funciones para ayudar a crear, programar y administrar canalizaciones. El amplio conjunto de ofertas te brinda la flexibilidad de elegir entre los paradigmas de ETL y ELT.
Usos comunes
BigQuery es una plataforma de datos unificada lista para la IA que te permite conectar todos los datos de tu empresa con la IA. BigQuery transfiere datos de diversas fuentes (mensajería, bases de datos y más) mediante la captura de datos modificados (CDC), transmisiones o lotes. BigQuery almacena, procesa y administra datos con una capa de transformación potenciada por IA y una experiencia de usuario unificada para el análisis.
BigQuery es una plataforma de datos unificada lista para la IA que te permite conectar todos los datos de tu empresa con la IA. BigQuery transfiere datos de diversas fuentes (mensajería, bases de datos y más) mediante la captura de datos modificados (CDC), transmisiones o lotes. BigQuery almacena, procesa y administra datos con una capa de transformación potenciada por IA y una experiencia de usuario unificada para el análisis.
Compila una canalización de ELT potente en Google Cloud:
Esta configuración proporciona escalabilidad, capacidades en tiempo real y una transformación de datos eficiente para un análisis integral.
Compila una canalización de ELT potente en Google Cloud:
Esta configuración proporciona escalabilidad, capacidades en tiempo real y una transformación de datos eficiente para un análisis integral.