BigQuery, la plataforma de datos totalmente gestionada de Google Cloud, es una solución rentable y escalable para la integración y el análisis de datos.
Información general
ELT (extraer, cargar, transformar) es el patrón de integración de datos que recomienda Google Cloud. El proceso de ELT consiste en extraer datos de los sistemas de origen, cargarlos en BigQuery y, a continuación, transformarlos en el formato deseado para analizarlos. A diferencia de la estrategia ETL (extraer, transformar y cargar), que consiste en transformar los datos antes de cargarlos en un almacén de datos, la estrategia ELT te permite usar todo el potencial de BigQuery para realizar transformaciones de datos y cualquier usuario de SQL puede desarrollar flujos de procesamiento de integración de datos de forma eficaz.
La estrategia de ELT agiliza el tiempo de comercialización al ofrecer un framework centrado en los datos y que resulta familiar, lo que minimiza la curva de aprendizaje. ELT también elimina la necesidad de tener una infraestructura ETL independiente, lo que reduce los costes asociados a la transformación de datos antes de la carga.
La arquitectura de BigQuery permite una escalabilidad masiva y un procesamiento paralelo, lo que facilita el tratamiento eficiente de grandes conjuntos de datos y transformaciones complejas. ELT facilita el gobierno de datos al centralizar los datos en BigQuery, lo que permite aplicar políticas de seguridad y de calidad de los datos coherentes que están integradas en la plataforma.
BigQuery admite varias fuentes y formatos de datos, como Apache Iceberg, que proporciona flexibilidad a la hora de integrar datos diversos. Además de la flexibilidad para elegir los datos, también puedes seleccionar el idioma. Una de las principales ventajas de ELT es que SQL se adapta a varios flujos de procesamiento de SDLC.
Incorporar datos a BigQuery
Incorporar datos a BigQuery | Proceso de integración de datos de BigQuery con ELT. |
---|---|
Fase | Solución |
Extraer y cargar | Carga por lotes: BigQuery Data Transfer Service (DTS) automatiza la carga masiva de datos de las fuentes admitidas a BigQuery. Carga en streaming: las suscripciones de Pub/Sub a BigQuery escriben los mensajes de Pub/Sub en una tabla de BigQuery a medida que se reciben. Captura de datos de cambios (CDC): Datastream permite la captura de datos de cambios (CDC) no intrusiva desde bases de datos a BigQuery. Federación con fuentes de datos externas: BigQuery admite la federación con varias fuentes de datos externas que no requieren el traslado de datos. |
Transformar | Las funciones de transformación de BigQuery se crean con Dataform, una herramienta para desarrollar, probar y documentar de forma colaborativa transformaciones de datos de SQL con el lenguaje de manipulación de datos (DML) de BigQuery. Para que te resulte más fácil transformar datos, hemos creado dos experiencias eficaces que aprovechan Dataform: Transformación de datos basada en IA: la preparación de datos de BigQuery (en versión preliminar) ofrece sugerencias inteligentes para limpiar, transformar y enriquecer datos, lo que puede reducir el tiempo y el esfuerzo necesarios para las tareas de preparación de datos. Transformación de datos visual basada en SQL: los flujos de procesamiento de BigQuery (en versión preliminar) ofrecen una experiencia de usuario visual para crear de forma interactiva flujos de procesamiento sencillos. |
Migración de datos a gran escala | Además de los patrones que se han mencionado anteriormente, las migraciones a Google Cloud pueden implicar migraciones masivas de datos de almacenes de datos a BigQuery. BigQuery Migration Service es un servicio totalmente gestionado que permite a los clientes cargar almacenes de datos en BigQuery para analizarlos más adelante. |
Incorporar datos a BigQuery
Proceso de integración de datos de BigQuery con ELT.
Extraer y cargar
Carga por lotes: BigQuery Data Transfer Service (DTS) automatiza la carga masiva de datos de las fuentes admitidas a BigQuery.
Carga en streaming: las suscripciones de Pub/Sub a BigQuery escriben los mensajes de Pub/Sub en una tabla de BigQuery a medida que se reciben.
Captura de datos de cambios (CDC): Datastream permite la captura de datos de cambios (CDC) no intrusiva desde bases de datos a BigQuery.
Federación con fuentes de datos externas: BigQuery admite la federación con varias fuentes de datos externas que no requieren el traslado de datos.
Transformar
Las funciones de transformación de BigQuery se crean con Dataform, una herramienta para desarrollar, probar y documentar de forma colaborativa transformaciones de datos de SQL con el lenguaje de manipulación de datos (DML) de BigQuery. Para que te resulte más fácil transformar datos, hemos creado dos experiencias eficaces que aprovechan Dataform:
Transformación de datos basada en IA: la preparación de datos de BigQuery (en versión preliminar) ofrece sugerencias inteligentes para limpiar, transformar y enriquecer datos, lo que puede reducir el tiempo y el esfuerzo necesarios para las tareas de preparación de datos.
Transformación de datos visual basada en SQL: los flujos de procesamiento de BigQuery (en versión preliminar) ofrecen una experiencia de usuario visual para crear de forma interactiva flujos de procesamiento sencillos.
Migración de datos a gran escala
Además de los patrones que se han mencionado anteriormente, las migraciones a Google Cloud pueden implicar migraciones masivas de datos de almacenes de datos a BigQuery. BigQuery Migration Service es un servicio totalmente gestionado que permite a los clientes cargar almacenes de datos en BigQuery para analizarlos más adelante.
Cómo funciona
BigQuery ofrece a los ingenieros de datos y a los desarrolladores de aplicaciones un amplio catálogo de productos y funciones para crear, programar y gestionar flujos de procesamiento. La amplia gama de ofertas te da la flexibilidad de elegir entre los paradigmas ETL y ELT.
Usos habituales
BigQuery es una plataforma de datos unificada y preparada para la IA que te permite conectar todos los datos de tu empresa con la IA. BigQuery ingiere datos de diversas fuentes (mensajería, bases de datos, etc.) mediante lotes, flujos o captura de datos de cambios (CDC). BigQuery almacena, calcula y gestiona datos con una capa de transformación basada en IA y una experiencia de usuario unificada para el análisis.
BigQuery es una plataforma de datos unificada y preparada para la IA que te permite conectar todos los datos de tu empresa con la IA. BigQuery ingiere datos de diversas fuentes (mensajería, bases de datos, etc.) mediante lotes, flujos o captura de datos de cambios (CDC). BigQuery almacena, calcula y gestiona datos con una capa de transformación basada en IA y una experiencia de usuario unificada para el análisis.
Crea un flujo de procesamiento ELT potente en Google Cloud:
Esta configuración ofrece escalabilidad, funciones en tiempo real y una transformación de datos eficiente para un análisis exhaustivo.
Crea un flujo de procesamiento ELT potente en Google Cloud:
Esta configuración ofrece escalabilidad, funciones en tiempo real y una transformación de datos eficiente para un análisis exhaustivo.