这是indexloc提供的服务,不要输入任何密码

Dataproc

Una plataforma administrada para Spark, Hadoop y estadísticas de código abierto

Ejecuta clústeres de frameworks de código abierto y Apache Spark, Hadoop y más de 30 frameworks de código abierto con facilidad y control. Acelera Spark en Compute Engine con Lightning Engine y se integra en el lakehouse abierto de Google Cloud.

Spark es una marca comercial de The Apache Software Foundation.

Funciones

Compatibilidad sólida con el ecosistema de Hadoop

Además de Spark, Dataproc proporciona servicios completamente administrados para la pila completa de Apache Hadoop (MapReduce, HDFS, YARN), además de Flink, Trino, Hive y más de 30 herramientas de código abierto. Para admitirlos, Dataproc se integra en Dataproc Metastore, un servicio de Hive Metastore completamente administrado que simplifica la administración de metadatos para los componentes tradicionales de los data lakes. Moderniza las cargas de trabajo de los data lakes tradicionales o crea aplicaciones nuevas con los motores que prefieras.

Spark administrado con Lightning Engine

Ejecuta cargas de trabajo exigentes de Spark con el control de un clúster de Dataproc administrado, ahora potenciado con una velocidad de consultas 3.6 veces mayor* gracias a Lightning Engine,** en versión preliminar. Experimenta mejoras de rendimiento significativas en las operaciones de Spark SQL y DataFrame. Configura entornos de Spark según tus necesidades, eligiendo versiones y bibliotecas.

*Las consultas se derivan del estándar TPC-DS y el estándar TPC-H y, como tal, no son comparables con los resultados publicados del estándar TPC-DS y el estándar TPC-H, ya que estas ejecuciones no cumplen con todos los requisitos de la especificación del estándar TPC-DS y el estándar TPC-H.

**Disponible para Dataproc en el nivel premium de Compute Engine.

Configuración y administración flexibles de clústeres

Personaliza los clústeres de Dataproc con una amplia variedad de tipos de máquinas (incluidas las GPU), VMs interrumpibles, opciones de disco, políticas de ajuste de escala automático, acciones de inicialización, contenedores o imágenes y componentes opcionales. Usa funciones como plantillas de flujos de trabajo para organizar trabajos complejos y administrar clústeres a través de la consola, gcloud, la API o las bibliotecas cliente. Obtén una visibilidad profunda del rendimiento y el estado del clúster a través de la integración con Cloud Monitoring, que proporciona métricas, paneles y funciones de alertas integrales.

Conectividad de lakehouse abierta

Los clústeres de Dataproc se integran de forma nativa en el almacenamiento de metadatos de BigLake, lo que te permite procesar datos almacenados en formatos abiertos como Apache Iceberg en Cloud Storage. Para las necesidades de metadatos tradicionales basadas en Hive, existe una integración continua con el servicio administrado Dataproc Metastore. Aprovecha Dataplex Universal Catalog para un descubrimiento, un linaje y una administración unificados en todos tus recursos de lakehouse. Conecta Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub y Data Fusion para ampliar tus aplicaciones de datos y crear soluciones potentes de extremo a extremo.

Protege el procesamiento de tus datos de código abierto

Aprovecha la seguridad sólida de Google Cloud. Configura Kerberos, administra el acceso con IAM, aplica políticas de red con los Controles del servicio de VPC y usa CMEK. Integrarse en el catálogo universal de Dataplex para la administración centralizada de políticas y habilitar el control de acceso detallado con BigLake

Empodera a los ingenieros y científicos de datos

Usa herramientas e IDEs conocidas, como los IDE de Jupyter y VS Code que se ejecutan en las laptops para conectar los clústeres de Dataproc. Integra Dataproc en Vertex AI Workbench para el desarrollo interactivo de Spark en clústeres y compilar canalizaciones de IA/AA de extremo a extremo con Vertex AI.

Cómo funciona

Operaciones de clústeres simplificadas para obtener estadísticas potentes

Usos comunes

Modernización de data lakes y migración de Hadoop

Moderniza tu data lake

Migra las cargas de trabajo de Hadoop y Spark locales a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados en Dataproc Metastore y administrados por el catálogo universal de Dataplex.

Moderniza tu data lake

Migra las cargas de trabajo de Hadoop y Spark locales a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados en Dataproc Metastore y administrados por el catálogo universal de Dataplex.

ETL por lotes a gran escala con Spark y Hadoop

Procesamiento por lotes empresarial

Procesa y transforma conjuntos de datos masivos de forma eficiente con Spark, acelerado por Lightning Engine con Dataproc en Compute Engine o MapReduce en clústeres de Dataproc personalizables. Optimiza canalizaciones ETL complejas para el rendimiento y el costo en un entorno controlado.

    Procesamiento por lotes empresarial

    Procesa y transforma conjuntos de datos masivos de forma eficiente con Spark, acelerado por Lightning Engine con Dataproc en Compute Engine o MapReduce en clústeres de Dataproc personalizables. Optimiza canalizaciones ETL complejas para el rendimiento y el costo en un entorno controlado.

      Entornos de AA y ciencia de datos configurables

      Ciencia de datos personalizada a gran escala

      Inicia clústeres de Dataproc creados para un propósito específico con versiones específicas de Spark, Jupyter y tus bibliotecas de AA necesarias para el entrenamiento de modelos colaborativos a gran escala y análisis avanzados. Integra Vertex AI para MLOps.


      Ciencia de datos personalizada a gran escala

      Inicia clústeres de Dataproc creados para un propósito específico con versiones específicas de Spark, Jupyter y tus bibliotecas de AA necesarias para el entrenamiento de modelos colaborativos a gran escala y análisis avanzados. Integra Vertex AI para MLOps.


      Ejecuta diversos motores de estadísticas de código abierto

      OSS flexible

      Implementa clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento de transmisiones avanzado o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos administrados por Dataproc.

      OSS flexible

      Implementa clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento de transmisiones avanzado o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos administrados por Dataproc.

      Genera una solución
      ¿Qué problema intentas resolver?
      What you'll get:
      Guía paso a paso
      Arquitectura de referencia
      Soluciones previamente compiladas disponibles
      Este servicio se creó con Vertex AI. Debes ser mayor de 18 años para usarlo. No ingreses información sensible, confidencial ni personal.

      Precios

      Precios de Dataproc para clústeres administradosDataproc ofrece precios de pago por uso. Optimiza los costos con el ajuste de escala automático y las VMs interrumpibles. El nivel premium de Compute Engine permite un Spark más rápido con Lightning Engine.

      Componentes clave:

      • Instancias de Compute Engine (CPU virtual, memoria)
      • Tarifa del servicio de Dataproc (por hora de CPU virtual)
      • Discos persistentes


      Ejemplo:

      P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

      Precios de Dataproc para clústeres administrados

      Dataproc ofrece precios de pago por uso. Optimiza los costos con el ajuste de escala automático y las VMs interrumpibles. El nivel premium de Compute Engine permite un Spark más rápido con Lightning Engine.

      Componentes clave:

      • Instancias de Compute Engine (CPU virtual, memoria)
      • Tarifa del servicio de Dataproc (por hora de CPU virtual)
      • Discos persistentes


      Ejemplo:

      P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

      Calculadora de precios

      Calcula los costos mensuales de Firestore, incluidos los precios y las tarifas específicos de una región.

      Presupuesto personalizado

      Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para tu organización.

      Comience hoy mismo

      $300 en créditos gratuitos para los clientes nuevos

      ¿Tienes un proyecto grande?

      Crear un clúster de Dataproc mediante Cloud Console.

      Usar el conector de Cloud Storage con Apache Spark

      El Centro de arquitectura proporciona recursos de contenido en una amplia variedad de temas y situaciones de migración para ayudarte

      Dataproc
      Google Cloud