这是indexloc提供的服务,不要输入任何密码

Apache Spark no Google Cloud

Aproveite todo o potencial do Spark no Google Cloud. Escolha a facilidade sem servidor ou o controle de cluster, com processamento de alta velocidade, assistência de IA e conectividade do lakehouse aberto.

Vantagens

Aumente a produtividade dos desenvolvedores e receba insights de dados mais rápidos

Spark contínuo para todos os usuários de dados

Execute o Spark com facilidade usando o BigQuery, a Vertex AI e IDEs com clusters gerenciados ou sem servidor. Elimine integrações personalizadas, simplifique o ETL para fluxos de trabalho de ML e aumente a produtividade com o Gemini para código e operações.


Simplicidade operacional com o Spark sem servidor

O Google Cloud Serverless para Apache Spark oferece escalonamento automático instantâneo e configuração quase zero. Aumente o desempenho das consultas em 3,6x* com o Lightning Engine (pré-lançamento). O Dataplex Universal Catalog unifica os metadados, simplificando as operações.

Execute o Spark da forma que preferir

Um tamanho não serve para todos. O Google Cloud oferece a flexibilidade de escolher entre clusters sem servidor, gerenciados e de computação para suas cargas de trabalho do Spark.

Principais recursos

Maneiras eficientes de executar o Spark no Google Cloud

Google Cloud Serverless para Apache Spark

Usar o Google Cloud Serverless para Apache Spark para aumentar a produtividade e o desempenho com o Lightning Engine* e o Gemini. Essa experiência é um ambiente profundamente integrado para executar cargas de trabalho do Apache Spark e SQL diretamente no BigQuery. Ela oferece segurança unificada, metadados de ambiente de execução usando o metastore do BigLake e governança no Dataplex Universal Catalog. Maximize a produtividade com CI/CD integrado, Gemini em notebooks e elimine o gerenciamento de clusters do Apache Spark.

* As consultas são derivadas do padrão TPC-DS e do padrão TPC-H e, como tal, não são comparáveis aos resultados publicados do padrão TPC-DS e do padrão TPC-H, porque essas execuções não atendem a todos os requisitos da especificação do padrão TPC-DS e do padrão TPC-H.

Clusters gerenciados do Spark, Hadoop e OSS com o Dataproc

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para implantar e operar o Spark dedicado, o Hadoop e um vasto ecossistema de mais de 30 ferramentas de código aberto. A integração com os produtos e serviços mais amplos do Google Cloud, incluindo o Lightning Engine para Dataproc no Google Compute Engine (nível Premium), torna o Dataproc ideal para a modernização de data lakes, pipelines de ETL eficientes e iniciativas de ciência de dados em grande escala e seguras, em que o controle do cluster é fundamental.

Ciência de dados com o Apache Spark no Google Cloud

Seja com a simplicidade de zero operações do Google Cloud Serverless para Apache Spark ou o controle de clusters gerenciados do Dataproc, você pode acelerar todo o ciclo de vida do machine learning. Aproveite os seguintes benefícios:

  • Integração perfeita : conecte-se facilmente ao BigQuery para acessar dados e à Vertex AI para MLOps, criando pipelines de ciência de dados completos.
  • Produtividade de desenvolvedor : use o Gemini para insights de programação e assistência em ambientes de notebook, como o BigQuery Studio e o Vertex AI Workbench.
  • Prontidão para IA/ML: use bibliotecas de ML pré-empacotadas e aceleração de GPU disponíveis com clusters do Spark e do Dataproc sem servidor para tarefas de treinamento e inferência exigentes.
  • Iteração mais rápida: foque no desenvolvimento e na experimentação, não importa o que você escolher.

Spark usando a Vertex AI

Desenvolva e operacionalize o Spark para ciência de dados de forma integrada com a Vertex AI. Use o Spark do Vertex AI Workbench para desenvolvimento interativo com segurança integrada e assistência do Gemini. Integre o processamento do Spark ao Vertex AI Pipelines para MLOps robustos.

Compatível com o formato de tabela de código aberto do seu lakehouse

As ofertas do Spark do Google Cloud oferecem compatibilidade robusta com formatos de código aberto, como Apache Iceberg, Delta Lake e Hudi. Use o BigLake Metastore ou o Dataproc Metastore para gerenciar metadados de forma unificada em vários formatos, permitindo uma arquitetura de lakehouse aberto em que é possível processar dados com o mecanismo Spark de sua escolha.


Apache Spark é uma marca registrada da Apache Software Foundation.

Vá além

Qual a solução que você procura? Os especialistas do Google Cloud ajudam você a encontrar a melhor solução.

Google Cloud