Aproveite todo o potencial do Spark no Google Cloud. Escolha a facilidade sem servidor ou o controle de cluster, com processamento de alta velocidade, assistência de IA e conectividade do lakehouse aberto.
Vantagens
Spark contínuo para todos os usuários de dados
Simplicidade operacional com o Spark sem servidor
O Google Cloud Serverless para Apache Spark oferece escalonamento automático instantâneo e configuração quase zero. Aumente o desempenho das consultas em 3,6x* com o Lightning Engine (pré-lançamento). O Dataplex Universal Catalog unifica os metadados, simplificando as operações.
Execute o Spark da forma que preferir
Um tamanho não serve para todos. O Google Cloud oferece a flexibilidade de escolher entre clusters sem servidor, gerenciados e de computação para suas cargas de trabalho do Spark.
Principais recursos
Usar o Google Cloud Serverless para Apache Spark para aumentar a produtividade e o desempenho com o Lightning Engine* e o Gemini. Essa experiência é um ambiente profundamente integrado para executar cargas de trabalho do Apache Spark e SQL diretamente no BigQuery. Ela oferece segurança unificada, metadados de ambiente de execução usando o metastore do BigLake e governança no Dataplex Universal Catalog. Maximize a produtividade com CI/CD integrado, Gemini em notebooks e elimine o gerenciamento de clusters do Apache Spark.
* As consultas são derivadas do padrão TPC-DS e do padrão TPC-H e, como tal, não são comparáveis aos resultados publicados do padrão TPC-DS e do padrão TPC-H, porque essas execuções não atendem a todos os requisitos da especificação do padrão TPC-DS e do padrão TPC-H.
O Dataproc é um serviço totalmente gerenciado e altamente escalonável para implantar e operar o Spark dedicado, o Hadoop e um vasto ecossistema de mais de 30 ferramentas de código aberto. A integração com os produtos e serviços mais amplos do Google Cloud, incluindo o Lightning Engine para Dataproc no Google Compute Engine (nível Premium), torna o Dataproc ideal para a modernização de data lakes, pipelines de ETL eficientes e iniciativas de ciência de dados em grande escala e seguras, em que o controle do cluster é fundamental.
Seja com a simplicidade de zero operações do Google Cloud Serverless para Apache Spark ou o controle de clusters gerenciados do Dataproc, você pode acelerar todo o ciclo de vida do machine learning. Aproveite os seguintes benefícios:
Desenvolva e operacionalize o Spark para ciência de dados de forma integrada com a Vertex AI. Use o Spark do Vertex AI Workbench para desenvolvimento interativo com segurança integrada e assistência do Gemini. Integre o processamento do Spark ao Vertex AI Pipelines para MLOps robustos.
As ofertas do Spark do Google Cloud oferecem compatibilidade robusta com formatos de código aberto, como Apache Iceberg, Delta Lake e Hudi. Use o BigLake Metastore ou o Dataproc Metastore para gerenciar metadados de forma unificada em vários formatos, permitindo uma arquitetura de lakehouse aberto em que é possível processar dados com o mecanismo Spark de sua escolha.
Apache Spark é uma marca registrada da Apache Software Foundation.
Qual a solução que você procura? Os especialistas do Google Cloud ajudam você a encontrar a melhor solução.