Google Cloud 上支持每个 AI 工作负载的超级计算系统。使用完全集成的硬件、开放式软件和灵活的使用模式来定制其组件。
概览
从优化计算、存储和网络选项中选择,针对精细的工作负载目标,无论是提高吞吐量、降低延迟、加速结果获取时间,还是降低 TCO。详细了解 Google Cloud TPU、Google Cloud GPU、Google Cloud Storage、Titanium 和 Jupiter 网络。
AI Hypercomputer 经过优化,能够支持最常用的工具和库,如 Pytorch 和 JAX。此外,客户还可以利用诸如 Cloud TPU 多切片和多主机配置等技术,以及 Google Kubernetes Engine 等托管式服务。这让客户能够为常见工作负载(例如由 SLURM 编排的 NVIDIA NeMO 框架)提供开箱即用的部署服务。
我们灵活的消费模式允许客户根据自己的业务需求,选择具有承诺使用折扣的固定费用或动态的按需模式。动态工作负载调度程序可帮助客户获得所需的容量,而不会产生过度分配,因此只需为需要的资源付费。此外,Google Cloud 的费用优化工具有助于自动利用资源,减少工程师的手动任务。
常见用途
“我们需要 GPU 来生成对用户消息的响应。随着我们平台上的用户越来越多,我们需要更多的 GPU 来为他们提供服务。因此,我们可以在 Google Cloud 上开展实验,寻找适合特定工作负载的平台。可以灵活选择最有价值的解决方案,真是太好了。”Myle Ott,Character.AI 创始工程师
“我们需要 GPU 来生成对用户消息的响应。随着我们平台上的用户越来越多,我们需要更多的 GPU 来为他们提供服务。因此,我们可以在 Google Cloud 上开展实验,寻找适合特定工作负载的平台。可以灵活选择最有价值的解决方案,真是太好了。”Myle Ott,Character.AI 创始工程师
“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官
“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官
提供 NVIDIA L4 GPU 的 Cloud TPU v5e 和 G2 虚拟机实例能够针对各种各样的 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)进行高性能且经济实惠的推理。与以前的模型相比,两者的性价比都得到了显著提升,并且 Google Cloud 的 AI Hypercomputer 架构能够让客户将部署规模扩大到行业领先的水平。
“我们的实验结果表明,对于我们的模型,在进行大规模推理时,Cloud TPU v5e 是最具成本效益的加速器。其性价比是 G2 的 2.7 倍,是 A2 实例的 4.2 倍。”Domenic Donato,
AssemblyAI 技术副总裁
提供 NVIDIA L4 GPU 的 Cloud TPU v5e 和 G2 虚拟机实例能够针对各种各样的 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)进行高性能且经济实惠的推理。与以前的模型相比,两者的性价比都得到了显著提升,并且 Google Cloud 的 AI Hypercomputer 架构能够让客户将部署规模扩大到行业领先的水平。
“我们的实验结果表明,对于我们的模型,在进行大规模推理时,Cloud TPU v5e 是最具成本效益的加速器。其性价比是 G2 的 2.7 倍,是 A2 实例的 4.2 倍。”Domenic Donato,
AssemblyAI 技术副总裁