模型变体
Gemini API 提供针对特定应用场景进行了优化的不同模型。以下是可用的 Gemini 变体的简要概述:
模型变体 | 输入 | 输出 | 优化目标 |
---|---|---|---|
Gemini 2.5 Pro
gemini-2.5-pro |
音频、图片、视频、文本和 PDF | 文本 | 增强的思考和推理能力、多模态理解能力、高级编码能力等 |
Gemini 2.5 Flash
gemini-2.5-flash |
音频、图片、视频和文本 | 文本 | 适应性思维,成本效益 |
Gemini 2.5 Flash-Lite
gemini-2.5-flash-lite |
文本、图片、视频、音频 | 文本 | 最具成本效益且支持高吞吐量的模型 |
Gemini 2.5 Flash 原生音频
gemini-2.5-flash-preview-native-audio-dialog &
gemini-2.5-flash-exp-native-audio-thinking-dialog |
音频、视频和文本 | 文本和音频,交错显示 | 高质量、自然的对话式音频输出,无论是否经过思考 |
Gemini 2.5 Flash 预览版 TTS
gemini-2.5-flash-preview-tts |
文本 | 音频 | 低延迟、可控的单语音和多语音文字转语音音频生成 |
Gemini 2.5 Pro 预览版 TTS
gemini-2.5-pro-preview-tts |
文本 | 音频 | 低延迟、可控的单语音和多语音文字转语音音频生成 |
Gemini 2.0 Flash
gemini-2.0-flash |
音频、图片、视频和文本 | 文本 | 新一代功能、速度和实时流式传输。 |
Gemini 2.0 Flash 预览版图片生成
gemini-2.0-flash-preview-image-generation |
音频、图片、视频和文本 | 文字、图片 | 对话式图片生成和编辑 |
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite |
音频、图片、视频和文本 | 文本 | 成本效益和低延迟 |
Gemini 1.5 Flash
gemini-1.5-flash |
音频、图片、视频和文本 | 文本 | 在各种任务中提供快速而多样的性能
已弃用 |
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b |
音频、图片、视频和文本 | 文本 | 量大且智能程度较低的任务
已弃用 |
Gemini 1.5 Pro
gemini-1.5-pro |
音频、图片、视频和文本 | 文本 |
需要更高智能的复杂推理任务
已弃用 |
Gemini Embedding
gemini-embedding-001 |
文本 | 文本嵌入 | 衡量文本字符串的相关性 |
Imagen 4
imagen-4.0-generate-preview-06-06
imagen-4.0-ultra-generate-preview-06-06 |
文本 | 图片 | 我们最新的图片生成模型 |
Imagen 3
imagen-3.0-generate-002 |
文本 | 图片 | 高质量图片生成模型 |
Veo 3 预览版
veo-3.0-generate-preview |
文本 | 带音频的视频 | 生成包含音效、环境噪音和对话的高品质视频 |
Veo 2
veo-2.0-generate-001 |
文字、图片 | 视频 | 高质量视频生成 |
Gemini 2.5 Flash Live
gemini-live-2.5-flash-preview |
音频、视频和文本 | 文字、音频 | 低延迟的双向语音和视频互动 |
Gemini 2.0 Flash Live
gemini-2.0-flash-live-001 |
音频、视频和文本 | 文字、音频 | 低延迟的双向语音和视频互动 |
您可以在速率限制页面上查看每个模型的速率限制。
Gemini 2.5 Pro
Gemini 2.5 Pro 是我们最先进的思考型模型,能够推理代码、数学和 STEM 领域中的复杂问题,还能使用长上下文分析大型数据集、代码库和文档。
模型详情
属性 | 说明 |
---|---|
模型代码 | gemini-2.5-pro |
支持的数据类型 |
输入源 音频、图片、视频、文本和 PDF 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 65536 |
功能 |
结构化输出 支持 缓存 支持 函数调用 支持 代码执行 支持 搜索接地 支持 图片生成 不受支持 音频生成 不受支持 Live API 不受支持 思考 支持 批量模式 支持 |
版本 |
|
最新更新 | 2025 年 6 月 |
知识截点 | 2025 年 1 月 |
Gemini 2.5 Flash
在性价比方面表现出色的模型,可提供全面的功能。2.5 Flash 最适合大规模处理、低延迟、需要思考的高数据量任务,以及智能体用例。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.5-flash |
支持的数据类型 |
输入源 文字、图片、视频、音频 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 65536 |
功能 |
音频生成 不受支持 缓存 支持 代码执行 支持 函数调用 支持 图片生成 不受支持 搜索接地 支持 结构化输出 支持 思考 支持 批量模式 支持 |
版本 |
|
最新更新 | 2025 年 6 月 |
知识截点 | 2025 年 1 月 |
Gemini 2.5 Flash-Lite
一款经过优化、可实现高成本效益和高吞吐量的 Gemini 2.5 Flash 模型。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.5-flash-lite |
支持的数据类型 |
输入源 文本、图片、视频、音频、PDF 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 65536 |
功能 |
结构化输出 支持 缓存 支持 函数调用 支持 代码执行 支持 网址上下文 支持 搜索接地 支持 图片生成 不受支持 音频生成 不受支持 Live API 不受支持 思考 支持 批量模式 支持 |
版本 |
|
最新更新 | 2025 年 7 月 |
知识截点 | 2025 年 1 月 |
Gemini 2.5 Flash 原生音频
我们的原生音频对话模型(有思考和无思考),可通过 Live API 使用。这些模型可提供互动式非结构化对话体验,并支持风格和控制提示。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.5-flash-preview-native-audio-dialog 和models/gemini-2.5-flash-exp-native-audio-thinking-dialog |
支持的数据类型 |
输入源 音频、视频、文字 输出 音频和文本 |
[*] | 令牌限制
输入 token 限制 128,000 输出 token 限制 8000 |
功能 |
音频生成 支持 缓存 不受支持 代码执行 不受支持 函数调用 支持 图片生成 不受支持 搜索接地 支持 结构化输出 不受支持 思考 支持 调优 不受支持 |
版本 |
|
最新更新 | 2025 年 5 月 |
知识截点 | 2025 年 1 月 |
Gemini 2.5 Flash 预览版 Text-to-Speech
Gemini 2.5 Flash Preview TTS 是一款高性价比的文字转语音模型, 可为播客生成、有声读物、客户支持等结构化工作流程提供高度的控制和透明度。 由于 Gemini 2.5 Flash 是一种实验性/预览版模型,因此其速率限制更为严格。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.5-flash-preview-tts |
支持的数据类型 |
输入源 文本 输出 音频 |
[*] | 令牌限制
输入 token 限制 8000 输出 token 限制 16,000 |
功能 |
结构化输出 不受支持 缓存 不受支持 调优 不受支持 函数调用 不受支持 代码执行 不受支持 搜索 不受支持 音频生成 支持 Live API 不受支持 思考 不受支持 |
版本 |
|
最新更新 | 2025 年 5 月 |
Gemini 2.5 Pro 预览版 Text-to-Speech
Gemini 2.5 Pro Preview TTS 是我们最强大的文字转语音模型, 可为播客生成、有声读物、客户支持等结构化工作流程提供高度的控制和透明度。 由于 Gemini 2.5 Pro 是一款实验性/预览版模型,因此其速率限制更为严格。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.5-pro-preview-tts |
支持的数据类型 |
输入源 文本 输出 音频 |
[*] | 令牌限制
输入 token 限制 8000 输出 token 限制 16,000 |
功能 |
结构化输出 不受支持 缓存 不受支持 调优 不受支持 函数调用 不受支持 代码执行 不受支持 搜索 不受支持 音频生成 支持 Live API 不受支持 思考 不受支持 |
版本 |
|
最新更新 | 2025 年 5 月 |
Gemini 2.0 Flash
Gemini 2.0 Flash 提供新一代功能和改进的功能, 包括更快的速度、原生工具使用和 100 万个 token 的上下文窗口。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.0-flash |
支持的数据类型 |
输入源 音频、图片、视频和文本 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 8192 |
功能 |
结构化输出 支持 缓存 支持 调优 不受支持 函数调用 支持 代码执行 支持 搜索 支持 图片生成 不受支持 音频生成 不受支持 Live API 支持 思考 实验性 批量模式 支持 |
版本 |
|
最新更新 | 2025 年 2 月 |
知识截点 | 2024 年 8 月 |
Gemini 2.0 Flash 预览版图片生成
Gemini 2.0 Flash 预览版图片生成功能提供更出色的图片生成功能,包括以对话方式生成和修改图片。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.0-flash-preview-image-generation |
支持的数据类型 |
输入源 音频、图片、视频和文本 输出 文字和图片 |
[*] | 令牌限制
输入 token 限制 32000 输出 token 限制 8192 |
功能 |
结构化输出 支持 缓存 支持 调优 不受支持 函数调用 不受支持 代码执行 不支持 搜索 不支持 图片生成 支持 音频生成 不受支持 Live API 不支持 思考 不支持 |
版本 |
目前,欧洲、中东和非洲的一些国家/地区不支持 gemini-2.0-flash-preview-image-generation |
最新更新 | 2025 年 5 月 |
知识截点 | 2024 年 8 月 |
Gemini 2.0 Flash-Lite
经过优化,提高了成本效益并缩短了延迟时间的 Gemini 2.0 Flash 模型。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.0-flash-lite |
支持的数据类型 |
输入源 音频、图片、视频和文本 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 8192 |
功能 |
结构化输出 支持 缓存 支持 调优 不受支持 函数调用 支持 代码执行 不受支持 搜索 不受支持 图片生成 不受支持 音频生成 不受支持 Live API 不受支持 Batch API 支持 |
版本 |
|
最新更新 | 2025 年 2 月 |
知识截点 | 2024 年 8 月 |
Gemini 1.5 Flash
Gemini 1.5 Flash 是一款快速且用途广泛的多模态模型,可用于大规模处理各种任务。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-1.5-flash |
支持的数据类型 |
输入源 音频、图片、视频和文本 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 8192 |
音频/视频规范 |
每个提示的图片数量上限 3600 视频时长上限 1 小时 音频时长上限 大约 9.5 小时 |
功能 |
系统指令 支持 JSON 模式 支持 JSON 架构 支持 可调整的安全设置 支持 缓存 支持 调优 支持 函数调用 支持 代码执行 支持 Live API 不受支持 |
版本 |
|
弃用日期 | 2025 年 9 月 |
最新更新 | 2024 年 9 月 |
Gemini 1.5 Flash-8B
Gemini 1.5 Flash-8B 是一款小型模型,专为处理低智能任务而设计。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-1.5-flash-8b |
支持的数据类型 |
输入源 音频、图片、视频和文本 输出 文本 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 8192 |
音频/视频规范 |
每个提示的图片数量上限 3600 视频时长上限 1 小时 音频时长上限 大约 9.5 小时 |
功能 |
系统指令 支持 JSON 模式 支持 JSON 架构 支持 可调整的安全设置 支持 缓存 支持 调优 支持 函数调用 支持 代码执行 支持 Live API 不受支持 |
版本 |
|
弃用日期 | 2025 年 9 月 |
最新更新 | 2024 年 10 月 |
Gemini 1.5 Pro
试用 Gemini 2.5 Pro 预览版,体验我们迄今为止最先进的 Gemini 模型。
Gemini 1.5 Pro 是一款中型多模态模型,经过优化,可处理各种推理任务。1.5 Pro 可以一次性处理大量数据,包括 2 小时的视频、19 小时的音频、包含 6 万行代码的代码库或 2,000 页的文本。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-1.5-pro |
支持的数据类型 |
输入源 音频、图片、视频和文本 输出 文本 |
[*] | 令牌限制
输入 token 限制 2,097,152 输出 token 限制 8192 |
音频/视频规范 |
每个提示的图片数量上限 7,200 视频时长上限 2 小时 音频时长上限 大约 19 小时 |
功能 |
系统指令 支持 JSON 模式 支持 JSON 架构 支持 可调整的安全设置 支持 缓存 支持 调优 不受支持 函数调用 支持 代码执行 支持 Live API 不受支持 |
版本 |
|
弃用日期 | 2025 年 9 月 |
最新更新 | 2024 年 9 月 |
Imagen 4
Imagen 4 是我们最新的图片模型,能够生成细节丰富、光线充足的图片,文本渲染效果显著优于以往的模型,输出分辨率也更高。
模型详情
属性 | 说明 |
---|---|
模型代码 |
Gemini API
|
支持的数据类型 |
输入 文本 输出 图片 |
[*] | 令牌限制
输入 token 限制 480 个 token(文本) 输出图片 1(超高清) |
最新更新 | 2025 年 6 月 |
Imagen 3
Imagen 3 是我们迄今为止质量最高的文本转图片模型,与之前的模型相比,它能够生成细节更完美、光线更丰富且干扰性伪影更少的图片。
模型详情
属性 | 说明 |
---|---|
模型代码 |
Gemini API
|
支持的数据类型 |
输入 文本 输出 图片 |
[*] | 令牌限制
输入 token 限制 不适用 输出图片 最多 4 项 |
最新更新 | 2025 年 2 月 |
Veo 3 预览版
Veo 3 预览版是我们最新的文本转视频模型,能够生成包含集成音频的详细视频,并增强了提示遵循度和直接摄像头控制功能。
模型详情
属性 | 说明 |
---|---|
模型代码 |
Gemini API
|
支持的数据类型 |
输入 文本 输出 带音频的视频 |
限制 |
文本输入 1,024 个词元 输出视频 1 |
最新更新 | 2025 年 7 月 |
Veo 2
Veo 2 是我们的高质量文本转视频和图片转视频模型,能够生成详细的视频,捕捉提示中的艺术细微差别。
模型详情
属性 | 说明 |
---|---|
模型代码 |
Gemini API
|
支持的数据类型 |
输入 文字、图片 输出 视频 |
限制 |
文本输入 不适用 图片输入 任意图片分辨率和宽高比,文件大小不超过 20MB 输出视频 最多 2 个 |
最新更新 | 2025 年 4 月 |
Gemini 2.5 Flash Live
Gemini 2.5 Flash Live 模型可与 Live API 搭配使用,实现与 Gemini 的低延迟双向语音和视频互动。该模型可以处理文本、音频和视频输入,并提供文本和音频输出。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-live-2.5-flash-preview |
支持的数据类型 |
输入源 音频、视频和文本 输出 文字和音频 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 8192 |
功能 |
结构化输出 支持 调优 不受支持 函数调用 支持 代码执行 支持 搜索 支持 图片生成 不受支持 音频生成 支持 思考 不受支持 |
版本 |
|
最新更新 | 2025 年 6 月 |
知识截点 | 2025 年 1 月 |
Gemini 2.0 Flash Live
Gemini 2.0 Flash Live 模型可与 Live API 搭配使用,以实现与 Gemini 建立低延迟的双向语音和视频互动。该模型可以处理文本、音频和视频输入,并提供文本和音频输出。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-2.0-flash-live-001 |
支持的数据类型 |
输入源 音频、视频和文本 输出 文字和音频 |
[*] | 令牌限制
输入 token 限制 1,048,576 输出 token 限制 8192 |
功能 |
结构化输出 支持 调优 不受支持 函数调用 支持 代码执行 支持 搜索 支持 图片生成 不受支持 音频生成 支持 思考 不受支持 |
版本 |
|
最新更新 | 2025 年 4 月 |
知识截点 | 2024 年 8 月 |
Gemini 嵌入模型
Gemini 嵌入模型在代码、多语言和检索等许多关键维度上均实现了 SOTA 性能。
模型详情
属性 | 说明 |
---|---|
模型代码 |
Gemini API
|
支持的数据类型 |
输入 文本 输出 文本嵌入 |
[*] | 令牌限制
输入 token 限制 2048 输出维度大小 灵活,支持:128 - 3072,推荐:768、1536、3072 |
版本 |
|
最新更新 | 2025 年 6 月 |
旧版嵌入模型
文本嵌入(旧版)
文本嵌入用于衡量字符串的相关性,广泛应用于许多 AI 应用。
模型详情
属性 | 说明 |
---|---|
模型代码 |
Gemini API
|
支持的数据类型 |
输入 文本 输出 文本嵌入 |
[*] | 令牌限制
输入 token 限制 2048 输出维度大小 768 |
[**] | 速率限制每分钟 1,500 个请求 |
可调整的安全设置 | 不受支持 |
弃用日期 | 2026 年 1 月 |
最新更新 | 2024 年 4 月 |
请参阅示例,了解这些模型变体的功能。
[*] 对于 Gemini 模型,一个 token 相当于大约 4 个字符。100 个词元大约相当于 60-80 个英文单词。
模型版本名称模式
Gemini 模型提供稳定版、预览版或实验版。在代码中,您可以使用以下任一模型名称格式来指定要使用的模型和版本。
最新稳定版
指向为指定模型代系和变体发布的最新稳定版。
如需指定最新的稳定版本,请使用以下格式:<model>-<generation>-<variation>
。例如 gemini-2.0-flash
。
稳定
指向特定的稳定模型。稳定模型通常不会发生变化。大多数正式版应用都应使用特定的稳定模型。
如需指定稳定版本,请使用以下格式:<model>-<generation>-<variation>-<version>
。例如 gemini-2.0-flash-001
。
预览
指向预览版模型,该模型可能不适合用于生产环境,具有更严格的速率限制,但可能已启用结算功能。
如需指定预览版,请使用以下格式:<model>-<generation>-<variation>-<version>
。例如 gemini-2.5-pro-preview-06-05
。
预览版模型不稳定,模型端点的可用性可能会发生变化。
实验性
指向实验性模型,该模型可能不适合用于生产环境,并且具有更严格的速率限制。我们发布实验性模型是为了收集反馈,并让开发者尽快体验我们的最新更新。
如需指定实验性版本,请使用以下格式:<model>-<generation>-<variation>-<version>
。例如 gemini-2.0-pro-exp-02-05
。
实验性模型不稳定,模型端点的可用性可能会发生变化。
实验性模型
除了稳定模型之外,Gemini API 还提供实验性模型,这些模型可能不适合用于生产环境,并且具有更严格的速率限制。
我们发布实验版模型是为了收集反馈、让开发者快速获得我们的最新更新,并展示 Google 的创新步伐。通过发布实验版积累经验,以便我们的正式版模型能更好地服务更多用户。实验性模型可以在不事先通知的情况下换成另一个模型。我们不保证实验性模型将来会成为稳定模型。
先前的实验性模型
随着新版本或稳定版的推出,我们会移除并替换实验性模型。您可以在以下部分找到我们之前发布的实验性模型以及替代版本:
模型代码 | 基本模型 | 替换版本 |
---|---|---|
gemini-embedding-exp-03-07 |
Gemini 嵌入模型 | gemini-embedding-001 |
gemini-2.5-flash-preview-04-17 |
Gemini 2.5 Flash | gemini-2.5-flash-preview-05-20 |
gemini-2.0-flash-exp-image-generation |
Gemini 2.0 Flash | gemini-2.0-flash-preview-image-generation |
gemini-2.5-pro-preview-06-05 |
Gemini 2.5 Pro | gemini-2.5-pro |
gemini-2.5-pro-preview-05-06 |
Gemini 2.5 Pro | gemini-2.5-pro |
gemini-2.5-pro-preview-03-25 |
Gemini 2.5 Pro | gemini-2.5-pro |
gemini-2.0-flash-thinking-exp-01-21 |
Gemini 2.5 Flash | gemini-2.5-flash-preview-04-17 |
gemini-2.0-pro-exp-02-05 |
Gemini 2.0 Pro Experimental | gemini-2.5-pro-preview-03-25 |
gemini-2.0-flash-exp |
Gemini 2.0 Flash | gemini-2.0-flash |
gemini-exp-1206 |
Gemini 2.0 Pro | gemini-2.0-pro-exp-02-05 |
gemini-2.0-flash-thinking-exp-1219 |
Gemini 2.0 Flash Thinking | gemini-2.0-flash-thinking-exp-01-21 |
gemini-exp-1121 |
Gemini | gemini-exp-1206 |
gemini-exp-1114 |
Gemini | gemini-exp-1206 |
gemini-1.5-pro-exp-0827 |
Gemini 1.5 Pro | gemini-exp-1206 |
gemini-1.5-pro-exp-0801 |
Gemini 1.5 Pro | gemini-exp-1206 |
gemini-1.5-flash-8b-exp-0924 |
Gemini 1.5 Flash-8B | gemini-1.5-flash-8b |
gemini-1.5-flash-8b-exp-0827 |
Gemini 1.5 Flash-8B | gemini-1.5-flash-8b |
支持的语言
Gemini 模型经过训练,可支持以下语言:
- 阿拉伯语 (
ar
) - 孟加拉语 (
bn
) - 保加利亚语 (
bg
) - 简体中文和繁体中文 (
zh
) - 克罗地亚语 (
hr
) - 捷克语 (
cs
) - 丹麦语 (
da
) - 荷兰语 (
nl
) - 英语 (
en
) - 爱沙尼亚语 (
et
) - 芬兰语 (
fi
) - 法语 (
fr
) - 德语 (
de
) - 希腊语 (
el
) - 希伯来语 (
iw
) - 印地语 (
hi
) - 匈牙利语 (
hu
) - 印度尼西亚语 (
id
) - 意大利语 (
it
) - 日语 (
ja
) - 韩语 (
ko
) - 拉脱维亚语 (
lv
) - 立陶宛语 (
lt
) - 挪威语 (
no
) - 波兰语 (
pl
) - 葡萄牙语 (
pt
) - 罗马尼亚语 (
ro
) - 俄语 (
ru
) - 塞尔维亚语 (
sr
) - 斯洛伐克语 (
sk
) - 斯洛维尼亚语 (
sl
) - 西班牙语 (
es
) - 斯瓦希里语 (
sw
) - 瑞典语 (
sv
) - 泰语 (
th
) - 土耳其语 (
tr
) - 乌克兰语 (
uk
) - 越南语 (
vi
)