Gemini 模型

模型变体

Gemini API 提供针对特定应用场景进行了优化的不同模型。以下是可用的 Gemini 变体的简要概述:

模型变体 输入 输出 优化目标
Gemini 2.5 Pro
gemini-2.5-pro
音频、图片、视频、文本和 PDF 文本 增强的思考和推理能力、多模态理解能力、高级编码能力等
Gemini 2.5 Flash
gemini-2.5-flash
音频、图片、视频和文本 文本 适应性思维,成本效益
Gemini 2.5 Flash-Lite
gemini-2.5-flash-lite
文本、图片、视频、音频 文本 最具成本效益且支持高吞吐量的模型
Gemini 2.5 Flash 原生音频
gemini-2.5-flash-preview-native-audio-dialog &
gemini-2.5-flash-exp-native-audio-thinking-dialog
音频、视频和文本 文本和音频,交错显示 高质量、自然的对话式音频输出,无论是否经过思考
Gemini 2.5 Flash 预览版 TTS
gemini-2.5-flash-preview-tts
文本 音频 低延迟、可控的单语音和多语音文字转语音音频生成
Gemini 2.5 Pro 预览版 TTS
gemini-2.5-pro-preview-tts
文本 音频 低延迟、可控的单语音和多语音文字转语音音频生成
Gemini 2.0 Flash
gemini-2.0-flash
音频、图片、视频和文本 文本 新一代功能、速度和实时流式传输。
Gemini 2.0 Flash 预览版图片生成
gemini-2.0-flash-preview-image-generation
音频、图片、视频和文本 文字、图片 对话式图片生成和编辑
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
音频、图片、视频和文本 文本 成本效益和低延迟
Gemini 1.5 Flash
gemini-1.5-flash
音频、图片、视频和文本 文本 在各种任务中提供快速而多样的性能
已弃用
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b
音频、图片、视频和文本 文本 量大且智能程度较低的任务
已弃用
Gemini 1.5 Pro
gemini-1.5-pro
音频、图片、视频和文本 文本 需要更高智能的复杂推理任务
已弃用
Gemini Embedding
gemini-embedding-001
文本 文本嵌入 衡量文本字符串的相关性
Imagen 4
imagen-4.0-generate-preview-06-06
imagen-4.0-ultra-generate-preview-06-06
文本 图片 我们最新的图片生成模型
Imagen 3
imagen-3.0-generate-002
文本 图片 高质量图片生成模型
Veo 3 预览版
veo-3.0-generate-preview
文本 带音频的视频 生成包含音效、环境噪音和对话的高品质视频
Veo 2
veo-2.0-generate-001
文字、图片 视频 高质量视频生成
Gemini 2.5 Flash Live
gemini-live-2.5-flash-preview
音频、视频和文本 文字、音频 低延迟的双向语音和视频互动
Gemini 2.0 Flash Live
gemini-2.0-flash-live-001
音频、视频和文本 文字、音频 低延迟的双向语音和视频互动

您可以在速率限制页面上查看每个模型的速率限制。

Gemini 2.5 Pro

Gemini 2.5 Pro 是我们最先进的思考型模型,能够推理代码、数学和 STEM 领域中的复杂问题,还能使用长上下文分析大型数据集、代码库和文档。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 gemini-2.5-pro
支持的数据类型

输入源

音频、图片、视频、文本和 PDF

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

65536

功能

结构化输出

支持

缓存

支持

函数调用

支持

代码执行

支持

搜索接地

支持

图片生成

不受支持

音频生成

不受支持

Live API

不受支持

思考

支持

批量模式

支持

版本
如需了解详情,请参阅模型版本模式
  • Stable: gemini-2.5-pro
最新更新 2025 年 6 月
知识截点 2025 年 1 月

Gemini 2.5 Flash

在性价比方面表现出色的模型,可提供全面的功能。2.5 Flash 最适合大规模处理、低延迟、需要思考的高数据量任务,以及智能体用例。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.5-flash
支持的数据类型

输入源

文字、图片、视频、音频

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

65536

功能

音频生成

不受支持

缓存

支持

代码执行

支持

函数调用

支持

图片生成

不受支持

搜索接地

支持

结构化输出

支持

思考

支持

批量模式

支持

版本
如需了解详情,请参阅模型版本模式
  • 稳定:gemini-2.5-flash
  • 预览:gemini-2.5-flash-preview-05-20
最新更新 2025 年 6 月
知识截点 2025 年 1 月

Gemini 2.5 Flash-Lite

一款经过优化、可实现高成本效益和高吞吐量的 Gemini 2.5 Flash 模型。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.5-flash-lite
支持的数据类型

输入源

文本、图片、视频、音频、PDF

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

65536

功能

结构化输出

支持

缓存

支持

函数调用

支持

代码执行

支持

网址上下文

支持

搜索接地

支持

图片生成

不受支持

音频生成

不受支持

Live API

不受支持

思考

支持

批量模式

支持

版本
如需了解详情,请参阅模型版本模式
  • 稳定:gemini-2.5-flash-lite
  • 预览:gemini-2.5-flash-lite-06-17
最新更新 2025 年 7 月
知识截点 2025 年 1 月

Gemini 2.5 Flash 原生音频

我们的原生音频对话模型(有思考和无思考),可通过 Live API 使用。这些模型可提供互动式非结构化对话体验,并支持风格和控制提示。

在 Google AI Studio 中试用原生音频

模型详情

属性 说明
模型代码 models/gemini-2.5-flash-preview-native-audio-dialog
models/gemini-2.5-flash-exp-native-audio-thinking-dialog
支持的数据类型

输入源

音频、视频、文字

输出

音频和文本

令牌限制[*]

输入 token 限制

128,000

输出 token 限制

8000

功能

音频生成

支持

缓存

不受支持

代码执行

不受支持

函数调用

支持

图片生成

不受支持

搜索接地

支持

结构化输出

不受支持

思考

支持

调优

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 预览:gemini-2.5-flash-preview-05-20
  • 实验性:gemini-2.5-flash-exp-native-audio-thinking-dialog
最新更新 2025 年 5 月
知识截点 2025 年 1 月

Gemini 2.5 Flash 预览版 Text-to-Speech

Gemini 2.5 Flash Preview TTS 是一款高性价比的文字转语音模型, 可为播客生成、有声读物、客户支持等结构化工作流程提供高度的控制和透明度。 由于 Gemini 2.5 Flash 是一种实验性/预览版模型,因此其速率限制更为严格。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.5-flash-preview-tts
支持的数据类型

输入源

文本

输出

音频

令牌限制[*]

输入 token 限制

8000

输出 token 限制

16,000

功能

结构化输出

不受支持

缓存

不受支持

调优

不受支持

函数调用

不受支持

代码执行

不受支持

搜索

不受支持

音频生成

支持

Live API

不受支持

思考

不受支持

版本
如需了解详情,请参阅模型版本模式
  • gemini-2.5-flash-preview-tts
最新更新 2025 年 5 月

Gemini 2.5 Pro 预览版 Text-to-Speech

Gemini 2.5 Pro Preview TTS 是我们最强大的文字转语音模型, 可为播客生成、有声读物、客户支持等结构化工作流程提供高度的控制和透明度。 由于 Gemini 2.5 Pro 是一款实验性/预览版模型,因此其速率限制更为严格。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.5-pro-preview-tts
支持的数据类型

输入源

文本

输出

音频

令牌限制[*]

输入 token 限制

8000

输出 token 限制

16,000

功能

结构化输出

不受支持

缓存

不受支持

调优

不受支持

函数调用

不受支持

代码执行

不受支持

搜索

不受支持

音频生成

支持

Live API

不受支持

思考

不受支持

版本
如需了解详情,请参阅模型版本模式
  • gemini-2.5-pro-preview-tts
最新更新 2025 年 5 月

Gemini 2.0 Flash

Gemini 2.0 Flash 提供新一代功能和改进的功能, 包括更快的速度、原生工具使用和 100 万个 token 的上下文窗口。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.0-flash
支持的数据类型

输入源

音频、图片、视频和文本

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

8192

功能

结构化输出

支持

缓存

支持

调优

不受支持

函数调用

支持

代码执行

支持

搜索

支持

图片生成

不受支持

音频生成

不受支持

Live API

支持

思考

实验性

批量模式

支持

版本
如需了解详情,请参阅模型版本模式
  • 最新电子邮件的接收日期:gemini-2.0-flash
  • 稳定:gemini-2.0-flash-001
  • 实验性:gemini-2.0-flash-exp
最新更新 2025 年 2 月
知识截点 2024 年 8 月

Gemini 2.0 Flash 预览版图片生成

Gemini 2.0 Flash 预览版图片生成功能提供更出色的图片生成功能,包括以对话方式生成和修改图片。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.0-flash-preview-image-generation
支持的数据类型

输入源

音频、图片、视频和文本

输出

文字和图片

令牌限制[*]

输入 token 限制

32000

输出 token 限制

8192

功能

结构化输出

支持

缓存

支持

调优

不受支持

函数调用

不受支持

代码执行

不支持

搜索

不支持

图片生成

支持

音频生成

不受支持

Live API

不支持

思考

不支持

版本
如需了解详情,请参阅模型版本模式
  • 预览:gemini-2.0-flash-preview-image-generation
  • 目前,欧洲、中东和非洲的一些国家/地区不支持 gemini-2.0-flash-preview-image-generation

最新更新 2025 年 5 月
知识截点 2024 年 8 月

Gemini 2.0 Flash-Lite

经过优化,提高了成本效益并缩短了延迟时间的 Gemini 2.0 Flash 模型。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.0-flash-lite
支持的数据类型

输入源

音频、图片、视频和文本

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

8192

功能

结构化输出

支持

缓存

支持

调优

不受支持

函数调用

支持

代码执行

不受支持

搜索

不受支持

图片生成

不受支持

音频生成

不受支持

Live API

不受支持

Batch API

支持

版本
如需了解详情,请参阅模型版本模式
  • 最新电子邮件的接收日期:gemini-2.0-flash-lite
  • 稳定:gemini-2.0-flash-lite-001
最新更新 2025 年 2 月
知识截点 2024 年 8 月

Gemini 1.5 Flash

Gemini 1.5 Flash 是一款快速且用途广泛的多模态模型,可用于大规模处理各种任务。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-1.5-flash
支持的数据类型

输入源

音频、图片、视频和文本

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

8192

音频/视频规范

每个提示的图片数量上限

3600

视频时长上限

1 小时

音频时长上限

大约 9.5 小时

功能

系统指令

支持

JSON 模式

支持

JSON 架构

支持

可调整的安全设置

支持

缓存

支持

调优

支持

函数调用

支持

代码执行

支持

Live API

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 最新电子邮件的接收日期:gemini-1.5-flash-latest
  • 最新稳定版:gemini-1.5-flash
  • 稳定版:
    • gemini-1.5-flash-001
    • gemini-1.5-flash-002
弃用日期 2025 年 9 月
最新更新 2024 年 9 月

Gemini 1.5 Flash-8B

Gemini 1.5 Flash-8B 是一款小型模型,专为处理低智能任务而设计。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-1.5-flash-8b
支持的数据类型

输入源

音频、图片、视频和文本

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

8192

音频/视频规范

每个提示的图片数量上限

3600

视频时长上限

1 小时

音频时长上限

大约 9.5 小时

功能

系统指令

支持

JSON 模式

支持

JSON 架构

支持

可调整的安全设置

支持

缓存

支持

调优

支持

函数调用

支持

代码执行

支持

Live API

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 最新电子邮件的接收日期:gemini-1.5-flash-8b-latest
  • 最新稳定版:gemini-1.5-flash-8b
  • 稳定版:
    • gemini-1.5-flash-8b-001
弃用日期 2025 年 9 月
最新更新 2024 年 10 月

Gemini 1.5 Pro

试用 Gemini 2.5 Pro 预览版,体验我们迄今为止最先进的 Gemini 模型。

Gemini 1.5 Pro 是一款中型多模态模型,经过优化,可处理各种推理任务。1.5 Pro 可以一次性处理大量数据,包括 2 小时的视频、19 小时的音频、包含 6 万行代码的代码库或 2,000 页的文本。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-1.5-pro
支持的数据类型

输入源

音频、图片、视频和文本

输出

文本

令牌限制[*]

输入 token 限制

2,097,152

输出 token 限制

8192

音频/视频规范

每个提示的图片数量上限

7,200

视频时长上限

2 小时

音频时长上限

大约 19 小时

功能

系统指令

支持

JSON 模式

支持

JSON 架构

支持

可调整的安全设置

支持

缓存

支持

调优

不受支持

函数调用

支持

代码执行

支持

Live API

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 最新电子邮件的接收日期:gemini-1.5-pro-latest
  • 最新稳定版:gemini-1.5-pro
  • 稳定版:
    • gemini-1.5-pro-001
    • gemini-1.5-pro-002
弃用日期 2025 年 9 月
最新更新 2024 年 9 月

Imagen 4

Imagen 4 是我们最新的图片模型,能够生成细节丰富、光线充足的图片,文本渲染效果显著优于以往的模型,输出分辨率也更高。

模型详情
属性 说明
模型代码

Gemini API

imagen-4.0-generate-preview-06-06
imagen-4.0-ultra-generate-preview-06-06

支持的数据类型

输入

文本

输出

图片

令牌限制[*]

输入 token 限制

480 个 token(文本)

输出图片

1(超高清)
1 至 4(标准)

最新更新 2025 年 6 月

Imagen 3

Imagen 3 是我们迄今为止质量最高的文本转图片模型,与之前的模型相比,它能够生成细节更完美、光线更丰富且干扰性伪影更少的图片。

模型详情
属性 说明
模型代码

Gemini API

imagen-3.0-generate-002

支持的数据类型

输入

文本

输出

图片

令牌限制[*]

输入 token 限制

不适用

输出图片

最多 4 项

最新更新 2025 年 2 月

Veo 3 预览版

Veo 3 预览版是我们最新的文本转视频模型,能够生成包含集成音频的详细视频,并增强了提示遵循度和直接摄像头控制功能。

试用 Veo 3

模型详情
属性 说明
模型代码

Gemini API

veo-3.0-generate-preview

支持的数据类型

输入

文本

输出

带音频的视频

限制

文本输入

1,024 个词元

输出视频

1

最新更新 2025 年 7 月

Veo 2

Veo 2 是我们的高质量文本转视频和图片转视频模型,能够生成详细的视频,捕捉提示中的艺术细微差别。

模型详情
属性 说明
模型代码

Gemini API

veo-2.0-generate-001

支持的数据类型

输入

文字、图片

输出

视频

限制

文本输入

不适用

图片输入

任意图片分辨率和宽高比,文件大小不超过 20MB

输出视频

最多 2 个

最新更新 2025 年 4 月

Gemini 2.5 Flash Live

Gemini 2.5 Flash Live 模型可与 Live API 搭配使用,实现与 Gemini 的低延迟双向语音和视频互动。该模型可以处理文本、音频和视频输入,并提供文本和音频输出。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-live-2.5-flash-preview
支持的数据类型

输入源

音频、视频和文本

输出

文字和音频

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

8192

功能

结构化输出

支持

调优

不受支持

函数调用

支持

代码执行

支持

搜索

支持

图片生成

不受支持

音频生成

支持

思考

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 预览:gemini-live-2.5-flash-preview
最新更新 2025 年 6 月
知识截点 2025 年 1 月

Gemini 2.0 Flash Live

Gemini 2.0 Flash Live 模型可与 Live API 搭配使用,以实现与 Gemini 建立低延迟的双向语音和视频互动。该模型可以处理文本、音频和视频输入,并提供文本和音频输出。

在 Google AI Studio 中试用

模型详情

属性 说明
模型代码 models/gemini-2.0-flash-live-001
支持的数据类型

输入源

音频、视频和文本

输出

文字和音频

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

8192

功能

结构化输出

支持

调优

不受支持

函数调用

支持

代码执行

支持

搜索

支持

图片生成

不受支持

音频生成

支持

思考

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 预览:gemini-2.0-flash-live-001
最新更新 2025 年 4 月
知识截点 2024 年 8 月

Gemini 嵌入模型

Gemini 嵌入模型在代码、多语言和检索等许多关键维度上均实现了 SOTA 性能

模型详情
属性 说明
模型代码

Gemini API

gemini-embedding-001

支持的数据类型

输入

文本

输出

文本嵌入

令牌限制[*]

输入 token 限制

2048

输出维度大小

灵活,支持:128 - 3072,推荐:768、1536、3072

版本
如需了解详情,请参阅模型版本模式
  • 稳定:gemini-embedding-001
  • 预览:gemini-embedding-exp-03-07
最新更新 2025 年 6 月

旧版嵌入模型

文本嵌入(旧版)

文本嵌入用于衡量字符串的相关性,广泛应用于许多 AI 应用。

模型详情
属性 说明
模型代码

Gemini API

models/text-embedding-004

支持的数据类型

输入

文本

输出

文本嵌入

令牌限制[*]

输入 token 限制

2048

输出维度大小

768

速率限制[**] 每分钟 1,500 个请求
可调整的安全设置 不受支持
弃用日期 2026 年 1 月
最新更新 2024 年 4 月

请参阅示例,了解这些模型变体的功能。

[*] 对于 Gemini 模型,一个 token 相当于大约 4 个字符。100 个词元大约相当于 60-80 个英文单词。

模型版本名称模式

Gemini 模型提供稳定版预览版实验版。在代码中,您可以使用以下任一模型名称格式来指定要使用的模型和版本。

最新稳定版

指向为指定模型代系和变体发布的最新稳定版。

如需指定最新的稳定版本,请使用以下格式:<model>-<generation>-<variation>。例如 gemini-2.0-flash

稳定

指向特定的稳定模型。稳定模型通常不会发生变化。大多数正式版应用都应使用特定的稳定模型。

如需指定稳定版本,请使用以下格式:<model>-<generation>-<variation>-<version>。例如 gemini-2.0-flash-001

预览

指向预览版模型,该模型可能不适合用于生产环境,具有更严格的速率限制,但可能已启用结算功能。

如需指定预览版,请使用以下格式:<model>-<generation>-<variation>-<version>。例如 gemini-2.5-pro-preview-06-05

预览版模型不稳定,模型端点的可用性可能会发生变化。

实验性

指向实验性模型,该模型可能不适合用于生产环境,并且具有更严格的速率限制。我们发布实验性模型是为了收集反馈,并让开发者尽快体验我们的最新更新。

如需指定实验性版本,请使用以下格式:<model>-<generation>-<variation>-<version>。例如 gemini-2.0-pro-exp-02-05

实验性模型不稳定,模型端点的可用性可能会发生变化。

实验性模型

除了稳定模型之外,Gemini API 还提供实验性模型,这些模型可能不适合用于生产环境,并且具有更严格的速率限制。

我们发布实验版模型是为了收集反馈、让开发者快速获得我们的最新更新,并展示 Google 的创新步伐。通过发布实验版积累经验,以便我们的正式版模型能更好地服务更多用户。实验性模型可以在不事先通知的情况下换成另一个模型。我们不保证实验性模型将来会成为稳定模型。

先前的实验性模型

随着新版本或稳定版的推出,我们会移除并替换实验性模型。您可以在以下部分找到我们之前发布的实验性模型以及替代版本:

模型代码 基本模型 替换版本
gemini-embedding-exp-03-07 Gemini 嵌入模型 gemini-embedding-001
gemini-2.5-flash-preview-04-17 Gemini 2.5 Flash gemini-2.5-flash-preview-05-20
gemini-2.0-flash-exp-image-generation Gemini 2.0 Flash gemini-2.0-flash-preview-image-generation
gemini-2.5-pro-preview-06-05 Gemini 2.5 Pro gemini-2.5-pro
gemini-2.5-pro-preview-05-06 Gemini 2.5 Pro gemini-2.5-pro
gemini-2.5-pro-preview-03-25 Gemini 2.5 Pro gemini-2.5-pro
gemini-2.0-flash-thinking-exp-01-21 Gemini 2.5 Flash gemini-2.5-flash-preview-04-17
gemini-2.0-pro-exp-02-05 Gemini 2.0 Pro Experimental gemini-2.5-pro-preview-03-25
gemini-2.0-flash-exp Gemini 2.0 Flash gemini-2.0-flash
gemini-exp-1206 Gemini 2.0 Pro gemini-2.0-pro-exp-02-05
gemini-2.0-flash-thinking-exp-1219 Gemini 2.0 Flash Thinking gemini-2.0-flash-thinking-exp-01-21
gemini-exp-1121 Gemini gemini-exp-1206
gemini-exp-1114 Gemini gemini-exp-1206
gemini-1.5-pro-exp-0827 Gemini 1.5 Pro gemini-exp-1206
gemini-1.5-pro-exp-0801 Gemini 1.5 Pro gemini-exp-1206
gemini-1.5-flash-8b-exp-0924 Gemini 1.5 Flash-8B gemini-1.5-flash-8b
gemini-1.5-flash-8b-exp-0827 Gemini 1.5 Flash-8B gemini-1.5-flash-8b

支持的语言

Gemini 模型经过训练,可支持以下语言:

  • 阿拉伯语 (ar)
  • 孟加拉语 (bn)
  • 保加利亚语 (bg)
  • 简体中文和繁体中文 (zh)
  • 克罗地亚语 (hr)
  • 捷克语 (cs)
  • 丹麦语 (da)
  • 荷兰语 (nl)
  • 英语 (en)
  • 爱沙尼亚语 (et)
  • 芬兰语 (fi)
  • 法语 (fr)
  • 德语 (de)
  • 希腊语 (el)
  • 希伯来语 (iw)
  • 印地语 (hi)
  • 匈牙利语 (hu)
  • 印度尼西亚语 (id)
  • 意大利语 (it)
  • 日语 (ja)
  • 韩语 (ko)
  • 拉脱维亚语 (lv)
  • 立陶宛语 (lt)
  • 挪威语 (no)
  • 波兰语 (pl)
  • 葡萄牙语 (pt)
  • 罗马尼亚语 (ro)
  • 俄语 (ru)
  • 塞尔维亚语 (sr)
  • 斯洛伐克语 (sk)
  • 斯洛维尼亚语 (sl)
  • 西班牙语 (es)
  • 斯瓦希里语 (sw)
  • 瑞典语 (sv)
  • 泰语 (th)
  • 土耳其语 (tr)
  • 乌克兰语 (uk)
  • 越南语 (vi)