Gemini 3 版本概览
根据 Google AI for Developers 官方文档,Gemini 3 目前主要提供预览版本,旨在为开发者带来最前沿的AI技术。这些版本专为高级推理和多模态理解而设计,是当前最智能的AI模型之一。用户可以根据具体需求选择不同的模型,以平衡性能、成本和功能。
Gemini 3 核心版本详解
目前,开发者可以接触到的核心Gemini 3预览版模型主要有两款,它们在功能和适用场景上有所侧重。
1. Gemini 3 Pro 预览版 (`gemini-3-pro-preview`)
这是一款功能强大的多模态模型,擅长处理复杂的推理任务。
支持类型: 输入支持文本、图片、视频、音频和PDF;输出为文本。
令牌限制: 输入高达1,048,576个token,输出为65,536个token。
核心功能: 支持函数调用、代码执行、搜索接地、结构化输出以及独特的“思考型(Thinking)”能力。
2. Gemini 3 Pro Image 预览版 (`gemini-3-pro-image-preview`)
该版本专注于图像相关的生成与理解任务。
支持类型: 输入支持图片和文本;输出同样支持图片和文本。
令牌限制: 输入为65,536个token,输出为32,768个token。
核心功能: 具备原生图片生成能力,同时支持搜索接地、结构化输出和“思考型”能力,但不支持代码执行或函数调用。
如何选择与使用不同版本
选择合适的 Gemini 3 版本取决于您的具体应用场景。正确的使用方法能充分发挥其作为先进推理模型的潜力。
适用场景:
若您的任务涉及复杂的文档理解、视频分析或需要与外部API交互的智能代理,应选择 `gemini-3-pro-preview`。
如果您的核心需求是根据文本或图片提示生成高度情境化的新图片,`gemini-3-pro-image-preview` 是更佳选择。
注意事项:
精确指令: Gemini 3 对简洁、清晰的指令响应最好,应避免冗长复杂的提示。
思考等级: 使用 `thinking_level` 参数可以平衡回答质量与成本延迟,是Gemini 3独有的新功能。
温度设置: 官方建议使用默认温度1.0,以避免在处理复杂任务时出现性能下降,这与旧模型的使用习惯不同。
关于 Gemini 3 版本的常见问题
问:Gemini 3 Pro 和 Pro Image 版本最核心的区别是什么?
答:最核心的区别在于多模态能力。Pro Image 版本具备原生的图片生成功能,专注于图文交互;而Pro版本则支持更广泛的输入类型(包括视频、音频、PDF),并支持代码执行和函数调用等高级功能。
问:什么是“思考等级 (thinking_level)”参数?
答:这是一个新的API参数,允许开发者为模型指定一个“思考预算”。它可以在回答质量与推理成本、延迟之间做出权衡,为应用优化提供了更大灵活性。
问:从旧版 Gemini 迁移到 Gemini 3 需要注意什么?
答:迁移时需注意提示词的简化。如果您之前使用复杂的思维链提示,可尝试简化提示并搭配 `thinking_level: “high”`。同时,建议移除旧代码中设置的较低温度参数,并测试PDF等文档的解析效果,因为默认分辨率有所改变。

