详细介绍
Google Nano Banana 功能介绍
Google Nano Banana(官方正式名称为 Gemini 2.5 Flash Image,昵称源于其内部代号)是由 Google DeepMind 团队于 2025 年 8 月底正式发布的先进 AI 图像生成与编辑模型。它基于 Gemini 2.5 Flash 架构,专为高效、低成本的创意编辑而设计,在 LMSYS Arena(LMArena)图像模型竞技场中迅速登顶,超越了 Flux 和 GPT-4o 等竞争对手,获得了超过 500 万次社区投票认可。该模型的核心创新在于“交替生成”范式,能将复杂指令拆分成小步骤逐步优化(如先修改背景,再调整人物),从而实现更精确的控制。
Nano Banana 目前已在 Google AI Studio、Gemini App 和 Gemini API 中提供预览,用户可免费试用(免费版有额度限制,订阅 Google AI Plus/Pro/Ultra 可获更高额度)。它支持文生图(text-to-image)、图生图(image-to-image)和图像编辑,特别适用于社交、设计、教学和商业场景。生成图像会自动添加可见水印和 SynthID 数字水印,确保可追溯性。
主要功能亮点
Nano Banana 的强大在于其原生多模态架构(只需一步处理文本和图像),结合 Gemini 的世界知识库,支持逻辑推理和实时数据可视化。以下是核心功能总结:
| 功能类别 | 详细描述 | 示例应用 |
|---|---|---|
| 图像生成与编辑 | 支持对话式编辑、多图像合成(最多融合 14 张参考图),保持多达 5 个人物的一致性。使用“交替生成”逐步优化,避免一次性生成失真。 | 将草图转为产品原型,或蓝图转为 3D 结构;编辑室内设计,如更换窗帘颜色或添加物件。 |
| 文本渲染与多语言支持 | 在图像中精準生成可读文本,支持多语言字体风格设计。 | 创建海报、菜单或教育图表,指定确切文字如“欢迎光临”并设置艺术字体。 |
| 世界知识整合 | 连接 Google Search 知识库,生成基于实时数据的可视化内容,如天气图、体育比分或食谱快照。 | 输入“今日纽约天气图表”,自动生成带数据的 инфographic。 |
| 现实世界推理 | 理解图像上下文,推断前后事件或逻辑关系,支持教育解释器。 | 将简单画布转为交互式教学工具,如历史事件时间线图;或基于照片推断“下一刻”场景。 |
| 专业创意控制 | 风格混配、角色一致性高,支持手办/产品渲染等高保真输出。成本低(单图不到 3 毛钱,比 OpenAI 便宜 95%)。 | 社交达人:生成个性化 meme;设计师:纹理融合如花朵图案衣服;教学:上下文丰富的 инфographic。 |
| 安全性与集成 | 内置水印防滥用;无缝集成 Google 产品如 Ads、Workspace(Slides/Vids)。 | 广告主快速生成专业视觉;开发者通过 API 自定义应用。 |
访问与使用方式
- 免费试用:在 Gemini App 选择“生成图像”功能(Thinking 模型),或访问 Google AI Studio 模板应用。免费额度用尽后切换至基础 Nano Banana 模型。
- 订阅升级:Google AI Pro/Ultra 用户享更高额度,支持 Nano Banana Pro(Gemini 3 Pro 升级版,2025 年 11 月推出,增强一致性和多元素融合)。
- 提示词最佳实践:官方指南建议明确描述主体、风格、细节(如“真实风格的 1/7 比例手办,置于电脑桌”),并使用英文提示以获最佳效果。