Parti: Pathways Autoregressive Text-to-Image Model
一句话定位
Google开发的自回归文本到图像生成模型,实现高保真度照片级真实图像生成。
核心价值
- 采用自回归方法处理文本到图像生成,类比机器翻译问题
- 支持复杂构图和世界知识的内容丰富合成
- 通过参数规模扩展(从3.5亿到200亿)实现质量持续提升
功能亮点
- 高保真图像生成:实现照片级真实的图像输出
- 复杂提示处理:能够处理包含多个参与者、对象和细节的复杂描述
- 世界知识整合:准确反映现实世界知识进行图像合成
- 多种艺术风格:支持油画、像素艺术、抽象立体主义等多种风格
- 大规模参数模型:最大200亿参数模型在多个基准测试中创纪录
适用人群
- AI研究人员和开发者
- 计算机视觉和生成模型研究者
- 对文本到图像生成技术感兴趣的专业人士
- 艺术创作和视觉内容生成领域的工作者
使用场景
- 复杂场景的图像生成,如动物穿着特定服装在著名地标前
- 抽象概念的可视化,如"由水组成的熊猫"
- 艺术风格转换,如埃及象形文字风格的现代场景
- 世界知识结合创作,如美国地图寿司等创意概念
技术特点
Parti将文本到图像生成视为序列到序列建模问题,类似于机器翻译。它使用ViT-VQGAN图像标记器将图像编码为离散标记序列,并利用大型语言模型的进步,特别是通过扩展数据和模型规模解锁的能力。
模型在MS-COCO上实现了零样本FID得分7.23和微调FID得分3.22的先进性能,在Localized Narratives和PartiPrompts基准测试中表现出色。
责任与影响
Google认识到文本到图像模型带来的机遇和风险,包括偏见和安全问题、视觉传播、虚假信息和艺术创造力等方面的影响。因此,目前尚未公开发布Parti模型、代码或数据,而是专注于进一步的安全保障措施。