Parti: Pathways Autoregressive Text-to-Image Model

Google开发的Pathways自回归文本到图像生成模型,能够实现高保真度的照片级真实图像生成,支持涉及复杂构图和世界知识的内容丰富合成。

Parti: Pathways Autoregressive Text-to-Image Model

一句话定位

Google开发的自回归文本到图像生成模型,实现高保真度照片级真实图像生成。

核心价值

  • 采用自回归方法处理文本到图像生成,类比机器翻译问题
  • 支持复杂构图和世界知识的内容丰富合成
  • 通过参数规模扩展(从3.5亿到200亿)实现质量持续提升

功能亮点

  • 高保真图像生成:实现照片级真实的图像输出
  • 复杂提示处理:能够处理包含多个参与者、对象和细节的复杂描述
  • 世界知识整合:准确反映现实世界知识进行图像合成
  • 多种艺术风格:支持油画、像素艺术、抽象立体主义等多种风格
  • 大规模参数模型:最大200亿参数模型在多个基准测试中创纪录

适用人群

  • AI研究人员和开发者
  • 计算机视觉和生成模型研究者
  • 对文本到图像生成技术感兴趣的专业人士
  • 艺术创作和视觉内容生成领域的工作者

使用场景

  • 复杂场景的图像生成,如动物穿着特定服装在著名地标前
  • 抽象概念的可视化,如"由水组成的熊猫"
  • 艺术风格转换,如埃及象形文字风格的现代场景
  • 世界知识结合创作,如美国地图寿司等创意概念

技术特点

Parti将文本到图像生成视为序列到序列建模问题,类似于机器翻译。它使用ViT-VQGAN图像标记器将图像编码为离散标记序列,并利用大型语言模型的进步,特别是通过扩展数据和模型规模解锁的能力。

模型在MS-COCO上实现了零样本FID得分7.23和微调FID得分3.22的先进性能,在Localized Narratives和PartiPrompts基准测试中表现出色。

责任与影响

Google认识到文本到图像模型带来的机遇和风险,包括偏见和安全问题、视觉传播、虚假信息和艺术创造力等方面的影响。因此,目前尚未公开发布Parti模型、代码或数据,而是专注于进一步的安全保障措施。