HART是一种高效的混合自回归变换器视觉生成模型,能够直接生成1024x1024高质量图像,在图像质量上与扩散模型相媲美,同时提供显著提高的效率。