字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

来源：AIbase基地更新时间2024-12-11 16:47:00 点击数：

在图像生成领域，高分辨率和逼真图像的任务一直面临多重挑战，特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归（VAR）框架。

这些模型虽然能够产生高质量的图像，但需要消耗大量计算资源，这使得它们在实时应用中显得不够灵活。与此同时，VAR 模型在处理离散标记时容易产生累积误差，导致生成的图像细节丢，从而影响图像的真实感。

为了克服这些不足，字节跳动的研究团队推出了名为 “Infinity” 的全新框架，该框架旨在提升文本到图像合成的效率和质量。

Infinity 通过引入比特级标记替代传统的索引级标记，实现了更细粒度的表示方式，从而显著减少了量化误差并提高了生成图像的真实度。此外，该框架还使用了一个无限词汇分类器（IVC），将标记词汇扩展到2^64，大幅降低了内存和计算需求。

Infinity 架构主要由三部分组成:一种比特级多尺度量化标记器，将图像特征转化为二进制标记，以计算开销;一种基于变换器的自回归模型，该模型根据文本提示和先前输出预测残差;以及一种自我修正机制，在训练过程中引入随机比特翻转，提高模型对误差的鲁棒性。研究团队利用 LAION 和 OpenImages 等大型数据集进行训练，通过逐步提升图像分辨率，从256×256到1024×102的过程，取得了显著的进展。

经过评估，Infinity 在关键指标上显示出了优秀的性能，其 GenEval 得分为0.，Fréchet Inception Distance（FID）降低至3.48，证明了其在生成速度和质量方面的提升。Infinity 能在0.8秒内生成1024×1024的高分辨率图像，表现出其高效性和可靠性。该系统生成的图像不仅在视觉上真实且细节丰富，还能够准确响应复杂的文本指令，得到了较高的人类偏好评分。

Infinity 的推出标志着高分辨率文本到图像合成领域的新标杆，它通过创新的设计解决了长期存在的可扩展性和细节质量问题，推动了生成 AI 的进一步发展。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

随便看看

推荐文章

143亿元，AI制药刚刚拿到了最大一笔融资

阿里首度披露AI年化收入

唐杰深夜发文，AI从工具到劳动力只差这一步

一季度我国数字产业收入9.5万亿元同比增长12.9%

AIGC时代的内容产业究竟会怎么发展？

字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

随便看看

推荐文章

143亿元，AI制药刚刚拿到了最大一笔融资

阿里首度披露AI年化收入

唐杰深夜发文，AI从工具到劳动力只差这一步

一季度我国数字产业收入9.5万亿元 同比增长12.9%

AIGC时代的内容产业究竟会怎么发展？

一季度我国数字产业收入9.5万亿元同比增长12.9%