智谱CogView3-Plus模型开源文生图技术迎来新纪元

来源：互联网更新时间2024-10-15 10:36:48 点击数：

智谱技术团队今日发布了一则振奋人心的消息，他们最新研发的文生图模型CogView3及其升级版CogView3-Plus-3B已正式开源，同时在"智谱清言"App中成功上线。这两款模型的问世，标志着AI辅助艺术创作迈入了一个新的阶段。

CogView3作为一款基于级联扩散的文本转图像模型，其生成过程堪称精妙。模型首先生成一幅512x512像素的低分辨率图像，随后通过中继扩散过程将其提升至1024x1024，最终再次迭代，呈现出一幅2048x2048的高清大图。这种层层递进的生成方式，犹如数字画家在画布上逐步完善作品，为用户带来了极致的视觉体验。

据官方评估，CogView3的表现令人惊叹，其性能竟比当前顶尖的开源文生图模型SDXL高出77%。更值得一提的是，CogView3的推理速度仅为SDXL的十分之一，充分展现了智谱团队在模型优化方面的卓越成就。

CogView3-Plus的推出更是将这一技术推向了新的高峰。该版本引入了先进的DiT框架，采用了Zero-SNR扩散噪声调度，并创新性地加入了文本-图像联合注意力机制。这些改进不仅提升了模型的整体性能，还大幅降低了训练和推理成本，实现了效能与效率的完美平衡。CogView3-Plus采用的16维VAE潜在空间，为未来图像生成技术的发展开辟了新的可能性。