智谱AI宣布开源「清影」同源视频生成模型

来源：互联网更新时间2024-08-06 11:17:18 点击数：

智谱AI宣布将其视频生成模型CogVideoX开源，旨在推动视频生成技术的快速发展和应用。CogVideoX模型基于先进的大型模型技术，能够满足商业级应用的需求。目前开源的CogVideoX-2B版本在FP-16精度下的推理仅需18GB显存，微调则需要40GB显存，使得单张4090显卡即可进行推理，而单张A6000显卡即可完成微调。

CogVideoX模型采用了3D变分自编码器（3D VAE）技术，通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在空间正则化器，通过时间因果卷积确保了信息的因果性。此外，使用专家Transformer技术处理编码后的视频数据，结合文本输入生成高质量的视频内容。

微信截图_20240806095428.png

为了训练CogVideoX模型，智谱AI开发了一套筛选高质量视频数据的方法，排除了过度编辑、运动不连贯等问题视频，确保了模型训练的数据质量。同时，通过从图像字幕生成视频字幕的管道，解决了视频数据缺乏文本描述的问题。

在性能评估方面，CogVideoX在多个指标上表现优异，包括人类动作、场景、动态程度等，以及专注于视频动态特性的评估工具。智谱AI将继续探索视频生成领域的创新，包括新型模型架构、视频信息压缩和文本视频内容融合等方面。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Tag： AI视频

智谱AI宣布开源「清影」同源视频生成模型

随便看看

推荐文章

中关村AI北纬社区启动“一人公司”创业加速营

特斯拉上海急聘AI科学家，FSD入华匹配本土算力中心

马斯克称中国有望在AI和制造业领域“完全占据主导地位”

靠AI做一人公司 (OPC)，如何实现千万级营收？

深圳兴起“一人公司”创业模式的原因