图森未来发布图生视频模型“Ruyi” 并开源Ruyi-Mini-7B

来源：互联网更新时间2024-12-17 15:09:43 点击数：

北京图森未来科技有限公司于2024年12月17日正式发布了其首款“图生视频”大模型——“Ruyi”，并将Ruyi-Mini-7B版本开源，以便用户从huggingface平台下载使用。图森未来成立于2015年，总部位于美国加利福尼亚州圣迭戈，专注于AI技术在多个行业的应用，包括动画游戏和交通运输行业。

Ruyi大模型专为在消费级显卡上运行而设计，提供详尽的部署说明和ComfyUI工作流，以便用户快速上手。该模型以其在帧间一致性、动作流畅性、色彩呈现和构图方面的卓越表现，为视觉叙事提供新的可能性，并针对动漫和游戏场景进行深度学习，成为ACG爱好者的理想创意伙伴。

微信截图_20241217140324.png

Ruyi模型支持多分辨率、多时长生成，能够处理从384×384到1024×1024的分辨率，任意长宽比，最长120帧/5秒的视频生成。它还支持首帧、首尾帧控制生成，运动幅度控制，以及五种镜头控制。Ruyi基于DiT架构，由Casual VAE模块和Diffusion Transformer组成，总参数量约为7.1B，使用约200M视频片段进行训练。

尽管Ruyi在技术上取得了显著进展，但仍存在一些缺陷，如手部畸形、多人时面部细节崩坏、不可控转场等问题，图森未来正在努力改进并在未来的更新中修复这些问题。

展望未来，图森未来计划持续深耕场景需求，实现直接生成CUT的突破，并在下一次发布中提供两个版本，以满足不同创作者的需求。公司致力于利用大模型降低动漫和游戏内容的开发周期和成本，Ruyi大模型已经能够实现输入关键帧后生成5秒内容，或输入两个关键帧由模型生成中间过渡内容，降低开发周期。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟