图森未来发布图生视频模型“Ruyi” 并开源Ruyi-Mini-7B

来源:互联网 更新时间2024-12-17 15:09:43 点击数:

北京图森未来科技有限公司于2024年12月17日正式发布了其首款“图生视频”大模型——“Ruyi”,并将Ruyi-Mini-7B版本开源,以便用户从huggingface平台下载使用。图森未来成立于2015年,总部位于美国加利福尼亚州圣迭戈,专注于AI技术在多个行业的应用,包括动画游戏和交通运输行业。

Ruyi大模型专为在消费级显卡上运行而设计,提供详尽的部署说明和ComfyUI工作流,以便用户快速上手。该模型以其在帧间一致性、动作流畅性、色彩呈现和构图方面的卓越表现,为视觉叙事提供新的可能性,并针对动漫和游戏场景进行深度学习,成为ACG爱好者的理想创意伙伴。

微信截图_20241217140324.png

Ruyi模型支持多分辨率、多时长生成,能够处理从384×384到1024×1024的分辨率,任意长宽比,最长120帧/5秒的视频生成。它还支持首帧、首尾帧控制生成,运动幅度控制,以及五种镜头控制。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,总参数量约为7.1B,使用约200M视频片段进行训练。

尽管Ruyi在技术上取得了显著进展,但仍存在一些缺陷,如手部畸形、多人时面部细节崩坏、不可控转场等问题,图森未来正在努力改进并在未来的更新中修复这些问题。

展望未来,图森未来计划持续深耕场景需求,实现直接生成CUT的突破,并在下一次发布中提供两个版本,以满足不同创作者的需求。公司致力于利用大模型降低动漫和游戏内容的开发周期和成本,Ruyi大模型已经能够实现输入关键帧后生成5秒内容,或输入两个关键帧由模型生成中间过渡内容,降低开发周期。


首页 AI对话 资讯 我的