“这是给大家准备的圣诞节礼物。”时隔10个月,OpenAI宣布正式向用户开放人工智能视频生成模型Sora,用户可以通过文字、图像或其他视频素材,生成长达20秒的视频。
除了在生成视频的时长上有所突破,Sora还带来了强大的视频“编辑”功能,包括Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及Style presets(风格预设)。简单来说,就是用户可以通过指令对生成视频进行精准裁剪、扩展生成、拼接混合、循环等。
当生成与编辑集于一身的Sora强势来袭,一方面,压力传导至国产“Sora们”,一致性这一核心技术成为突破焦点;另一方面,AIGC改变影视剧制作行业的商业拐点,正在加速到来。
1 Sora一超 国产多强
一致性控制,一直是当前视频生成领域亟待解决的技术难题。生数科技相关负责人告诉《IT时报》记者,业界解决一致性问题最主流的方案是LoRA(Low-Rank Adaptation)微调方案。所谓LoRA方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。
简单理解,比如创作一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,就需要拿卡通狗的多段视频,让模型进一步训练,认识这只卡通狗长什么样。
但这一方案通常需要投入20~100段视频,数据构造烦琐,耗费数个小时甚至更久的训练时间,成本是单次视频生成的成百上千倍。而且还容易产生过拟合,即在理解主体特征的同时,会遗忘大量原先的知识。所以LoRA主要适用于大多数简单情形下的主体一致性需求,而对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。
尽管Sora并未公布其控制一致性的技术,但显然已经有所突破,并在业界处于领先位置。从大批视频创作者争先发布针对Sora的测评、对比等体验感受来看,大部分用户还是被其强大的一致性控制能力所惊艳,尤其是Storyboard功能,能够通过时间轴中的分镜帧来引导画面内容,确保镜头的一致性。
紧随其后的国产视频生成大模型厂商们在一致性方面也各显神通。就在Sora上线前不久,中国电信人工智能研究院(TeleAI)发布的视频大模型采用“二阶段生成技术(VAST)”,也实现了主体和环境在不同片段中的形象一致性。
这项技术将视频生成分为两个过程,第一阶段,采用多模态大型模型根据文本输入生成中间素材,包括视频构图、主体目标位置及人物姿态等关键信息的“Storyboard(故事板)”。第二阶段,利用基于DiT架构的扩散模型,结合目标对象的文本描述和外观信息,生成最终的视频。
生数科技Vidu则通过锁定主体形象的方式开发出“主体参照”功能。无须专门的数据采集、数据标注、微调训练环节,用户上传任意一张图片,Vidu就能锁定主体形象,通过描述词任意切换场景也能保证输出主体一致的视频。可灵AI打造的运动笔刷功能,能做到主体一致性不变的情况下,对画面中的元素指定运动轨迹,从而提升视频可控性。
因此,在国内同行看来,Sora正式版的表现虽好,但也在预期之内。生数科技首席科学家朱军认为,相比今年二月的首次发布,冲击度已经弱了很多;智谱CEO张鹏表示,如果看技术指标,国内有的视频生成模型不比Sora差。
一超多强的局面正在视频大模型领域形成。
2 视频界的“蒸汽机”来了
从生成视频到编辑视频,被Sora功能惊艳的不仅有体验者,还有整个影视剧行业。
Sora上线之前,上海大学温哥华电影学院副院长陈晓达曾和学生团队做过一次测试,为了成功生成一个想要的镜头画面,向视频大模型最多输入超300条指令,“每生成一帧画面都是一次‘开盲盒’,无法确保生成内容符合标准,因此只能花费大量时间不断生成,从中挑选出可用画面拼凑成一部短剧”。
Sora上线后,针对特定画面的可控编辑,让陈晓达看到了专业性,也看到利用AI制作长视频的希望。
“对于影视制作来说,重混、重新剪辑、混合等是剪辑里的专业领域。”陈晓达向《IT时报》记者举例称,如果想达到主体变化而场景不变的效果,按照传统方式,需要在前期拍摄两段场景相似,主体不同的片段,后期还需要多图层编辑,必要时要将主体从背景中抠出来,才能创建出全新的视觉效果。
而Sora发布的Demo中,Remix(重混)可以将“奔跑的猛犸象”一键替换成“奔跑的机器人”,前期拍摄和后期编辑都变成精准的指令控制,对于视频制作而言无疑是降本增效。
上海人工智能研究院算法工程师黄冠在接受媒体采访时也表示,在当前情形下,Sora更多是作为辅助工具提高工作效率,但从工具属性上看,Sora带来了一场“革命”,传统视频的制作方法可能完全被颠覆。未来,当理想版Sora以及AIGC成为现实,不仅是视频行业的“工具革命”,说是媒体行业新一轮的“工业革命”也不为过。
此外,Sora剪辑功能的亮相也为视频生成大模型和剪辑工具软件树立起AI智能的标杆。
陈晓达认为,Sora的贡献在于0~1的突破,但1~10的发展一直是国产的优势所在,“Sora只是打了一个样,我更期待有更多的应用创新。作为视频制作者,我们希望可以诞生一种智能与专业于一体的视频工具,能在自动生成编辑与手动专业微调中来回切换。”
3 AIGC将全面“入侵”影视业
当视频生成大模型成为生产工具,商业化的拐点也将到来。
视频大模型有多赚钱?根据Sora Turbo采用的灵活积分制定价策略,《IT时报》记者计算,每积分成本为0.02美元(约人民币0.145元),在不使用其他功能的前提下,Sora生成一个5秒480P视频成本为0.5美元,折合人民币3.63元。生成5秒1080P视频成本为4美元(约人民币27.6元)。
快手科技创始人兼首席执行官程一笑透露,可灵AI用户已超500万,累计生成超5100万个视频和超1.5亿张图片,且用户留存还在逐月提升,在9月实现了月活超150万,商业化单月流水超过千万元。
视频大模型有多省钱?陈晓达告诉记者,从前期的布景、美术、服化道,到中期的拍摄、演员,再到后期的特效,如果场面宏大些加点爆破,成本轻松超过百万元,甚至千万元。若AI能一步到位,将会让制作成本“断崖式”下降,甚至“一键勾销”。
“当AIGC在影视行业真正实现商业化后,我认为主要成本将只剩下两个,一是导演和编剧的创意成本,二是AI人才的培养成本。”陈晓达说。
从Sora发布到上线的10个月时间,仿佛给影视行业打了一针AI“强心剂”,各大影视行业公司和知名导演纷纷开始拥抱AIGC。
华策影视推出AIGC新应用“影视剧本智能创作系统”,提供“评估助手”和“编剧助手”工具,评估助手能将一本20万~50万字的小说剧本评估时间从3天压缩为5分钟。华策影视方面表示,将积极探索文生视频等新兴AI技术在传媒领域的落地应用与业态创新。
博纳影业利用AIGC技术完成了从剧本创作到视频编辑等多种工作,出品制作的AIGC生成连续性叙事科幻短剧集《三星堆:未来启示录》在抖音播出。博纳影业表示,AIGC是联动影视产业上下游多模态的钥匙,可实现降本增效并探索突破性变革。
12月6日,中国首个AIGC导演共创计划举办,由李少红、贾樟柯、俞白眉等9位导演共同发起,旨在借助AI的力量激发创意潜能。
陈晓达还透露,明年上海电影节计划开设AIGC板块,鼓励创作者利用Sora等视频生成大模型制作影视剧,加快推动AI在影视行业的应用落地。
本文来自微信公众号“IT时报”,作者:沈毅斌