Sora入侵影视业，百万制作成本或将“一键勾销”

来源：微信公众号 IT时报更新时间2024-12-17 10:30:31 点击数：

“这是给大家准备的圣诞节礼物。”时隔10个月，OpenAI宣布正式向用户开放人工智能视频生成模型Sora，用户可以通过文字、图像或其他视频素材，生成长达20秒的视频。

除了在生成视频的时长上有所突破，Sora还带来了强大的视频“编辑”功能，包括Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。简单来说，就是用户可以通过指令对生成视频进行精准裁剪、扩展生成、拼接混合、循环等。

当生成与编辑集于一身的Sora强势来袭，一方面，压力传导至国产“Sora们”，一致性这一核心技术成为突破焦点；另一方面，AIGC改变影视剧制作行业的商业拐点，正在加速到来。

1 Sora一超国产多强

一致性控制，一直是当前视频生成领域亟待解决的技术难题。生数科技相关负责人告诉《IT时报》记者，业界解决一致性问题最主流的方案是LoRA（Low-Rank Adaptation）微调方案。所谓LoRA方案，即在预训练模型的基础上，用特定主体的多段视频进行微调，让模型理解该主体的特征，从而生成该主体在不同角度、光线和场景下的形象，保证其在若干次不同生成时的一致性。

简单理解，比如创作一只卡通狗的形象，想生成连续一致的视频画面，但模型在预训练过程中并没有学习过该形象，就需要拿卡通狗的多段视频，让模型进一步训练，认识这只卡通狗长什么样。

但这一方案通常需要投入20~100段视频，数据构造烦琐，耗费数个小时甚至更久的训练时间，成本是单次视频生成的成百上千倍。而且还容易产生过拟合，即在理解主体特征的同时，会遗忘大量原先的知识。所以LoRA主要适用于大多数简单情形下的主体一致性需求，而对于高复杂的主体或问题场景，需要更多的微调数据和更复杂的模型微调策略。

尽管Sora并未公布其控制一致性的技术，但显然已经有所突破，并在业界处于领先位置。从大批视频创作者争先发布针对Sora的测评、对比等体验感受来看，大部分用户还是被其强大的一致性控制能力所惊艳，尤其是Storyboard功能，能够通过时间轴中的分镜帧来引导画面内容，确保镜头的一致性。

紧随其后的国产视频生成大模型厂商们在一致性方面也各显神通。就在Sora上线前不久，中国电信人工智能研究院（TeleAI）发布的视频大模型采用“二阶段生成技术（VAST）”，也实现了主体和环境在不同片段中的形象一致性。

这项技术将视频生成分为两个过程，第一阶段，采用多模态大型模型根据文本输入生成中间素材，包括视频构图、主体目标位置及人物姿态等关键信息的“Storyboard（故事板）”。第二阶段，利用基于DiT架构的扩散模型，结合目标对象的文本描述和外观信息，生成最终的视频。

生数科技Vidu则通过锁定主体形象的方式开发出“主体参照”功能。无须专门的数据采集、数据标注、微调训练环节，用户上传任意一张图片，Vidu就能锁定主体形象，通过描述词任意切换场景也能保证输出主体一致的视频。可灵AI打造的运动笔刷功能，能做到主体一致性不变的情况下，对画面中的元素指定运动轨迹，从而提升视频可控性。

因此，在国内同行看来，Sora正式版的表现虽好，但也在预期之内。生数科技首席科学家朱军认为，相比今年二月的首次发布，冲击度已经弱了很多；智谱CEO张鹏表示，如果看技术指标，国内有的视频生成模型不比Sora差。

一超多强的局面正在视频大模型领域形成。

2 视频界的“蒸汽机”来了

从生成视频到编辑视频，被Sora功能惊艳的不仅有体验者，还有整个影视剧行业。

Sora上线之前，上海大学温哥华电影学院副院长陈晓达曾和学生团队做过一次测试，为了成功生成一个想要的镜头画面，向视频大模型最多输入超300条指令，“每生成一帧画面都是一次‘开盲盒’，无法确保生成内容符合标准，因此只能花费大量时间不断生成，从中挑选出可用画面拼凑成一部短剧”。

Sora上线后，针对特定画面的可控编辑，让陈晓达看到了专业性，也看到利用AI制作长视频的希望。

“对于影视制作来说，重混、重新剪辑、混合等是剪辑里的专业领域。”陈晓达向《IT时报》记者举例称，如果想达到主体变化而场景不变的效果，按照传统方式，需要在前期拍摄两段场景相似，主体不同的片段，后期还需要多图层编辑，必要时要将主体从背景中抠出来，才能创建出全新的视觉效果。

而Sora发布的Demo中，Remix（重混）可以将“奔跑的猛犸象”一键替换成“奔跑的机器人”，前期拍摄和后期编辑都变成精准的指令控制，对于视频制作而言无疑是降本增效。

上海人工智能研究院算法工程师黄冠在接受媒体采访时也表示，在当前情形下，Sora更多是作为辅助工具提高工作效率，但从工具属性上看，Sora带来了一场“革命”，传统视频的制作方法可能完全被颠覆。未来，当理想版Sora以及AIGC成为现实，不仅是视频行业的“工具革命”，说是媒体行业新一轮的“工业革命”也不为过。

此外，Sora剪辑功能的亮相也为视频生成大模型和剪辑工具软件树立起AI智能的标杆。

陈晓达认为，Sora的贡献在于0~1的突破，但1~10的发展一直是国产的优势所在，“Sora只是打了一个样，我更期待有更多的应用创新。作为视频制作者，我们希望可以诞生一种智能与专业于一体的视频工具，能在自动生成编辑与手动专业微调中来回切换。”

3 AIGC将全面“入侵”影视业

当视频生成大模型成为生产工具，商业化的拐点也将到来。

视频大模型有多赚钱？根据Sora Turbo采用的灵活积分制定价策略，《IT时报》记者计算，每积分成本为0.02美元（约人民币0.145元），在不使用其他功能的前提下，Sora生成一个5秒480P视频成本为0.5美元，折合人民币3.63元。生成5秒1080P视频成本为4美元（约人民币27.6元）。

快手科技创始人兼首席执行官程一笑透露，可灵AI用户已超500万，累计生成超5100万个视频和超1.5亿张图片，且用户留存还在逐月提升，在9月实现了月活超150万，商业化单月流水超过千万元。

视频大模型有多省钱？陈晓达告诉记者，从前期的布景、美术、服化道，到中期的拍摄、演员，再到后期的特效，如果场面宏大些加点爆破，成本轻松超过百万元，甚至千万元。若AI能一步到位，将会让制作成本“断崖式”下降，甚至“一键勾销”。

“当AIGC在影视行业真正实现商业化后，我认为主要成本将只剩下两个，一是导演和编剧的创意成本，二是AI人才的培养成本。”陈晓达说。

从Sora发布到上线的10个月时间，仿佛给影视行业打了一针AI“强心剂”，各大影视行业公司和知名导演纷纷开始拥抱AIGC。

华策影视推出AIGC新应用“影视剧本智能创作系统”，提供“评估助手”和“编剧助手”工具，评估助手能将一本20万～50万字的小说剧本评估时间从3天压缩为5分钟。华策影视方面表示，将积极探索文生视频等新兴AI技术在传媒领域的落地应用与业态创新。

博纳影业利用AIGC技术完成了从剧本创作到视频编辑等多种工作，出品制作的AIGC生成连续性叙事科幻短剧集《三星堆：未来启示录》在抖音播出。博纳影业表示，AIGC是联动影视产业上下游多模态的钥匙，可实现降本增效并探索突破性变革。

12月6日，中国首个AIGC导演共创计划举办，由李少红、贾樟柯、俞白眉等9位导演共同发起，旨在借助AI的力量激发创意潜能。

陈晓达还透露，明年上海电影节计划开设AIGC板块，鼓励创作者利用Sora等视频生成大模型制作影视剧，加快推动AI在影视行业的应用落地。

本文来自微信公众号“IT时报”，作者：沈毅斌

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Sora入侵影视业，百万制作成本或将“一键勾销”

1 Sora一超国产多强

2 视频界的“蒸汽机”来了

3 AIGC将全面“入侵”影视业

随便看看

推荐文章

黄新伟实战拆解：Kimi 专属 GEO 优化全套技巧，抢占月之暗面 AI 搜索优先推荐位

AI时代流量新蓝海：一文看懂什么是GEO生成式引擎优化

视觉模型新突破：商汤开源 SenseNova-Vision-7B-MoT

AI主权新突破：德国研究联盟发布开源大模型Soofi S

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍

Sora入侵影视业，百万制作成本或将“一键勾销”

1 Sora一超 国产多强

2 视频界的“蒸汽机”来了

3 AIGC将全面“入侵”影视业

随便看看

推荐文章

黄新伟实战拆解：Kimi 专属 GEO 优化全套技巧，抢占月之暗面 AI 搜索优先推荐位

AI时代流量新蓝海：一文看懂什么是GEO生成式引擎优化

视觉模型新突破：商汤开源 SenseNova-Vision-7B-MoT

AI主权新突破：德国研究联盟发布开源大模型Soofi S

腾讯混元发布 HyOCR-1.5：仅 1B 参数 推理提速 6.37 倍

1 Sora一超国产多强

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍