Sora爆火，AI电商打开新世界的大门

来源：互联网更新时间2024-03-01 18:10:29 点击数：

当主播在直播间讲解冲锋衣时，她可以瞬移般转场到户外、雪山、漫天风雪中，展示冲锋衣的使用场景；当主播在在直播间卖连衣裙时，则可以自然地走进不同城市街头咖啡馆，展示日常场景中的穿着效果……

这不是魔法，也不是电影特效，而是文生视频模型与电商直播的结合。

OpenAI发布的Sora将视频生成能力带到了新的高度，相应地也带来了丰富的应用想象空间。

IDC中国研究总监卢言霞认为，视频生成将最先应用于短视频、广告、互娱、影视、媒体等领域。当前Sora生成的是1分钟的视频，对于行业已经是重大突破，只是下一步何时能生成2分钟5分钟以上的视频，不可预测。

显然，视频营销的生产方式将彻底重构，无论是将主播和商品置于虚拟场景中，还是为商品创作更丰富的营销素材，品牌方、营销公司、视频平台、消费者，将欣喜地迎接抑或无奈地接受一个光怪陆离的新世界。

背后的核心问题是：基于大模型的AI电商到底长什么样子？

最新消息，Sora已于2月26日开放对外申请。目前有两种方式能用上官方版的Sora，第一，著名艺术从业者优先；第二，加入Red Teaming（专家社区，为OpenAI 提供风险评估）。同时，字节跳动剪映旗下的AI创作平台DreaminaAI也即将上线视频生成能力，目前已开始接收内测申请。

从视频营销到情感电商，Sora改变了什么？

当下的电商营销视频主要包括直播切片和商品展示两类。比如极睿科技的产品iCut，可以自动从直播中识别商品卖点，剪辑片段、保留语音、生成字幕，还能自动增加配乐、转场特效、标题、侧幕、品牌Logo等元素供品牌分发。卖家可以一边直播一边实时获得海量短视频素材。

“我们的工作更多是从1到100生产素材，Sora则可以帮助我们从0到1生产素材。”极睿科技CEO武彬说。

武彬介绍，此前电商不能用视频生成模型，主要原因有三：第一，视频时长太短，无法进行商品讲解。第二，清晰度不够。第三，可控性较差。

从生成效果来说，Sora弥补了电商营销素材生成的部分短板。

在Sora展示出的demo中，清晰度和完整度很好，一分钟也是一个常见的视频长度，适合卖家去制作并发布到淘宝逛逛、京东种草秀或抖音上。

Sora可以生成吸引眼球的空镜，比如蝴蝶在海底飞。

来源：Sora

还可以更换商品背景，配合展示。比如，在直播间讲解冲锋衣的主播，可以流畅地转场到户外、雪山、漫天风雪中，展示冲锋衣的使用场景。在直播间卖连衣裙的主播，则可以自然地走进都市街头咖啡馆，在日常场景中讲解商品。

来源：Sora

极睿科技要做的则是将此前积累的商品、场景、细节等行业知识，组合成合适的Prompt，完成内容生产。

同为电商营销的奥创光年也希望通过AIGC提升原始素材的创建速度，“因为用户给的素材可能是不够的，再加上平台现在的判重机制更严格，内容是否起量有一定随机性，需要我们提高视频生成的质量和效率，加快创意方向的探索和迭代，我们也希望把原始素材生成的比例提高。”奥创光年研发负责人张红春指出。

他指出，Sora对prompt的遵循能力与理解能力令人惊讶，视频补全、穿插过渡都非常自然，不管是3D的、多角度的、一镜到底的，数据cover得很全，因此可以生成更多原始素材，实现单点突破。

从成本角度，AI比摄影师和模特的成本更低。按DALL·E-3生成单张图片的价格来初步估算（DALL·E-3生成一张1024×1024的照片收费0.04美元），Sora生成1分钟视频的成本大约500多元。但因Sora参数规模增大，推理效率的优化也需要时间，现阶段应高于这个预估价。对于大B商家来说，找人实拍1分钟视频的成本在1000-2000元，随着模型可控能力、推理能力的迭代提升，在效果满足的情况下，成本降低至预估价范围，AI应用可以更加普及。

但电商营销要求“货对版”，不管是细微的色差，还是装饰品1厘米的误差，对电商来说都算虚假宣传。为此，奥创光年通过商品实拍和背景生成分开的方式来生产视频。“一部分实拍、一部分合成。在商品已固定，展示环节已固定的情况下，围绕商品的所有的元素都可以通过Sora生成。”张红春说。

“Sora解决不了货不对板的问题，意味着它并不真的理解物理世界，需要人的逻辑来弥补它的短板。”凌迪科技Style3D首席科学家王华民认为，“很多人夸大了Sora所代表的智能，它其实用海量数据，达到了很浅的智能，而且它的逻辑性和对物理世界底层的理解是有瑕疵的，最好由3D和物理仿真技术来提供整个逻辑关系，由AI来润色。现在的AI更适合扮演Copilot的角色。”

凌迪科技Style3D的思路是，提供从产品设计到销售展示的全链路3D+AI工具。

在设计阶段，凌迪科技Style3D提供的Style3D iCreate，帮助设计师或建模师以AI的发散性快速获取创意灵感；

确定款式后，使用Style3D Studio制作成精准的、可用于生产的3D虚拟样衣；

在上身展示环节，可以调用Style3D Studio资源库中的数字人模特，模特的表情、姿势、发型、配饰及背景都可进行调整；

基于3D虚拟样衣，结合AI优化，还可以一键生成电商上新图及详情页。整个过程最快仅需24小时。

“我们更偏向于做AI Agent，辅助从业者做好每一步。至于Sora所代表的视频生成，对我们肯定有帮助，但目前我想不出视频生成对设计师作用有多大。”王华民莞尔。

图片来源：Style3D

武彬认为，Sora更多是能力上的补充，并不能改变to B的产品逻辑。

电商营销素材的制作包括三个环节：素材整理，智能生成，多渠道分发。Sora在视频生成环节起作用，但在素材整理和渠道分发上，还是使用原有工具。“对于我们来说，模型是什么样，智能到什么程度不重要，重要的是能够实现目标，那就是一个好的AI。”武彬表示。

Sora刚发布了demo，硅基智能已经开始训练demo中的数字人开口说话。

来源：硅基智能

硅基智能的业务是为大V制造数字人分身直播，并且为MCN机构提供数字人主播带货。那么Sora将如何改变直播带货？

在硅基智能CEO司马华鹏看来，下一代电商不一定是货架电商形式，“不能因为你给马车加了一盏电灯，就认为这是电气化。”

他提到一家以情感、陪伴、信任为中心的AI企业——Character AI，使用方式类似于钢铁侠的智能助手Javis，钢铁侠问Javis：“今天跟女朋友第一次约会，给我推荐一套西装。”Javis提供备选产品，确定后就安排送货上门。在沟通中完成购买，相当于“情感电商”。

“我有一个非常中立、非常爱我、非常替我考虑的AI助理，我今天问他晚上吃什么，它会基于我的个人信息、喜好、体质进行推荐，我觉得这有可能是新的电商，每个人接下来都会有个助理，这个事情会会对所有商业产生非常大的颠覆。”司马华鹏如是说。

而数字人就是这个AI助理的载体，目前，硅基智能不仅将数字人克隆技术从8000元降到4元，而且Sora能生成场景和数字人原型，结合硅基的数字人训练技术，给内容产业带来的冲击是巨大的。此外硅基智能试水数字人短剧拍摄，通过数字人+AI工具，成本降低10倍。

视频生成群雄竞出，Open AI缘何一枝独秀？

2024年的视频生成领域热闹非凡。1月4日，阿里云的“全民舞王”（Animate Anyone模型）横扫社交媒体。1月11日，字节跳动发布文生视频模型MagicVideo-V2，支持生成4K、8K分辨率，以及不同绘画风格的视频。1月17日，腾讯AI实验室发布了视频生成模型VideoCrafter2。同一天，来自百度的团队发布了视频生成模型UniVG。

在技术架构上，Sora相较于当下的视频生成模型，至少领先一代。

张红春介绍，像Pika、Runway，animatediff系列等视频生成模型，为充分地利用image diffusion的预训练权重和知识，都是在单帧图片的spatial模块后面，加一个时序(temporal)模块，来学习帧与帧之间的连贯性。这种通过空间和时间解耦的方式来建模，并非最优的视频表征和建模方法。

相比之下，不论是Google的W.A.L.T和Sroa，都在整个pipeline各模块上对空间(spatiotemporal)统一建模，同时借鉴DiT的思想，把unet替换为transformer，提升模型scaling up的能力；相对W.A.L.T，Sora在数据质量、数据多样性、多尺寸多分辨率等方面，又做了很多工作，多因素的累加让最终效果一骑绝尘。

来源：Sora技术文档

从大语言模型到多模态大模型，核心难点是把各个模态转成token喂到语言模型中去。张红春介绍，文本天然是token化的，图片和视频也有压缩方式进行token化，比如谷歌的MAGVIT；音频领域，谷歌也推出音频生成技术做底层的音频token化。所以谷歌和OpenAI都储备了音频、视频、图片、文本的token化技术。

但是国内目前谈论较多的是文本和图片的token化，音频、视频的token化能力还不多见。

来源：Google

XR创业者谢明炫认为，Sora展示了一种实时生成数字内容和虚拟世界的可能性，这让虚拟空间会成为新一代的大众媒介，取代短视频平台。

元宇宙的难点在于数字内容的生产效率太低——先要3D建模、贴图，再到游戏引擎中去制作，过程复杂，门槛过高。Sora的机制则是一种全新渲染引擎的可能性，以后的内容制作方式可以基于提示词创建3D内容。基于Sora，数字内容的生产中，脚本是自然语言，而不是编程语言，大幅降低数字世界的门槛，每个人都可以去很快速的去建造一个数字世界。

至于Sora自身的发展方式，大多从业者的共识还是，Sora还会被塞到大语言模型GPT-5中，形成类似谷歌Videopoet的产品形态。“理论上Sora应该是放到上下文里面去，基于更长的上下文去做理解推理、生成和交互。语言模型最适合做基础，也最适合做各个模型之间的大一统，放到语言模型中才能更好和人交互。”张红春总结。

文字生成领域没有太成熟的商业模式，以至于Open AI也不确定GPT生成的文字应该如何定价。但是视频生成有非常成熟的商业模式，一个短视频能卖多少钱，一部电影/电视剧多少钱，都有对应标准。“Sora开放后，如果测评好，千亿美元收入是可以的。按照市销率几十倍来估算，很容易做到万亿市值，我觉得这个事情并不难。”司马华鹏表示。

“视频生成这个路径会给OpenAI会带来非常大的收入，我预计会超过千亿美元。”司马华鹏补充。

回到Sora背后的Open AI，为何它的模型能够一枝独秀？

有国内AI企业高管告诉亿邦动力，2019年他试图挖一个OpenAI员工。沟通中他介绍，我们的愿景是帮助人类从碳基走向硅基。OpenAI员工回复，我们的愿景是创造上帝。