一文详解Sora是什么!人工智能的又一个里程碑

来源:互联网 更新时间2024-03-13 14:55:52 点击数:


2024年伊始,当地时间2月16日,OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora,它仅仅根据提示词,就能生成60秒的连贯视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。

一如一年前的ChatGPT,Sora被认为是AGI(通用人工智能)的又一个里程碑时刻。

同日,360创始人周鸿祎提到自己对Sora的看法:Sora的诞生意味着AGI(通用人工智能)实现可能从十年缩短至一两年。


这个模型如此轰动,并不只是因为AI生成的视频时间更长、清晰度更高,而是OpenAI已经超越过去所有AIGC的能力,生成了一个与真实物理世界相关的视频内容。OpenAI提出了一个全新的概念——世界模拟器,这将是实现AGI的一个重要里程碑。

——-Sora如何成为“世界模拟器”?

OpenAI新发布的Sora模型,一脚踹开了2024年AI视频赛道的大门,彻底与2023年以前的旧世界划出了分界线。

OpenAI从一开始瞄准的就不是视频,而是所有存在的影像。

影像是一个更大的概念,视频是其中的一个子集,例如大街上滚动的大屏、游戏世界的虚拟场景等等。OpenAI要做的事情,是要以视频为切入口,涵盖一切影像,模拟、理解现实世界,也就是其强调的“世界模拟器”概念。

正如AI电影《山海奇境》制作人、星贤文化陈坤告诉光锥智能,“OpenAI在向我们展示它在视频方面的能力,但真正的目的在于获取人们的反馈数据,去探索、预测人们想要生成的视频是什么样的。就像大模型训练一样,一旦工具开放,就相当于全世界的人在为其打工,通过不断标记、录入,让其世界模型变得越来越聪明。”

于是我们看到,AI视频成为了理解物理世界的第一个阶段,主要突出其作为“视频生成模型”的属性;发展到第二个阶段,才能作为“世界模拟器”提供价值。

抓住Sora“视频生成”属性的核心在于——找不同,即Sora和Runway、Pika的差异性体现在哪里?这个问题至关重要,因为某种程度上解释了Sora能够碾压的原因。

首先的一点,OpenAI沿用了训练大语言模型的思路,用大规模的视觉数据来训练一个具备通用能力的生成模型。这与文生视频领域“专人专用”的逻辑完全不同。

其次,在Sora身上第一次展现了扩散模型与大模型能力的完美融合。

AI视频就像一部电影大片,取决于剧本和特效两个重要元素。其中,剧本对应着AI视频生成过程中的“逻辑”,特效则对应着“效果”。为了实现“逻辑”和“效果”,背后分化出了两条技术路径扩散模型和大模型,而OpenAI如此迅速地就解决了这个难题
“模拟”之所以能够如此炸裂,根本的原因在于,用大模型创造出不存在的事物人们已经习以为常,但是能够准确地理解物理世界运转逻辑,例如力是如何相互作用的,摩擦是如何产生的,篮球是如何打出抛物线的等等,这些都是以前任何模型都无法完成的事情,也是Sora超越视频生成层面的根本意义所在。

——-颠覆视频,但远不止视频

Sora成为世界模拟器或许是很久以后的事情,但是就生成视频而言,已经对现在的世界产生了影响。

第一类就是解决之前技术上面无法突破的问题,推动一些行业迈向新的阶段。

最典型的就是影视制作行业,Sora这回最具革命性的能力就是最长生成视频长度达到了1分钟。作为参考,大热门Pika所能生成的长度在3秒、Runway的Gen-2生成长度在18秒,这意味着有了Sora以后,AI视频将能成为真正的生产力,实现降本增效。

陈坤告诉光锥智能,在Sora诞生前,其利用AI视频工具制作科幻电影的成本已经下降至了一半,Sora落地后,更加值得期待。

Sora发布后,令他印象最深刻的是一个海豚骑车的demo。在那个视频中,上半身是海豚,下半身是人的两条腿,腿上还穿了鞋子,在一种极具诡异性的画风中,海豚完成了作为人骑自行车的动作。

“这对我们来说简直太神奇了!这个画面创造出了一种又有想象空间,又符合物理定律的荒诞感,既是情理之中又出乎意料,这才是观众能发出惊叹的影视作品”,陈坤道。
陈坤认为Sora会像当年的智能手机、抖音一样,把所有内容创作者门槛降低一大步,把内容创作者呈数量级放大。

第二类是基于模拟世界的能力,在更多领域中创造出新的事物。

爱丁堡大学的博士生Yao Fu表示:“生成式模型学习生成数据的算法,而不是记住数据本身。就像语言模型编码生成语言的算法(在你的大脑中)一样,视频模型编码生成视频流的物理引擎。语言模型可以视为近似人脑,而视频模型近似物理世界。”

学会了物理世界中的普遍规律,让具身智能也更加接近人的智能。例如在机器人领域,以前的传导流程为,先给到机器人大脑一个握手的指令,再传递到手这个部位,但是由于机器人无法真正理解“握手”的含义,所以只能把指令转化为“手的直径缩小为多少厘米”。若世界模拟器成为现实后,机器人就可以直接跳过指令转化的过程,一步到位理解人的指令需求。

虽然Sora还有许多局限性,但在虚拟和现实世界之间已经建立了一个链接,这让无论是头号玩家式的虚拟世界,还是机器人更像人类,都充满了更大的可能性。


从OpenAI发布文生视频大模型Sora回看生成式人工智能行业发展情况:

——AI大模型是一种新的智能计算范式

超大规模智能模型,简称大模型,是近年兴起的一种新的人工智能计算范式。和传统AI模型相比,大模型的训练使用了更多的数据,具有更好的泛化性,可以应用到更广泛的下游任务中。按照应用场景划分,AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展,AI内容生成(AI Generated Content,AIGC)已成为下一个AI发展的重点领域。

——AIGC行业热度高,受资本追捧

截止2023年4月,AIGC赛道目前在国外已出现了7家独角兽。在我国,超参数和小冰公司已明确成为独角兽公司,Minimax据传估值过10亿美元,光年之外则宣布下一轮融资已被认购2.3亿美元。目前,最受头部资本关注的机构均与底层大模型相关或与AI领军人物下场相关(如王慧文光年之外、李志飞、周伯文、王小川等)。

多家机构已高度明确要将AIGC作为主投赛道,个别投资机构已经推出了相应的主体孵化项目。整体而言,大部队还处在缺乏明确逻辑和标的的观望状态。但预计本年度融资规模将有数倍增长。随着底层大模型的逐步开放以及商业价值的落地验证,预计融资规模将在2024年出现首次阶段性的指数级增长,投资向AIGC全产业链扩散。

——中国AI应用在金融、电信制造、医疗行业加速渗透

目前,随着数字经济与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。与此同时,在推动数实结合、加快产业升级的进程中,金融、医疗、制造、工业等各行各业的AIGC应用也都在快速发展。

据IDC,2022年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造。另外,AI为自动驾驶、交通物流所赋予的价值也不容忽视,据麦肯锡预计,AI为交通领域创造3800亿元的经济价值。


Tag: Sora 人工智能
首页 AI对话 资讯 我的