Sora爆火下的冷思考：生成式人工智能的精彩，还在泡沫后

来源：万点研究更新时间2024-03-05 10:40:02 点击数：

“天空没留下翅膀的痕迹，但我已飞过。”泰戈尔的传世佳句，恰可形容OpenAI视频生成模型Sora(日语“天空”发音)在舆论场上的现象级影响。

在Sora的吹风下，被视为”生成式人工智能硬件霸主“的英伟达，市值已跃过2万亿美元大关，其创始人黄仁勋，俨然已成为人类科技发展的顶级布道者。而仅在十几个月前，被加密货币泡沫破裂连番打击的英伟达，股价重挫了60%，《经济学人》杂志甚至落井下石称：“当他透过眼镜打量他觉得会改变AI面貌的花哨新模型，以及像元宇宙这样更模糊的概念，他是否存在低估此时此地残酷性的危险？”

当下令人眼花缭乱，很多生成式AI的技术预测横空出世，投资者对生成式AI的前景显得愈发兴奋。

其实，早在四分之一个世纪前，技术奇点理论布道者Ray Kurzweil在其杰作《灵魂机器的时代》中，展望了“大规模并行神经网络计算机”发展，并预测2020年前后在这一算力基础支撑下，人工智能技术将实现一些里程碑：

绝大部分商业交易场景都包含有一个虚拟人；
大多数道路安装有自动驾驶系统；
人们开始与机器人建立联系，把它们当作同伴、教师、看护者甚至爱人；
虚拟艺术家出现于各种艺术领域；
媒体广泛报道电脑通过了图灵试验，虽然这些试验还不符合内行认定的标准...

历经二十多年亢奋与失望交错的曲折前行，直到OpenAI的崛起，似乎让我们堪称赶上了未来科学界所描绘的进步里程碑。

对生成式人工智能的技术意义，素来低调的深度学习教父Geoffrey Hinton也不吝溢美之词：“AI对世界的改变将超过人类历史上任何事物，它在尺度上堪与工业革命相比，抑或是车轮、电能的发明”。（"AI is going to change the world more than anything in the history of humanity.”）

的确，即便无法说出Hinton或黄仁勋等大咖的金句，普通公众也不难从ChatGPT、Sora的病毒式传播中，被唤醒某种朴素而又强烈的直觉，意识到一场重大的变革正在当下发生。如果说2016年的AlphaGo人机大战，完成了对人工智能“有用性”（usefulness）的全民普及，那么如今热度一浪高过一浪的AI大模型，则可被视为“易用性”（easeofuse）的清晰展示，技术扩散的两大先决条件至此已然齐备，人工智能“漫长的夏天”已可预见。

宣称Sora代表着OpenAI底层模型对真实世界已具备认知和理解能力，AI足以生成自己的开放世界，并且在这个世界中自我交互、自我进化，通向通用人工智能（AGI）的道路已然贯通。

然而，过滤掉李一舟式的”土法上马“玩家，围绕生成式AI的解读已汗牛充栋，但真正能够解释出“到底有什么用？有多大用？”这些本质的问题上，迄今依然没有清晰明确的答案，

事实上，被打磨得丝丝入扣的技术与商业演进故事中，许多关键里程碑都并非事先存在于某个技术天才的脑海，其或是工程实践中相互启迪深化认知、逐渐形成的研究群体共识产物，或是纯属神经网络模型自行“涌现"的特性。

“人们并不知道他们要的是什么，直到你把它展现在眼前”，乔布斯的这句名言，既适用于创新的受众，也同样适用于创新的主体。

就拿OpenAI来说，其GPT模型的性能“涌现”，本就是一个工程探索中随着模型参数量提高而带来的“意外”，至于Sora所展现出的帧间连贯性、客体一致性，该项目开发者Tim Brooks同样坦承是一种未曾事先设定的能力，从所谓的Diffusion Transformer工程原理看，Sora恐怕的确谈不上”世界模型“，按照Yann LeCun对世界模型的描述，其中所必需的真实物理世界直觉性”常识“，显然与擅长逼近隐含概率分布的传统神经网络路径南辕北辙，惊艳的视频效果可能仅仅证明，Sora学到了物理规律的概率分布，而不是物理定律本身。

从技术路线的角度进一步深入追问，Sora仍然没有证明或证伪一个异常重要的问题：面对神经网络的”黑箱“，暴力提升复杂性的Scaling Law到底是通向AGI的可行路径，还是一个低垂果实被摘取殆尽、饱食之后的甜美错觉？

如果答案是前者，那么毫无疑问，美国已经牢牢捏住了通向AGI的全部关键筹码，从以英伟达为代表的基础设施供应商，到OpenAI、谷歌等大模型开发者，其相对海外竞争者的优势之大都堪称惊人，而其对中国这一主要竞争者的连番打压则显示出美国人主动捍卫这一优势的决心，不过在美国AI产业”赢麻了“的高光时刻，或许有必要同时铭记一个冷峻的规律：命运的馈赠，往往也同时包含着代价。

埃森哲此前进行的一项生成式AI对人类工作岗位冲击程度研究中，银行、保险、软件赫然位列风险暴露程度前三高行业，而众所周知，这些皆为当前美国经济的高端支柱，一旦生成式AI的技术成熟度越过某一平衡点，其加速普及或将使美国自身最先也最深地感受到转型之痛，其间的社会经济后果尚难意料。

而如果答案是后者，那么人工智能史上第一次大低谷时的评断，同样可以无缝挪用到今天：“第一个爬上树的人可以声称这是飞往月球的显著进步”。

在Scaling Law边际效应递减的情况下，语言文字类大模型应用能否克服间歇性幻觉和灾难性遗忘，避免输出类似于前一段时间”动车组列车温度达到了1538℃“的笑话？

再以Sora为例，其应用前景能否指向所谓的”一句话生成一部电影“？从目前推测看，如果该模型无法实现连续提示校正，而只能靠Prompt掷骰子一样反复尝试效果，则其在图像生产场景中的应用仍然会是镜花水月，即便是短时长的广告视频制作，其细分市场规模又是否能撑得起当下不下10万亿美元的生成式AI概念股市值？

无论如何，有这样一个事实值得强调，今天公众对Sora的狂热期盼，在工业革命发轫以来已经出现过许多次，每一次人们都认为，距离自动化带来的人类社会新纪元已经咫尺之遥。看看控制论之父维纳在其1950年作品《人有人的用处》中所讨论的机器替代人类可能性及其影响，与今天的舆论议题是何其相似：”从这一阶段开始，一切工作都可以由机器去完成。这种机械化的方法同样适用于工业企业图书馆和档案处的绝大部分的工作上面。换句话说，机器既不偏爱体力劳动，也不偏爱文牍式的劳动。因此,新的工业革命所能渗透进去的领域就会非常广泛，包括执行不太用脑筋的一切劳动在内......新工业革命是一把双刃刀，它可以用来为人类造福，也可以毁灭人类，如果我们不去理智地利用它，它就有可能很快地发展到这个地步的。“

当然，今天的ChatGPT、Sora乃至稍早前同样里程碑意义的AlphaGO，尽管带给公众的感知冲击清晰而深刻，但任何切换到生产者视角的普通人，都不难立即理解其在能力和场景上，与生产力工具的要求之间仍有深深的鸿沟，激发起大众的猎奇心，只是从技术可能性到商业变革的万里长征第一步。

让时间给出答案，或许是最明智的一种态度。

毋庸置疑，当下的AI狂热，已经堪与千禧年的互联网泡沫相媲美，彼时狂热的投资者与创业者们，同样在缺少清晰应用场景的情况下，乐于为想象中的变革愿景压上一切，这场泡沫惨烈破灭后不久，2001年圣诞购物季亚马逊扭亏为盈，方才标志着互联网经济找到了方向感。

人们一次次因为看到山峰而出发，又因为寻找路径而却步，直到在低谷与边缘，工程与应用创新的重大突破自下而上点燃，历史的脉络，总是这么简洁而深刻。

以史为鉴，生成式人工智能的产业化之路，恐怕依然会是如此，向前走迷迷茫茫，向后看清清楚楚。在主要平台型巨头的AI算力与AI模型”军备竞赛“完成后，OpenAI乃至英伟达的资本泡沫恐怕也将难逃出清命运，抓紧时间兑现价值，这或许正是前者精心包装Sora以作公关的意图所在，不过产业的精彩，恐怕正要待泡沫破裂之后才会真正上演。

Kurzweil曾经的另一段预言，或可作为本文结语与期许：”考虑到所有这些因素，我们有理由估计，到2020年左右一台价值1000美元的个人计算机在运算速度和容量方面，尤其是在神经连接运算（人脑的主要运算方式）方面将相当于人的大脑“。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟