谈论了一整年的 AGI 和大模型,但什么是 AGI?大模型是实现 AGI 的必需基座吗?Scaling Law 仍会继续有效吗?
中国排名前列的四家大模型创业公司给出了自己的答案。在 6 月 14 日举办的北京智源大会上,智源研究院院长王仲远提出了这些问题,百川智能 CEO 王小川、智谱 AI CEO 张鹏、月之暗面 CEO 杨植麟、面壁智能 CEO 李大海展开了同台讨论。前三位代表了中国最受关注的大模型厂商,后一位则是端侧大模型的新贵。
关于 AGI 的定义,每个人的看法不一。但他们认可 Scaling Law 是目前实现 AGI 的有效方式——不过这一定律的内涵和要求也在发生变化。比如杨植麟认为,Scale 的数据和方式会是一个关键问题;王小川认为,除此之外还需要更多范式,比如融入「自我思考性」系统;而张鹏和李大海都赞同除参数量之外,数据质量、训练方法等也尤为重要。
谈及前不久行业热议的价格战问题,他们都认同降价、以及由此带来的大模型普及这一趋势,不过每个人观点也各有不同。
比如杨植麟认为,未来训练成本将低于推理成本、并低于获客成本,而当 AI 在人类工作流中占比过半,今天 To B 的商业模式可能转变;王小川认为,价格战让更多企业打消了自己做模型的念头,减少了社会资源的浪费;而张鹏和李大海观点也较为接近,那就是要在成本降低、和模型厂商健康经营之间取得一个平衡。
这是四家大模型厂商罕见的同台交流,以下是这场对谈的精华,经极客公园整理后发布:
北京智源大会上,智源研究院院长王仲远与四位大模型创业者对谈|图片来源:智源研究院
01
谈 AGI:Scaling Law 是目前的有效实现路径,但还不够
王仲远:大模型会是 AGI 的一个基座吗?还是说它只是一个数据的压缩,可能对产业界非常有价值,但并不一定能够通往 AGI?
杨植麟:我们比较相信大模型还是这里面的第一性原理,通过不断提升模型的规模,它确实本质上是一个压缩、但这个压缩确实是可以产生智能。所以随着不断地规模化这个模型,不断地做更好的压缩,它能产生越来越多的智能。
当然在这个过程中也会有很多挑战,比如最大的挑战就是有些数据可能并没有那么多,或者说假设你最后要做出来一个可能比人类更好的 AI、那可能就根本不存在这样的数据,因为现在所有的数据可能都是人产生的。所以我觉得可能最大的问题是怎么去解决比较稀缺、甚至可能不存在的数据问题。
但是我觉得规模化定律、或者说大模型本身,可能没有太本质上的问题。
王小川:我觉得基石这个词是没有问题的。今天大家已经看到了 Scaling Law 带来的提升,但是我想说,它只是在逼近 AGI,但是光靠 Scaling Law 我理解是不够的。所以如果从第一性上讲,可能需要有范式的一个改变。今天大家忽略了一件事情,那就是语言放到大模型的体系里面、语言变成了数学。
我们接下来往前走,除了规模以外的话,符号跟这种连接的融合,我觉得这是中间的一件事情。那么再往前走,还会有更多东西必须有范式改变,比如今天大模型是靠数据驱动一种学习系统来做压缩,但是反而像之前类似像 Alphago 那样能够自我思考性的系统,也会有这样一个作用。
所以我的结论来讲的话,我们是到了 AGI 的时代,通过有足够多的科学家进来、更多的资源进来,我们能够走向 AGI。但是光是以现在我们看到的 Scaling Law,是走不到 AGI 的。
张鹏:首先同意小川说的,大模型是肯定是基石,那至于是不是之一,这是另外一个问题。
这个问题其实也涉及到说,你怎么来定义 AGI。站在我们现在的角度来说,我是觉得做人工智能的这波人还挺实用主义的。所谓的实用主义就是说,咱不看广告,看疗效。这东西它能不能解决问题?能不能真的在我们每个人心中定义的 AGI 路径上推进一步?大模型到目前为止还是很有效的在推进这件事情、Scaling Law 也在有效往前推进。
那至于说它是不是能够帮助我们推到那个顶峰上去?我们现在也找不到这个很确切的一个答案。但至少我们相信它在这个阶段还是有效的,所以我认为它肯定是基石,至少是基石之一。
李大海:我个人是数学专业毕业的,所以我可能会比较严谨的去表达。我认为大模型一定是通往 AGI 这个方向上,当前所有技术里面能走得最远的。但它能不能够直接到达,我觉得现在还有很多未知的因素。
我想提一个可能大家没有提到的点,我觉得现在的大模型作为知识压缩,主要是在处理人的大脑的「系统一」的工作。而它作为慢思考去做各种各样的推理、做搜索组合来完成任务的「系统二」的能力,可能未来要通过 agent 的技术外部化、或者把它内化为自己的能力去完成。这个是行业里面大家需要去探索的。
王仲远:确实是一个非常有意思的问题,我们总在讨论 AGI,但似乎好像连 AGI 的定义大家都没有广泛的共识。在各位的心里,到底什么叫 AGI?
杨植麟:首先我觉得 AGI 的定义是重要的,但它不一定需要被非常精确的、量化的定义,它可能是一个定性的、感性的东西。因为它最重要的一个作用是,在技术的节奏非常快的情况下,如果我们能知道 AGI 是什么样的,其实可以更好的去准备这个事情。
其次在短期内,可能是需要一些目标的量化。传统图灵测试可能到现在已经不完全适用了,现在 AI 通过了图灵测试,但还有很多事情是人可以做得非常好、AI 基本没法做的。所以量化不是一个很容易的问题。你可能需要对评估的维度去做很多拆分,比如说知识能力、推理能力和创造能力,可能评估的方式会完全不一样。
这也是现在大家在关注的问题,是非常重要的。
王小川:我提到现在是 AGI 元年,是因为我们掌握了 Scaling Law,同时我们掌握了把语言变成数学的能力,这是重大的起点。大家以前都在讲图片识别很厉害、无人驾驶也很厉害,我调侃说狗也可以自己导航、狗也会看图片,但是狗不会语言,语言代表了我们认知世界的一个大的范式。
什么是 AGI,确实在全球里面很难有完整的共识。我觉得我们得把它从一个空间换到另一个空间来做判断,在我心中,接近 AGI 的定义是看它能不能造医生。为什么?之前我们在谈 AGI 的时候,一种是把它当成工具在看,一种是把它跟人差异化看,我是拿人的一个职业来跟它做比较。
医生在所有职业里是一个智力密度相对最高的职业,既需要多模态,也需要少幻觉,有效记忆,比如看 70 万字的病例,也要有推理的能力,也要有查文献的能力等等。如果你认为医生比 AGI 低,那医生都造不了,咱们就别谈 AGI 了。如果你觉得医生比 AGI 还高,而医生只是造人的种类中的一种,我觉得医生跟 AGI 基本是可以画等号的。
数学上有一个题目是自然数和偶数哪个多,大家第一反应是偶数比自然数少,因为偶数是自然数的一个子集。但数据上它们是一样多的,因为每一个自然数乘以 2 就是一个偶数,它们是可以映射的。今天我是把大模型的能力都映射到医生身上,你拿这个做标准,能造医生就是 AGI。
李大海:我会尝试从经济学的角度来去定义 AGI。从经济学的角度讲,如果我们去执行任何一个任务,它的边际成本都为零,这就是我们理想中的 AGI 了。为什么我认为大模型能够走得最远?就是我相信大模型能够把边际成本一直往下降,可能会逼近于零。
去年我们看到行业做大模型落地的时候,很多场景还需要做微调,边际成本很高。但我们相信随着模型能力的提升,慢慢从微调到只需要做 prompt engineering、慢慢连 prompt engineering 都不需要,直接就问你到底有什么需求。通过这种方式,我相信未来的门槛、成本会越来越低,低到接近于 0 的时候,我觉得 AGI 基本上就到来了。
我额外还想补充一个观点,其实大模型的智能密度也是个非常重要的事情。当有一天我们达到 AGI 的时候,我们还要把大模型小型化,如果我用一个 10 万亿参数的模型能做到 AGI,那我能不能把这个参数降到 1 万亿、1 千亿?这是我觉得需要去突破的事情。
张鹏:与其说严格的定义,我更愿意相信 AGI 可能是我们的一种信念、一个符号,它的内涵外延是在不断的变化的。如果你能把一件事情说得非常量化、非常清晰,那这件事情也就那样了,估计天花板在哪大家都能看得到了。现在没有人能把这些说清楚,那反过头来讲是一件好事,说明它还有很多未知的空间等待我们去探索。
当前我们的目标是,让机器像人一样去思考,这只是第一步。当然机器的能力远不止这个水平,我们期待它可以超越人的能力,也就是所谓 super intelligence。在这个过程中,我们会不断更新迭代 AGI 的内涵和外延。
王仲远:大家反复在提 Scaling Law,你们还会特别的坚信吗?它会继续在未来的这些年发挥作用吗?
杨植麟:Scaling Law 没有本质的问题。我认为接下来(scale)3 到 4 个数量级,这是非常确定的一个事情。但更重要的问题是,你怎么能够很高效地去 scale?你应该 scale 什么东西?
如果还是像现在搞一堆 Web text(网页文本)去 scale,可能就不一定是对的方向,因为这里面可能就会遇到很多的挑战,比如推理能力不一定能够在这个过程中解决。如果你沿着现在的方法去做,上限是很明显的。
Scaling Law 本质上是说,只要有更多的算力,数据模型参数变大,就能持续产生更多的智能。这里面其实并没有定义你的模型是什么样的,比如要多少个模态?中间的数据是什么样的?数据是生成出来的,还是说可以用 Web text?也没有规定你的这个 loss function(损失函数)是什么样的,就不一定是 next token prediction(下一个词预测)。
所以我觉得 Scaling Law 是会持续演进的一个第一性原理,只是在这个过程中,scale 的方法会发生很大的变化。包括杨立昆一直在讲的世界模型,本质上现在的大语言模型是世界模型的一个特例。你只是说先把里面一部分给做了,但是还要持续扩充训练的方式。
王小川:我觉得 Scaling Law,到目前没有看到边界的持续发挥。我们看到美国 Elon Musk,号称要买 30 万片 B200 来做,美国确实在这方面的认真程度、投入程度是会远高于中国的。我们在 Scaling Law 之外,一定要去寻找泛市场的一个新的转化。
我认为不管是从战略上、还是从信仰上,我们在 Scaling Law 之外应该都有一个范式的变化,就不只是简单去 predict 下一个 token 、压缩这种模式。只有走出这样一个体系,才有机会走向 AGI、才有机会跟最前沿的技术产生较量的能力。
张鹏:到目前为止,我们还没有看到 Scaling Law 会失效的预兆。未来相当一段时间之内,它仍然会有效,当然这个所谓的会有效也是一个动态的概念,它所包含的内涵会不断地演进。Scaling Law 早期关注的是简单的模型参数量规模,现在已经慢慢扩展到,参数量很重要、数据量也很重要、数据质量也很重要。
关于 GPT4.5 和 GPT5 为什么一直没有发布,我觉得里面的因素会非常非常多。但就我们自己来说,我们会不断遵循 Scaling Law 往前进。举个例子,我们开始做「悟道」的时候就讨论过一个方案,就是到底是做一个稠密的单体模型、还是做一个 MOE 架构的稀疏多体模型?这就是我们追寻 scaling law 的不同路径。
但是发展到今天这个地步,这里面维度已经非常非常多,你可以在很多方面去做这件事,但反过来看,它的难度和复杂度又上升了。所以我理解想要实现 GPT 5,或者我们自己下一代的模型,这里边技术要探索的东西还是非常非常多的。
李大海:我认为 Scaling Law 是非常重要的。Scaling Law 其实是一个经验公式,是整个行业对于大模型这样一个复杂系统观察以后的一个经验总结,这个经验总结会随着我们模型训练工作过程中做的实验越来越多、认知越来越清晰,会有更加细的颗粒度的认知。
比如我们发现除了前面这些维度之外,在模型训练中的训练方法对于 Scaling Law、对于智能的影响也是比较显著的。那这个显著的影响在我们固定住参数规模以后,其实会变得非常重要。现在大家觉得参数规模能够不断地往上 scale,它是低垂的果实,只要扩就可以。但是一旦参数固定了,要让端侧的芯片去支撑这个规模的模型、做到足够好的智能,那么数据的质量、训练的方法这些都变得非常重要。
02
谈行业:价格战有利于大模型的普及,但需要更健康的方式
王仲远:最近其实也关注到一个非常热门的新闻,Stanford 的团队抄袭了面壁的 MiniCPM,你怎么看这个事?
李大海:我们也没有想到会以这种方式出圈。我要澄清一下,这是海外个别学生的个人行为,它不代表任何更大的、比如斯坦福这个学校的行为。这个事件发生了以后,像斯坦福的系主任、以及一些西方同行都表达了非常正的观点。
这些学生宣称这个模型的多模态能力是跟 GPT 4 v 和 Gemini Pro 对标,但是参数只有后者的 1%,并且还只需要 500 美金就可以训练出来。那前两项是真的,我们的模型真的是有这样的能力,但是 500 美金是训不出来的,还是要花很多的钱。
因为这个事件,我们会更加坚定的相信开源的力量。因为其实这不是我们自己发现的,而是靠我们开源热心的参与者发现的,他们会在里面贡献需求、贡献反馈,这些都是开源生态非常重要的组成部分。
王仲远:百川也把自己的百川 1、百川 2 都对外开源了,你们当时训也花了不少钱,当时把模型对外开源的考量是什么?
王小川:我觉得第一是市场有这样的需求,我们大概是去年 6 月开的第一版、9 月开了第二版,当时国内对大模型属于一种大家热情惶恐、也需要快速入场的状态。
当时美国既有大的闭源生态、也有 llama 这样的开源生态,所以我们想做这件事。我们是把自己最好的模型开源的这么一个厂商,得到了市场的很多认可,也给了我们很好的 credits,这对我们是挺大的鼓舞。不管是后面人才的储备、资本的这种关注,也算是给行业交了一个投名状。
另一方面,我们也看到模型会快速的进步。所以在当时开源是不是把「底裤」拿出去了、就没有竞争力了?我觉得不会的。今天我们最好的模型,可能在明天就是一个不够好的模型了。所以从商业竞争上,我们其实也没什么大的损失。
今天有很多公司也在做各种开源,我觉得大家共同在做这样的一个贡献,也希望这个生态能够越做越好。
王仲远:随着大模型的发展,AI 安全问题也被不断的讨论,我们大模型的产业界怎么去看 AI 安全问题?它是一个当下最急迫的问题吗?
杨植麟:我认为 AI 安全非常重要,虽然它可能不是当前最紧迫的问题,但我们需要提前准备。随着模型的发展,根据 Scaling Law,每隔几个月、算力提升 10 倍,智能水平也会随之提高。
在这个过程中,我觉得有两个重要方面。首先,模型可能会因用户的恶意意图而被利用,导致一些不应发生的事情。例如,现在有研究在做 prompt injection,防止用户在提示中注入不恰当的意图。
其次,模型本身是否会有自己的动机?这与训练方式有关,能否在模型的底层注入 AI 宪法以框定其行为,无论用户指示什么或模型自身的想法是什么,它都不会违背这一宪法。我认为这是非常重要的。
王小川:我想提三点关于 AI 安全的事情:
首先是意识形态安全。作为一个中国的大模型,我们的意识形态需要与国家价值观和意识形态保持一致,这是我们必须做到的底线。
第二个是空谈的、比较远的安全问题。有人担心模型是否会毁灭人类,进而掌握世界。我不认为会发生这种事情。去年底我写了一封公开信,讲到 AGI 应该帮助我们繁荣和延续人类文明,而不是将 AI 作为机器,当作工具和奴隶。从文明的标准来看的话,第二层的安全带有理想的色彩。
第三个安全是比较现实的。现在让 AI 去做个医生都是好难的事,如果连医疗都搞不定、能力如此之弱,那就不用担心 AI 颠覆人类的问题。所以近期 AI 还没碰到今天人类文明安全的边界,当前我们还是努力把它的能力提上去。
张鹏:我们一直非常关注 AI 安全问题。前不久,我们还跟全球 15 家与 AI 相关的企业一起,签署了一份关于前沿人工智能安全的承诺。所谓负责任的 AI 这件事,它比安全要更大一点。就是我们需要确保技术真正帮助人类、社会和地球,而不是去作恶。
人的两面性很难说,你们保证没有人去拿这个事情去作恶,但现实社会中已经有人在做这些事情。防守总是比破坏难。讨论安全的意义并不是说,我们现在能拿出多么安全的技术方法或者管理规定,约束大家不要去做这件事情。而是在于说增强大家的了解、形成统一的认识。把问题摆到桌面上来,那总有解决的办法。
李大海:我认为当前阶段的 AI 安全主要集中在基础安全和内容安全这两个方向。现阶段的大模型本质上是只读的,模型训练好后,权重是固定的,推理不会影响权重,你的权重是在线下再去持续的阶段性训练的。
有一天当我们把模型部署到机器人或其他终端设备上,它能够动态地更新自己的权重之后,安全问题会变成一个非常非常重要的问题。
王仲远:你们怎么看近期大模型的价格战?它是更有利于大模型的普及,还是并不利于企业的发展?
杨植麟:这是一个非常好的问题。如果我们把时间线拉得足够长,最终还是会回归到价值本身。我有三个判断:
第一,如果我们去看算力的投入,未来我我们投入在推理上的算力,在未来某个时间点之后,将显著超过训练所需的算力。这将标志着你的价值开始释放,前期用于训练的成本将被很大程度覆盖。
第二,从 C 端的角度来看,推理成本将显著低于获客成本。可能从商业本质上来讲,它可能不会跟之前的各种商业模式有非常本质的区别。
第三,今天 AI 在整个人的工作流程中的占比还很低,大约只有 1%,也就是说人做的事情要多于 AI 做的事情。我觉得在某个时间点,当 AI 承担的工作量逐渐超过人做的事情时,新的商业模式将会产生。它可能就不是今天在 B 端去做 API 的价格战,而是一个普惠的 AI、同时是根据它产生的价值来进行分成的商业模式。
我觉得这三个因素将是改变商业模式本身、或者 ROI 的重要趋势。
王小川:我认为当前的价格战对中国发展大模型是非常有利的,我积极看待这种现象。首先需要区分价格战对单个公司的影响和对整个市场的影响。价格战是一种市场行为,具有竞争导向,它至少带来两个好处。
第一,更多公司和个人能使用大模型。以前很多企业不懂这个,但现在就像一场普及运动,很多公司可以免费或者便宜的使用大模型,吸引了更多企业和个人参与,这是对整个市场的第一个好处。
第二,它减少了浪费。以前大家对大模型感到恐慌的时候,我就观察到很多企业但凡有点技术能力,都说我自己要训有大模型。明明它该是大模型的使用方,但都想转型成为大模型的供给方,其实带来很多的人才、资金和社会资源的浪费。价格战让很多企业开始清醒了,我干嘛非得做?我的竞争优势在什么地方?浪费会减少很多。
之前没有价格战的时候,中国可能真的是上百、上千个大模型在训练,那现在有了明确的市场分层,这种竞争力就能起来。
张鹏:我基本赞同这个观点,之前还有人来问我们是不是价格战的发起者,我说这是子虚乌有。我们一直秉持的理念是,通过技术和创新大幅降低使用成本,从而推动技术普及,让更多人享受其收益。
我们长期以来提供的价格在行业内一直处于极低水平,这是因为我们的技术确实能够做到这一点,能把中间的成本空间释放出来,当做大家的收益,帮助大家把 ROI 算出大于 1 的数字来。
当然这个事情从宏观角度来讲,肯定是说有利于整个中国的大模型产业,有更多人来使用。就像我们说的,大模型会变成像水电一样的基础设施,非常便宜且随时可用,企业不用再为高投入和回报问题而纠结。对企业来讲,会是一个很好的发展态势。
这也是我们一直在坚持做的事情。最近 20 号我们发布的新模型,真的把成本压低到我们都不好意思报价的程度。以前报价可能是一千 token 几分钱,就没有比这个更小的单位了,那怎么办呢?现在变成每百万 token 几分钱,已经到了这样的一个地步了。
我觉得这事对整体是有好处,但也要注意不要去过多的关注和宣扬这件事情。商业上,它肯定是牺牲企业的短期的利益,亏本做买卖,这不是一个正常的商业逻辑。它肯定是只能持续很短的时间,真正还得回归到最终的用户价值、生产力价值上。
李大海:我们做端侧,就是看到了端侧快速落地的潜力。最近有一个机构的调研显示,全国 10 亿用户的手机端算力相当于 100 万片 H100。这是一个非常夸张的数字,如果这些手机算力能够被好好利用起来,我们很多的应用就可以落地了。
现在到未来,我们都需要端侧模型和云侧模型的良好协同。端侧有独特优势,比如隐私性好和更可靠,但云侧的模型能力更强。所以怎么有效地协同端侧和云侧模型,是我们与其他模型公司共同需要解决的问题。
我也同意前面提到的观点,我认为当前的价格战多少带有一些营销成分。但是我相信未来价格会比现在更低,同时大家也能获得利润,这才是健康的方式,并且这才能真的能让千行百业的应用往下落地。
*头图来源:智源研究院
本文来自微信公众号“极客公园”(ID:geekpark),作者:幸芙,编辑 : 郑玄,36氪经授权发布。