AI大模型训练有多卷?揭开大模型算力之谜

来源:互联网 更新时间2023-10-18 15:49:03 点击数:

使用全球40年的天气数据,用200张GPU卡进行预训练,2个月左右的时间,训练出了参数量达亿级的盘古气象大模型。

这是清华大学毕业3年的毕恺峰训练大模型的故事。

不过,从成本上看,按照正常情况下,一张GPU 7.8元/小时计算,毕恺峰盘古气象大模型的训练成本可能超出200万。这还是气象领域的垂直大模型,如果训练的是通用大模型,成本可能要翻百倍。

有数据统计,中国当下10亿参数规模的大模型已经超百个。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题。算力成本高企,缺算力、缺资金也成为了摆在行业面前最直观的问题。

高端GPU,有多缺?

“缺,当然缺,但是我们能有什么办法。”某大厂高管被问及是否缺算力问题时脱口而出。

这似乎已经成了行业公认的一道无解题,顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币,单台A100服务器的月租价格也飙到了5万-7万/月。但是即便如此,高昂的价格依然可能拿不到芯片,一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历。

一位云计算行业高管周立军也谈及类似的感受:“算力短缺的情况确实存在。我们有很多客户都想要高端GPU资源,但能提供的也暂时无法完全满足广泛的市场需求。”

某云服务商搭载A100的高性能计算集群售罄界面

事实证明,高端GPU的短缺短期内在全行业都无解。大模型爆发,市场对算力的需求快速增长,但供给量增速远远没有跟上。虽然算力供给长远来看一定会从卖方市场进入买方市场,但这个时间究竟要多久,也是个未知。

各家都在盘算着自己手里有多少“货”(英伟达GPU),甚至用这个来判断市场份额。比如手里如果接近1万张卡,‌‌市场总共是10万张卡,那份额就是10%。‌‌“到年底保有量大概到4万,‌‌‌‌如果市场是20万的,‌‌那可能占20%的市场。”知情人士举例表示。

一边是买不到卡,一边是大模型训练门槛并没有业界烘托的那么容易“入门”。上述提到,毕恺峰盘古气象大模型的训练成本可能超出200万。但需要注意的是,毕恺峰盘古气象大模型是在盘古通用大模型的基础上训练出得垂直大模型,它的参数为亿级。如果要训练一款十亿规模参数或者更大规模的通用大模型,那么成本可能要十倍、百倍往上加。

“目前投资规模最大的是在训练,没有几十亿的资本投入,很难下场去持续做大模型。”腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏透露。

“跑得要快,至少在钱烧完之前能有成果拿到下一轮‘融资’。”一位创业者描述当下大模型“战况”,“‌‌这条路是条‌‌绝路。‌‌如果你没有百亿千亿‌‌资金在后边撑着,‌‌很难走得通。”

这一局面下,业内的共同观点是,随着大模型市场的角逐厮杀,市场也会从狂热到理性,企业也会随着预期的变化来控制成本、调整策略。

无解下的积极应对

没条件,创造条件也要上——这似乎是大模型参与者中的多数心态。而如何创造条件,应对真实存在的问题,各家也是方法颇多。

由于高端GPU芯片短缺,且中国市场能用的GPU不是最新代次,性能通常更低一些,所以企业需要更长的时间来训练大模型。这些公司也在寻找一些创新性的办法来弥补算力短板。

其中一种方法是,使用更高质量的数据去做训练,从而提升训练效率。

近期,信通院牵头发布了《行业大模型标准体系及能力架构研究报告》,其中就提到了大模型数据层的评估。报告建议,在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注,从而构建并严重高质量的数据集。

除了通过高质量数据减少大模型成本,对于业界来说,提升基础架构能力,实现千卡以上稳定运行两周不掉卡,是技术难点也是构建可靠基础架构、优化大模型训练的方法之一。

“作为云服务商,我们会帮助客户建立起稳定可靠的基础架构。因为GPU服务器卡的稳定性会差一些,任何故障都会让训练中断,导致整体的训练时长增加。高性能计算集群,可以给到客户更稳定的服务,也能相对减少训练时长、解决一些算力问题。”周立军说。

同时,算力卡资源调度也考验服务商的技术能力。火山引擎华东互联网解决方案负责人徐巍告诉钛媒体,拥有算力卡资源只是一方面,如何将卡资源调度起来,真正投入使用,是更具考验的核心能力、工程能力。“把一个卡拆成很多小卡,尽量能做到分布式的精细化的调度,可以更近一步降低算力成本。”徐巍说道。

网络也影响大模型训练速度和效率。大模型训练动辄千卡,连接几百台GPU服务器所要求的网络速度极高,如果网络有点拥塞,训练速度就会很慢,效率很受影响。“只要一台服务器过热宕机,整个集群都可能要停下来,训练任务要重启。这对云服务运维能力与排查问题能力的要求非常高。”邱跃鹏说。

也有厂商另辟蹊径,从云计算架构过渡到超算架构也成为减少成本的一种方法,即在都能满足用户需求的情况、非高通量计算的任务及并行任务场景下,超算云大概是云超算一半左右的价格,然后再通过性能优化资源利用率可以从30%提高到60%。

另外,也有厂商选择使用国产平台做大模型的训练和推理以替代一卡难求的英伟达。“我们跟华为联合发布了讯飞星火一体机,能够在国产平台上自己做训练做推理,这是非常了不起的。我特别高兴地告诉大家,华为的GPU能力现在已经跟英伟达一样,任正非高度重视,华为的三位董事到科大讯飞专班工作,现在已经把它做到了能对标英伟达的A100。”科大讯飞创始人、董事长刘庆峰曾表示。

上述方法,每一种都是一个相对大的工程,所以,一般企业是很难通过自建的数据中心来满足,很多算法团队都选择最专业的算力厂商来支持。这其中并行存储也是很大的一种成本,以及技术能力,对应的故障率的保障等等也属于硬件成本的一部分。当然甚至要考虑,IDC可用区电的成本,软件、平台、人员成本等运营成本等等。

千卡级别的GPU集群才会有规模化效应,选择算力服务商,等于说边际成本为零。

中国工程院院士,中国科学院计算技术研究所研究员孙凝晖也曾在演讲中提出,AIGC 带来 人工智能产业的爆发,而智能技术的规模化应用具有典型长尾问题,即具备强 AI 能力的强势部门 (网安、九院九所和气象局等)、科研院校与大中企业只占据算力需求主体的大约 20%,另外 80% 则均为中小微企业,这类主体受限于公司规模与预算,往往难以接入算力资源、或受限于算力的高昂价格,从而难以在AI时代浪潮中获得发展红利。

因此,要实现智能技术的规模化应用,让人 工智能产业既“叫好”也“叫座”,需要大量便宜、易用的智能算力,让中小微企业也能方便、 便宜地使用算力。

而无论是大模型对算力的急切的需求,还是算力在应用过程中需要解决的各种难题,这其中都需要注意的一个新变化是,算力已经在市场需求和技术迭代的过程中,成为了一种新的服务模式。

探索算力服务新模式

我们在抢的大模型算力是什么算力?解答这个问题,需要先从算力服务说起。

从种类来讲,算力分为通用算力、智能算力和超算算力,而这些算力成为一种服务,是市场与技术双重驱动的结果。

《2023算力服务白皮书》(以下简称“白皮书”)对算力服务的定义是,算力服务以多样性算力为基础,以算力网络为链接,以供给有效的算力为目标的算力产业新领域。

算力服务的本质,是通过全新计算技术实现异构算力统一输出,并与云、大数据、AI等技术交叉融合。算力服务中不仅只有算力,它是算力、存储、网络等资源的统一封装,以服务形式(如API)完成算力交付。

了解这一点就会发现,在抢英伟达芯片的,其实是很大一部分是算力服务提供方,即算力生产者。真正在前端调用算力API的行业使用者,只需要提出对应的算力需求。

据钛媒体App了解,从软件方角度,所有的软件交互产生的大模型使用分为三种,第一种大模型API调用,每家都有报价,按价结算;第二个是自有小模型,自己购买算力,甚至是自己部署;第三种,大模型厂商和云厂商合作,也就是专署云,按月支付。“一般就是这三种,金山办公当前主要采用API调用,内部小模型自己做了算力调度平台。”金山办公副总裁姚冬对钛媒体App说。

算力产业链结构图,来源:中国信通院

也就是说,在算力结构产业链中,上游企业主要完成实现对通用算力、智算算力、超算算力、存储和网络等算力服务的支撑资源的供给。例如在大模型算力争夺战中,英伟达就属于上游算力基础资源供应方向行业供应芯片,而这其中浪潮信息等服务器厂商股票应声上涨也是受到了市场需求的影响。

中游企业则以云服务商、新型算力服务提供商为主,他们的角色主要通过对算力的编排、算力调度、算力交易技术实现算力生产,并通过API等方式完成算力供给。上述提到的算力服务商、腾讯云、火山引擎都处于这一环节。而算力服务中游企业的服务化能力越强,对应用方的门槛越低,越有助于算力的普惠、泛在化发展。

下游企业,则是依靠算力服务提供的计算能力进行增值服务生成制造的产业链角色,如行业用户等。这部分用户只需要提出需求,算力生产者则根据需求去配置对应的算力完成用户下达的“算力任务”。

这相比原来自己购买服务器搭建大模型算力环境,都更有成本和技术优势。毕恺峰训练盘古气象大模型,应该是直接调用了盘古大模型的底层即华为云的高性能计算服务,那么其他大模型企业的使用算力或者说为算力付费的过程会有什么不一样吗?

算力商业模式迭代

ChatGLM是最早一批推出的通用大模型,以智谱AI的ChatGLM算力使用为例,据已经公开披露的消息,智谱AI使用了国内多家主流AI算力服务商。“理论上应该所有的都有用了。”知情人士表示,这其中可能还包括了国内主流的算力服务商/云服务商。

按量计费和包年包月计费是当前算力服务的主流模式,使用需求大致有两种,一种是选择对应的算力服务实例,在某云服务商的官网界面,可提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器。

某算力服务商提供的高性能计算GPU显卡类型

另一种是选择对应的MaaS服务平台,在MaaS平台中对大模型进行行业性的精调。以腾讯云TI-ONE平台按量计费刊例价为例,8C40G V100*1的配置,20.32元/小时,可用于自动学习-视觉、任务式建模、Notebook、可视化建模。

当前行业也在推进算力服务的“算网一体化融合”,通过对计算任务、算网资源状态等信息的综合判断,形成可支持跨架构、跨地域、跨服务商调度的算网编排方案,并完成相关资源部署。例如,只要存一笔钱,存到算力网络里来,算力网络中的分区可以随意调用。‌根据应用特点,选择最适合的分区、最快的分区、‌‌最具性价比的分区,然后根据时长计费,从预存的资金中把费用扣除。

云服务商也是如此,算力服务作为云服务一项独特的产品,使他们迅速参与到算力产业链中来。

工业和信息化部数据显示,2022年中国算力总规模达到180EFLOPS,位列全球第二。截至2022年,中国算力产业规模已经达到1.8万亿。大模型算力很大程度上加速了算力产业的发展。

一种说法是,当下的算力服务,实际上是一种新型的“卖电”模式。只不过根据分工的不同,一部分算力服务商可能需要帮助用户做更多系统性能调试、软件安装、大规模作业运行值守和运行特征分析,即一部分的最后一公里运维工作。

随着大模型高性能计算需求的常态化,脱胎于云服务的算力服务,俨然快速进入大众视野,形成了独特的产业链和商业模式。只不过在算力产业因大模型而爆发的伊始,高端GPU短缺、算力成本高企、抢“芯”形成了属于这个时代的独特风景。

“‌现阶段卷的是供应链中谁能拿到卡,英伟达是目前整个行业的王者,所有的市场都被它控制,这是现状。”知情人士评论。目前境况仿佛是,在供不应求的情况下,谁能拿到卡,谁就可以去交付业务。

但并不是所有人都在抢“卡”,因为短缺是暂时的,问题总会解决。“做长期研究的人其实不抢,‌‌正常等着就行了,因为他不会死。‌‌现在正儿八经抢卡的只有一批创业公司,他们要保证自己可以活到明年。”上述人士称。

在诸多不确定性中,算力成为一种服务是确定性趋势,算力服务商要做的是随时准备,在大模型回归理性、市场风向快速转变的时候,能未雨绸缪。


Tag: 大模型 AI AI算力 AI训练
首页 AI对话 资讯 我的