AI计算爆发，吴泳铭力挺GPU计算，CPU真要沦为配角了？

来源：雷科技更新时间2024-09-20 14:16:00 点击数：

9月19日，2024云栖大会中杭州如约召开，作为阿里云的年度重磅活动之一，云栖大会以引领计算技术创新为核心，致力于推动云计算、大数据、人工智能等前沿技术的发展与应用。

作为关注AI硬科技的头部新媒体，雷科技也应邀出席云栖大会，大会的开幕演讲由阿里集团 CEO、阿里智能云董事长兼 CEO 吴泳铭主持，而在整个主旨演讲中，最令人印象深刻的莫过于这段话：

生成式AI 改变计算架构，从 CPU 主导的计算体系到 GPU 主导的 AI 计算迁移。AI 时代将是“GPU算力为主，CPU算力为辅”的计算模式。2024年市场新增算力，超过50%的需求AI驱动产生，这一趋势将持续扩大。阿里云投资建设了大量的 AI计算基础设施，依然远远无法满足客户需求。

（图源：2024云栖大会）

没错，GPU计算，就是未来。

CPU曾是数字世界的基石

在过去几十年里，从云端服务器到超级计算机，CPU一直都充当着计算体系核心的责任。比如著名的天河一号，就采用了14336个商用处理器、7168个加速处理器和2048个自主飞腾-1000处理器，这些处理器基本是「CPU」，也就是“逻辑处理器”。

图源：维基百科

CPU主要被设计用于处理通用计算任务，进行复杂的逻辑运算和顺序运算。你可以将CPU看作是一个大学生，他有着足够的逻辑推算能力来处理各种复杂的任务，但是每次只能处理一个任务，也就是所谓的「单线程」。

虽然在后续的CPU设计中，工程师通过指令集、CPU架构等方式，让CPU可以同时处理两个工作（双线程），却已然是当下的极限。而且CPU在处理任务时，仍然需要先处理完手头的工作，再进入下一个工作流程，也就是「顺序执行」。

逻辑运算与顺序执行，构成了CPU的通用计算基础，只要你输入的程序符合CPU的运算逻辑，那么CPU所给出的计算结果都是一样的，并不会因为你使用的是AMD，他使用的是英特尔，所以你的1+1=2，他的1+1=3。

得益于强大的通用计算能力，CPU成为人类构建通用型计算中心时的首选，因为计算中心的设计初衷就是用来执行不同领域的计算任务。而服务器则是承担着为云端应用提供数据交换和计算等支持，为了使其能够适应不同类型的应用运算，通用计算能力就是关键。

图源：veer

GPU计算：从图形渲染到驱动AI

最近两年，一切都发生了翻天覆地的改变，GPU成为大多数新数据中心及超级计算机的核心，GPU算力的增长速度屡屡突破历史记录，企业疯狂采购GPU核心，搭建全新的计算矩阵，而这一切的「元凶」，就是生成式AI。

作为近年来最受关注、热度最高的前沿领域，生成式AI有一个特点，那就是对算力的恐怖需求，这个需求不仅体现在训练、优化AI大模型上，更是随着用户数量的增长飙升。生成式AI可以说是人类少有的，从出现到普及耗时最短的前沿科技，现如今每一个接入互联网的人，都可以通过访问通义千问等网站来使用生成式AI。

图源：通义千问

庞大的需求催生了数量众多的数据中心，但是也让一部分人对此产生疑惑：为什么要选择GPU而非CPU来搭建AI数据中心？

GPU最初的设计用途是图形渲染任务，这决定了其需要更强大的并行任务处理能力。以游戏为例，当你在游戏中看到一个箱子，实际上你看到的是一个由大量三角形组成的3D模型，如果你玩过早期的3D游戏，那么你肯定会对游戏中“有棱有角”的角色有着深刻印象。

图源：推特

实际上，这个问题就是因为早期的GPU算力不足，只能进行百位数的三角形运算，无法满足构建「光滑」模型的要求。随着GPU的运算性能加强，当我们可以在一秒的时间里渲染出千万级的三角形并组成3D模型，那么在游戏玩家的眼中，这个模型就有着非常真实的视觉效果，也就是「拟真级」精细建模。

因为需要处理的任务简单（生成三角形并着色），但是任务数量却非常多（千万级），导致GPU成为一个偏科生。论对单个数据的处理能力，GPU与CPU的对比就像是小婴儿与大学生，区别在于GPU是上千万个“小婴儿”的集合，而CPU则是几十个大学生的集合。

当我们需要执行一个将1000万个“三角形”从左边移动到右边的任务时，GPU和CPU谁的效率会更高？GPU的并行计算能力，也是其能够处理复杂3D模型渲染的关键。

而在生成式AI诞生后，人们发现GPU的并行计算能力，远比CPU要更适合进行AI运算，其中的原因则与AI大模型的底层结构有关。虽然在我们的眼中，AI大模型根据数据集群的不同，可以生成文字、图画、音乐等各种类型的结果，但是在实际运算中，所有数据其实都以一种形式存在——Token，也就是「最小语义单元」。

当你输入一段文字时，应用程序会将文字拆解为数以万计的Token，然后再丢到处理核心中进行计算。这个过程是否很眼熟？没错，整个逻辑与GPU渲染一个箱子其实是一样，将一个任务拆分成大量的小任务，然后根据AI模型的逻辑推理来整合结果并输出答案。

可以说，在AI时代的数据中心里，GPU就是整个AI算力矩阵的核心，其重要性要远远超过CPU，而掌握着最先进GPU的厂商，将成为半导体领域的无冕之王。

GPU为王、CPU为辅，群雄逐鹿AI计算

在目前的AI市场中，大多数人都认可一个观点：英伟达就是AI算力的代名词。不管是每秒可以进行数十万亿次浮点运算的H100，还是目前最强的消费级AI显卡RTX 4090，都让英伟达成为商业领域和消费领域无可争议的NO.1。

特别是在消费领域，英伟达已经成为个人AI计算机的唯一选择，其背后的原因就是英伟达的「杀手锏」——CUDA。CUDA是由NVIDIA开发的并行计算平台和编程模型，他的作用是允许开发者利用英伟达GPU的强大并行计算性能来执行通用计算任务。

图源：英伟达

看完上一章节的朋友，估计会有点蒙，为什么要用GPU来执行通用计算任务？这不是CPU的工作吗？没错，通用计算任务确实是CPU的强项，但是俗话说得好：三个臭皮匠，顶个诸葛亮。当GPU的并行算力强大到一定程度，那么只要有一个可以进行任务转换的模型，就可以将GPU算力运用在通用计算任务里。

与此同时，英伟达还为CUDA提供了丰富的工具和库，以及各种运算模型，让使用英伟达GPU的开发者可以大幅度节省开发时间，并且更好地发挥GPU性能。正是利用CUDA对并行算力的支配，使得英伟达GPU可以在个人电脑里有效执行各种通用计算任务，为用户提供足以支撑本地AI大模型部署的AI算力。

那么AMD就没有类似的工具吗？其实是有的，名为ROCm，ROCm的前身Radeon Open Compute其实早在2016年就已经发布，主要用于通用 GPU 计算（GPGPU）、高性能计算（HPC）和异构计算等领域。但是因为缺乏足够的支持，所以生态规模远远无法与CUDA相比，而在生成式AI爆火之后，AMD很快就意识到了Radeon Open Compute的重要性，将其更名为ROCm并投入大量的资源进行更新。

图源：AMD

作为一个AMD显卡用户，其实在过去的两年里是可以明显感受到AMD在AI领域的进步，曾经只能通过转译方式运行本地AI模型的AMD显卡，如今已经可以借助ROCm的工具，实现原生本地AI模型部署和运算，效率和算力都有着质的变化。

虽然还无法与CUDA相比，但是已经让人看到了些许的希望，更何况从价格上来说，性能相近的AMD显卡价格往往只要英伟达显卡的80%甚至70%。这也意味着AMD只要可以解决通用计算模型的问题，那么就可以为个人及小型企业提供更具性价比的选择，吃下相当一部分AI显卡市场。

不过在ROCm成熟之前，英伟达都仍然会是消费级AI市场的最佳选择。

与消费级市场不同的是，AMD在服务器市场的增长却十分迅猛，Data Center Dunamics的数据显示，2024年第一季度，AMD的数据中心业务创下内部收入的新纪录，同比增长达38%。而在第二季度，AI服务器的出货量同比增长41.5%，占整体出货量的12.2%。

虽然从整体的市场份额来看，英伟达仍然占据着90%以上的市场，但是AMD也并非唯一的挑战者。

谷歌前段时间推出的TPU（Tensor Processing Unit）芯片就专门用于加速机器学习和深度学习任务，采用Arm架构设计，在性能和能效上都有出色表现，已经被运用在谷歌的多项AI服务中。

而英特尔则是通过收购Habana Labs拿到了Gaudi AI加速器，结合新一代至强处理器的AI加速功能，紧密布局CPU AI领域。这个市场的规模同样不小，因为并非所有数据中心都以AI为核心应用，新一代CPU数据中心可以更好地兼顾通用型计算任务和AI计算任务，减少重复建设数据中心的成本与维护花销。

此外，英特尔也一直在关注移动PC的AI需求，这是英伟达目前最为弱势的市场，因为英伟达GPU虽然有着出色的AI算力，代价却是极高的功耗，无法满足移动PC的长续航要求，这就为英特尔等厂商留下了可乘之机。

在今年的IFA上，英特尔就推出了内置新一代NPU（AI加速核心）的酷睿Ultra 200v系列处理器，提供强大算力支持的同时还兼顾了长续航等要求，与高通等新一代Arm PC处理器在AI PC市场展开激烈争夺。

短时间来看，英伟达在AI算力市场的优势仍然巨大，但是长远来看，群狼环伺之下的AI市场，英伟达双拳难敌四手。诸如移动PC、智能终端等英伟达的弱势市场，很快就会被其他厂商瓜分干净，而关键的服务器市场也并非高枕无忧，AMD的MI300系列AI显卡份额增长迅速，已经足够引起英伟达的警觉。

不过，竞争所带来的创新与发展，才是科技进步的关键，随着AI领域的竞争加剧，实际上也在推动AI成本的下降，让AI技术得到更快、更广泛的应用。最后，我想用吴泳铭先生演讲中的一句话来作为结尾：