2024年,AI“芯事”迎来新节点。
近日,英特尔发布了新一代AI加速器Gaudi 3。英特尔声称,新款Gaudi 3芯片与英伟达H100芯片相比,推理能力平均提高50%,能效平均提高40%,运行人工智能模型的速度是H100的1.5倍。
据Intel Gaudi 3白皮书信息显示,这款产品将与英伟达最新的H200大致相当,在某些领域甚至表现更好。
除了芯片本身的“较劲”,英特尔还计划主动开放生态,试图打破英伟达的高墙。此前,英特尔高管接受采访时曾表示,英特尔“开放”的人工智能堆栈是与竞争对手英伟达的一大区别。
在Gaudi 3发布的几天后,市场就有消息传出,英特尔的Gaudi 3已经准备好了提供给中国市场的版本,将于6月份推出。时代周报就此消息向英特尔核实,不过英特尔方面没有具体回应。
相比国外芯片厂商“狂卷”,国内芯片厂商也正积极破局。
时代周报记者近日从CITE 2024((第十二届中国电子信息博览会)了解到,目前我国芯片供应仍然相对紧张。虽然国内已有企业推出智能算力芯片,在电商智能搜索、智慧工业、智能驾驶等部分推理场景已开展应用落地,在大模型训练应用尚处起步阶段。国内智能算力芯片综合性能较英伟达产品存在一定差距,但个别产品在自然语言、图像处理等算法上能力较强。
01 英特尔以“开放”突围
英特尔自2019年以来一直在制造Gaudi系列芯片,不过步伐始终比英伟达慢了两年。
2019年7月,英特尔推出的Gaudi 1加速器,在彼时规模还很小的AI市场中,对标英伟达2017年推出的Volta V100。随后,英特尔花20亿美金收购Habana Labs,并于2022年5月发布Gaudi 2。Gaudi 2采用7nm制程打造,英特尔宣称其工作负载量几乎是英伟达A100 80GB处理器的2倍,而A100 是英伟达在2020年发布的一款GPU平台。
英特尔近日推出的新一代Gaudi 3则采用了台积电(TSM.US)5nm工艺,对比上一代带来了4倍的BF16 AI计算能力提升,以及1.5倍的内存带宽提升。
据英特尔介绍,Gaudi 3对比H100推理能力平均提高50%,能效平均提高40%,运行人工智能模型的速度是H100的1.5倍。英特尔表示,这款产品将与英伟达最新的H200大致相当,在某些领域甚至表现更好。
尽管英特尔未透露Gaudi 3的定价信息,但相对于H100,英特尔表示Gaudi 3将提供更“有吸引力的价格”。该产品将于2024年第二季度面向OEM厂商出货。
英特尔此举被视为为抢占AI芯片市场份额而硬刚英伟达,因为英伟达刚一个月前宣布了GPU新核弹B200和超级芯片GB200。
但大家似乎只看到英特尔在参数上的“野心”,而忽略了藏于背后的开放策略。
当天和Gaudi 3同时发布的,还有英特尔面向开放的、可扩展的AI系统的战略,以及联合Anyscale、Articul8、DataStax等多家企业宣布创建的开放平台。即使是Gaudi 3,英特尔也强调其“开放性”,Gaudi 3提供开放的、基于社区的软件和行业标准以太网网络,允许企业灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。
过去十几年,基于x86架构的处理器在数据中心是绝对王者,而英特尔对X86架构有着绝对的控制。这种专有的处理器架构,最初由英特尔开发,用于早期的个人电脑(PC)。由于英特尔在PC市场的主导地位,X86架构成为了事实上的标准。英特尔一直保持对X86架构的控制,并且通过授权给其他公司生产和销售X86处理器来确保其生态系统的稳定和盈利。
近年来,随着市场发展和与其他处理器架构(如ARM、RISC-V)竞争加剧,英特尔已经开始采取更加开放和合作的策略。
从AI市场来看,目前英伟达在芯片市场占据着绝对优势,英特尔希望用产品撬走份额并不容易。富国银行统计显示,目前英伟达在数据中心AI市场拥有98%的市场份额,而AMD公司的市场份额仅有1.2%,英特尔则只有不到1%。而美国银行预计,未来Gaudi 3可能也仅将占据不到1%的AI加速器市场份额。
今年3月,英特尔全球渠道主管Trevor Vickers在接受CRN的独家采访时,谈到英特尔“开放”的人工智能堆栈是与竞争对手英伟达的一大区别,这也是让英特尔的CPU在快速增长的推理领域获得发展的机会。
“对我们来说,关键在于我们如何创建这些生态系统,使它们具有韧性、安全性、高性能并且是开放的,这是我们与合作伙伴能提供的非常重要的部分。”Trevor Vickers表示,英特尔希望拥有一个开放的AI堆栈,希望在将产品推向市场时秉持“一次编写,随处交付”的精神。
这种“一次编写,随处交付”指的是英特尔的oneAPI开放标准,该标准允许开发人员对不同类型的处理器使用单一的编程模型,无论是英特尔CPU、还是由英特尔或竞争对手制造的GPU,都与英伟达产品的专有性形成鲜明对比,目前英伟达的CUDA平台仅支持Nvidia设计的处理器。
02 或推出中国特供版?
英特尔与英伟达的在AI领域的博弈正深入腹地,中国则是其AI芯片应用的“主战场”之一。
在英特尔发布Gaudi3几天后,市场上就流传出消息称英特尔或于今年下半年推出两款专供中国市场的Gaudi 3 AI加速器芯片,只不过性能将大打折扣。时代周报记者就此向英特尔方面询问,但截至发稿并未得到具体回应。
去年7月,英特尔就发布了面向中国市场的Gaudi2。相比国际版Gaudi2,面向中国市场推出的加速卡在性能上差别不大,而集成以太网RDMA端口数量从24个端口减到21个,以符合美国芯片出口管制规定。
无独有偶,去年10月,英伟达也推出了三款基于其AI芯片H100的“降级版”芯片:H20、L20和L2,并计划在今年二季度量产。但据参考消息网,由于“中国特供版”AI芯片样品算力不足,相关公司已暗示英伟达,今年订购的英伟达芯片数量将远少于原计划。
近日,时代周报记者在CITE 2024上走访,从部分芯片代理商口中得知,目前他们手上销量较好的产品是英特尔和AMD的CPU,英伟达的产品只能卖中国特供版本。
“不过,也有不少人之前囤了很多H100芯片再转手卖,价格会相对贵一点。”一位代理商表示。
时代周报记者从超算行业相关人士了解到,有不少人手头囤积几十到上百片H100现货,以寻求在流通中获得价差。根据一位经销商报价,目前100多片H100芯片的大概价格在280多万美元左右。
中国信息通信研究院南方分院院长助理张昊在CITE 2024上表示,目前我国智能算力全球占比超30%,主要依赖美国英伟达GPU芯片,国产自主算力份额仅为5%,国内TensorfiowPyTorch、Caffe等美国AI框架使用率超过90%。
不过,张昊同时提到,当前国内已有企业推出智能算力芯片,在电商智能搜索、智慧工业、智能驾驶等部分推理场景已开展应用落地,在大模型训练应用尚处起步阶段。国内智能算力芯片综合性能较英伟达产品存在一定差距,但个别产品在自然语言、图像处理等算法上能力较强。
从性能来看,国产GPU在训练方面的性能是英伟达A100的50%,和英伟达H100存在两代以上差距;推理方面,与英伟达A10、T4性能接近,具备替代潜力。
从应用上来看,目前国内如昇腾、寒武纪、天数智芯主流芯片厂商已完成对主流大模型的适配。
“国产芯片加速与国内外大模型适配,具备10亿参数大模型预训练+微调,百亿参数大模型推理的能力。随着大模型种类收敛,以及大模型推理部署普及,国产GPU芯片组建的算力整机和集群有望在大模型调优、推理应用方面寻求市场开拓机遇。”张昊表示。