腾讯发布星脉网络2.0 大幅提升AI大模型训练效率

来源：AIbase 更新时间2024-07-03 09:15:48 点击数：

腾讯近日发布了自研星脉网络2.0版本，这一重大升级为大规模人工智能模型训练带来了显著的性能提升。新版本在网络规模、硬件性能、通信协议和故障诊断等多个方面都实现了突破。

据了解，网络规模方面，星脉网络2.0支持单集群10万卡组网，为大规模AI训练提供了强大的基础设施支持。这一扩展为未来更大规模的AI模型训练奠定了基础。

在硬件升级方面，腾讯自研交换机容量从25.6T提升到51.2T，实现了容量翻倍。同时，自研硅光模块速率从200G升级到400G，速率也提升了一倍。新版本还搭载了自研算力网卡，使整机通信带宽达到3.2T，居业界领先水平。这些硬件升级为网络性能的大幅提升提供了坚实的基础。

通信协议方面，腾讯推出了全新的TiTa2.0协议，其部署位置从交换机转移到了网卡上。同时，拥塞算法也升级为主动拥塞控制算法。这些优化使得通信效率提升了30%，大模型训练效率提升10%。

此外，腾讯还推出了全新的高性能集合通信库TCCL2.0。该库采用NVLINK+NET异构并行通信技术，实现了数据的并行传输。配合Auto-Tune Network Expert自适应算法，系统可以根据机型、网络规模、模型算法等差异，自动调整各种参数。这一升级使得通信性能再次提升30%，大模型训练效率额外提升10%。

值得注意的是，TiTa与TCCL的升级效果叠加，使得星脉网络的通信效率总共提升了60%，大模型训练效率总体提升20%。这一显著的性能提升，将大大加速AI模型的训练过程，为研究人员和开发者提供更高效的工作环境。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Tag： AI 大模型腾讯 AI训练

腾讯发布星脉网络2.0 大幅提升AI大模型训练效率

随便看看

推荐文章

中关村AI北纬社区启动“一人公司”创业加速营

特斯拉上海急聘AI科学家，FSD入华匹配本土算力中心

马斯克称中国有望在AI和制造业领域“完全占据主导地位”

靠AI做一人公司 (OPC)，如何实现千万级营收？

深圳兴起“一人公司”创业模式的原因