今天,NVIDIA(英伟达) 宣布,与 xAI 合作打造的 Colossus 超级计算机集群正式上线,这可是全球最强AI训练集群Colossus,整整由10万颗 NVIDIA Hopper GPU 组成。
这个庞然大物之所以能达到这样的规模,得益于 NVIDIA Spectrum-X 以太网网络平台的支持。这个平台专门为多租户、超大规模的 AI 工厂设计,能够通过标准以太网实现远程直接内存访问,提供卓越的性能。
Colossus 主要用于训练 xAI 的 Grok 系列大型语言模型,同时还为 X Premium 用户提供聊天机器人服务。更令人兴奋的是,xAI 正在计划将 Colossus 的规模翻倍,届时将达到20万颗 NVIDIA Hopper GPU。
NVIDIA 的高级副总裁 Gilad Shainer 表示,AI 已经成为各行各业的关键需求,因此对性能、安全性、可扩展性和成本效率的要求也在不断提升。而 Spectrum-X 平台的出现,则为像 xAI 这样的创新者提供了更快的数据处理、分析和执行能力,从而加速 AI 解决方案的开发、部署和上市时间。
埃隆・马斯克也对此表示赞赏,他称 Colossus 为世界上最强大的训练系统,称赞了 xAI 团队、NVIDIA 以及他们的众多合作伙伴的努力。值得一提的是,Colossus 的搭建过程相当高效,仅用了122天就完成,而一般情况下,类似规模的系统可能需要数月甚至数年的时间才能完成。从第一台机架进入到培训开始,整个过程只花了19天。
在这个超级计算机的支持下,Spectrum-X 平台可以提供高达400Gbps 的带宽,显著提高数据传输速率,降低延迟。这个特性对那些需要快速数据处理和实时分析的企业至关重要。此外,Spectrum-X 还经过优化,专门支持 AI 应用,使数据路由和管理更为智能,从而提升整体系统性能。
Colossus 架构的设计旨在高效扩展,以应对现代应用产生的海量数据。同时,Spectrum-X 还关注可持续发展,力求在维持高性能的同时,减少数据中心的能源消耗,帮助组织降低碳足迹。