在2025年消费电子展(CES)上,NVIDIA 发布了全新的 Cosmos 平台,该平台旨在加速物理人工智能(AI)系统的开发,尤其是自主驾驶车辆和机器人。Cosmos 平台集成了生成式世界基础模型(WFM)、视频标记器、安全防护机制以及一个加速的数据处理管道,这些功能帮助开发者在减少对真实世界数据依赖的情况下创建和优化 AI 模型。
Cosmos 平台将以开放模型许可的形式在 Hugging Face 和 NVIDIA NGC 目录中提供,后续将推出经过优化的 NVIDIA NIM 微服务,并通过 NVIDIA AI 企业软件平台提供企业支持。
NVIDIA 首席执行官黄仁勋在展会上表示:“机器人技术即将迎来像 ChatGPT 那样的转折时刻。与大型语言模型一样,世界基础模型是推动机器人和自主驾驶车辆发展的核心,但并非所有开发者都有能力和资源来训练自己的模型。我们创建 Cosmos 就是为了让物理 AI 的开发更加普及,让每个开发者都能接触到通用机器人技术。”
Cosmos 模型可以根据文本、图像和传感器数据生成基于物理的高清视频,使其适用于视频搜索、合成数据生成和强化学习等应用。开发者能够定制模型以模拟工业环境、驾驶场景以及其他特定用例。此外,NVIDIA 还推出了 NeMo Curator,这是一个加速视频处理管道,能够在14天内处理2000万小时的视频数据,以及 Cosmos Tokeniser,这是一个视觉数据压缩工具。
Agility Robotics 的首席技术官 Pras Velagapudi 指出:“数据稀缺性和变异性是机器人环境成功学习的关键挑战。Cosmos 的文本、图像和视频到世界的能力使我们能够生成和增强各种任务的场景,从而在不需要过多昂贵的真实数据捕获的情况下训练模型。”
多家主要的机器人和运输公司,包括 Agile Robots、XPENG、Waabi 和 Uber,已经开始采用 Cosmos 进行 AI 开发。Uber 首席执行官 Dara Khosrowshahi 表示:“生成式 AI 将驱动未来的出行,既需要丰富的数据,也需要强大的计算能力。通过与 NVIDIA 的合作,我们有信心帮助加速安全、可扩展的自主驾驶解决方案的进程。”
除了 Cosmos,NVIDIA 还推出了 Llama Nemotron 大型语言模型和 Cosmos Nemotron 视觉语言模型,专为医疗、金融和制造等行业的企业使用而开发。