英伟达推出 Minitron 小型语言模型：训练速度提高40倍

来源：互联网更新时间2024-07-25 14:50:15 点击数：

最近，英伟达（NVIDIA）在人工智能领域又有了新动作，他们推出了 Minitron 系列的小型语言模型，包含4B 和8B 两个版本。这些模型不仅让训练速度提高了整整40倍，还能让开发者更轻松地使用它们进行各种应用，比如翻译、情感分析和对话 AI 等。

你可能会问，为什么小型语言模型这么重要呢?其实，传统的大型语言模型虽然性能强劲，但它们的训练和部署成本非常高，常常需要大量的计算资源和数据。为了能让更多的人能用得起这些先进技术，英伟达的研究团队想出了一个绝妙的办法:结合 “修剪”（pruning）和 “知识蒸馏”(knowledge distillation)两种技术，来高效地减小模型的规模。

具体来说，研究人员首先会从已有的大型模型出发，对其进行修剪。他们会评估模型中每个神经元、层或注意力头的重要性，并把那些不太重要的部分去掉。这样一来，模型就变得小巧了很多，训练时所需的资源和时间也大大减少。接下来，他们还会用一个小规模的数据集对修剪后的模型进行知识蒸馏训练，从而恢复模型的准确性。令人惊喜的是，这个过程不仅省钱，还能提高模型的性能!

在实际测试中，英伟达的研究团队在 Nemotron-4模型家族上取得了很好的成果。他们成功将模型大小减少了2到4倍，同时保持了相似的性能。更令人兴奋的是，8B 模型在多个指标上超过了其他知名模型，如 Mistral7B 和 LLaMa-38B，并且在训练过程中所需的训练数据少了整整40倍，计算成本节省了1.8倍。想象一下，这意味着什么?更多的开发者可以用更少的资源和成本，体验到强大的 AI 能力!

英伟达将这些优化过的 Minitron 模型开源在 Huggingface 上，供大家自由使用。