Meta推出开源大语言模型Llama 3.1 405B，性能堪比GPT-4

来源：互联网更新时间2024-07-24 09:46:10 点击数：

昨晚，Meta公司宣布开源其最新大语言模型Llama3.1 405B。这一重磅消息标志着经过一年的精心筹备，从项目规划到最终审核，Llama3系列模型终于与公众见面。

Llama3.1405B是一个具有1280亿参数的多语言工具使用模型。该模型在8K上下文长度预训练后，进一步通过128K上下文长度持续训练而成。根据Meta的说法，这个模型在多项任务中的表现可与业界领先的GPT-4相媲美。

相较于先前的Llama模型，Meta在多个方面进行了优化:

405B模型的预训练是一项巨大挑战，涉及15.6万亿个标记和3.8x10^25次浮点运算。为此，Meta优化了整个训练架构，并调用了超过16，000块H100GPU。

为支持405B模型的大规模生产推理，Meta将其从16位（BF16）量化至8位(FP8)，显著降低了计算需求，使单个服务器节点也能运行该模型。

此外，Meta利用405B模型提升了70B和8B模型的训练后质量。在训练后阶段，团队通过多轮对齐过程完善了聊天模型，包括监督式微调（SFT）、拒绝采样和直接偏好优化。值得注意的是，大部分SFT样本都是使用合成数据生成的。

Llama3还整合了图像、视频和语音功能，采用组合方法使模型能够识别图像和视频，并支持语音交互。不过，这些功能仍在开发中，尚未正式发布。

Meta还更新了许可协议，允许开发者使用Llama模型的输出来改进其他模型。

Meta的研究人员表示:"能与业内顶尖人才一起在AI前沿工作，并公开透明地发布研究成果，是无比令人振奋的。我们期待看到开源模型带来的创新，以及未来Llama系列模型的潜力!"

这一开源举措无疑将为AI领域带来新的机遇和挑战，推动大语言模型技术的进一步发展。

Chat AI人工智能中文在线使用

Tag： Meta Llama 语言模型

随便看看