最强开源模型来了!Llama3.1以405B参数领先GPT-4o

来源:互联网 更新时间2024-07-24 09:49:43 点击数:

在人工智能的世界里,开源与闭源的较量从未停歇。而今,Meta AI的Llama3.1模型的发布,似乎为这场较量画上了分水岭。这不仅仅是一个模型的发布,更是开源AI走向成熟的标志,预示着一个全新的时代即将到来。

image.png

Llama3.1是由Meta AI团队开发的新一代大型语言模型。在150多个基准测试中,其405B参数版本的表现不仅追平了现有的最先进模型GPT-4o和Claude3.5Sonnet,更是在某些方面实现了超越。这一成就标志着开源AI模型首次在性能上与闭源模型并驾齐驱。

image.png

为了训练Llama3.1405B模型,Meta大幅优化了整个训练栈,并首次将模型算力规模扩展到了超过16000个H100GPU。采用标准的仅解码器的Transformer架构,并进行细微改动,通过迭代的post-training流程,每轮都有SFT(监督微调)和DPO(直接偏好优化),以提高性能。

Meta提高了模型对用户指令的响应能力,增强了遵循详细指令的能力,同时保证安全性。在post-training阶段,进行多轮对齐,使用合成数据生成大部分SFT示例,并采用多种数据处理技术过滤数据至最高质量。

image.png

技术亮点:

  • 上下文长度扩展:Llama3.1将上下文长度扩展到了128K,这意味着模型能够处理更复杂的任务,理解更长的文本信息。

  • 多语言支持:模型新增了对八种语言的支持,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语,大大增强了模型的通用性。

  • 性能卓越:在常识、可操纵性、数学、工具使用和多语言翻译等方面,Llama3.1展现出了卓越的性能。

  • Llama3.1在超过15万亿个token上进行训练,这一规模的训练在业界尚属首次。

  • 模型架构:Llama3.1采用了标准的仅解码器的Transformer架构,并进行了细微的调整,以提高模型的性能。

Meta的CEO扎克伯格在接受采访时表示,开源AI将成为行业的转折点。他强调,开源AI在开放性、可修改性和成本效率方面具有优势,并将推动AI技术的普及和发展。

开源AI允许开发者自由地修改代码,保护数据安全,同时提供了运行效率高且负担得起的模型。此外,开源AI的发展速度快,有望成为长期标准。

Meta正与多家公司合作,发展更广泛的生态系统,支持开发者微调和蒸馏自己的模型。这些模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。

Llama3.1的发布预示着开源人工智能可能成为行业标准,为AI的普及和应用开辟新的道路。


Tag: Llama
首页 AI对话 资讯 我的