Meta AI新量化版本Llama 3.2：速度提高2倍、体量减少56%，手机就能运行

来源：互联网更新时间2024-10-25 10:02:53 点击数：

最近，Meta AI 推出了全新的量化 Llama3.2模型，包含1B 和3B 两个版本，这款模型可以在多种设备上进行微调、蒸馏和部署。

过去，虽然像 Llama3这样的模型在自然语言理解和生成方面取得了显著成就，但其庞大的体量和高计算需求使得很多组织难以使用。训练时间长、能源消耗高以及对昂贵硬件的依赖，无疑加大了科技巨头与小型企业之间的鸿沟。

Llama3.2的特点之一就是支持多语言文本和图像处理。1B 和3B 模型经过量化处理，平均可以缩小56% 的体积，并且在内存使用上减少了41%，并实现2-3倍的速度提升，非常适合在移动设备和边缘计算环境中运行。

具体来说，这些模型采用了8位和4位的量化策略，将原本32位浮点数的权重和激活精度降低，从而大幅降低了内存需求和计算能力要求。这意味着量化后的 Llama3.2模型可以在普通的消费级 GPU 甚至 CPU 上运行，而且在性能上几乎没有损失。

可以想象，用户现在可以在手机上进行各种智能应用，比如实时总结讨论内容或者调用日历工具，这些都得益于这些轻量级模型。

Meta AI 还与高通和联发科技等行业领先的合作伙伴合作，将这些模型部署到基于 Arm CPU 的系统单芯片上，确保能够在广泛的设备上高效使用。早期测试表明，量化 Llama3.2在主要的自然语言处理基准测试中达到了 Llama3模型效果的95%，而内存使用量减少了近60%。这对于希望在不投入高昂基础设施的前提下实现人工智能的企业和研究者来说，意义重大。

Meta AI 推出的量化 Llama3.2模型，不仅为提升人工智能技术的可及性迈出了重要一步，还解决了当前大规模语言模型应用中的一些核心问题，比如成本和环境影响。这种高效的模型发展趋势，必将在未来推动人工智能的可持续和包容性发展。

模型入口:https://www.llama.com/

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Tag：手机 Meta Llama

Meta AI新量化版本Llama 3.2：速度提高2倍、体量减少56%，手机就能运行

随便看看

推荐文章

中关村AI北纬社区启动“一人公司”创业加速营

特斯拉上海急聘AI科学家，FSD入华匹配本土算力中心

马斯克称中国有望在AI和制造业领域“完全占据主导地位”

靠AI做一人公司 (OPC)，如何实现千万级营收？

深圳兴起“一人公司”创业模式的原因