苹果大模型MM1入场：参数达到300亿超半数作者是华人

来源：互联网更新时间2024-03-15 15:03:40 点击数：

苹果公司最新发布了一款名为MM1的大型多模态基础模型，拥有300亿参数，采用了MoE架构，并且超过一半的作者是华人。该模型在多模态领域具有重要意义，可能预示着苹果未来推出与此相关的产品。

今年以来，苹果明显加大了对生成式人工智能（GenAI）领域的投入，这一举措体现了苹果在GenAI领域取得重大进展的决心。据悉，苹果一部分转向GenAI的团队原本是从事造车项目的，而如今他们也开始投身于GenAI领域的研发工作。

论文地址:https://arxiv.org/pdf/2403.09611.pdf

MM1的发布引起了广泛关注。据论文介绍，该模型采用了MoE变体，并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验，探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现，图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。

在预训练数据选择方面，研究者发现了几个重要经验:交错数据对提高少样本和纯文本性能有帮助，而字幕数据则对提高零样本性能具有重要作用。

此外，纯文本数据对于提高少样本和纯文本性能同样至关重要。通过合理混合图像和文本数据，可以获得最佳的多模态性能，并保留较强的文本性能。研究者还发现，人工合成数据有助于少样本学习。

最终，研究者确定了MM1的最终配方，包括图像编码器、视觉语言连接器和预训练数据的选择。他们还将LLM的大小扩大到3B、7B和30B个参数，并通过专家混合（MoE）进一步扩展了模型。在监督微调实验中，MM1在多项基准测试上表现出了竞争力，并且MoE模型在几乎所有基准测试中均表现优于密集模型。

MM1的发布标志着苹果在多模态领域的重要进展，也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义，值得业界密切关注。

Chat AI人工智能中文在线使用

Tag：大模型苹果

随便看看