阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

来源：互联网更新时间2024-08-09 14:37:37 点击数：

近日，阿里云重磅推出了Qwen2-Math系列大型语言模型，这一专注于数学领域的AI新秀一经亮相就引发了业界的广泛关注。

作为Qwen2系列的最新成员，Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B模型在数学解题能力上展现出了令人瞩目的实力。据悉，这一系列模型不仅在多项数学基准测试中超越了现有的开源模型，更是在某些方面胜过了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B在内的知名闭源模型，堪称AI数学界的"黑马"。

Qwen2-Math的成功并非偶然。阿里云团队在过去一年里倾注了大量心血，致力于提升大型语言模型在算术和数学问题上的推理能力。这个系列模型的基础是Qwen2-1.5B/7B/72B，研发团队在此基础上，利用精心设计的数学专业语料库进行了深度预训练。这个独特的语料库涵盖了大规模高质量的数学网络文本、专业书籍、代码实例，以及海量的考试题目，甚至包含了由Qwen2自主生成的数学预训练数据。

特别值得一提的是Qwen2-Math-Instruct模型。这个基于Qwen2-Math-72B训练的数学专业奖励模型采用了创新的训练方法。研发团队巧妙地结合了密集的奖励信号和模型回答正确与否的二元信号，将这个组合信号作为监督信号，通过拒绝采样构建SFT（Supervised Fine-Tuning）数据，并在SFT之后的强化学习中应用了组相对策略优化(GRPO)技术。这种独特的训练方法极大地提升了模型的数学解题能力。