阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

来源:互联网 更新时间2024-08-09 14:37:37 点击数:

近日,阿里云重磅推出了Qwen2-Math系列大型语言模型,这一专注于数学领域的AI新秀一经亮相就引发了业界的广泛关注。

作为Qwen2系列的最新成员,Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B模型在数学解题能力上展现出了令人瞩目的实力。据悉,这一系列模型不仅在多项数学基准测试中超越了现有的开源模型,更是在某些方面胜过了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B在内的知名闭源模型,堪称AI数学界的"黑马"。

image.png

Qwen2-Math的成功并非偶然。阿里云团队在过去一年里倾注了大量心血,致力于提升大型语言模型在算术和数学问题上的推理能力。这个系列模型的基础是Qwen2-1.5B/7B/72B,研发团队在此基础上,利用精心设计的数学专业语料库进行了深度预训练。这个独特的语料库涵盖了大规模高质量的数学网络文本、专业书籍、代码实例,以及海量的考试题目,甚至包含了由Qwen2自主生成的数学预训练数据。

特别值得一提的是Qwen2-Math-Instruct模型。这个基于Qwen2-Math-72B训练的数学专业奖励模型采用了创新的训练方法。研发团队巧妙地结合了密集的奖励信号和模型回答正确与否的二元信号,将这个组合信号作为监督信号,通过拒绝采样构建SFT(Supervised Fine-Tuning)数据,并在SFT之后的强化学习中应用了组相对策略优化(GRPO)技术。这种独特的训练方法极大地提升了模型的数学解题能力。

image.png

在实际应用中,Qwen2-Math-Instruct展现出了令人惊叹的表现。无论是在2024年的AIME(美国邀请赛数学考试)还是2023年的AMC(美国数学竞赛),这个模型都在各种设置下表现出色,包括贪婪搜索(Greedy)、多数投票、风险最小化等策略。

image.png

更令人兴奋的是,Qwen2-Math在解决一些国际数学奥林匹克(IMO)级别的难题时也展现出了不俗的实力。通过对一系列测试案例的分析,研究人员发现Qwen2-Math不仅能够轻松应对简单的数学竞赛问题,在面对复杂难题时也能给出令人信服的解答思路。

然而,阿里云团队并未就此止步。他们透露,目前的Qwen2-Math系列仅支持英语,但他们已经在积极开发支持英语和中文的双语模型,并计划在不久的将来推出多语言版本。此外,团队还在持续优化模型,以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。

Qwen2-Math的横空出世,无疑为AI在数学领域的应用开辟了新的可能性。它不仅将为教育行业带来革命性的变化,帮助学生更好地理解和掌握数学知识,还可能在科研、工程等需要复杂数学计算的领域发挥重要作用。


首页 AI对话 资讯 我的