通义千问数学模型Qwen2 Math Demo放出，72B版吊打GPT-4

来源：互联网更新时间2024-08-20 16:27:49 点击数：

阿里巴巴的"通义千问"团队又搞了个大新闻!他们刚刚放出了Qwen2Math Demo，这个数学模型简直是个小怪兽，连GPT-4都被它踩在脚下。

这个模型不仅能处理文字输入的数学问题，还能读懂图片和截图中的公式。想象一下，你拍个算式的照片，它就能给你解答，简直就是数学课上的做题神器啊!（当然，我们并不提倡作弊哦）

Qwen2-Math推出了三个版本:72B、7B和1.5B。其中72B版本简直是个数学天才，在MATH数据集上居然比GPT-4多得了7分，提高了9.6%。这就好比高考数学你考了145分，而你旁边的学霸只考了132分。

更厉害的是，7B版本用不到十分之一的参数量，就超过了72B的开源数学模型NuminaMath。要知道，NuminaMath可是在全球首届AIMO中获奖的模型，奖项还是由数学界的"顶级大佬"陶哲轩亲自颁发的。

阿里的高级算法专家林俊旸兴奋地宣布，他们把Qwen2模型变成了一个数学高手。怎么做到的呢?他们用了一个特制的"数学补脑液"——精心设计的数学专用语料库。这个"补脑液"包含了大量高质量的数学网络文本、书籍、代码、考试题目，甚至还有Qwen2模型自己"编"的数学题。

结果呢?在GSM8K、MATH等经典数学测试集上，Qwen2-Math-72B把405B的Llama-3.1都甩在了身后。这些测试集可不是闹着玩的，里面有代数、几何、概率、数论等各种数学难题。

不仅如此，Qwen2-Math还挑战了中文数据集CMATH和高考试题。在中文数据集上，连1.5B版本都能吊打70B的Llama3.1。而且，无论哪个版本，相比同规模的Qwen2基础模型，成绩都有明显提升。

看来，"通义千问"这次是真的问出了一个数学天才啊!以后做数学题，我们是不是可以问问它了?不过记住，这只是个工具，可别被它的聪明才智迷惑了眼睛，自己的数学功底还是得好好练啊!

Chat AI人工智能中文在线使用

Tag：通义千问

随便看看