ChatGPT o1满血版上线,实测中它竟然败给了文心Kimi?

来源:微信公众号 价值研究所 更新时间2024-12-09 09:48:12 点击数:

当地时间12月5日,OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了,只是那时候还叫o1-preview,仅开放了o1模型的部分功能,如今新版本去掉了preview,也意味着o1模型的满血版终于正式上线。

图源:雷科技 

从简单的测试来看,满血版的o1模型已经支持图片和文件上传,而此前是只能进行文字输入,也就是新增了多模态理解,不过网页搜索功能仍未上线,这点倒是让人感到遗憾。 

对于o1满血版的提升,OpenAI的CEO奥特曼用一个简单的柱状图给出了对比:可以看到o1在数学推理和编程领域的表现要明显优于o1-preview,提升幅度在50%左右,而在科研领域的测试里,o1相对于o1-preview的表现就提升有限了。

图源:OpenAI 

考虑到o1模型不需要额外加钱就能使用,对于有需求的用户来说还是很超值的,只是OpenAI这次醉翁之意不在酒,相较于免费升级的o1,全新的o1-pro才是重头戏。不过,想要用上o1-pro,得订阅新的200美元套餐才能优先使用,这也是目前AI领域中针对个人用户的最昂贵订阅方案。 

从OpenAI给出的性能对比图来看,o1-pro在o1的基础上确实有所精进,但是提升幅度并不大,对于普通用户来说,o1模型就完全可以满足日常使用了,压根没有必要为了o1-pro订阅200美元的套餐。 

当然,200美元套餐提供的不只是o1-pro,还有无限制使用o1模型和高级语音功能的权限(o1-pro不在此列,估计使用次数仍有上限),如果你觉得o1的提问额度完全不够用,那么200美元的套餐就是个人用户的唯一选择了。 

既然有了新的模型,那么肯定是要来测试一下的。雷科技此次测试主要还是针对o1满血版的多模态能力,同时也请来了两位国产AI友情参赛(kimi和文心一言)。

01 o1满血版实测体验并非「无敌」

o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题: 

假设一个公司生产某种商品,生产成本与产量的关系为C(x) = 3x^2 - 2x + 5(单位:万元),其中x是产量(单位:千件)。市场售价与产量的关系为 P(x) = 50 - 0.5x(单位:万元/千件)。  

 1. 求该公司生产 x千件商品时的总利润函数 L(x)。   

 2. 确定该公司应生产多少千件商品以实现最大利润,并计算最大利润是多少。 

首先看看国产AI的回答: 

kimi 

文心一言 

国产AI都给出了相同的答案:188.14万元,那么再来看看ChatGPT-o1的。 

o1 

o1模型给出的答案也是188.14万元,与问题本身的标准答案一致,三个AI都通过了测试。不过大家从回答的截图里,其实也能看出不同,o1模型展示了大量的推算过程,更方便用户检查推理的过程是否正确。

这也与o1模型的主要用途有关,本质上o1模型上为科研等用途设计的,所以在展示答案的时候会更注重于推理过程及正确性,而非只输出正确的答案。 

接下来我们试试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题: 

还是惯例先看看国产AI的回答: 

kimi 

文心一言 

两个国产AI分别给出了A和B的选项,其中kimi的推理过程非常长,直接把这道小学奥数题以高等数学的方式进行了解析。 

下面看看o1模型的回答: 

o1 

o1模型给出的答案也是B,那么是否说明kimi算错了?答案并不是,这道题的正确答案其实是A,换言之o1和文心一言都算错了。文心一言因为没有给出详细推理过程,所以无法看出是在哪一步算错了,而o1模型显然是在分析图片时,错误的判断了图形的集合数量,最终导致答案推理错误。 

在这个问题上,其实就可以看出AI大模型在处理类似的图形问题时,解题的思路是不同的,文心一言和o1都试图通过直接找出图片的规律来计算答案,也就是类似于人类解题时的思路,而kimi则是直接将图形等式转化为方程式,然后进行计算。 

从效率来说,o1和文心一言的推理方式肯定是更节省算力的,但是如果分析拆解能力没有跟上,那么就会像这次一样得出错误的答案,而kimi的推理过程虽然会耗费更多的算力,但是也保证了答案的准确度。

站在企业角度来看,为了提高推理效率并降低推理成本,采用图形推理方案自然是最佳选择。但是考虑到o1本身的高级模型属性,以及OpenAI给出的科研助手定位,如果还为了节省算力而给出错误的答案,恐怕就难以说服用户了。

下面再来看看编程方面的表现,题目并不算难: 

我想制作一个软件,这个软件可以每个小时检查一次电脑的网络连接状态,如果网络连接中断就重启电脑,如果网络连接正常就保持现状 

两个国产AI都很快就给出了答案: 

kimi 

文心一言 

因为要求很简单,简单测试后虚拟机都提示成功运行。不过,可以看到两个国产AI的回答有些许不同,kimi在代码中用灰色字体进行了注释,而文心一言则是通过额外的注意事项进行提醒,并且还提醒要安装运行库,并给出了更多的编程建议。 

那么o1模型呢?答案如下: 

o1 

从o1模型的回答来看,它是分三个部分完成的回答,首先给出实现思路,然后给出示范代码并进行注释,最后再对代码的编写过程进行分析,同时提供了测试思路和备选方案,算是集中了两个AI各自的优势,对于初学者来说,o1模型的体验或许会更好一些。 

从生产力的角度来说,o1模型在特定领域的表现确实出色,但是国产AI的表现也不算差,其中kimi更是让人感到惊喜,是唯一答对全部测试题目的AI。

测试到这里,本来可以告一段落了,不过我还想看看在日常领域,o1模型的表现和普通模型又会有什么区别呢? 

所以,我又出了一道附加题,从网络上搜索了一个草莓馅饼的照片,然后询问AI如何制作照片里的甜点。 

kimi 

文心一言

o1 

三个AI都很轻松识别出了甜点的类型,并且给出了相似的配方,不过o1模型的回答则是详细到了每一个步骤的操作方式和注意事项,相对来说国产AI的步骤说明就简单很多了。如果是有一定烘培经验的人,国产AI的菜谱是够用了,但是对于一个新手来说,o1模型的菜谱成功率显然会高很多。 

02 AI的下一步是学会真正的「思考」

总体来看,o1模型在回答的细致度等方面确实有着明显的优势,在一些需要查看推理过程或者得到更详细回答的场景中体验会好很多。但是从答案的准确度来看,o1对比目前的国产AI其实也没有多少优势,表现还不如kimi。

而且国产AI也可以通过追问等方式,得到更详细的回答和推理过程,o1模型在多数场景下其实都没有明显的优势,比如我在日常使用ChatGPT时,很多时候ChatGPT-4o就可以满足需求,只有极少数情况下会用到o1模型。 

作为一个ChatGPT的长期用户,我认为o1模型其实更适合科研人员及金融分析师等职业,他们在日常工作中会用到大量数学工具并进行多次推理。此时,o1模型那经过针对性训练的多步骤推理流程,在解决这些问题时表现会比普通AI好不少。 

至于o1-pro,其实从我查询到的其他用户测试结果来看,回答的质量与o1模型并没有太大区别,两者的差距主要是o1-pro可以调用更多的算力,反复验算答案的正确性,并且尝试给出更详细的推理过程。 

实际上AI大模型发展到现在的阶段,其实又开始出现细分化的苗头,在此之前不少AI企业都希望去打造一个大而全的多模态模型,但是却发现成本很高且效果并不算好,诸如「幻觉」等问题一直难以解决。 

而ChatGPT-o1无疑给出了另一个解法,在算力足够的情况下,可以让AI先对问题进行一次深度的「思考」,再根据思考的结果去进行推算。你可以这么去理解,o1是先尝试分析问题本身,再根据分析结果去解决问题,而普通AI则是直接对问题进行关键词拆解,然后根据算法调用对应的数据并组合输出,这种方式虽然回应速度快,但是回答的准确度却难以保证,特别是面对一些复杂的问题时。 

所以,我们可以看到kimi和文心一言其实也在通过不同的方式去让AI学会「思考」,而不是根据算法和数据强行组合答案。kimi的表现更是给我留下了深刻的印象,作为数学测试环节唯一回答全对的选手,无需付费就可以使用,性价比和体验都拉满了。 

老实说,如果不是为了方便查询外文资料和关注AI的最前沿,ChatGPT的20美刀订阅性价比确实不高,免费的kimi和提供多种智能体及官方工具,更具有泛用性的文心一言都是更具性价比的选择。 

本文来自微信公众号 “价值研究所”(ID:jiazhiyanjiusuo),作者:TSknight


首页 AI对话 资讯 我的