近日,谷歌和 OpenAI 之间的竞争再次升温。在新版 GPT-4o 刚刚登顶 AI 竞技榜后仅一天,谷歌便推出了最新的试验版模型 Gemini-Exp-1121,迅速夺回了冠军宝座。就在一周前,谷歌刚发布了 Gemini-Exp-1114,这似乎表明谷歌对 OpenAI 的动态反应非常迅速。
谷歌 DeepMind 的首席科学家 Jack Rae 对此表示,这是一场 “闪电战”,暗示着后期训练的迭代速度比预训练更为迅速。
根据官方信息,Gemini-Exp-1121在多个方面进行了显著提升,主要体现在代码能力、推理能力和视觉理解能力的增强。此外,该模型在复杂提示词的风格控制上,达到了与当前顶尖的 o1-preview 和 New Sonnet3.5相当的水平。
在实际测试中,Gemini-Exp-1121在处理漫画理解方面的表现也优于新版 GPT-4o,其回答更为全面,能够清晰使用小标题和重点加粗等方式进行信息呈现。而在经典的动物过河逻辑推理题中,Gemini-Exp-1121的回答完全正确,展现出更强的逻辑推理能力,反观新版 GPT-4o 则出现了一些失误。
与此同时,OpenAI 方面也在积极研发新功能,近期在最新版本的 ChatGPT 中发现了 “实时摄像”(Live Camera)视频功能的代码,这标志着其在语音和视觉识别方面的进步。OpenAI 用户在使用高级语音模式时也首次体验到这一能力,显示出其有意在未来扩大这一功能的应用。
可以预见的是,明年与 Chatbot 的主要交流方式可能会从传统的文字对话逐渐转向语音和更为智能的代理服务,这一转变将可能由 “实时摄像” 功能的推出引领。