​DeepSeek推首款推理模型R1-Lite-Preview,性能超越 OpenAI o1

来源:AIbase基地 更新时间2024-11-21 10:31:44 点击数:

中国私募巨头幻方量化旗下的 DeepSeek,近日发布了其最新的推理专注型大型语言模型 R1-Lite-Preview。该模型目前仅通过 DeepSeek Chat 这一网页聊天机器人平台提供给公众使用。  

image.png

DeepSeek 以其在开源 AI 生态系统中的创新贡献而闻名,这次的新发布旨在为公众带来高水平的推理能力,同时保持对可访问性和透明性的承诺。尽管 R1-Lite-Preview 目前仅在聊天应用中可用,但它已凭借接近甚至超过 OpenAI 近期发布的 o1-preview 模型的性能引起了广泛关注。  

R1-Lite-Preview 采用 “链式思维” 推理,能够展示其在响应用户查询时所经历的不同思维过程。

尽管某些思维链可能对人类而言显得无厘头或错误,但整体而言,R1-Lite-Preview 的回答非常准确,甚至能够解决一些传统强大 AI 模型如 GPT-4o 和 Claude 系列遇到的 “陷阱” 问题,例如 “草莓” 这个词里有多少个字母 R?“9.11和9.9哪个大?”  

根据 DeepSeek 的说法,该模型在需要逻辑推理、数学思考和实时问题解决的任务中表现出色。其性能在 AIME(美国邀请数学考试)和 MATH 等已建立的基准测试中超越了 OpenAI o1-preview 的水平。  

image.png

此外,DeepSeek 还发布了模型的扩展数据,展示了在给予模型更多时间或 “思考令牌” 以解决问题时,其准确性稳步提高的趋势。图表强调,随着思维深度的增加,该模型在 AIME 等基准上的得分提升。  

目前,R1-Lite-Preview 的发布在关键基准中表现优异,能够处理从复杂数学到逻辑场景的一系列任务,得分与顶级推理模型如 GPQA 和 Codeforces 相当。该模型透明的推理过程让用户能够实时观察其逻辑步骤,增强了系统的责任感和可信度。  

image.png

值得注意的是,DeepSeek 尚未发布完整的代码供第三方独立分析或基准测试,也未提供 API 接口供独立测试,该公司尚未发布相关的博客文章或技术文档,说明 R1-Lite-Preview 的训练或构,这让其背后的起源依然充满疑问。  

R1-Lite-Preview 目前可以通过 DeepSeek Chat(chat.deepseek.com)免费使用,但其高级 “深思” 模式每天限量50条消息,用户可借此体验其强大能力。DeepSeek 计划发布 R1系列模型的开源版本和相关 API,进一步支持开源 AI 社区的发展。  

DeepSeek 继续在开源 AI 领域中推动创新,R1-Lite-Preview 的发布为其在推理和可扩展性方面增加了新的维度。随着企业和研究者探索推理密集型 AI 的应用,DeepSeek 的开放承诺将确保其模型成为发展和创新的重要资源。


Tag: ​DeepSeek 大模型
首页 AI对话 资讯 我的