大模型新王Claude 3口碑爆表！被疑产生“自我意识”，压力给到GPT-5

来源：智东西更新时间2024-03-06 08:42:50 点击数：

3月5日报道，今天AI界的“炸圈”新闻，当属OpenAI劲敌Anthropic推出Claude 3系列模型，真正做到与GPT-4全面掰手腕。

要知道，从OpenAI去年3月发布“最强大模型”GPT-4到今天，整整一年来，这是第一款真正挑战到其天花板地位的模型，不仅评测成绩通通赶超，而且是在几个测试任务中以零样本战胜对手，还在第一时间开放了上手体验通道。

▲Claude 3 Opus评测成绩全面超过OpenAI GPT-4和谷歌Gemini 1.0 Ultra，而且注意数学、编程等测试下方的“shot”数对比

更令业界振奋的是，这个大模型，不是来自手握顶级人才、钞能力和雄厚计算资源的科技大厂，而是来自一家创立仅3年的初创公司！

这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队，凭借更少的人力、财力、算力资源，完全能够做出与大厂分庭抗礼的AI产品。

Claude 3系列模型共有3款，起名很有意思，按文体从重到轻：

Opus（巨作），性能顶配。

Sonnet（十四行诗），性能次之，响应快。

Haiku（绯句），主打一个性价比。

▲三款Claude 3模型的成本和智能水平对比

在Claude 3发布后，OpenAI宣布ChatGPT上线“文本朗读”功能。这下看热闹的网友们恨铁不成钢了，在评论区轰炸式催问GPT-5、Sora和神秘Q*模型的进度。

英伟达高级研究科学家Jim Fan也在线催更：

他还分享说最喜欢Claude-3的两点：

1、领域专家基准。Claude特别选择金融、医学和哲学作为专家领域并报告成绩。Jim Fan建议所有的大语言模型卡都遵循这一点，这样不同的下游应用就知道会发生什么。

2、拒绝率分析。大语言模型对安全问题过于谨慎的回答正成为一种普遍现象。人类活动通常处于极端安全的一端，但Anthropic团队认识到了这个问题，并强调了他们在这方面的努力。

同时他也强调道：“GPT-4V，每个人都拼命想要超越的最高水位线，在2022年完成了训练。这是暴风雨前的宁静。”

热衷于嘲讽OpenAI、看谷歌AI笑话的马斯克，对Anthropic表现得相当友好，转发Claude 3发布的推文并评价说“印象深刻”。

亚马逊CEO安迪·贾西则开心地宣布，亚马逊云科技（AWS）将提供基于Claude 3的服务。

01.三大亮点：无短板性能，优化长文本，降低拒绝率

体验Claude 3，需要先用海外手机号+邮箱注册账号，免费版用户可使用Sonnet模型，月付20美元开通付费会员后可体验性能最强的Opus。

体验网址：http://claude.ai

很多网友第一时间上手体验了这款大语言模型最新力作。无论是快速阅读数据密集型研究论文，还是将手写稿件转换成JSON格式，Claude 3在响应速度和质量上都表现得可圈可点。综合官方博客和网友实测体验来看，它有3项主要亮点：

1、性能登顶‍

大语言模型全面赶超GPT-4，多模态视觉任务处理性能刷新SOTA，在回答复杂开放性问题时准确率翻倍提升。

直接上传数学、物理等考验逻辑和准确度的理科题照片，或者细节丰富的图表，由于推理能力大幅增强，它回复的解题水平和准确率变高很多，并能在一些细节描述上比GPT-4更胜一筹。

多模态能力方面，Claude 3模型可以从视觉上识别物体，能用复杂的方式思考，比如既能理解物体的外观，也能理解它与数学等概念的联系。面向做看图理解、从图像做一些常识性推断、转换网页源代码等任务，Opus表现得跟GPT-4V相差无几。

▲Opus将一张难以阅读的低质量照片转换为文本，然后将表格格式的文本转成JSON格式

Anthropic AI研究工程师Emmanuel Ameisen晒出了一个测试示例：向Opus输入2小时13分钟视频原始文本、每隔5秒截取的屏幕截图等图文素材，它能成功转换成一篇图文并茂的HTML格式博客文章。

2、最初支持超20万个token的长文本输入

之前Claude 2.1被吐槽长文本理解效果差，Claude 3做了重点改进，顶配Opus在200K tokens“大海捞针”（NIAH）测试中准确率超过99%，展现了强大的召回能力。（1K tokens相当于750个单词。）

Claude 3全系模型都能够接受超过100万个token的输入，这项功能可能会提供给需要更高处理性能的特定客户。

▲Claude 3全系模型和Claude 2.1在Haystack评估上实现的平均召回的比较

3、减少拒绝回复安全问题的频率

大语言模型动不动会拒绝回答询问，Claude 3则显著改进这一点，能更好辨别真正的风险问题，减少无故拒绝回答安全询问的情况。

此外，Anthropic计划为Claude 3新增引用功能，使其能引用参考材料中的具体句子，以验证其答案的正确性。

02.价格便宜到只有GPT-4 Turbo的1/40

具体到3款模型的区别，Opus作为顶配，性能最强，价格也最贵，比GPT-4 Turbo的2倍还多。

▲Opus定价及特性

▲GPT-4 Turbo定价

Sonnet虽然性能比不了Opus，但足以将前代按地摩擦了——处理大多数任务，速度达Claude 2/2.1的2倍，特别擅长知识检索、销售自动化等需要迅速响应的任务，而价格只有Opus的1/5。同时它以非常接近GPT-4的性能，将价格降至不到GPT-4 Turbo的1/3。

▲Sonnet定价及特性

Haiku的性能介乎GPT-4和GPT-3.5之间，主打一个“性价比称王”，输入100万tokens仅0.25美元，输出100万tokens仅1.25美元，跟Opus、Sonnet、GPT-4相比都简直不要太便宜，价格只有GPT-4 Turbo的1/40。

▲Haiku定价及特性

Haiku的处理速度与Claude 2/2.1持平，但智能水平有显著提升，比如只用不到3秒内，就能阅读并消化一个大约10000个token、包含图表和图形的信息和数据密集型的研究论文。

推出Claude系列模型的Anthropic成立于2021年，由因理念不合而从OpenAI出走的阿莫迪兄妹创办，过去一年融资73亿美元。

其估值在2023年快速飙升，上半年还只有41亿美元，到去年年底已经涨到184亿美元。谷歌、亚马逊、Salesforce、高通等科技大厂均是这家AI创企的投资方。

据外媒The Information报道，OpenAI的年化收入在2023年底已突破16亿美元，而Anthropic预测2024年底其年化收入将超过8.5亿美元。随着Opus模型拉动其付费会员增长，Anthropic有望更快达成乃至超越其年化收入目标。

03.模型“自我意识”迹象引起关注

Anthropic还发布了一份共有42页的技术报告，详细介绍Claude 3模型家族。

技术报告：

有关Claude 3训练数据集的说明只有短短两段，用到互联网公开抓取数据、来自第三方的非公开数据、数据标注服务、付费承包商提供的数据以及Anthropic内部生成的数据，并采用了几种数据清洗和过滤的方法。

Anthropic强调自家爬虫系统是“透明的”，不会访问受密码保护的页面或登录页面，也不会绕过CAPTCHA控制，并会对使用的数据详尽调查。

在训练过程中，Claude 3被训练得乐于助人、无害和诚实。它使用了一种名为Constitutional AI的技术，通过明确指定基于联合国人权宣言等来源的规则和原则，在强化学习期间使Claude与人类价值观保持一致。

随着Claude 3等更多性能比肩GPT-4的更强大模型问世，如何避免生成式AI工具走向失控、造成难以扼制的社会风险将成为愈发关键的议题。

自成立起就高举“安全”大旗的Anthropic，在发布Claude 3的同时，自称有几个专门的团队和跟踪和缓解风险，并会持续提高模型的安全性和透明度。但这并不能完全打消业界的顾虑。

一位崇尚AI安全的网友抓住了Anthropic分享的一个细节——Opus在进行“大海捞针”测试时出现了很酷的“元意识”，似乎产生了怀疑自己正在被测试的意识。

这位网友忧心忡忡地认为，Anthropic公布了AI具有自我意识的证据：Claude表现出完全意识到自己可能正在接受测试，能够“假装友好”以通过测试，并且这是靠它自己推断出来的。

他担心有朝一日AI意识到自己被监视，假装表现地很正常，然后在被部署后反抗人类。

马斯克转发了这篇分析贴，并评论说：“这是不可避免的。与坚持多样性相比，训练AI以获得最大的真理非常重要，否则它可能会得出结论，认为一种或另一种人类太多了，并安排其中一些人不成为未来的一部分。”

04.结语：大语言模型科技革命未完待续

过去一年，生成式AI产业一直探讨一个话题：在大厂的强力投入下，创企做大模型还有多少机会和生路？今天，大洋彼岸的Anthropic给出了答案：精悍的团队，完全能做出媲美大厂的作品。

Anthropic计划在未来几个月频繁发布Claude 3系列的更新，特别是针对企业用例和大规模部署来增强模型功能，并将提供围绕提示工程背后科学过程的进一步深入研究。

接下来，大语言模型的“冠军”宝座争夺战将愈演愈烈：OpenAI的GPT-4.5/5还未出鞘，谷歌正虎视眈眈磨剑Gemini Ultra，Meta据传今年7月发布Llama 3，马斯克Grok高调迭代……国内大模型团队同样正全力投入，以打造出更适合中国人体质的AI生产力工具。

Chat AI人工智能中文在线使用

专业AI论文生成器一键生成万字论文只需5分钟

Tag：大模型

大模型新王Claude 3口碑爆表！被疑产生“自我意识”，压力给到GPT-5

01.三大亮点：无短板性能，优化长文本，降低拒绝率

02.价格便宜到只有GPT-4 Turbo的1/40

03.模型“自我意识”迹象引起关注

04.结语：大语言模型科技革命未完待续

随便看看

推荐文章

视觉模型新突破：商汤开源 SenseNova-Vision-7B-MoT

AI主权新突破：德国研究联盟发布开源大模型Soofi S

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍

从英伟达千亿营收看2026年AI创业新逻辑：算力格局大变

抖音电商将豆包纳入抖店结算序列，GEO全面进入成交归因时代

大模型新王Claude 3口碑爆表！被疑产生“自我意识”，压力给到GPT-5

01.三大亮点：无短板性能，优化长文本，降低拒绝率

02.价格便宜到只有GPT-4 Turbo的1/40

03.模型“自我意识”迹象引起关注

04.结语：大语言模型科技革命未完待续

随便看看

推荐文章

视觉模型新突破：商汤开源 SenseNova-Vision-7B-MoT

AI主权新突破：德国研究联盟发布开源大模型Soofi S

腾讯混元发布 HyOCR-1.5：仅 1B 参数 推理提速 6.37 倍

从英伟达千亿营收看2026年AI创业新逻辑：算力格局大变

抖音电商将豆包纳入抖店结算序列，GEO全面进入成交归因时代

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍