大语言模型推理能力被高估了在不熟悉场景中有很大的弱点

来源：互联网更新时间2024-07-12 13:52:55 点击数：

近期，麻省理工学院（MIT）的研究团队对大型语言模型(LLMs)进行了深入的研究，探讨它们在不同任务下的表现。他们发现，尽管这些模型在一些常见的任务上看起来很出色，但实际上它们的推理能力常常被高估，尤其是在面对不熟悉的情境时。

微信图片_20240219142312.jpg

图源备注：图片由AI生成，图片授权服务商Midjourney

研究团队主要比较了“默认任务”和“反事实场景”。默认任务是模型训练和测试中常用的任务，而反事实场景则是与这些默认条件偏离的假设情况。为了测试模型在不同情况下的表现，研究人员通过调整现有的任务设计了一系列挑战，以观察它们的真正能力。

研究结果显示，LLMs在熟悉的环境中表现得游刃有余，但当任务稍作变动，进入未知领域时，它们的表现却大幅下滑。例如，在处理算术运算时，模型在十进制上表现良好，但当转到其他进制时，它们的表现就变得不稳定，甚至无法超越随机猜测。

不仅仅是算术，研究还涉及了音乐和弦指法、空间推理以及国际象棋等多个领域。人类玩家在稍微改变棋盘状态的情况下依然能够判断棋子的合法性，而模型却面临严峻挑战。这表明，LLMs在这些任务中不仅依赖于其内在的逻辑推理能力，很多时候是直接记忆了训练数据中的内容。

MIT研究团队的主要作者表示:“我们发现大型语言模型在熟悉的场景中表现良好，就像走在一条老路上，但当环境变得陌生时，它们就显得无能为力。”这项研究的发现对未来模型的设计具有重要启示，尤其是在提升模型的适应性和应对多样化场景的能力方面。

尽管这项研究提供了重要的见解，但仍然存在一些局限性。研究主要集中在特定任务和环境，未能涵盖模型在真实世界应用中可能遇到的所有挑战。因此，未来的工作可能需要扩大任务范围和测试环境，以发现更多潜在的弱点。

总的来说，这项研究为我们理解大型语言模型的能力提供了新的视角，也为未来的研究指明了方向，尤其是在提高模型的鲁棒性和泛化能力方面。随着人工智能在我们生活中的应用越来越广泛，理解和提升这些模型的适应能力显得尤为重要。

Chat AI人工智能中文在线使用

Tag：语言模型

随便看看