大模型竟在“装傻”！研究发现它们知道正确答案却故意说错

来源：AIbase基地更新时间2024-10-21 10:24:35 点击数：

一项由以色列理工学院主导的最新研究表明，大型语言模型（LLM）可能“深藏不露”，掌握的知识比实际表现出来的更多。研究人员发现，LLM 的内部表征编码了关于其输出正确性的信息，即使它们最终生成了错误的答案，也能在内部识别出正确答案。

该研究团队重点分析了 LLM 在长文本生成中的错误，这更贴近其在现实世界中的应用场景。他们构建了一个错误检测数据集，通过比较模型生成的答案与真实答案来判断其正确性，并以此为基础，研究 LLM 内部表征中编码真实性信号的位置。

研究发现，与以往研究关注最后一个生成标记或平均值不同，真实性信息集中在“精确答案标记”中，即那些修改后会改变答案正确性的标记。以问题“康涅狄格州的首府是什么?”为例，精确答案标记就是“哈特福德”。

为了识别精确答案标记，研究人员使用了一种外部算法，该算法能够从模型的长篇答案中提取精确答案。实验结果显示，所有被评估的 LLM 都能够从自身的输出中提取精确答案。

通过对不同模型和数据集进行实验，研究人员发现，使用精确答案标记可以显著提高错误检测方法的性能，尤其是在探测模型内部表征时。

更令人惊讶的是，即使当模型在生成过程中没有表现出对正确答案的偏好时，探测器依然能够有效地识别出正确答案。这表明 LLM 的内部编码和外部行为之间存在显著的脱节，即使模型内部知道正确答案，它在实际生成文本时仍然可能给出错误的答案。

这项研究对 LLM 的错误分析和改进具有重要意义。通过深入理解 LLM 内部表征中真实性信号的编码方式，可以开发更有效的错误检测和校正方法，从而提高 LLM 的可靠性和实用性。

Chat AI人工智能中文在线使用

Tag：大模型

随便看看