语言模型为何会产生幻觉

OpenAI：我们正在用考试规则，变相奖励 AI 胡说八道。

如果你经常使用大语言模型（如 GPT‑4、Claude、DeepSeek），一定遇到过这样的场景：

这就是大语言模型最令人头疼的问题之一：幻觉（Hallucination）——模型生成看似合理、实则错误甚至荒谬的内容。

很长一段时间里，业界普遍认为幻觉是模型能力不足、训练数据不干净或模型“太笨”导致的。但 OpenAI 在一篇官方文章《语言模型为何会产生幻觉》中给出了一个非常反直觉的结论：

幻觉的根本原因，并非模型能力缺陷，而是我们当前的评估体系在变相“奖励”猜测行为。

一、幻觉的根源：“猜比不说更划算”

OpenAI 认为，幻觉问题可以从两个环节来理解。

大语言模型的核心训练任务是预测下一个词。它从海量互联网文本中学习，而这些数据本身并没有“真/假”或“可信/不可信”的标签。模型学会的是如何说出更像人话的句子，而不是如何判断一句话是否真实。

这导致一个后果：模型在遇到自己不熟悉的、低频的或超出训练分布的事实（例如某个冷门论文的作者生日）时，依然会“努力”生成一个听起来合理的答案，而不是承认自己不知道。

如果只是训练目标的问题，我们完全可以通过更好的微调（如 RLHF）来抑制幻觉。但 OpenAI 指出，目前主流的模型评估方式，正在主动鼓励模型产生幻觉。

目前业界的默认做法是使用 “准确率” 作为核心指标。比如一个问答测试集有 100 道题，模型答对多少道，就得分多少。

这种评分方式会引发一个典型的“考试博弈”：

很显然，对追求高分的模型（和它的训练者）来说，“猜一下”的期望收益远高于“老实说不知道”。这个逻辑和学生在考试中盲目猜选择题一模一样。

结果就是：我们越是用准确率排行榜来比较模型，就越是在变相奖励幻觉。

OpenAI 用一组实验数据证明了这个观点：

模型	准确率	幻觉率
`gpt-5-thinking-mini`（谨慎型）	22%	26%
`o4-mini`（鲁莽型）	24%	75%

后者仅仅比前者高了 2 个百分点的准确率，却多产生了近 3 倍的幻觉。如果只看准确率，你会认为 o4-mini“更好”——但它其实是一个疯狂编造答案的模型。

既然问题是评估体系造成的，那么解法也不应该只盯着模型本身，而要从评分规则入手。

OpenAI 提出的核心思路非常直接：让“承认不知道”变得比“胡乱猜测”更划算。

具体做法包括：

这套评分机制会彻底改变模型的行为偏好：与其冒险编造一个可能被重罚的答案，不如诚实地表达无知。

在这样一套新规则下，“谨慎型”模型的得分会明显超过“鲁莽型”模型，从而引导开发者和模型都向诚实、可控的方向优化。

OpenAI 在文章中还专门纠正了关于幻觉的几个流传很广的误解：

误解：提高准确率就能消除幻觉。
事实：现实中存在大量本质上无法回答的问题（如“明天某个随机事件的精确概率”），准确率永远不可能达到 100%。幻觉是评估机制的副作用，而非单纯的能力问题。
误解：幻觉是无法避免的。
事实：模型完全可以在不确定时选择沉默或回答“我不知道”。这在技术上是可行的，只是当前评估体系不奖励这种诚实。
误解：只有大型模型才能避免幻觉。
事实：小型模型更容易意识到自己的知识边界，反而可能更干脆地说“不知道”。模型大小与诚实性之间没有必然的正相关。
误解：幻觉是现代语言模型中某种神秘、难以解释的故障。
事实：我们已经可以从统计学和评估博弈的角度，清晰地解释幻觉为何会发生，以及为什么在当前体系下它反而被变相鼓励。
误解：我们只需要一个有效的幻觉评估体系就够了。
事实：幻觉评估方法已经存在。但问题在于，目前有数百个传统基准（如 MMLU、HellaSwag 等）都在使用“正确得分、错误/不知道得 0 分”的规则，它们的数量级和影响力完全淹没了少数几个鼓励诚实评估的基准。要改变现状，必须改造主流评测体系。