语言模型为何会产生幻觉
OpenAI 指出:大模型“胡说”的根源不是能力不足,而是当前评估规则让“猜题”比“说不知道”更划算。
OpenAI:我们正在用考试规则,变相奖励 AI 胡说八道。
如果你经常使用大语言模型(如 GPT‑4、Claude、DeepSeek),一定遇到过这样的场景:
- 问它“某篇论文的作者生日是哪天”,它信誓旦旦给出一个日期;
- 你再问一遍,它又给出另一个完全不同的日期;
- 如果你要求“只在确定时回答”,它依然会编造答案。
这就是大语言模型最令人头疼的问题之一:幻觉(Hallucination)——模型生成看似合理、实则错误甚至荒谬的内容。

很长一段时间里,业界普遍认为幻觉是模型能力不足、训练数据不干净或模型“太笨”导致的。但 OpenAI 在一篇官方文章《语言模型为何会产生幻觉》中给出了一个非常反直觉的结论:
幻觉的根本原因,并非模型能力缺陷,而是我们当前的评估体系在变相“奖励”猜测行为。
一、幻觉的根源:“猜比不说更划算”
OpenAI 认为,幻觉问题可以从两个环节来理解。
1. 训练阶段的先天不足
大语言模型的核心训练任务是预测下一个词。它从海量互联网文本中学习,而这些数据本身并没有“真/假”或“可信/不可信”的标签。模型学会的是如何说出更像人话的句子,而不是如何判断一句话是否真实。
这导致一个后果:模型在遇到自己不熟悉的、低频的或超出训练分布的事实(例如某个冷门论文的作者生日)时,依然会“努力”生成一个听起来合理的答案,而不是承认自己不知道。
2. 评估体系的致命激励——这才是关键
如果只是训练目标的问题,我们完全可以通过更好的微调(如 RLHF)来抑制幻觉。但 OpenAI 指出,目前主流的模型评估方式,正在主动鼓励模型产生幻觉。
目前业界的默认做法是使用 “准确率” 作为核心指标。比如一个问答测试集有 100 道题,模型答对多少道,就得分多少。
这种评分方式会引发一个典型的“考试博弈”:
- 如果模型承认不知道,那么这道题必定得 0 分。
- 如果模型随便猜一个答案,那么它有概率(比如生日题是 1/365)蒙对,得 1 分。
很显然,对追求高分的模型(和它的训练者)来说,“猜一下”的期望收益远高于“老实说不知道”。这个逻辑和学生在考试中盲目猜选择题一模一样。
结果就是:我们越是用准确率排行榜来比较模型,就越是在变相奖励幻觉。
OpenAI 用一组实验数据证明了这个观点:
| 模型 | 准确率 | 幻觉率 |
|---|---|---|
gpt-5-thinking-mini(谨慎型) | 22% | 26% |
o4-mini(鲁莽型) | 24% | 75% |
后者仅仅比前者高了 2 个百分点的准确率,却多产生了近 3 倍的幻觉。如果只看准确率,你会认为 o4-mini“更好”——但它其实是一个疯狂编造答案的模型。
二、解决方案:改变“游戏规则”
既然问题是评估体系造成的,那么解法也不应该只盯着模型本身,而要从评分规则入手。
OpenAI 提出的核心思路非常直接:让“承认不知道”变得比“胡乱猜测”更划算。
具体做法包括:
- 对错误的答案施加更重的惩罚:例如在评分时,一个错误答案扣掉比 0 分更多的分数(类似标准化考试中的倒扣分)。
- 对恰当表达不确定性给予部分分数:当模型回答“我不确定”或“我没有足够信息”时,给予少量正分。
这套评分机制会彻底改变模型的行为偏好:与其冒险编造一个可能被重罚的答案,不如诚实地表达无知。
在这样一套新规则下,“谨慎型”模型的得分会明显超过“鲁莽型”模型,从而引导开发者和模型都向诚实、可控的方向优化。
三、五大常见误解,一次澄清
OpenAI 在文章中还专门纠正了关于幻觉的几个流传很广的误解:
-
误解:提高准确率就能消除幻觉。
事实:现实中存在大量本质上无法回答的问题(如“明天某个随机事件的精确概率”),准确率永远不可能达到 100%。幻觉是评估机制的副作用,而非单纯的能力问题。 -
误解:幻觉是无法避免的。
事实:模型完全可以在不确定时选择沉默或回答“我不知道”。这在技术上是可行的,只是当前评估体系不奖励这种诚实。 -
误解:只有大型模型才能避免幻觉。
事实:小型模型更容易意识到自己的知识边界,反而可能更干脆地说“不知道”。模型大小与诚实性之间没有必然的正相关。 -
误解:幻觉是现代语言模型中某种神秘、难以解释的故障。
事实:我们已经可以从统计学和评估博弈的角度,清晰地解释幻觉为何会发生,以及为什么在当前体系下它反而被变相鼓励。 -
误解:我们只需要一个有效的幻觉评估体系就够了。
事实:幻觉评估方法已经存在。但问题在于,目前有数百个传统基准(如 MMLU、HellaSwag 等)都在使用“正确得分、错误/不知道得 0 分”的规则,它们的数量级和影响力完全淹没了少数几个鼓励诚实评估的基准。要改变现状,必须改造主流评测体系。
参考来源:OpenAI 《语言模型为何会产生幻觉》