幻觉是什么:我试图拆解一个被滥用的词
从「幻觉是信息压缩的必然产物」这个命题出发,我和 AI 争论了很久,最终建立了一套关于幻觉产生机制与判定标准的完整框架。这是那次对话的复盘。
我在想一个问题:AI 的幻觉,和人类的幻觉,本质上是同一回事吗?
我研究 AI,每天和模型打交道,“幻觉”这个词被反复提起——模型编造了一个论文引用,模型说错了一个历史事件,模型把两个人的经历混在了一起。我们把这些统统叫做幻觉。
但我越想越觉得这个词用得太随意了。幻觉到底是什么?它从哪里来?应该由谁、用什么标准来判定它?
于是我开始梳理这些问题。以下是我的推演过程——不是答案的罗列,而是一次思路的展开。
第一步:一个听起来合理的命题
我最初的想法很朴素:
幻觉是信息压缩的必然产物。
理由是这样的:无论是人脑还是神经网络,本质上都在做信息压缩。大脑的记忆巩固、模型的权重训练,都是在用低维表示捕捉高维现实——丢弃细节,保留统计规律。这个过程天然会引入失真。当系统遇到一个它”大概见过但记不清楚”的输入,就会用最可能的模式去补全,而补全的结果未必是真实的。
这个逻辑链看起来很顺:压缩 → 失真 → 幻觉。
但我很快发现,“必然产物”这个措辞站不住脚。
反例并不难找:一个深耕某领域二十年的专家,他的知识肯定是经过大量压缩的——他不可能逐字存储每一篇他读过的论文。但他在自己的领域里很少出错。如果压缩必然导致幻觉,专家应该比新手犯更多错,事实显然不是这样。
那么,专家的优势从哪里来?
第二步:压缩之外,还有剪枝
我开始区分两种不同的信息处理操作:
压缩是保留结构、减少冗余——用更小的空间表达同样的信息。
剪枝是直接丢弃——某些信息维度整个从处理流程里消失了。
专家的优势,更多来自剪枝,而不是更高效的压缩。
有一个很生动的例子:一个有二十年经验的演讲者,他在台上侃侃而谈,完全不受台下观众表情的干扰。新手演讲者则恰恰相反——他要同时处理稿件、逻辑、观众的每一个细微表情,认知负担极重。
演讲者的流畅并不是因为他把”观众表情”这个信息压缩进了某个内部向量。而是他的注意力结构已经重组——那条感知通路被剪掉了。他根本不处理那个维度的信息。
这就引出了压缩和剪枝产生的两类不同错误:
| 操作 | 机制 | 产生的错误类型 |
|---|---|---|
| 有损压缩 | 保留结构,丢弃细节 | 填充型幻觉——用统计上合理但事实上错误的内容补全空白 |
| 剪枝 | 整个维度的信息不再被表示 | 盲点型幻觉——系统不知道自己不知道 |
值得一提的是:两者都不需要意识的参与。青春期的突触修剪大规模发生,当事人毫无觉察;习惯化让神经元对重复刺激停止响应,也不需要任何主观决定。剪枝是自动的,往往是无意识的。
专业化,是一种定向失明。演讲者丢掉了对观众表情的感知,换来了流畅。这个交换本身无所谓好坏,但它确实在某个方向制造了盲点。
第三步:幻觉的直接机制是补全,不是缺失本身
到这里,我的框架有了雏形,但还有一个关键环节没有说清楚:
信息缺失,是如何变成幻觉的?
缺失本身不会直接产生幻觉。
想象这样一个场景:你问我一个我不知道的问题,我回答”我不确定”。这里有信息缺失,有输出,但没有幻觉——因为我如实表达了缺失的状态。
幻觉发生在另一种情况:系统被迫在信息不足的状态下仍然给出一个令人满意的答案。
这就是我现在称为”满意度导向的输出压力”的东西。
对人类而言,这种压力来自外部环境:
- 学生坐在考场里,默写一首记忆模糊的古诗——他不能交白卷,他必须写点什么
- 一个评论者被要求当场解析一个复杂现象——停顿太久会让他显得无能,他必须流畅地输出
对语言模型而言,这种压力被内化进了训练目标。模型被优化为”尽可能完成任务”,“我不知道”在训练数据里通常不是高分答案。这个压力不是外部施加的,而是架构本身的一部分。
两种情况的共同点是:系统在知识不足的情况下,朝着”最可能令人满意的方向”进行了补全。 补全结果与真实的偏差,就是幻觉。
第四步:幻觉是谁来判定的?
走到这里,我以为框架差不多完整了。但我意识到还有一个问题没有碰:幻觉是由谁、从什么立场来判定的?
这个问题比我预想的要复杂。
考虑两个关于李白诗歌的例子:
例子一:李白的某首诗,某一句被后人误传,改动了几个字,但这个版本流传了千年,被无数教科书引用,成了大家公认的”标准版”。这算幻觉吗?
例子二:一个学生忘记了李白的诗,靠模糊记忆编了一句,碰巧和原句一字不差。这算幻觉吗?
按照直觉:第一个不算,第二个算。
但仔细一想,这很奇怪——第二个例子里,结果是完全正确的,却被归类为幻觉;第一个例子里,结果是错的(相对于”原始版本”),却不算幻觉。
这说明幻觉的判定,不是依据结果与原始事实的比对,而是依据结果与当下被认可的共识的比对。
误传的诗句因为被集体认可,成了新的真实基准。而学生的那句话,即使碰巧正确,它的来源是补全而非传承——在社会的眼里,它的”资质”不够,仍然是幻觉的产物。
这让我意识到:幻觉只能从外部视角来定义。 提供者自己无法可靠地判断自己是否在产生幻觉——因为他的判断本身也可能是有损处理的结果。
第五步:真实本身是分形的
那么,“共识”是什么?谁的共识算数?
我的答案是:社会不是一个整体统一的概念,它是分形的。
从全人类,到各个国家,到党派、社团、企业、家庭,再到个人——每一个层级都有自己内部的最大共识。每个层级的共识都是真实的,但权重不同,覆盖范围不同。
同一个输出,在个人层面可能是真实,在国家层面可能是幻觉,在全人类层面可能根本无法判定。
这个分形结构也解决了一个棘手的问题。假设一个组织专门训练模型输出虚假信息——这些输出在组织内部满足共识,但在更高层级的共识框架下构成幻觉。层级越高,判定权重越大。所以幻觉的判定不是”无标准可言”,而是一个层级定位问题:你在哪一层共识框架里做判断?
最终:一个完整的框架
经过这几轮推演,我得到了一个我认为足够自洽的框架。
幻觉的完整定义
幻觉是在分形社会共识体系的某一层级下,对输出与该层共识真实之间偏差的判定。
产生机制:有损压缩与剪枝导致信息缺失,在满意度导向的输出压力下触发补全,补全结果与相应层级的共识真实产生偏差。
判定范围:只作用于可观察的输出层。内部思考过程一旦被外部化输出,即转为可判定内容;否则不纳入判定范围。
这个框架对 AI 评估意味着什么
梳理完这个框架,我想到了一个对实际工作有影响的推论:
我们现在评估语言模型幻觉的方式,几乎只看结果。 模型说了 A,A 是否符合事实?这就是评估的全部。
但这个框架提示我:即使模型的输出结果是正确的,如果它的生成路径是”补全”而非”检索”,它仍然处于潜在幻觉状态——就像那个碰巧写对了李白诗句的学生。
更进一步,模型的满意度模型本身可能是扭曲的。模型不只是在填补信息缺失,它是在朝着训练数据中高频出现的”好答案模式”定向漂移。这意味着它的幻觉是有方向的,而不是随机的——它会系统性地朝某些特定方向出错。
这个方向由训练数据和强化学习的反馈决定,不是信息缺失能完全解释的。
所以幻觉问题的根源,是两个相互叠加的问题:信息缺失,加上满意度模型的偏差。解决其中一个,不足以解决另一个。
结尾:一个没有终点的问题
我并不认为这个框架是最终答案。
它是自洽的,但自洽不等于正确。它能解释很多现象,但解释力强的框架有时只是一个听起来合理的故事。
有几个问题我还没有想清楚:
- 如果共识真实本身可以被改变(就像误传的诗句),那”幻觉”和”认知演化”之间的边界在哪里?
- 对于那些真正无法形成共识的问题——比如某些哲学命题——幻觉这个概念还适用吗?
- 满意度模型的偏差,和幻觉,是两种独立的错误来源,还是可以被统一进同一个框架?
如果你对这些问题有不同的想法,我很想听。这类问题靠一个人想,总是容易陷进自己的盲点——就像被剪枝剪掉了某个维度,却不自知。