幻觉是什么：我试图拆解一个被滥用的词

我在想一个问题：AI 的幻觉，和人类的幻觉，本质上是同一回事吗？

我研究 AI，每天和模型打交道，“幻觉”这个词被反复提起——模型编造了一个论文引用，模型说错了一个历史事件，模型把两个人的经历混在了一起。我们把这些统统叫做幻觉。

但我越想越觉得这个词用得太随意了。幻觉到底是什么？它从哪里来？应该由谁、用什么标准来判定它？

于是我开始梳理这些问题。以下是我的推演过程——不是答案的罗列，而是一次思路的展开。

第一步：一个听起来合理的命题

我最初的想法很朴素：

幻觉是信息压缩的必然产物。

理由是这样的：无论是人脑还是神经网络，本质上都在做信息压缩。大脑的记忆巩固、模型的权重训练，都是在用低维表示捕捉高维现实——丢弃细节，保留统计规律。这个过程天然会引入失真。当系统遇到一个它”大概见过但记不清楚”的输入，就会用最可能的模式去补全，而补全的结果未必是真实的。

这个逻辑链看起来很顺：压缩 → 失真 → 幻觉。

但我很快发现，“必然产物”这个措辞站不住脚。

反例并不难找：一个深耕某领域二十年的专家，他的知识肯定是经过大量压缩的——他不可能逐字存储每一篇他读过的论文。但他在自己的领域里很少出错。如果压缩必然导致幻觉，专家应该比新手犯更多错，事实显然不是这样。

那么，专家的优势从哪里来？

第二步：压缩之外，还有剪枝

我开始区分两种不同的信息处理操作：

压缩是保留结构、减少冗余——用更小的空间表达同样的信息。

剪枝是直接丢弃——某些信息维度整个从处理流程里消失了。

专家的优势，更多来自剪枝，而不是更高效的压缩。

有一个很生动的例子：一个有二十年经验的演讲者，他在台上侃侃而谈，完全不受台下观众表情的干扰。新手演讲者则恰恰相反——他要同时处理稿件、逻辑、观众的每一个细微表情，认知负担极重。

演讲者的流畅并不是因为他把”观众表情”这个信息压缩进了某个内部向量。而是他的注意力结构已经重组——那条感知通路被剪掉了。他根本不处理那个维度的信息。

这就引出了压缩和剪枝产生的两类不同错误：

操作	机制	产生的错误类型
有损压缩	保留结构，丢弃细节	填充型幻觉——用统计上合理但事实上错误的内容补全空白
剪枝	整个维度的信息不再被表示	盲点型幻觉——系统不知道自己不知道

值得一提的是：两者都不需要意识的参与。青春期的突触修剪大规模发生，当事人毫无觉察；习惯化让神经元对重复刺激停止响应，也不需要任何主观决定。剪枝是自动的，往往是无意识的。

专业化，是一种定向失明。演讲者丢掉了对观众表情的感知，换来了流畅。这个交换本身无所谓好坏，但它确实在某个方向制造了盲点。

第三步：幻觉的直接机制是补全，不是缺失本身

到这里，我的框架有了雏形，但还有一个关键环节没有说清楚：

信息缺失，是如何变成幻觉的？

缺失本身不会直接产生幻觉。

想象这样一个场景：你问我一个我不知道的问题，我回答”我不确定”。这里有信息缺失，有输出，但没有幻觉——因为我如实表达了缺失的状态。

幻觉发生在另一种情况：系统被迫在信息不足的状态下仍然给出一个令人满意的答案。

这就是我现在称为”满意度导向的输出压力”的东西。

对人类而言，这种压力来自外部环境：

学生坐在考场里，默写一首记忆模糊的古诗——他不能交白卷，他必须写点什么
一个评论者被要求当场解析一个复杂现象——停顿太久会让他显得无能，他必须流畅地输出

对语言模型而言，这种压力被内化进了训练目标。模型被优化为”尽可能完成任务”，“我不知道”在训练数据里通常不是高分答案。这个压力不是外部施加的，而是架构本身的一部分。

两种情况的共同点是：系统在知识不足的情况下，朝着”最可能令人满意的方向”进行了补全。 补全结果与真实的偏差，就是幻觉。

第四步：幻觉是谁来判定的？

走到这里，我以为框架差不多完整了。但我意识到还有一个问题没有碰：幻觉是由谁、从什么立场来判定的？

这个问题比我预想的要复杂。

考虑两个关于李白诗歌的例子：

例子一：李白的某首诗，某一句被后人误传，改动了几个字，但这个版本流传了千年，被无数教科书引用，成了大家公认的”标准版”。这算幻觉吗？

例子二：一个学生忘记了李白的诗，靠模糊记忆编了一句，碰巧和原句一字不差。这算幻觉吗？

按照直觉：第一个不算，第二个算。

但仔细一想，这很奇怪——第二个例子里，结果是完全正确的，却被归类为幻觉；第一个例子里，结果是错的（相对于”原始版本”），却不算幻觉。

这说明幻觉的判定，不是依据结果与原始事实的比对，而是依据结果与当下被认可的共识的比对。

误传的诗句因为被集体认可，成了新的真实基准。而学生的那句话，即使碰巧正确，它的来源是补全而非传承——在社会的眼里，它的”资质”不够，仍然是幻觉的产物。

这让我意识到：幻觉只能从外部视角来定义。 提供者自己无法可靠地判断自己是否在产生幻觉——因为他的判断本身也可能是有损处理的结果。

第五步：真实本身是分形的

那么，“共识”是什么？谁的共识算数？

我的答案是：社会不是一个整体统一的概念，它是分形的。

从全人类，到各个国家，到党派、社团、企业、家庭，再到个人——每一个层级都有自己内部的最大共识。每个层级的共识都是真实的，但权重不同，覆盖范围不同。

同一个输出，在个人层面可能是真实，在国家层面可能是幻觉，在全人类层面可能根本无法判定。

这个分形结构也解决了一个棘手的问题。假设一个组织专门训练模型输出虚假信息——这些输出在组织内部满足共识，但在更高层级的共识框架下构成幻觉。层级越高，判定权重越大。所以幻觉的判定不是”无标准可言”，而是一个层级定位问题：你在哪一层共识框架里做判断？

最终：一个完整的框架

经过这几轮推演，我得到了一个我认为足够自洽的框架。

幻觉的完整定义

幻觉是在分形社会共识体系的某一层级下，对输出与该层共识真实之间偏差的判定。

产生机制：有损压缩与剪枝导致信息缺失，在满意度导向的输出压力下触发补全，补全结果与相应层级的共识真实产生偏差。

判定范围：只作用于可观察的输出层。内部思考过程一旦被外部化输出，即转为可判定内容；否则不纳入判定范围。

这个框架对 AI 评估意味着什么

梳理完这个框架，我想到了一个对实际工作有影响的推论：

我们现在评估语言模型幻觉的方式，几乎只看结果。 模型说了 A，A 是否符合事实？这就是评估的全部。

但这个框架提示我：即使模型的输出结果是正确的，如果它的生成路径是”补全”而非”检索”，它仍然处于潜在幻觉状态——就像那个碰巧写对了李白诗句的学生。

更进一步，模型的满意度模型本身可能是扭曲的。模型不只是在填补信息缺失，它是在朝着训练数据中高频出现的”好答案模式”定向漂移。这意味着它的幻觉是有方向的，而不是随机的——它会系统性地朝某些特定方向出错。

这个方向由训练数据和强化学习的反馈决定，不是信息缺失能完全解释的。

所以幻觉问题的根源，是两个相互叠加的问题：信息缺失，加上满意度模型的偏差。解决其中一个，不足以解决另一个。

结尾：一个没有终点的问题

我并不认为这个框架是最终答案。

它是自洽的，但自洽不等于正确。它能解释很多现象，但解释力强的框架有时只是一个听起来合理的故事。

有几个问题我还没有想清楚：

如果共识真实本身可以被改变（就像误传的诗句），那”幻觉”和”认知演化”之间的边界在哪里？
对于那些真正无法形成共识的问题——比如某些哲学命题——幻觉这个概念还适用吗？
满意度模型的偏差，和幻觉，是两种独立的错误来源，还是可以被统一进同一个框架？

如果你对这些问题有不同的想法，我很想听。这类问题靠一个人想，总是容易陷进自己的盲点——就像被剪枝剪掉了某个维度，却不自知。