一次 AI 幻觉的”直播”溯源

May 19, 2026

过去半年，我们（atypica.ai）和几十家企业聊过用 AI 模拟消费者这件事。每一场对话都会产生大量问题——有些是直觉性的，有些是技术性的，有些其实是对 AI 本身的不信任。

最近 Owen Rao 在把这些问题整理成一张图谱：它们从哪来，指向什么，彼此之间是什么关系。整理过程中我们用 AI 帮忙处理几十份客户会议逐字稿，提炼成结构化的问题清单。

审阅的时候，我们发现了一个很奇怪的条目：有企业用户在质疑我们 AI Persona 的”行业专业性”。

这让我们停下来想了一下。有些场景确实需要 Persona 懂行——比如 B2B 场景里模拟的是专业采购者。但大部分时候我们模拟的是普通消费者，一个消费者说错行业细节，本来就是正常的事。这条问题到底在说什么？我们决定溯源一下。

客户的原话是这样的

“AOP 黄油一般是在面包酥皮烘焙里，不会在蛋糕里，这个确实是很细节的东西，如果是真人在这么说话我们可能会拿掉这个人的数据”

客户想表达的其实很简单：AI Persona 有时候会说一些不靠谱的话，就像真人访谈里偶尔遇到一个胡说八道的受访者。他并不是在质疑 AI 的能力，他很清楚这本质上是个样本质量问题——在真人访谈里，处理方式就是把这条数据删掉。他留给我们的思考是：在 AI Persona 里，这种情况应该怎么处理？

一个客观的、关于数据质量处理流程的反馈。

第一轮总结（正常）：

“如果 Persona 给出了明显错误的行业细节（如专业术语用错），系统能发现吗？”

第二轮归类合并（开始偏移）：

“如果 AI Persona 给出了一个听起来有道理但事实错误的回答（行业细节说错、专业知识瞎编），我怎么识别？”

第三轮扩充（幻觉出现）：

“当 Persona 涉及行业专业细节时（配方、工艺、法规），如果说错了非专业人员很难发现——有什么保障？”

一次泛化，两次归并，一次扩充。一条”样本有时不靠谱，应该怎么删”的反馈，变成了”AI 不具备行业专业性”的质疑。意思完全变了。

括号里的”配方、工艺、法规”——原始材料里只有一个 AOP 黄油的案例。”工艺”和”法规”是 AI 在扩充时自己补的举例，单看这一步其实合理，属于正常的概念泛化。但问题就在于，每一步都是微小的、合理的变化，叠加在一起，最后完全偏离了客户最初想表达的意思。

企业内部人与人之间传递信息也经常这样——一个具体案例经过几轮转述，逐渐变成”普遍现象”，原始语境丢失，结论偏移。但我们对 AI 的容忍度比对人低得多。人传错了是沟通问题，AI 编错了就是”这东西不靠谱”。

这是 AI 进入企业工作流后的现实挑战。也正因如此，Agent 的可观测性和评估变得越来越重要。可观测性是记录——我们得能追溯每一条结论是怎么来的，在哪一步变形的。评估是控制——AI 每一步的泛化和扩充，需要持续去反馈和衡量它是否还在合理范围内。