过去半年,我们(atypica.ai)和几十家企业聊过用 AI 模拟消费者这件事。每一场对话都会产生大量问题——有些是直觉性的,有些是技术性的,有些其实是对 AI 本身的不信任。
最近 Owen Rao 在把这些问题整理成一张图谱:它们从哪来,指向什么,彼此之间是什么关系。整理过程中我们用 AI 帮忙处理几十份客户会议逐字稿,提炼成结构化的问题清单。
审阅的时候,我们发现了一个很奇怪的条目:有企业用户在质疑我们 AI Persona 的”行业专业性”。
这让我们停下来想了一下。有些场景确实需要 Persona 懂行——比如 B2B 场景里模拟的是专业采购者。但大部分时候我们模拟的是普通消费者,一个消费者说错行业细节,本来就是正常的事。这条问题到底在说什么?我们决定溯源一下。
客户的原话是这样的
“AOP 黄油一般是在面包酥皮烘焙里,不会在蛋糕里,这个确实是很细节的东西,如果是真人在这么说话我们可能会拿掉这个人的数据”
客户想表达的其实很简单:AI Persona 有时候会说一些不靠谱的话,就像真人访谈里偶尔遇到一个胡说八道的受访者。他并不是在质疑 AI 的能力,他很清楚这本质上是个样本质量问题——在真人访谈里,处理方式就是把这条数据删掉。他留给我们的思考是:在 AI Persona 里,这种情况应该怎么处理?
一个客观的、关于数据质量处理流程的反馈。
然后看看 AI 在多轮整理中把它变成了什么
第一轮总结(正常):
“如果 Persona 给出了明显错误的行业细节(如专业术语用错),系统能发现吗?”
第二轮归类合并(开始偏移):
“如果 AI Persona 给出了一个听起来有道理但事实错误的回答(行业细节说错、专业知识瞎编),我怎么识别?”
第三轮扩充(幻觉出现):
“当 Persona 涉及行业专业细节时(配方、工艺、法规),如果说错了非专业人员很难发现——有什么保障?”
一次泛化,两次归并,一次扩充。一条”样本有时不靠谱,应该怎么删”的反馈,变成了”AI 不具备行业专业性”的质疑。意思完全变了。
括号里的”配方、工艺、法规”——原始材料里只有一个 AOP 黄油的案例。”工艺”和”法规”是 AI 在扩充时自己补的举例,单看这一步其实合理,属于正常的概念泛化。但问题就在于,每一步都是微小的、合理的变化,叠加在一起,最后完全偏离了客户最初想表达的意思。
反思
企业内部人与人之间传递信息也经常这样——一个具体案例经过几轮转述,逐渐变成”普遍现象”,原始语境丢失,结论偏移。但我们对 AI 的容忍度比对人低得多。人传错了是沟通问题,AI 编错了就是”这东西不靠谱”。
这是 AI 进入企业工作流后的现实挑战。也正因如此,Agent 的可观测性和评估变得越来越重要。可观测性是记录——我们得能追溯每一条结论是怎么来的,在哪一步变形的。评估是控制——AI 每一步的泛化和扩充,需要持续去反馈和衡量它是否还在合理范围内。

