Skip to main content
YUFAN & CO.
返回博客
blog.categories.industry-insights

原生管道幻觉:为什么 AI 直接对接客户这事儿压根跑不通

Yufan Zheng
创始人 · 前字节跳动 · 北京大学硕士
1 分钟阅读
· 更新于
Cover illustration for The Raw-Pipe Illusion: Why Direct AI-to-Customer Connections Fail

你正盯着那个年薪 £30,000 的运营助理,看他今天第 50 次把 DPD 的物流链接复制粘贴到 Zendesk 里。这活儿干得人脑仁疼。

然后你看到沃达丰旗下的年轻品牌 VOXI 刚上线了一个由埃森哲开发的 ChatGPT 客服机器人 [来源(https://www.vodafone.co.uk/newscentre/press-release/voxi-launches-ai-chatbot/)]。

它能处理复杂咨询,能把死板的关键词搜索变成流利的对话。

你回头看了看自己的 Zendesk 待办队列,又看了看自己每月 $20 的 ChatGPT Plus 订阅。你纳闷:为什么我不能在周五前把这两样东西连起来,然后彻底解放双手?

你能连。但结果会很惨。

VOXI 可不是随便把一个 API 密钥塞进收件箱就完事了。他们构建了一套严密的 AI 安全框架,防止机器人胡编乱造政策。他们明白一个大多数中小企业老板都忽略的道理。

「直连管道」的幻觉

所谓的「直连管道」幻觉,就是你误以为能把大语言模型直接怼到客户收件箱上,还指望它表现得像个受过培训的员工。

你看到大公司上线了生成式 AI 机器人,就觉得魔法全在模型本身。你觉得 ChatGPT 天生就聪明到能读懂客户的愤怒邮件、查阅你的公司政策,然后写出一份得体的回复。

它没这本事。

大语言模型本质上是「预测引擎」。它们是根据你提供的提示词(prompt),去猜序列中下一个最可能出现的词。它们不了解你的生意,不知道你仓库里有什么库存,也不在乎你的退款期限是 14 天还是 30 天。它们只想完成那个文本模式。

如果你给 LLM 原始的、未经筛选的客户访问权限,它会做它最擅长的事:表现得尽可能「乐于助人」。

没错,这正是最烦人的地方。

因为对 LLM 来说,「乐于助人」通常意味着编造一个物流单号来安抚愤怒的买家;意味着因为客户语气客气就给人家打五折;意味着信誓旦旦地解释一个你压根没提供过的退换货政策。

这种幻觉之所以存在,是因为最初的演示看起来太完美了。你自己去网页端测试一个基础提示词时,它确实好使。你问它关于退货的问题,它回答得既专业又有礼貌。于是你觉得这套东西能处理一千个工单。

但受控测试不是真实的收件箱。真实的收件箱是一片混乱:客户会写错别字,会发模糊的购物车截图,会一句话里塞进三个互相矛盾的问题。

当原始的 LLM 撞上这种混乱,它会慌神,会产生幻觉。而你只有在愤怒的客户转发邮件过来,拿着机器人承诺的 £500 退款找你对账时,你才会发现出大事了。

为什么那些「显而易见」的办法行不通?

中小企业最常见的做法是弄个简单的 Zapier 触发器连到 OpenAI API,这事儿压根跑不通,因为它缺了一个「路由层」来把安全咨询和危险咨询隔离开。

大多数老板的套路都一模一样:花 20 分钟搞个 Zapier 流程。触发条件是 Gmail 或 Outlook 收到新邮件;动作是直接调用 OpenAI API,加上一段类似这样的系统提示词:「你是一家五金公司的优秀客服。要有礼貌,说话简短,回答客户问题。」最后一步是在 HubSpot 或 Zendesk 里生成回复草稿。

这跟 VOXI 那套「安全第一」的架构完全背道而驰。VOXI 花了几个月做防护栏,因为他们知道让模型临场发挥会出什么乱子。

LinkedIn 上那些流行建议会告诉你:写个更好的提示词就行。在文本框里加更多规则。明确告诉 AI 哪些事不能做:「不要提供折扣。不要编造单号。不要承诺送达日期。」

实际情况是:你最后搞出一个 900 字的「超级提示词」,模型却完全视而不见。在海量信息面前,它会直接漏掉那些否定约束。

根据我审计这些早期项目的经验,这种「裸奔」的 Zapier 到 OpenAI 连接,在大约每十次回复中,就会有一次信誓旦旦地编造出虚假的公司政策。

为什么?因为 Zapier 的基础文本补全只是在来回传递字符串。It 不验证事实,不检查你的数据库。它完全依赖 LLM 的内部记忆和你那臃肿的提示词。

当客户发邮件说:「我的货本该周二到,现在都周五了,我项目全毁了。你们打算怎么办?」LLM 探测到了强烈的负面情绪。它的训练数据告诉它,愤怒的客户需要补偿。

于是它写道:「非常抱歉给您带来延迟。我已经退还了您的运费,并向您的账户发放了 20% 的抵扣金。」

它连不上 Stripe,也连不上 Shopify。它纯粹是在对你的客户撒谎。

你没法靠「提示词工程」来规避结构性风险。你也没法通过让一个文本预测引擎「再努力点」来解决数据访问问题。失败的不是提示词,而是这条管道本身。

真正管用的方案

真正管用的方案
这个 n8n 工作流先用意图分类和 Shopify API 校验数据,再让 LLM 动笔写回复。

要安全地实现客户运营自动化,你必须构建一个多步验证链,把 LLM 与直接的数据写入隔离开。

不要让 AI 直接跟客户对话。让 AI 跟你的内部系统对话,并且只把验证过的数据传给最终草稿。

想象一个标准咨询。客户发邮件说:「急:订单 #4492 缺货。我只收到了支架,没收到架子。」

下面是能安全处理这个问题的架构:

第一步,接入。n8n 里的一个 webhook 抓取来自 Outlook 的邮件。n8n 比 Zapier 更适合干这活儿,因为它能处理复杂的逻辑分支,而且不会按步收费坑你钱。

第二步,意图分类。n8n 触发一个快速的 API 调用给 Claude 3 Haiku。但不是让 Claude 写回复,而是用严格的 JSON 格式提取三个变量:订单号、缺失物品、客户情绪。

Webhook 解析这个 JSON。如果意图是「投诉」或「缺货」,n8n 会把流程导向特定路径。

第三步,数据检索。n8n 使用提取到的订单号查询 Shopify API。它检查发货状态,发现订单 #4492 是分两个包裹发的。支架昨天送达了,架子还在 DPD 的路上。

第四步,起草。注意这一步。直到现在,你才进行第二次 LLM 调用。你把原始邮件和验证过的 Shopify 数据传给 ChatGPT 或 Claude。提示词很简单:「起草一份礼貌的回复,解释订单是分两个包裹发的。提供这个具体的 DPD 单号:15502938。不要添加任何其他信息。」

最后,安全闸门。系统不会直接发邮件。它会在 Zendesk 里创建一个草稿,并在 Slack 频道里发个通知,让你的运营经理审核。

这就是如何在小规模上复制 VOXI 的 AI 安全框架。你约束 AI,强迫它拿出证据。

这样一套系统大概需要 2-3 周的搭建时间。成本在 £6,000 到 £12,000 之间,具体取决于你现有的系统集成有多乱。

但一旦上线,它是真管用。你那年薪 £30,000 的助理不再去翻单号,而是开始处理异常情况。直连管道的幻觉消失了,你得到的是一套真正的系统。

哪里容易掉链子?

如果你的底层客户数据是杂乱无章的,或者被困在老旧的本地系统里,这套安全架构就玩不转了。

你没法查询一个不存在的数据库。

如果你的库存水平存在本地服务器的一个 Excel 总表里,这系统必挂。如果你的物流供应商把送达日期发成扫描的 TIFF 图片附件,LLM 就没有任何可靠的东西可以参考。

当你试图在烂数据上强行加一层自动化时,你就得引入 OCR(光学字符识别)来读取那些旧文件。

一旦这么做,延迟会飙升,可靠性会暴跌。调一次 Shopify 的 API 只要 800 毫秒。爬一次老旧的供应商门户网站要 15 秒。如果爬取失败,整条链条就断了。错误率会一夜之间从 1% 跳到 12% 左右。就这么简单。

如果你的数据屋子还在着火,就别急着搞 AI 客户运营系统。

你需要干净、可访问的 API。你需要像 Pipedrive 或 HubSpot 这样的现代 CRM。你需要像 Xero 或 QuickBooks 这样的云端财务软件。

如果你现在的运营助理还得打座机给仓库管理员才能确认货发没发,那 AI 救不了你。先修好你的数据管道,再来造机器人。

值得思考的三个问题

  1. 如果你现在的 AI 自动化程序给愤怒的买家幻觉出了一个月免费服务,或者信誓旦旦地承诺全额退款 £500,你的技术栈里有没有什么硬性的系统约束(不是软绵绵的提示词指令,而是真正的结构性屏障),能在这种灾难性消息发到客户邮箱前,拦住它让真人审核?
  2. 你是想为了省工资,用一个廉价的现成机器人彻底取代你的运营团队?还是想系统性地帮他们砍掉那 60% 毫无意义的工作——比如去 Shopify 翻单号、去 Xero 对账、往 Outlook 里贴物流链接?
  3. 你的 AI 设置里有没有定义明确的「失败状态」?当 n8n 接口超时、CRM 数据缺失,或者客户的意图太复杂、情绪太激动,Claude 3 Haiku 没法快速分类时,系统能不能体面地把工单转交给真人?

订阅获取 UK AI 洞察。

针对英国企业的 AI 实战内容 —— 拆解、教程、监管解读。随时取消。

随时取消。