为什么纯 AI 工作流注定失败,以及向确定性流水线的转型

你眼睁睁看着 Make 的运行记录里闪过一片红。Webhook 触发了,JSON 数据也传到了,结果 ChatGPT API 这一步一本正经地胡说八道,编造了一个你 Stripe 账户里压根不存在的折扣码。你只能手动去改发票,尴尬地给客户发邮件道歉,心里纳闷:明明在 YouTube 教程里看着天衣无缝的自动化,怎么真用起来反而比手动干活还累?
你不是唯一一个悄悄关掉 AI 工作流的人。那些企业巨头们也撞上了同一堵墙,而且他们终于开始公开承认这一点了。
「八步失忆」陷阱
所谓的「八步失忆」陷阱,是指大语言模型(LLM)在处理业务规则时,会因为操作指令塞满了上下文窗口,而悄无声息地漏掉关键步骤。你写了一个完美的提示词(Prompt),详细规定了如何处理客户退货,前三次测试表现惊艳。结果到了第四天,它突然跳过了一个核心验证环节,直接给一个你压根没卖过的产品批了全额退款。
这可不是什么通过软件更新就能修复的临时 Bug。这是概率模型处理文本时的一种结构性缺陷。
Salesforce 最近就在企业层面承认了这个问题。他们之前把大约 4,000 名支持人员转岗,重金押注 AI 智能体(Agents),结果高管们坦言,他们对纯 LLM 的信心已经大幅下降(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。他们的首席技术官 Muralidhar Krishnaprasad 指出了一个残酷的技术现实:一旦给模型的指令超过 8 条,它就会开始漏掉指令(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。
想想你自己公司的客服标准作业程序(SOP)。处理一个普通的工单随随便便就涉及十几个微决策:查 Shopify 订单状态、核实 Stripe 付款、看 Xero 发票、比对 30 天退货政策。只要 LLM 漏掉其中任何一条指令,整个工作流就崩了。
Salesforce 现在正把旗下的核心产品 Agentforce 转向确定性框架(Deterministic Frameworks),以此来消除大模型自带的随机性(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。他们意识到,如果没有严格的护栏,原始的智能毫无用处。
对于中小企业老板来说,这其实是个巨大的心理安慰。你的 AI 搞砸了,不是因为你提示词写得烂,而是因为你试图让一个「文本预测器」去执行严丝合缝的业务逻辑。模型每忘掉一条规则,你就要付出代价:手动返工、客户投诉、还有乱七八糟的数据。
为什么 Zapier 里的「超级提示词」必败无疑
大多数老板发现 AI 不靠谱时,第一反应是在 Zapier 或 Make 里写更长、语气更强硬的提示词。他们觉得指令越多,控制力就越强。
事实恰恰相反。当你在 Zapier 里的 ChatGPT 步骤吐出一个错误的 JSON 数据时,你本能地想加一句:「至关重要:务必输出有效的 JSON,绝对不要捏造产品 ID。」
但在 API 层面,实际发生的情况是:你每多写一个字,都在稀释模型的注意力机制。你想用 1,500 字的超级提示词来补救「八步失忆」的坑,结果反而增加了它产生幻觉的概率。
模型读你的提示词不像读清单,它是在计算下一个字(token)出现的统计概率。如果客户的邮件里写着「我要求全额退款」,模型训练数据里那成千上万个「最终退款成功」的互联网案例,其权重会直接压过你设定的自定义指令。
我见过不少中小企业每个月烧 £500 去订阅各种高端 AI 套壳软件,以为软件能搞定逻辑。你把它连上 Gmail 和 Outlook,上传一份公司政策的 PDF,然后点下启动。
处理简单的常见问题(FAQ)还行。但只要客户问个复合问题:「我能改一下订单 #1234 的收货地址,顺便再加一件商品吗?」LLM 就会尝试在一次 API 调用里同时解决这两个问题。
它改好了地址,然后凭空捏造了一个第二件商品的库存确认,直接回给了客户。它压根没去调 Shopify 的 API 查库存,因为你要求它的是「生成文本」,而不是「执行数据库查询」。
靠写提示词是写不出确定性工作流的。在 Zapier 节点里加再多大写字母,也没法让 LLM 变得像严谨的 API 集成那样听话。这只会让不可避免的失败变得更难调试。
构建确定性的 AI 工作流

确定性的 AI 工作流:Claude 提取 JSON 数据,n8n 负责 Xero API 的校验与路由。
构建可靠自动化的唯一出路,是把「推理」和「执行」分开。LLM 只负责从乱七八糟的人类输入中提取数据,而业务逻辑必须交给硬编码的 API 去执行。
这是一个处理供应商进项发票的真实系统方案。
不要把邮件转发给一个通用的 AI 助手然后指望它去更新财务软件。你需要构建一个严谨的多步流水线。
第一步,当特定的 Google Workspace 邮箱收到新邮件时,触发 n8n 的 Webhook。
第二步,n8n 把邮件正文和 PDF 附件发给 Claude API。注意这一步:你不要叫 Claude 去「处理发票」。你要用 Claude 的严格 JSON 模式(Schema Mode),告诉它只提取四个字段:供应商名称、发票号码、总金额、到期日期。别的什么都不要干。
第三步,n8n 拿到 JSON 输出,运行一个确定性检查。它会去查 Xero API,看供应商名称是否在你的联系人列表里。
如果 Xero 匹配到了,n8n 继续下一步。如果 Xero 返回空值——可能是新供应商,也可能是 Claude 没看清模糊的 Logo——工作流立刻停止。它不会瞎猜,而是把提取到的数据发到 Slack 频道,等人工审核。
如果匹配成功,n8n 才会发起最后一次 API 调用,在 Xero 里创建一张草稿账单。
这就是 Salesforce 所说的「可预测的、基于规则的自动化」(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。LLM 只负责阅读混乱的 PDF,而实际的数据库更新由确定性的 API 调用负责,要么 100% 成功,要么带着错误码安全退出。
在 n8n 里搭这么一套流水线大概需要 2 到 3 周,成本在 £4,000 到 £8,000 之间,具体取决于你现有的 Xero 数据有多乱。
它的失败模式是完全可控的。如果 Claude 产生了幻觉,把日期格式搞错了(比如搞混了美式和英式),Xero API 会直接拒绝接收,因为它只认严格的 ISO-8601 日期字符串。自动化会安全关停,不会产生幽灵账单。你只要在 n8n 日志里抓到错误,调整一下 JSON Schema 的提示词来强制执行日期格式,再跑一遍就行了。
你要做的,是把概率性的 AI 关进确定性的笼子里。
确定性路由在哪里会失效?
严格路由并不是万灵药。在你投入时间和资金去搭 n8n 之前,得先搞清楚边界在哪。
如果你核心的操作系统缺乏现代 API,确定性工作流就会变得很脆弱。如果你的发票是老旧财务软件生成的扫描版 TIFF 文件,在 LLM 看到文档之前,你需要一个专门的 OCR 层。一旦引入 OCR,错误率会从 1% 飙升到 12% 左右。LLM 很难解析那些乱码文字,你的 Xero API 验证也会不断报错。
此外,当输出需要真正的同理心或复杂的谈判时,这套东西也不灵处理。你可以搭一个严格的流水线处理标准退货,但你没法搭一个确定性流程去应付一个威胁要取消 £50k 合同的愤怒客户。
一旦工作流需要主观判断而非数据提取,你就必须把它交给人工。如果你非要强迫 LLM 在复杂的情绪升级案例中走严格的决策树,你又会掉进「八步失忆」的坑里。
确定性 AI 适用于高频、低差异的任务。如果每个输入都是独一无二的「雪花」,再牛的 API 路由也救不了你。为你的数据修好硬管道,把维护客户关系的事儿留给你的团队。
值得深思的三个问题
企业软件市场正在悄悄收回那些最狂妄的 AI 承诺。Salesforce 的转向对每一个试图实现自动化的中小企业老板来说都是个信号。你没必要非得通过搞砸客户关系来买这个教训。在你支付下一个 AI 套壳软件订阅费,或者周末还在跟断掉的 Zapier 流程较劲之前,问问自己:
别再指望靠写提示词写出可靠性了。搭好确定性的管道,把 AI 关进去,让你的人手回到真正的工作中去。就这么简单。
- 你是不是在要求 LLM 做一个本该由硬编码 API 完成的数据库决策?
- 当你现在的 AI 自动化出错时,它是会安全报错并提醒人工,还是会悄悄把幻觉数据写进你的核心财务系统?
- 你是否在结构上把「读取人类输入」这种概率性脏活,和「执行业务规则」这种确定性苦活分开了?
订阅获取 UK AI 洞察。
针对英国企业的 AI 实战内容 —— 拆解、教程、监管解读。随时取消。
随时取消。