你眼睁睁看着 Make 的运行记录里闪过一片红。Webhook 触发了，JSON 数据也传到了，结果 ChatGPT API 这一步一本正经地胡说八道，编造了一个你 Stripe 账户里压根不存在的折扣码。你只能手动去改发票，尴尬地给客户发邮件道歉，心里纳闷：明明在 YouTube 教程里看着天衣无缝的自动化，怎么真用起来反而比手动干活还累？

你不是唯一一个悄悄关掉 AI 工作流的人。那些企业巨头们也撞上了同一堵墙，而且他们终于开始公开承认这一点了。

「八步失忆」陷阱

所谓的「八步失忆」陷阱，是指大语言模型（LLM）在处理业务规则时，会因为操作指令塞满了上下文窗口，而悄无声息地漏掉关键步骤。你写了一个完美的提示词（Prompt），详细规定了如何处理客户退货，前三次测试表现惊艳。结果到了第四天，它突然跳过了一个核心验证环节，直接给一个你压根没卖过的产品批了全额退款。

这可不是什么通过软件更新就能修复的临时 Bug。这是概率模型处理文本时的一种结构性缺陷。

Salesforce 最近就在企业层面承认了这个问题。他们之前把大约 4,000 名支持人员转岗，重金押注 AI 智能体（Agents），结果高管们坦言，他们对纯 LLM 的信心已经大幅下降(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。他们的首席技术官 Muralidhar Krishnaprasad 指出了一个残酷的技术现实：一旦给模型的指令超过 8 条，它就会开始漏掉指令(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。

想想你自己公司的客服标准作业程序（SOP）。处理一个普通的工单随随便便就涉及十几个微决策：查 Shopify 订单状态、核实 Stripe 付款、看 Xero 发票、比对 30 天退货政策。只要 LLM 漏掉其中任何一条指令，整个工作流就崩了。

Salesforce 现在正把旗下的核心产品 Agentforce 转向确定性框架（Deterministic Frameworks），以此来消除大模型自带的随机性(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。他们意识到，如果没有严格的护栏，原始的智能毫无用处。

对于中小企业老板来说，这其实是个巨大的心理安慰。你的 AI 搞砸了，不是因为你提示词写得烂，而是因为你试图让一个「文本预测器」去执行严丝合缝的业务逻辑。模型每忘掉一条规则，你就要付出代价：手动返工、客户投诉、还有乱七八糟的数据。

为什么 Zapier 里的「超级提示词」必败无疑

大多数老板发现 AI 不靠谱时，第一反应是在 Zapier 或 Make 里写更长、语气更强硬的提示词。他们觉得指令越多，控制力就越强。

事实恰恰相反。当你在 Zapier 里的 ChatGPT 步骤吐出一个错误的 JSON 数据时，你本能地想加一句：「至关重要：务必输出有效的 JSON，绝对不要捏造产品 ID。」

但在 API 层面，实际发生的情况是：你每多写一个字，都在稀释模型的注意力机制。你想用 1,500 字的超级提示词来补救「八步失忆」的坑，结果反而增加了它产生幻觉的概率。

模型读你的提示词不像读清单，它是在计算下一个字（token）出现的统计概率。如果客户的邮件里写着「我要求全额退款」，模型训练数据里那成千上万个「最终退款成功」的互联网案例，其权重会直接压过你设定的自定义指令。

我见过不少中小企业每个月烧 £500 去订阅各种高端 AI 套壳软件，以为软件能搞定逻辑。你把它连上 Gmail 和 Outlook，上传一份公司政策的 PDF，然后点下启动。

处理简单的常见问题（FAQ）还行。但只要客户问个复合问题：「我能改一下订单 #1234 的收货地址，顺便再加一件商品吗？」LLM 就会尝试在一次 API 调用里同时解决这两个问题。

它改好了地址，然后凭空捏造了一个第二件商品的库存确认，直接回给了客户。它压根没去调 Shopify 的 API 查库存，因为你要求它的是「生成文本」，而不是「执行数据库查询」。

靠写提示词是写不出确定性工作流的。在 Zapier 节点里加再多大写字母，也没法让 LLM 变得像严谨的 API 集成那样听话。这只会让不可避免的失败变得更难调试。

构建确定性的 AI 工作流

构建可靠自动化的唯一出路，是把「推理」和「执行」分开。LLM 只负责从乱七八糟的人类输入中提取数据，而业务逻辑必须交给硬编码的 API 去执行。

这是一个处理供应商进项发票的真实系统方案。

不要把邮件转发给一个通用的 AI 助手然后指望它去更新财务软件。你需要构建一个严谨的多步流水线。

第一步，当特定的 Google Workspace 邮箱收到新邮件时，触发 n8n 的 Webhook。

第二步，n8n 把邮件正文和 PDF 附件发给 Claude API。注意这一步：你不要叫 Claude 去「处理发票」。你要用 Claude 的严格 JSON 模式（Schema Mode），告诉它只提取四个字段：供应商名称、发票号码、总金额、到期日期。别的什么都不要干。

第三步，n8n 拿到 JSON 输出，运行一个确定性检查。它会去查 Xero API，看供应商名称是否在你的联系人列表里。

如果 Xero 匹配到了，n8n 继续下一步。如果 Xero 返回空值——可能是新供应商，也可能是 Claude 没看清模糊的 Logo——工作流立刻停止。它不会瞎猜，而是把提取到的数据发到 Slack 频道，等人工审核。

如果匹配成功，n8n 才会发起最后一次 API 调用，在 Xero 里创建一张草稿账单。

这就是 Salesforce 所说的「可预测的、基于规则的自动化」(https://timesofindia.indiatimes.com/technology/tech-news/after-claiming-to-redeploy-4000-employees-and-automating-their-work-with-ai-agents-salesforce-executives-admit-we-were-more-confident-about/articleshow/116999999.cms)。LLM 只负责阅读混乱的 PDF，而实际的数据库更新由确定性的 API 调用负责，要么 100% 成功，要么带着错误码安全退出。

在 n8n 里搭这么一套流水线大概需要 2 到 3 周，成本在 £4,000 到 £8,000 之间，具体取决于你现有的 Xero 数据有多乱。

它的失败模式是完全可控的。如果 Claude 产生了幻觉，把日期格式搞错了（比如搞混了美式和英式），Xero API 会直接拒绝接收，因为它只认严格的 ISO-8601 日期字符串。自动化会安全关停，不会产生幽灵账单。你只要在 n8n 日志里抓到错误，调整一下 JSON Schema 的提示词来强制执行日期格式，再跑一遍就行了。

你要做的，是把概率性的 AI 关进确定性的笼子里。

确定性路由在哪里会失效？

严格路由并不是万灵药。在你投入时间和资金去搭 n8n 之前，得先搞清楚边界在哪。

如果你核心的操作系统缺乏现代 API，确定性工作流就会变得很脆弱。如果你的发票是老旧财务软件生成的扫描版 TIFF 文件，在 LLM 看到文档之前，你需要一个专门的 OCR 层。一旦引入 OCR，错误率会从 1% 飙升到 12% 左右。LLM 很难解析那些乱码文字，你的 Xero API 验证也会不断报错。

此外，当输出需要真正的同理心或复杂的谈判时，这套东西也不灵处理。你可以搭一个严格的流水线处理标准退货，但你没法搭一个确定性流程去应付一个威胁要取消 £50k 合同的愤怒客户。

一旦工作流需要主观判断而非数据提取，你就必须把它交给人工。如果你非要强迫 LLM 在复杂的情绪升级案例中走严格的决策树，你又会掉进「八步失忆」的坑里。

确定性 AI 适用于高频、低差异的任务。如果每个输入都是独一无二的「雪花」，再牛的 API 路由也救不了你。为你的数据修好硬管道，把维护客户关系的事儿留给你的团队。

值得深思的三个问题

企业软件市场正在悄悄收回那些最狂妄的 AI 承诺。Salesforce 的转向对每一个试图实现自动化的中小企业老板来说都是个信号。你没必要非得通过搞砸客户关系来买这个教训。在你支付下一个 AI 套壳软件订阅费，或者周末还在跟断掉的 Zapier 流程较劲之前，问问自己：

别再指望靠写提示词写出可靠性了。搭好确定性的管道，把 AI 关进去，让你的人手回到真正的工作中去。就这么简单。

你是不是在要求 LLM 做一个本该由硬编码 API 完成的数据库决策？
当你现在的 AI 自动化出错时，它是会安全报错并提醒人工，还是会悄悄把幻觉数据写进你的核心财务系统？
你是否在结构上把「读取人类输入」这种概率性脏活，和「执行业务规则」这种确定性苦活分开了？

为什么纯 AI 工作流注定失败，以及向确定性流水线的转型

「八步失忆」陷阱

为什么 Zapier 里的「超级提示词」必败无疑

构建确定性的 AI 工作流

确定性路由在哪里会失效？

值得深思的三个问题

订阅获取 UK AI 洞察。