Skip to main content
YUFAN & CO.
返回博客
blog.categories.guides

别再给 OpenAI 交「默认税」了:用 Azure 和 Anthropic 搞双栈架构

Yufan Zheng
创始人 · 前字节跳动 · 北京大学硕士
1 分钟阅读
· 更新于
Cover illustration for Escaping the OpenAI Default Tax with Azure Anthropic Dual-Stacking

你登录 Azure 门户,点进资源组查看 API 消耗情况。OpenAI 的费用每个月都在涨。可你的运营经理还在抱怨:那个自动化发票读取工具又漏掉了 PDF 附件里的项目。

你付着顶级的 API 费用,出来的结果却像是在偷懒。提取数据时跳行,摘要写不到点子上。你选 Azure 是因为公司全套都用微软,你想要安全边界,想把账单都凑在一起。但现在,你眼睁睁看着这套昂贵的系统连最基础的行政活儿都干不好。一团糟,而且没人知道为什么。

OpenAI 的「默认选择税」

所谓的「OpenAI 默认选择税」,就是你强行让某一个模型系列处理公司所有的运营任务,而付出的隐形成本。原因很简单:它是你接入的第一个模型。

两年前,如果你想在微软环境下使用企业级 AI,Azure OpenAI 是唯一的正经选择。你围绕 GPT-4 构建了内部工具,针对它的脾气写了系统提示词(prompts),还培训了团队。对于一家处于上升期的英国公司来说,这看起来是个既安全又显而易见的决定。

但风向变了。2025 年底,微软和 Nvidia 向 Anthropic 砸了数十亿,把 Claude 原生引入了 Azure 来源(https://www.aljazeera.com/economy/2025/11/18/microsoft-nvidia-invest-in-anthropic-in-cloud-services-deal)。你一直在交钱的这套云基础设施,刚刚完成了一次巨大的升级。

你现在有了选择。你可以在存放 OpenAI 模型的同一个安全 Azure 边界内,运行 Anthropic 的 Claude 模型。没有新的采购麻烦,也不需要重新做合规审查。

然而,大多数中小企业都视而不见。他们还是把每一个 API 调用都扔给 GPT-4o。用它写营销邮件?没问题,它干得挺好。但用它从 40 页的供应商合同里提取密密麻麻的表格?它真不行。

这是一个结构性问题。当模型处理任务吃力时,老板们通常不会怀疑模型本身。他们觉得是自动化流程没搭好,怪 webhook,怪 PDF 格式。然后逼着初级分析师花好几个小时去人工核对结果。

这种人工核对就是「税」。你付出的代价是浪费掉的工资,是数据错误。你之所以交这份税,是因为你把一把瑞士军刀当成了手术刀在使。工具就在你的 Azure 租户里放着,但你被困在了「默认选择」里。这对运营效率是极大的损耗。

为什么那些「显而易见」的办法没用

数据提取出错了,最显而易见的办法就是疯狂搞提示词工程(prompt engineering)。但这招肯定失灵,因为你没法用大写字母去强行突破一个模型的架构限制。

你打开系统提示词,加了一行大写字母,告诉模型「务必非常小心,不要漏掉任何一项」。你威胁要给它小费,你告诉它你的饭碗全靠它了。

如果这招还不行,你就觉得直接调 API 太难了。于是你跑去买一个每月 £500 的现成 SaaS 套壳工具,对方承诺能完美解析文档。

这两种办法都完全没搞对路。

提示词工程只是在结构性创伤上贴创可贴。底层逻辑是这样的:GPT-4o 在处理长且重复的列表时,有一种众所周知的行为模式——它会变懒。当你喂给它一份物流供应商发的 14 页 PDF 时,它的注意力机制在文档中间部分会下降。

加再多大写字母的指令也改变不了底层的 Transformer 架构。模型读前三页挺好,第四到第十页就开始扫读,然后悄悄跳过第 45 到 60 行。你的 Zapier webhook 接收到了一个不完整的 JSON 数据包,往数据库里写了个空值。你直到月底对账对不上的时候才会发现数据丢了。没错,这事儿确实挺烦人的。

根据我的经验,花好几个小时给一个根本不适合处理密集文档提取的模型调优提示词,纯粹是浪费时间。你没法靠提示词来解决架构性的懒惰。

那个每月 £500 的 SaaS 套壳工具也好不到哪去。在漂亮界面的背后,这些工具大多只是在调用你本来就能用的同一个 OpenAI API。它们会碰到完全一样的上下文限制,在完全一样的地方翻车。你只是为了个好看的仪表盘付了一大笔溢价。

不要搞提示词工程,不要买昂贵的套壳工具。你需要换个引擎。

真正奏效的方法

真正奏效的方法

双架构并行:Claude 负责高精度文档解析,OpenAI 处理快速对话,数据可靠性翻倍。

真正奏效的方法是在 Azure 内部搞一套「双栈」系统:把对话类任务交给 OpenAI,把重头文档提取交给 Anthropic。

来看一个真实的实操案例。

你收到一份来自大型物流合作伙伴的 20 页供应商对账单 PDF。里面有 150 个独立项目,格式非常密集,表格跨越多页,列标题在中间还会变。

这是具体的运营流程:

首先,邮件落入 Outlook 共享邮箱。一个 Microsoft Power Automate 流程自动触发,剥离 PDF 附件并存入安全的 SharePoint 文件夹。

接着,Power Automate 向 n8n 发送一个 webhook 数据包。这个包里包含文件路径和基础元数据。n8n 接手文件。

关键点来了:n8n 不去调用 GPT-4o,而是向 Azure Anthropic 发起 API 调用,明确要求使用 Claude 3.5 Sonnet 模型。你把 PDF 传过去,同时附带一个严格的 JSON schema,定义好你想要的数据结构。

Claude 读完了整整 20 页文档。它 200k 的上下文窗口和卓越的召回能力意味着它在中间部分不会偷懒。它完美提取了所有 150 个项目,把日期、参考号和总额映射成一个干净的 JSON 数组。

n8n 接收到这个 JSON 数据包,遍历数组。针对每一个项目,它向 Xero API 发起一个 PATCH 请求,直接在你账务软件里更新发票行项目。

这是一个安静、隐形的流程。它在凌晨 3 点运行,没人需要插手。搞定。

搭建这样一套流程大约需要 2 到 3 周的专注投入。根据你现有集成的复杂程度,开发成本在 £6k 到 £12k 之间。之后的 API 运行成本分摊到每份文档上只有几便士。

你确实得为失败情况做打算。Claude 很棒,但它也不是万能的。它可能会在日期格式上产生幻觉,把美国日期当成英国日期。你可以在 n8n 里加一个验证节点来拦截。

在任何数据进入 Xero 之前,该节点会根据严格的正则表达式检查日期字符串。如果验证失败,流程会跳过 Xero 更新,并向你的财务助理发一条 Slack 提醒,附上具体文件的链接。

系统能发现自己的错误,只在必要时才惊动人工。这才是生产级别的 AI 架构该有的样子。

哪里会出问题

如果你喂给它的是那种陈旧的扫描件,在 AI 阅读之前需要专门的光学字符识别(OCR),那么这套双栈方法就会失灵。

如果你的发票是老旧仓库系统生成的扫描版 TIFF 文件,那就有麻烦了。如果文档上有手写笔记涂在打印文字上,Claude 的视觉能力很难解析这些噪音。

在这种情况下,直接把原始图片喂给大模型是个错误。你需要先加一层专门的 OCR。你得先让文档过一遍 Azure Document Intelligence 来提取原始文字,然后再把文字喂给 Claude。

即便如此,错误率也会从 1% 的基准线飙升到 12% 左右。你得为这 12% 的情况专门建一套错误处理流程。

速度是另一个限制。如果你在做一个需要毫秒级响应的客服聊天机器人,把所有东西都路由给庞大的 Claude 模型就有点杀鸡用牛刀了,延迟会让用户抓狂。对于快速对话任务,Azure OpenAI 通常更快、更便宜。

你还需要干净的数据架构。如果你的 Xero 联系人字段乱七八糟,或者供应商名称跟数据库对不上,自动化就会失败。AI 可以完美提取数据,但如果目标系统因为 ID 匹配不上而拒绝接收,流程就断了。

先理顺你那些烂数据,再搭 AI 架构。

值得思考的三个问题

  1. 你的团队成员是不是还在手动核对自动化系统的结果?因为他们压根不信任提取出来的数据。
  2. 你是不是在为现成的 AI 套壳工具付高价?明明直接调用 Azure Anthropic 的 API 只要几便士就能搞定。
  3. 你最近有没有审计过你的自动化工作流,看看幕后真正干重活的到底是哪个模型?

订阅获取 UK AI 洞察。

针对英国企业的 AI 实战内容 —— 拆解、教程、监管解读。随时取消。

随时取消。