Skip to main content
YUFAN & CO.
返回博客
blog.categories.guides

用 Vision-First 提取管线,彻底终结非结构化数据带来的「隐形税收

Yufan Zheng
创始人 · 前字节跳动 · 北京大学硕士
1 分钟阅读
· 更新于
Cover illustration for Eliminating the Unstructured Data Tax with Vision-First Extraction Pipelines

在一个阴雨连绵的下午,你走进财务办公室。助理正盯着屏幕:左边显示器是一个物流供应商发来的 14 页 PDF,右边开着 Xero。他正对着屏幕,手动输入 42 个独立的条目。

上个月,这家供应商改了发票版式。现在的表格会跨页断开。公司那个每月花 £400 买的老掉牙 OCR 软件,现在只会吐出一堆乱码一样的纯文本。

于是,一个年薪 £30,000 的大活人,在那儿干着数据录入的活儿。

这是对人力潜能的一种缓慢而昂贵的消耗。在几乎所有涉及实物移动或复杂供应链的企业里,你都能看到这一幕。文书工作就像沙子,磨慢了整个公司的转速。这事儿乱透了,而且没人知道为什么我们要忍受它。

「非结构化数据税」

所谓「非结构化数据税」,就是指你为了把那些乱七八糟、不可预测的文件转换成数据库里的结构化字段,而不得不支付的隐形成本人力。

每当一份发票、一份报关单或一份手写的送货单以你的软件读不懂的格式寄过来时,这笔税就开始扣了。

大多数公司觉得这是经营成本,忍了。他们买了 Dext、Hubdoc 或 AutoEntry 之类的工具。这些工具处理标准收据和简单的水电费账单确实没问题。

可一旦供应商加了一个自定义列,或者在边角处用圆珠笔写了个批号,系统就直接「死机」。软件会标记为「待人工审核」。然后员工打开文件,找到缺失的文字,再手动敲进 Xero 或 QuickBooks。

你花钱买软件是为了自动化,结果还得再花钱雇人来给软件收尾。这事儿确实挺蠢的。

这笔「税」会随着你的业务增长而线性增加。订单量翻倍,异常情况就翻倍。最后你不得不雇佣初级员工,仅仅是为了「喂饱」那台机器。这是一个结构性瓶颈,它让一家 £5M 规模的公司在不臃肿化后台办公室的情况下,根本没法扩张到 £10M。

非结构化数据税逼着你公司里最有能力的人去当「人工路由器」。他们不再做财务分析,不再去催收坏账。他们只是把 PDF 里的文字搬运到网页表单里。这是中小企业最常遇到的业务天花板。

为什么「聊天机器人」方案行不通

用基础的 ChatGPT 订阅来替代老旧 OCR 往往会失败。因为消费级 AI 界面无法可靠地将复杂的文件结构映射到死板的会计软件字段中。

老板们通常会有一种膝跳反应式的解决方案:看到 ChatGPT 从图片里提取文字的演示,就给团队买了 10 个账号。

或者他们尝试搞个 Zapier 自动化流:把 Gmail 附件传给基础的文本提取器,把文字推给 OpenAI,然后尝试生成 Xero 发票。

我经常看到这种模式。第一次测试时,用一张干净的单页发票,效果惊艳。一旦投入实际生产,现实会教你做人,败得一塌糊涂。

失败的逻辑是这样的:Zapier 原生的文本提取会剥离空间位置关系。当你把一个复杂的 PDF 喂给基础解析器时,它只会从左到右、从上到下地读。表格结构彻底丢失。它根本分不清一个数字是属于「单价」列还是「数量」列。

LLM 收到的是一堵乱码墙,只能靠猜。有时候它会猜错。Zapier 的标准集成步骤通常处理不了嵌套的 JSON 对象。所以,当 Xero 要求把一个条目分配到两层深的跟踪类别时,自动化流程会静默地写入一个空值。它甚至可能把 £500 的单价填进数量栏。

Zapier 把错误数值推送到 Xero。你直到月底对账时才会发现。你用一个缓慢的人工流程,换来了一场快速的自动化灾难。

每月 £25 的 ChatGPT 订阅替代不了 £35k 的年薪,原因就在这:聊天机器人处理每个文件都需要人工提示。如果你的员工还得从 Outlook 下载 PDF,上传到聊天窗口,复制输出结果,再粘贴到 Xero,那你压根没实现自动化。你只是给「非结构化数据税」增加了更多步骤。

视觉优先的提取流水线

视觉优先的提取流水线
视觉优先的提取流程:Outlook 附件触发 n8n,转为 base64 传给 Claude 3,最后输出结构化 JSON。

处理乱糟糟文书的可靠方法是:彻底绕过传统的文本提取,直接使用 Anthropic 的 Claude 3 视觉模型将文档作为图像读取,并强制输出为严格的 JSON 模式。这不是 OCR,这是「视觉推理」。

根据 Anthropic 发布的数据,Claude 3 家族(特别是 Claude 3 Opus 和 Sonnet)拥有接近人类水平的视觉理解能力 [来源](https://www.anthropic.com/news/claude-3-family)。它们不只是读字,它们理解布局、边框和手写笔记。

一个真实的生产环境配置是这样的:一封主题为「发票 4092 - 运费」的邮件进入 Outlook 共享邮箱。里面有一个来自那家麻烦供应商的 PDF 附件。一个 n8n webhook 被触发。它不去解析 PDF 文本,而是把 PDF 页面转换成高分辨率图像。

n8n 通过包含严格 JSON 模式的提示词(prompt)将这些图像发送给 Claude 3 API。你明确告诉 Claude 你需要哪些字段:InvoiceNumber、Date、TotalAmount,以及一个包含 Description、Quantity 和 TaxRate 的 LineItems 数组。你要求它只返回有效的 JSON。

Claude 盯着图像看。它看到了跨越两页的表格。它读到了手写的「已应用折扣」备注。它把一切完美地映射到 JSON 结构中。

n8n 接收这个 JSON。它解析数据包,循环遍历条目,直接通过 POST 请求发给 Xero API。全程没人碰过这个文件。

注意这一步:神奇之处在于你不是在要求 Claude 写一段话,而是强迫它填充一个数据结构. 你使用 Make 或 n8n 之类的工具来强制执行这个结构。如果 Claude 在 Xero 需要整数的地方返回了一个字符串,webhook 会截获它,优雅地报错,并提醒运营经理。

这条流水线处理多页文档毫不费力。Claude 3 可以在一次 API 调用中处理几十张图像。它能保持跨页的上下文。当发票表格在第一页切断并在第二页恢复时,模型知道这是同一个表格。老旧 OCR 每次都会在这个坎儿上栽跟头。

你还要建立一个安全网。如果 Claude 的置信度较低,或者总金额与各条目之和不符,n8n 会把 JSON 路由到 Slack 频道进行人工审核。员工在 Slack 里点一下按钮,流程继续。你处理的是「异常」,而不是「数据录入」。

这样一套系统大约需要两到三周来构建和测试。根据你现有集成的复杂程度,预计花费在 £6,000 到 £12,000 之间。运行成本仅仅是 API 调用费,每个文件几便士。它能彻底免除你的「非结构化数据税」。

视觉模型的局限性

如果喂给它清晰度极差的扫描件,或者依赖它处理需要外部背景信息的复杂会计逻辑,视觉提取也会失灵。这不是万能灵药。在拆掉现有系统之前,你需要知道边界在哪里。

如果你的发票是那种从用了 15 年的仓库扫描仪里出来的、低分辨率黑白 TIFF 文件,你得先用 OCR,而且错误率会从 1% 飙升到 ~12%。Claude 3 很牛,但它读不出不存在的像素。如果人眼都看不清那些模糊的字,AI 就会开始胡编乱造。

如果文档缺乏明确数据,它也会失效。假设你的供应商使用内部零件编号,而你的财务团队通常需要对照一份主表才能找到正确的 Xero 会计科目代码。Claude 没法仅凭一张图片就做到这一点。

你必须把这个查询步骤构建到你的 n8n 工作流中。不要让 LLM 去猜科目代码。让它提取零件编号,然后使用 n8n 中的数据库节点去查询 Airtable 或 Supabase 获取正确代码。

让 AI 只负责视觉提取。让确定性的逻辑留在你的数据库里。把两者混在一起,就是你构建出脆弱系统的开始。

值得思考的三个问题

我们很容易把现在的 AI 工具看作写营销文案的玩具。但底层模型已经跨过了一个门槛:它们现在可以承担后台运营的重活。你只需要把它们正确地连接起来。

在你续签老旧 OCR 合同,或者再招一个初级助理往 Xero 里敲数据之前,好好审视一下你现在的流程:

  1. 你的高薪财务人员每周是否要花 5 小时以上,手动把复杂 PDF 里的数据搬运到会计软件里,仅仅是因为你现在的工具处理不了自定义表格布局?
  2. 当核心供应商更改发票格式时,你的自动化流程是否会静默报错、往数据库里塞空值,并导致月底需要大量人工对账来收拾残局?
  3. 在你的技术栈中,概率性的 AI 数据提取和确定性的、基于规则的业务逻辑之间,是否有一条清晰且强制执行的界限?

订阅获取 UK AI 洞察。

针对英国企业的 AI 实战内容 —— 拆解、教程、监管解读。随时取消。

随时取消。