Skip to main content
YUFAN & CO.
返回博客
blog.categories.industry-insights

为什么 HMRC 的 AI 索赔只是个神话,以及你该如何真正挺过审计

Yufan Zheng
创始人 · 前字节跳动 · 北京大学硕士
1 分钟阅读
· 更新于
Cover illustration for Why HMRC AI Claims Are a Myth and How to Really Survive Audits

你正盯着一封来自英国税务海关总署(HMRC)的合规检查信,整整 14 页。这信是今天早上寄到的。信里的问题听起来冷冰冰、套话连篇,跟你团队花了八个月开发的定制物流软件压根不沾边。

你第一反应就是:这绝对是机器写的。你觉得肯定是有个 AI 扫描了你的研发(R&D)税收抵免申请,没看懂代码库,然后自动发了封拒绝信。

你不是一个人。我现在聊过的每个老板都觉得自己是在跟一个失控的算法搏斗。他们深信自己那 £60,000 的税收抵免被 ChatGPT 的某个官僚亲戚给扣为人质了。

但他们想错了。

「幻影审计员」的迷思

所谓的「幻影审计员」迷思,就是一种错误的认知,觉得 HMRC 在用生成式 AI 阅读技术说明并自动拒绝中小企业的税务申请。这其实是老板们在申请被标记时用来安慰自己的谎言。这事儿能把责任从「记录做得很烂」推给「冷酷无情的机器」。但法庭记录显示的完全是另一回事。

2025 年 9 月,在经历了两年的信息公开诉讼后,HMRC 终于披露了他们真实的 AI 使用情况 来源 (https://easyrnd.co.uk/tribunal-orders-hmrc-to-disclose-its-use-of-ai-in-rd-tax-reviews/)。他们证实,研发税收抵免合规团队压根没用生成式 AI。一点儿没用。所有的往来信件都是由人类专员起草和审核的。没有一封自动发出的信件是直接甩给企业的。

那为什么信件读起来这么像机器人写的?因为人类专员在用标准模板。他们只是从中央数据库里复制粘贴那些通用的问题。

标记你申请的系统并不是什么阅读 PDF 的高级神经网络。它只是一个基础的算法风险评估脚本。这个脚本看的是结构化数据。它会比对你的「附加信息表」(Additional Information Form)和 CT600 纳税申报单。它会检查分包商成本是否突然飙升,或者标准行业分类(SIC)代码是否对不上。

如果你的数字触发了某个阈值,脚本就会把你的案子扔进排队序列。然后一个大活人把它捡起来,扫一眼,发出一封模板信。

「幻影审计员」的迷思之所以存在,是因为真相更难让人接受。责怪一个失控的 AI,总比承认你提交的申请数据结构一团糟要容易得多。一旦你明白第一道过滤网只是个「笨脚本」,你应对合规的方式就得彻底改变。

为什么「显而易见的办法」行不通

中小企业最常用、也最致命的补救办法,就是用大语言模型(LLM)生成一份长篇大论、全是术语的技术报告。当老板们觉得是 AI 在审他们的申请时,他们就想「以毒攻毒」。他们导出几百个 Jira 任务单,全塞进 Claude 的窗口里,让它写出一篇符合 HMRC 规范的说明。

结果通常是一份 40 页的 PDF,里面塞满了晦涩、重复的段落。老板觉得这一大坨文字能让算法满意。这恰恰是你最不该做的事。

你漏掉了一个关键机制:HMRC 的风险评估引擎不读你的 PDF。它解析不了你那些精心调教的提示词(prompt)背后的微言大义。最初的标记纯粹是由你电子提交的财务输入和分类数据触发的。在案子落到人类专员桌子上之前,那份 PDF 根本没人看。

注意这一部分:当那个专员打开你用 AI 生成的报告时,他已经很累了。他这周要审 50 个案子。他开始读一份第一页就用了 17 次「技术不确定性」这个词、却从来没解释清楚到底哪儿坏了的文件。

AI 抹平了所有的棱角。它删掉了你工程失败中那些具体、混乱的细节,换成了企业公文。专员找不到真正的创新点。他们会感到挫败,认定这申请有水分,然后直接拒掉。就这么简单。

根据我审查这些案例的经验,一份 £50,000 的研发申请如果配上 AI 生成的说明,实际上会让你面临长期调查的风险翻倍。你给人类审核员看的是一份让人觉得在「绕圈子」的文件。你在用一堵合成文字墙遮掩真实的工程工作。这不聪明,也没效果。

真正管用的方法

真正管用的方法

用 Slack、Make 和 Claude 自动抓取合规数据,将工程故障转化为 Airtable 结构化记录。

通过合规检查唯一可靠的方法,是建立一套自动化系统,在工程失败发生的当下就抓住它们。你得停止在年底才去补写回顾性的说明。你要每周结构化这些数据,这样人类专员拿到的就是他们真正需要的东西。

具体怎么做?从你工程师待的地方开始。创建一个专门的 Slack 频道,叫 #rnd-log。告诉你的团队,只要碰壁了,就随手扔个便签进去。不用正式写作,就把失败的情况直接「脑力倾倒」出来。

在 Make 里设一个 webhook 监听这个 Slack 频道。消息一进来,webhook 就触发一次 Claude API 调用。这是你该用 AI 的地方,但要严格使用。在 API 调用中强制执行一个严苛的 JSON 模式(schema)。

这个模式强迫 Claude 只提取三样东西:项目名称、技术基准、遇到的不确定性。然后 webhook 把解析好的 JSON 数据 PATCH 到 Airtable 数据库的新行里。

看个真实的例子。工程师输入:「Stripe 的 webhook 在自定义结账流程中重复触发,payload 丢失了 session ID,我压根不知道为什么。」Claude 提取出「Stripe webhook 重复触发导致 session ID 丢失」作为不确定性。Airtable 记录下它并带上时间戳。

到了年底,你不用编故事。你直接从 Airtable 导出一个结构化的 CSV,里面包含 40 个具体的、带时间戳的工程失败记录。把这个交给你的会计。当 HMRC 专员读到它时,他们看到的是真实的工作。他们看到了日期、具体的技术障碍和活生生的人的挫败感。

这套流水线你大概两周就能搭好。搭建成本大约在 £2,000 到 £4,000 之间(取决于你的 Airtable 有多复杂)。运行成本每月也就 £20 左右的 API 额度。

主要的失败模式是「垃圾输入」。如果工程师只打个「修复了数据库」,Claude API 提取出来的就是「数据库修复」。不确定性字段实际上就是空的。你可以通过增加一个 Slack 机器人回复来解决这个问题。

如果 JSON 返回的是模糊的不确定性,Make 场景就会在 Slack 线程里追问工程师:「到底哪儿坏了?」这强迫他们在失败发生的瞬间把事情说清楚。它阻止了那种会在 9 个月后毁掉你申请的「无声数据丢失」。

这套东西在什么情况下会失效

如果你的研发涉及物理硬件,或者有一堆乱七八糟的外部供应商发票,这套持续捕获系统就彻底玩不转了。在搭建之前,你得先看看你的业务现实。它依赖于你的团队能实时用文字沟通技术问题。

如果你是一家在工厂车间制造物理原型的制造类中小企业,不确定性不会出现在 Slack 里。它们出现在报废的材料和物理测试日志里。这时候 Slack 集成没用。你需要一套完全不同的捕获机制,通常是在测试站放一个基于平板电脑的表单。

如果你的分包商数据一团糟,这招也会失灵。如果你的外部开发公司给你发的是没有明细的扫描版 PDF 发票,内部跟踪也救不了你。HMRC 的风险脚本早在有人读你的 Airtable 日志之前,就会标记出那些模糊的分包商成本。

如果你的发票是从老旧财务系统里出来的扫描版 TIFF 文件,你得先做 OCR(文字识别)。一旦引入 OCR,错误率会从 1% 飙升到 12% 左右。最后你花在修复错误转录上的时间,比你直接写报告的时间还多。先解决数据源的问题。

别给物理流程硬套数字跟踪系统。也别指望一个漂亮的 Airtable 数据库能掩盖你核心财务数据非结构化的事实。地基必须得稳。

要避免的三个错误

研发税收抵免合规中最大的反模式,都源于没搞清楚到底是谁在审你的申请。

  1. 别想靠提示词工程(Prompt-engineer)来拯救一个烂申请。 老板们喜欢把模糊的项目笔记喂给 LLM,让它生成技术说明。产出看起来很专业,但缺乏符合抵免条件的具体工程失败细节。人类专员一眼就能看出这些合成的废话。当他们找不到真正的技术进步时,就会拒掉申请。
  2. 别忽视数字数据的结构。 HMRC 最初的风险评估完全基于你在「附加信息表」和 CT600 中提交的数字。如果你的分类数据错了,或者分包商成本莫名其妙飙升,你就会触发自动标记。再牛的技术写作也绕不过这第一道算法过滤。先搞定结构化数据。
  3. 别以为是机器在做最终决定。 法庭披露的信息证明,人类专员处理每一个被标记的申请。他们在读你的文件。如果你为了讨好一个虚构的「AI 审计员」去格式化你的申请,你就是在疏远那个真正有权批准你税收抵免的人。写给一个疲惫不堪、工作超负荷的人类看,他只想看到技术不确定性的清晰证据。

订阅获取 UK AI 洞察。

针对英国企业的 AI 实战内容 —— 拆解、教程、监管解读。随时取消。

随时取消。