跳到主要内容
Didit 融资 750 万美元,打造身份与欺诈基础设施
Didit
返回博客
博客 · 2026年4月16日

LLM时代的用户身份验证:前沿AI实验室生存的关键 (ZH)

训练前沿模型耗资数亿美元,但提炼成本却只需几美分。API访问的KYC正在成为标配。身份验证是AI实验室新的护城河,原因如下。.

作者:Didit更新于
kyc-llm-era-model-access-anti-distillation.png

2026年2月,Anthropic发布了证据,表明三家中国AI实验室使用2.4万个欺诈账户,共与Claude进行了1600万次交互。其目的并非随意实验,而是工业规模的模型提炼:利用有史以来最昂贵的AI系统的输出,训练更便宜、更弱的模型。

两个月后,Anthropic在Claude上推出了护照和自拍身份验证。

这一系列事件并非巧合。这是LLM时代的定义性合规故事。前沿AI正迅速且不可避免地被拖入与银行、经纪商和加密货币交易所相同的“了解你的客户,监控你的客户”纪律中。本文将解释原因、实际操作方式以及每个AI公司——而不仅仅是前沿实验室——应该如何应对。

促使KYC成为必然的经济因素

如今,训练一个前沿模型仅计算成本就需要1亿美元到10亿美元。GPT-4、Claude 3.5 Opus、Gemini Ultra、Grok 3——都处于这个范围内。下一代模型将进入10亿美元到100亿美元的区间。

模型提炼的成本大约是上述成本的0.1%。给一个较弱的模型提供来自更强模型的高质量示例几百万个,进行几周的微调,就可以在大多数基准测试中恢复目标模型的大部分能力。

“训练前沿模型”和“提炼前沿模型”之间的差距是三个数量级。这种不对称性是当前AI领域最重要的经济事实。它解释了为什么每个主要的实验室要么已经在运行KYC程序,要么正在积极开发KYC程序。

如果没有KYC,攻击将变得微不足道:

  1. 尽可能自动化地注册尽可能多的API账户
  2. 通过住宅代理路由流量,以规避IP速率限制
  3. 使用虚假电子邮件、租用的电话号码和预付卡
  4. 提取数百万个关于编码、数学、工具使用和智能体任务的推理轨迹
  5. 使用该数据集训练自己的模型
  6. 免费或以原价的一小部分价格发布它

攻击者的总成本是API花费数万美元。对提炼模型的实验室造成的商业损失高达数十亿美元。这并非一个稳定的系统。

模型提炼的实际表现

Anthropic的技术报告以罕见的清晰度描述了攻击模式。他们检测到的特征包括:

  • 重复的提示模板,跨数百个协同账户,旨在引发一致的推理链
  • 链式思考提示模式——提示强制模型暴露其完整的推理过程,然后将其作为训练数据进行抓取
  • 能力导向的流量——整个账户群专注于编码、智能体工具使用或数学推理,具体取决于目标能力
  • “水母集群”架构——分布在API和云提供商之间的账户网络,以保持在每个端点异常阈值以下
  • 商业代理服务同时管理数万个账户,将提炼流量与合法的负载混合,以扰乱信号

相关参与者——DeepSeek、Moonshot AI、MiniMax——负责特定的操作:

  • MiniMax:1300万次交互,专注于智能体编码和工具编排
  • Moonshot AI:340万次交互,涵盖智能体推理、编码和计算机视觉
  • DeepSeek:15万次交互,提取推理能力

每个前沿实验室都认为相同的攻击正在针对他们。大多数实验室尚未公布数据。

为何需要KYC

有很多可能的防御提炼的方法。KYC不是唯一的,而且本身也不足以解决问题。然而,它是其他防御措施有效运作的基础。

没有身份的检测是一项漏洞百出的筛子

你可以构建出色的行为分类器来检测提炼模式。Anthropic就是这样做的。但是,如果攻击者每小时可以启动1000个新账户,你的分类器的价值就会迅速降低。每个被封禁的账户都会在完成封禁理由之前被替换。

通过验证身份,每个被封禁的账户都会给攻击者带来实际成本——他们需要一个新的身份、新的文件、新的生物特征。在某个价格点,攻击将不再有利可图。

法律追索需要真正的被告

Anthropic可以起诉DeepSeek。它无法起诉“account-98234@tempmail.com”。服务条款的违规行为只有在你知道谁违反了它们时才可执行。KYC将服务条款从一份象征性文件转变为一份可执行的合同。

没有身份的安全控制将崩溃

整个能力分级部署目录——生物安全提升阈值、出口控制工作流程、制裁实体阻止、未成年人保护——都依赖于了解用户的管辖权、年龄和法律地位。你无法识别你无法识别的人。

监管机构正在到来

欧盟AI法案已经生效。英国AI安全研究所与前沿实验室达成了直接测试协议。美国关于AI的行政命令设定了报告阈值。中国网络空间管理局已经要求对生成式AI进行身份验证。AI访问的KYC正在从最佳实践转变为跨所有主要司法管辖区的监管预期。

LLM KYC的最新实践方案

AI平台KYC的形态正在迅速趋同。根据Anthropic、OpenAI、Google DeepMind和大型企业AI云提供商目前的做法,标准方案如下。

第一级:公共访问

免费层级、消费者聊天产品。电子邮件验证、电话验证、设备指纹识别、CAPTCHA。除非风险信号触发,否则无需提供文件验证。目标是在不破坏注册渠道的情况下过滤掉明显的滥用行为。

第二级:API访问

付费API客户。通过Stripe级别的KYC进行支付方式验证,再加上以下几种组合:

  • 注册时进行电话验证
  • IP地理位置和管辖权筛选
  • 企业组织的电子邮件域验证
  • 由容量阈值、能力层级或异常信号触发的身份验证

Anthropic当前的Claude推出就在这一级别。

第三级:强化尽职调查

企业合同、批量推理承诺、访问前沿能力(长上下文推理、智能体工具使用、大规模编码)。完整的KYC堆栈:

  • 带有活体检测的政府颁发的身份验证
  • 与身份照片匹配的生物特征自拍
  • 制裁、PEP和不利媒体筛选
  • 公司客户的最终受益人
  • 对非常大的承诺的资金来源
  • 附带合同限制的预期用途证明

第四级:高风险能力

任何跨越实验室负责任的扩展策略或同等阈值的内容——生物提升模型、具有真实世界写入访问权限的自主代理、双重用途的网络能力。定制入职,人工审核,政府客户验证,出口控制合规性,定期重新验证。

大多数最终用户只会看到第一级。构建者将生活在第二级。企业客户将体验第三级。第四级仅保留给少数获得直接政府监督批准的实体。

前沿实验室的失误

早期的推出正在不断学习,这些错误具有启发意义。

无声推出破坏信任

Anthropic在Claude上推出了身份验证,只发布了一篇帮助中心文章。没有博客文章。没有提前通知。没有公布范围。由此产生的反弹是可以预见的,并且在很大程度上是可以避免的。当理由清晰且数据处理明确时,用户会接受KYC。当验证在没有解释的情况下突然出现时,他们会反抗。

不明确的触发因素会造成偏执

“部分用户,部分功能”是一种合理的推出策略,但也是一种糟糕的沟通策略。用户会认为最坏的情况——触发因素是政治性的、意识形态性的或任意的。公布触发因素。“当我们超过X请求/天、访问Y功能或我们的欺诈信号标记Z模式时,我们会进行验证”比不透明的推出效果更好。

内部托管生物特征数据是一个错误

构建了自己的身份验证堆栈的每个前沿实验室都会在两年内为此后悔。生物特征托管是一项专门的、受监管的、经过审计的业务。与专门的提供商(Persona、Onfido、Didit)合作,并远离数据托管业务。Anthropic在这方面做得正确。

忽略开发人员体验

如果KYC阻止您的API客户两天,而审核人员审查一个模糊的文件扫描,你就失去了这个客户。最佳的验证流程在移动设备上实时活体检测和自动文件审查下完成,在90秒以内。任何更慢的速度都是竞争劣势。

每个AI产品都应该做的事情,而不仅仅是前沿实验室

如果您正在构建一个基于LLM API的产品——聊天机器人、智能体平台、编码工具、内容产品——您不能免于这种转变。您是下游的。

三个实际建议:

1. 假设您的上游提供商将要求更多的验证

Anthropic会对其API客户提出更多要求。OpenAI也是如此。如果您的公司无法通过增强尽职调查(验证的最终受益人、预期用途证明、出口控制筛选),您的API访问将面临风险。现在就清理您的公司KYC状况以免发生紧急情况。

2. 为您自己的用户实施基于风险的KYC

您的产品可能正以与前沿实验室相同的方式被滥用。垃圾智能体、抓取网络、冒充机器人、欺诈团伙。正确的架构:

  • 注册时摩擦力低——电子邮件、电话、设备指纹识别
  • 由风险信号触发验证——容量、异常、可疑模式、敏感功能
  • 付费层级的强化验证——文档+活体+制裁筛选
  • 持续监控——行为指纹、异常重新验证

这是银行已经使用了几十年的基于风险的模型,并针对AI产品进行了调整。

3. 选择适合AI工作流程的身份提供商

传统KYC供应商是为银行设计的。它们速度慢、成本高,并且针对错误的指标进行了优化。AI产品需要:

  • 快速验证——端到端不超过90秒
  • 基于使用量的定价——没有最低要求,没有为实验签订企业合同
  • 广泛的文件覆盖范围——220多个国家/地区的14,000多种文档类型(AI产品从第一天起就是全球性的)
  • 真实的活体检测——因为深度伪造驱动的欺诈在2026年已经成为常态
  • 干净的API——因为AI公司每周发布一次,而不是每季度发布一次

这是Didit构建的差距:为AI原生产品构建的身份验证基础设施。文件验证、生物特征活体检测、AML筛选、持续监控——每次检查30美分,220多个国家/地区。它与AI公司实际构建和扩展的方式相匹配的身份验证形式。

终局

五年后,使用前沿AI实验室的API账户将感觉像开设一个经纪账户。经过验证的身份。大额承诺的资金来源检查。持续监控。可疑活动报告。定期重新验证。访问层级映射到能力层级。

有些人会认为这是一种反乌托邦。然而,这是两种力量的逻辑终点:前沿训练的惊人成本,以及正在训练的东西的惊人能力。当API另一端的实体能够有意义地提升生物武器计划,或者被提炼成一个破坏数十亿美元的企业价值的产品时,访问层必须看起来像受监管的金融基础设施。

那些能够做到在不破坏开发人员体验的情况下的公司将获胜。那些拒绝验证(并被提炼成无关紧要)或验证不佳(并因竞争而失去开发人员)的公司将失败。

KYC不是AI创新的敌人。不受控制的提炼才是。行业越早认识到这一点,对每个人(实验室、开发人员、企业客户以及依赖AI层继续存在的用户)来说,平衡状态就越好。

---

Didit提供为AI原生产品构建的身份验证基础设施。文件验证、生物特征活体检测、AML筛选、持续监控——每次检查30美分,覆盖220多个国家/地区。立即免费开始

are you ready for free kyc.png

身份与欺诈基础设施。

一个 API 即可实现 KYC、KYB、交易监控和钱包筛选。5 分钟即可集成。

让 AI 总结此页面
LLM访问KYC:阻止模型提炼 | 指南.