Blog · 16 avril 2026

KYC à l'ère des LLM : Pourquoi la vérification d'identité est essentielle à la survie des laboratoires d'IA de pointe (FR)

L'entraînement des modèles de pointe coûte des centaines de millions, mais peut être distillé pour quelques centimes. La vérification d'identité pour l'accès aux API devient obligatoire.

Par Didit16 avril 2026Mis à jour le 22 mai 2026

En février 2026, Anthropic a publié des preuves que trois laboratoires d'IA chinois avaient collectivement effectué 16 millions d'échanges avec Claude en utilisant 24 000 comptes frauduleux. L'objectif n'était pas une expérimentation occasionnelle. Il s'agissait d'une distillation à l'échelle industrielle : entraîner des modèles moins chers et moins performants sur les résultats du système d'IA le plus coûteux jamais construit.

Deux mois plus tard, Anthropic a déployé une vérification d'identité par passeport et selfie sur Claude.

Cette séquence n'est pas une coïncidence. C'est l'histoire de conformité déterminante de l'ère des LLM. L'IA de pointe est entraînée, rapidement et inévitablement, dans la même discipline de "connaissance de votre client, surveillance de votre client" à laquelle les banques, les courtiers et les plateformes d'échange de crypto-monnaies sont soumises. Cet article explique pourquoi, à quoi cela ressemble en pratique, et ce que chaque entreprise d'IA—pas seulement les laboratoires de pointe—doit faire à ce sujet.

L'économie qui rend le KYC inévitable

L'entraînement d'un modèle de pointe coûte aujourd'hui entre 100 millions et 1 milliard de dollars rien qu'en puissance de calcul. GPT-4, Claude 3.5 Opus, Gemini Ultra, Grok 3—tous se situent dans cette fourchette. La prochaine génération dépassera les 1 à 10 milliards de dollars.

La distillation coûte environ 0,1 % de ce montant. Donnez à un modèle plus faible quelques millions d'exemples de haute qualité provenant d'un modèle plus puissant, affinez-le pendant quelques semaines, et vous aurez récupéré une grande partie des capacités du modèle cible sur la plupart des benchmarks.

L'écart entre "entraîner un modèle de pointe" et "distiller un modèle de pointe" est de trois ordres de grandeur. Cette asymétrie est le fait économique le plus important de l'IA aujourd'hui. Elle explique pourquoi chaque laboratoire de pointe majeur exécute déjà un programme KYC ou en a un en cours de développement.

Sans KYC, l'attaque est triviale :

Inscrivez-vous au plus grand nombre possible de comptes API que vous pouvez automatiser
Routez le trafic via des proxys résidentiels pour contourner les limites de débit d'IP
Utilisez des e-mails fabriqués, des numéros de téléphone loués et des cartes prépayées
Extrayez quelques millions de traces de raisonnement sur le codage, les mathématiques, l'utilisation d'outils et les tâches d'agents
Entraînez votre propre modèle sur l'ensemble de données
Publiez-le gratuitement ou à une fraction du prix de l'original

La facture totale pour l'attaquant s'élève à quelques dizaines de milliers de dollars en dépenses API. Les dommages commerciaux pour le laboratoire dont le modèle a été distillé se chiffrent en milliards. Ce n'est pas un système stable.

À quoi ressemble réellement la distillation

Le document technique d'Anthropic décrivait les schémas d'attaque avec une clarté inhabituelle. Les signatures qu'ils ont détectées comprennent :

Modèles d'invite répétitifs sur des centaines de comptes coordonnés, conçus pour susciter des chaînes de raisonnement cohérentes
Modèles d'extraction de la chaîne de pensée—des invites qui forcent le modèle à exposer son raisonnement complet, qui est ensuite récupéré comme données d'entraînement
Trafic ciblé en fonction des capacités—des flottes entières de comptes axés exclusivement sur le codage, l'utilisation d'outils d'agents ou le raisonnement mathématique, en fonction de la capacité cible
Architectures de type "cluster Hydra"—des réseaux de comptes répartis sur des API et des fournisseurs de cloud pour rester en dessous des seuils d'anomalie par point de terminaison
Services de proxy commerciaux gérant des dizaines de milliers de comptes simultanément, mélangeant le trafic de distillation avec des charges de travail légitimes pour empoisonner le signal

Les acteurs nommés—DeepSeek, Moonshot AI, MiniMax—étaient responsables d'opérations spécifiques :

MiniMax : 13 millions d'échanges, axés sur le codage d'agents et l'orchestration d'outils
Moonshot AI : 3,4 millions d'échanges, couvrant le raisonnement d'agents, le codage et la vision par ordinateur
DeepSeek : 150 000 échanges, extraction de capacités de raisonnement

Chaque laboratoire de pointe suppose que la même attaque est menée contre lui. La plupart ne publient pas encore les chiffres.

Pourquoi spécifiquement le KYC

Il existe de nombreuses défenses possibles contre la distillation. Le KYC n'est pas le seul, et à lui seul, il ne suffit pas. Il s'agit toutefois de la couche de base qui permet le fonctionnement de toutes les autres défenses.

La détection sans identité est une passoire

Vous pouvez créer d'excellents classificateurs comportementaux qui détectent les schémas de distillation. Anthropic l'a fait. Mais si l'attaquant peut créer 1 000 nouveaux comptes en une heure, la valeur de votre classificateur diminue rapidement. Chaque compte banni est remplacé avant que vous n'ayez terminé d'écrire le raisonnement du bannissement.

Avec une identité vérifiée, chaque compte banni impose un coût réel à l'attaquant—il a besoin d'une nouvelle identité, d'un nouveau document, d'une nouvelle donnée biométrique. À un certain prix, l'attaque cesse d'être rentable.

Un recours juridique exige un véritable défendeur

Anthropic peut poursuivre DeepSeek. Elle ne peut pas poursuivre "compte-98234@tempmail.com". Les violations des conditions d'utilisation ne sont exécutoires que si vous savez qui les a violées. Le KYC transforme les conditions d'utilisation d'un document symbolique en un contrat applicable.

Les contrôles de sécurité s'effondrent sans identité

L'ensemble du catalogue des déploiements à accès contrôlé par les capacités—seuils d'élévation de la biosecurité, flux de travail de contrôle des exportations, blocage des entités sanctionnées, protection des mineurs—dépend de la connaissance, au minimum, de la juridiction, de l'âge et du statut juridique de l'utilisateur. Vous ne pouvez pas filtrer ce que vous ne pouvez pas identifier.

Les régulateurs arrivent

La loi européenne sur l'IA est en vigueur. Le UK AI Safety Institute a des accords de test directs avec les laboratoires de pointe. Le décret exécutif américain sur l'IA fixe des seuils de déclaration. L'Administration du Cyberspace de Chine exige déjà une vérification d'identité sur l'IA générative. Le KYC pour l'accès à l'IA passe d'une bonne pratique à une attente réglementaire dans toutes les grandes juridictions.

Le plan d'action émergent pour le KYC des LLM

La forme du KYC pour les plateformes d'IA converge rapidement. Sur la base de ce qu'Anthropic, OpenAI, Google DeepMind et les principaux fournisseurs de cloud d'IA d'entreprise font maintenant, le programme standard ressemble à ceci.

Niveau 1 : Accès public

Niveau gratuit, produits de chat grand public. Vérification par e-mail, vérification par téléphone, empreinte digitale de l'appareil, CAPTCHA. Aucune vérification de document sauf si les signaux de risque la déclenchent. L'objectif est de filtrer les abus évidents sans détruire le processus d'inscription.

Niveau 2 : Accès API

Clients API payants. Vérification du mode de paiement en tant que proxy d'identité (KYC de niveau Stripe), plus une combinaison de :

Vérification par téléphone lors de l'inscription
Géolocalisation IP et contrôle de la juridiction
Vérification du domaine de messagerie de l'organisation pour les entreprises
Vérification de l'identité déclenchée par des seuils de volume, un niveau de capacité ou des signaux d'anomalie

C'est là que se situe le déploiement actuel de Claude d'Anthropic.

Niveau 3 : Diligence raisonnable renforcée

Contrats d'entreprise, engagements d'inférence en masse, accès aux capacités de pointe (raisonnement à long contexte, utilisation d'outils d'agents, codage à grande échelle). L'ensemble complet du KYC :

Vérification de la pièce d'identité gouvernementale avec détection de la présence physique
Selfie biométrique correspondant à la photo d'identité
Contrôle des sanctions, des PEP et des médias négatifs
Propriété bénéficiaire pour les clients professionnels
Source des fonds pour les engagements très importants
Attestation d'utilisation prévue avec des restrictions contractuelles

Niveau 4 : Capacités à haut risque

Tout ce qui dépasse la politique de mise à l'échelle responsable du laboratoire ou un seuil équivalent—modèles d'élévation biologique, agents autonomes avec accès en écriture au monde réel, capacités cybernétiques à double usage. Intégration sur mesure avec examen manuel, vérification des clients gouvernementaux, conformité aux contrôles des exportations, ré-vérification périodique.

La plupart des utilisateurs ne verront jamais le niveau 1. Les développeurs vivront au niveau 2. Les clients d'entreprise découvriront le niveau 3. Le niveau 4 est réservé à un petit nombre d'entités approuvées sous surveillance gouvernementale directe.

Ce que les laboratoires de pointe font mal

Les premiers déploiements apprennent sur le tas, et les erreurs sont instructives.

Les déploiements silencieux détruisent la confiance

Anthropic a lancé la vérification d'identité sur Claude avec un seul article du centre d'aide. Pas de publication de blog. Pas d'annonce préalable. Pas de portée publiée. La réaction négative qui en a résulté était prévisible et largement évitable. Les utilisateurs acceptent le KYC lorsque la justification est claire et le traitement des données est explicite. Ils se rebellent lorsque la vérification apparaît du jour au lendemain sans explication.

Des déclencheurs peu clairs créent de la paranoïa

"Certains utilisateurs, pour certaines fonctionnalités" est une stratégie de déploiement raisonnable, mais une terrible stratégie de communication. Les utilisateurs supposent le pire—que le déclencheur est politique, idéologique ou arbitraire. Publiez les déclencheurs. "Nous vérifions lorsque vous dépassez X requêtes/jour, lorsque vous accédez à Y fonctionnalité ou lorsque nos signaux de fraude signalent Z motif" est un bien meilleur message que les déploiements opaques.

Conserver les données biométriques en interne est une erreur

Chaque laboratoire de pointe qui a construit sa propre pile de vérification d'identité le regrettera dans les deux ans. La garde biométrique est un secteur spécialisé, réglementé et audité. Associez-vous à un fournisseur dédié (Persona, Onfido, Didit) et sortez de l'entreprise de garde de données. Anthropic a bien fait ce point.

Ignorer l'expérience des développeurs

Si le KYC bloque votre client API pendant deux jours pendant qu'un examinateur examine un scan de document flou, vous avez perdu ce client. Les meilleurs flux de vérification se terminent en moins de 90 secondes sur un appareil mobile avec des contrôles de présence physique en temps réel et un examen automatisé des documents. Tout ce qui est plus lent est un désavantage concurrentiel.

Ce que chaque produit IA devrait faire, pas seulement les laboratoires de pointe

Si vous créez sur une API LLM—un chatbot, une plateforme d'agents, un outil de codage, un produit de contenu—vous n'êtes pas exempté de ce changement. Vous en êtes en aval.

Trois recommandations pratiques :

1. Supposez que votre fournisseur en amont exigera davantage de vérification

Anthropic exigera davantage de ses clients API au fil du temps. Il en va de même pour OpenAI. Si votre entreprise ne peut pas satisfaire à une diligence raisonnable renforcée (propriété bénéficiaire vérifiée, attestations d'utilisation prévue, contrôle des exportations), votre accès à l'API est en danger. Nettoyez votre posture KYC d'entreprise maintenant, avant qu'il ne soit trop tard.

2. Mettez en œuvre un KYC basé sur les risques pour vos propres utilisateurs

Votre produit est probablement victime d'abus aux mêmes taux que les laboratoires de pointe. Agents de spam, réseaux de scraping, bots d'usurpation d'identité, réseaux de fraude. L'architecture appropriée :

Faible friction lors de l'inscription—e-mail, téléphone, empreinte digitale de l'appareil
Vérification déclenchée par des signaux de risque—volume, anomalie, modèles suspects, fonctionnalités sensibles
Vérification renforcée pour les niveaux payants—document + présence physique + contrôle des sanctions
Surveillance continue—empreintes digitales comportementales, ré-vérification en cas d'anomalie

C'est le même modèle basé sur les risques que les banques utilisent depuis des décennies, adapté aux produits IA.

3. Choisissez un fournisseur d'identité adapté aux flux de travail de l'IA

Les fournisseurs KYC traditionnels ont été conçus pour les banques. Ils sont lents, coûteux et optimisés pour la mauvaise mesure. Les produits IA ont besoin de :

Vérification rapide—moins de 90 secondes de bout en bout
Tarification à l'utilisation—pas de minimums, pas de contrats d'entreprise pour l'expérimentation
Large couverture documentaire—14 000 types de documents dans plus de 220 pays (les produits IA sont mondiaux dès le premier jour)
Détection réelle de la présence physique—parce que la fraude basée sur le deepfake est déjà la norme en 2026
API propre—parce que les entreprises d'IA livrent chaque semaine, pas chaque trimestre

C'est le fossé que Didit a comblé : l'infrastructure KYC de base à 0,30 $ par vérification, pas de contrats, pas de minimums, 500 vérifications gratuites par mois. C'est la forme de vérification d'identité qui correspond à la façon dont les entreprises d'IA construisent et évoluent réellement.

Le résultat final

Dans cinq ans, la signature d'un compte API auprès d'un laboratoire d'IA de pointe ressemblera à l'ouverture d'un compte de courtage. Identité vérifiée. Vérification de la source des fonds pour les engagements importants. Surveillance continue. Signalement des activités suspectes. Ré-vérification périodique. Accès à plusieurs niveaux correspondant aux niveaux de capacité.

Cela semblera dystopique à certaines personnes. C'est cependant l'aboutissement logique de deux forces : le coût astronomique de l'entraînement de pointe et la capacité stupéfiante de ce qui est entraîné. Lorsque ce qui se trouve de l'autre côté de l'API peut améliorer de manière significative un programme d'armes biologiques ou être distillé dans un produit qui détruit des milliards de dollars de valeur d'entreprise, la couche d'accès doit ressembler à une infrastructure financière réglementée.

Les laboratoires qui trouveront le moyen de le faire sans compromettre l'expérience des développeurs gagneront. Ceux qui refuseront de vérifier (et deviendront insignifiants par distillation) ou vérifieront mal (et perdront des développeurs au profit de leurs concurrents) ne le feront pas.

Le KYC n'est pas l'ennemi de l'innovation dans l'IA. La distillation non contrôlée l'est. Plus l'industrie l'intériorise rapidement, meilleur sera l'équilibre pour tous—les laboratoires, les développeurs, les clients d'entreprise et les utilisateurs qui dépendent de la pérennité de la couche IA.

---

Didit fournit une infrastructure de vérification d'identité conçue pour les produits IA natifs. Vérification de document, présence physique biométrique, contrôle AML, surveillance continue—à 0,30 $ par vérification, dans plus de 220 pays. Commencez gratuitement.