Ves al contingut principal
Didit recapta 7,5M $ per construir la infraestructura per a identitat i frau
Didit
Torna al blog
Blog · 6 de març del 2026

Verificació per Lots d'Alt Rendiment amb Didit i Apache Spark (CA)

Descobreix com construir un sistema escalable de verificació d'identitat per lots d'alt rendiment integrant la potent API de Didit amb Apache Spark.

Per DiditActualitzat el
high-throughput-batch-verification-didit-spark.png

Arquitectura EscalableAprofita Apache Spark per al processament distribuït de dades per gestionar de manera eficient volums massius de sol·licituds de verificació d'identitat, superant les limitacions tradicionals del processament per lots.

Verificació Basada en APIIntegra't directament amb les robustes i clares API de Didit per a la verificació d'identitat, prova de vida i cribratge AML, permetent comprovacions automatitzades i precises sense intervenció manual.

Flux de Dades OptimitzatImplementa estratègies per a la preparació de dades, interacció segura amb l'API i processament asíncron de resultats per maximitzar el rendiment i minimitzar la latència en els teus processos de verificació per lots.

Avantatge de DiditUtilitza la plataforma nativa d'IA de Didit amb KYC Core gratuït, disseny modular i sense quotes de configuració per construir sistemes de verificació per lots flexibles i rendibles que s'adapten a les necessitats canviants.

En el món actual basat en dades, les empreses sovint s'enfronten al desafiament de verificar grans volums de dades d'identitat, ja sigui per a l'onboarding d'usuaris antics, comprovacions de conformitat periòdiques o detecció de frau. Els processos manuals són lents, propensos a errors i no escalables. Construir un sistema de verificació per lots d'alt rendiment requereix una arquitectura robusta que pugui processar grans conjunts de dades de manera eficient i segura. Aquí és on entra en joc la potent combinació de les API de verificació d'identitat natives d'IA de Didit i Apache Spark.

La Necessitat de Verificació per Lots d'Alt Rendiment

Moltes organitzacions acumulen quantitats significatives de dades de clients al llarg del temps. Aquestes dades sovint necessiten ser verificades de nou a causa de l'evolució dels requisits reguladors (per exemple, AML, KYC), estratègies actualitzades de prevenció del frau, o la necessitat d'actualitzar els registres històrics dels clients als estàndards de conformitat actuals. La verificació en temps real és crucial per a les noves altes, però la verificació per lots és igualment vital per mantenir la integritat i la conformitat de les bases d'usuaris existents. Els mètodes tradicionals de processament per lots, però, poden tenir dificultats amb el gran volum i la complexitat de les tasques de verificació d'identitat, que sovint impliquen múltiples passos com l'anàlisi de documents, les comprovacions biomètriques i el cribratge de llistes de control.

Els reptes inclouen:

  • Volum de Dades: Processar milions o fins i tot milers de milions de registres.
  • Velocitat de Processament: Completar la verificació dins de terminis acceptables.
  • Precisió i Fiabilitat: Garantir resultats coherents i precisos en totes les verificacions.
  • Conformitat: Adherir-se a mandats reguladors diversos i estrictes.
  • Prevenció del Frau: Identificar i mitigar riscos en dades històriques.

Un marc de processament distribuït com Apache Spark, combinat amb una plataforma especialitzada de verificació d'identitat com Didit, proporciona la solució ideal.

Arquitectura del teu Sistema de Verificació per Lots amb Spark i Didit

La construcció d'un sistema de verificació per lots d'alt rendiment implica diversos components clau:

  1. Ingesta de Dades: Carregar dades d'identitat de diverses fonts (bases de dades, data lakes, fitxers CSV) a Spark.
  2. Preparació de Dades: Netejar, transformar i estandarditzar les dades per complir els requisits de l'API de Didit.
  3. Integració d'API: Cridar les API de Didit per a comprovacions de verificació específiques.
  4. Processament Asíncron: Gestionar les respostes de l'API i gestionar possibles límits de velocitat o reintentos.
  5. Emmagatzematge de Resultats: Emmagatzemar els resultats de la verificació i les metadades associades per a l'auditoria i una anàlisi posterior.

La capacitat d'Apache Spark per distribuir el càlcul en un clúster el fa perfecte per paral·lelitzar les crides a l'API i processar grans conjunts de resultats. Per exemple, pots particionar el teu conjunt de dades en milers de fragments més petits, i cada treballador de Spark pot cridar de manera independent l'API de Didit per al seu subconjunt de dades assignat. Això redueix dràsticament el temps total de processament.

Un flux de treball típic podria ser així:

1. Carregar Dades a Spark: Llegeix les teves dades d'identitat en brut en un DataFrame de Spark.

2. Preparar Dades per a Didit: Transforma el DataFrame per crear càrregues útils JSON adequades per a l'API de Didit. Per exemple, si estàs realitzant una verificació d'identitat, extreuries camps com el nom, la data de naixement i les imatges de documents (si estan disponibles) per construir el cos de la sol·licitud.

3. Distribuir Crides a l'API: Utilitza mapPartitions o foreachPartition de Spark per enviar lots de sol·licituds a l'API de Didit. Aquí és on entra en joc l'alt rendiment, ja que es poden processar diverses particions simultàniament.

4. Processar Respostes: Recull els resultats de la verificació de Didit. L'API de Didit proporciona respostes JSON detallades, incloent l'estat de la verificació, les dades extretes (per exemple, de la verificació d'identitat amb OCR, MRZ i descodificació de codis de barres), i les puntuacions de risc de serveis com Passive & Active Liveness o AML Screening & Monitoring.

5. Emmagatzemar i Analitzar Resultats: Persisteix els resultats de nou al teu magatzem de dades o a un nou DataFrame de Spark per a la generació d'informes, el registre de conformitat i accions posteriors.

Aprofitant la Suite de Verificació Integral de Didit

Didit ofereix una suite modular de productes de verificació d'identitat que són perfectament adequats per al processament per lots:

  • Verificació d'Identificació: Per a la validació de documents emesos pel govern a més de 220 països. Pots enviar imatges de documents i rebre dades estructurades i anàlisi de frau.
  • Passiva i Activa de Vida: Per confirmar la presència d'una persona real i viva i prevenir atacs de deepfake. Tot i que normalment és en temps real, per a escenaris per lots on tens imatges de selfies existents, pots processar-les per a l'anàlisi de vida.
  • Coincidència Facial 1:1 i Cerca Facial: Per comparar un nou selfie amb un d'existent, o cercar en una base de dades de cares conegudes.
  • Cribratge i Monitorització AML: Per comprovar identitats contra llistes de control globals, llistes de sancions i bases de dades de PEP, crucial per a la conformitat.
  • Prova de Domicili: Per verificar l'adreça de residència d'un usuari utilitzant diverses fonts de dades.
  • Verificació de Telèfon i Correu Electrònic: Per validar les dades de contacte i millorar la seguretat del compte.

Cadascun d'aquests serveis és accessible mitjançant API clares i ben documentades, la qual cosa facilita la integració amb Spark. Pots construir fluxos de treball sofisticats, orquestrant múltiples comprovacions dins d'un mateix treball per lots per aconseguir una avaluació de risc integral.

Millors Pràctiques per al Rendiment i la Seguretat

  • Agrupació de Sol·licituds: Mentre Spark gestiona la distribució, considera agrupar diverses sol·licituds de verificació d'identitat en una única crida a l'API si l'API de Didit ho admet (o crear un microservei personalitzat que ho faci) per reduir la sobrecàrrega.
  • Gestió d'Errors i Reintentos: Implementa una gestió d'errors robusta, incloent la retirada exponencial per a reintentos, per gestionar amb gràcia problemes de xarxa transitoris o límits de velocitat de l'API.
  • Seguretat: Tota la comunicació amb l'API de Didit ha d'utilitzar HTTPS. Assegura't que les claus de l'API s'emmagatzemen de manera segura i no estiguin codificades.
  • Privadesa de Dades: Tingues en compte les regulacions de privadesa de dades (per exemple, GDPR, CCPA) en processar i emmagatzemar dades d'identitat. Només envia les dades necessàries a Didit i emmagatzema els resultats de manera segura. Les dades d'identitat estructurades de Didit ajuden a mantenir la conformitat.
  • Monitorització: Monitoritza els teus treballs de Spark i l'ús de l'API de Didit per identificar colls d'ampolla i garantir un rendiment òptim.
  • Idempotència: Dissenya el teu sistema perquè sigui idempotent, la qual cosa significa que tornar a executar un treball per lots amb les mateixes dades d'entrada produeix el mateix resultat, evitant verificacions duplicades.

Com Ajuda Didit

Didit proporciona els elements essencials per a un sistema de verificació per lots d'alt rendiment. La nostra plataforma nativa d'IA ofereix una arquitectura modular, que et permet triar les primitives de verificació exactes que necessites, des de la verificació d'identificació (OCR, MRZ, codis de barres) fins a la prova de vida passiva i activa i el cribratge i monitorització AML. Aquesta flexibilitat significa que només pagues pel que utilitzes, cosa que la fa increïblement rendible per a operacions a gran escala.

Amb el nivell gratuït de Didit i sense quotes de configuració, pots començar a experimentar i construir els teus processos per lots immediatament. El nostre enfocament centrat en el desenvolupador, amb sandboxes instantanis i API netes, redueix significativament el temps d'integració. Tant si necessites tornar a verificar milions de registres històrics com realitzar comprovacions de conformitat contínues, la infraestructura escalable de Didit i la precisió impulsada per l'IA garanteixen un processament fiable i eficient. Les dades d'identitat estructurades retornades per Didit són fàcils d'integrar als teus DataFrames de Spark, permetent una anàlisi i acció ràpida.

Preparat per Començar?

Preparat per veure Didit en acció? Obté una demostració gratuïta avui mateix.

Comença a verificar identitats de forma gratuïta amb el nivell gratuït de Didit.

Infraestructura per a identitat i frau.

Una API per a KYC, KYB, monitorització de transaccions i anàlisi de carteres. Integra-la en 5 minuts.

Demana a una IA que resumeixi aquesta pàgina
Verificació per Lots amb Didit i Apache Spark.