블로그 · 2026년 3월 6일

Didit과 Apache Spark를 활용한 고성능 배치 검증 시스템 구축 (KO)

Didit의 강력한 API와 Apache Spark를 통합하여 확장 가능하고 처리량이 많은 배치 신원 확인 시스템을 구축하는 방법을 알아보세요. 이 가이드는 효율적인 아키텍처, 데이터 처리 및 모범 사례를 다룹니다.

작성자: Didit2026년 3월 6일업데이트됨 2026년 5월 21일

확장 가능한 아키텍처Apache Spark의 분산 데이터 처리를 활용하여 대량의 신원 확인 요청을 효율적으로 처리하고, 기존 배치 처리의 한계를 극복하세요.

API 기반 검증Didit의 강력하고 깔끔한 ID 확인, 생체 인증, AML 심사 API와 직접 통합하여 수동 개입 없이 자동화되고 정확한 검사를 가능하게 합니다.

최적화된 데이터 흐름데이터 준비, 안전한 API 상호 작용 및 비동기 결과 처리를 위한 전략을 구현하여 배치 검증 파이프라인의 처리량을 극대화하고 지연 시간을 최소화하세요.

Didit의 장점무료 핵심 KYC, 모듈식 설계, 설정 비용이 없는 Didit의 AI 기반 플랫폼을 활용하여 진화하는 요구 사항에 맞춰 유연하고 비용 효율적인 배치 검증 시스템을 구축하세요.

오늘날의 데이터 중심 세상에서 기업들은 레거시 사용자 온보딩, 주기적인 규정 준수 확인 또는 사기 탐지를 위해 대량의 신원 데이터를 확인해야 하는 문제에 직면하는 경우가 많습니다. 수동 프로세스는 느리고 오류가 발생하기 쉬우며 확장할 수 없습니다. 처리량이 많은 배치 검증 시스템을 구축하려면 방대한 데이터 세트를 효율적이고 안전하게 처리할 수 있는 강력한 아키텍처가 필요합니다. 바로 Didit의 AI 기반 신원 확인 API와 Apache Spark의 강력한 조합이 필요한 지점입니다.

고성능 배치 검증의 필요성

많은 조직은 시간이 지남에 따라 상당한 양의 고객 데이터를 축적합니다. 이 데이터는 진화하는 규제 요구 사항(예: AML, KYC), 업데이트된 사기 방지 전략 또는 현재 규정 준수 표준에 맞게 과거 고객 기록을 업데이트해야 할 필요성 때문에 재확인해야 하는 경우가 많습니다. 실시간 확인은 신규 가입자에게 중요하지만, 배치 확인은 기존 사용자 기반의 무결성과 규정 준수를 유지하는 데 똑같이 중요합니다. 그러나 기존의 배치 처리 방식은 문서 분석, 생체 인식 확인, Watchlist 심사와 같은 여러 단계를 포함하는 신원 확인 작업의 엄청난 양과 복잡성으로 인해 어려움을 겪을 수 있습니다.

당면 과제는 다음과 같습니다:

데이터 볼륨: 수백만 또는 수십억 개의 레코드 처리.
처리 속도: 허용 가능한 시간 내에 확인 완료.
정확성 및 신뢰성: 모든 확인에서 일관되고 정확한 결과 보장.
규정 준수: 다양하고 엄격한 규제 의무 준수.
사기 방지: 과거 데이터의 위험 식별 및 완화.

Apache Spark와 같은 분산 처리 프레임워크와 Didit과 같은 특수 신원 확인 플랫폼의 조합은 이상적인 솔루션을 제공합니다.

Spark 및 Didit으로 배치 검증 시스템 아키텍처 구축

고성능 배치 검증 시스템을 구축하려면 몇 가지 핵심 구성 요소가 필요합니다:

데이터 수집: 다양한 소스(데이터베이스, 데이터 레이크, CSV 파일)에서 신원 데이터를 Spark로 로드.
데이터 준비: Didit의 API 요구 사항을 충족하도록 데이터를 정리, 변환 및 표준화.
API 통합: 특정 검증 확인을 위해 Didit의 API 호출.
비동기 처리: API 응답 처리 및 잠재적인 속도 제한 또는 재시도 관리.
결과 저장: 감사 및 추가 분석을 위해 검증 결과 및 관련 메타데이터 저장.

Apache Spark의 클러스터 전반에 걸쳐 계산을 분산하는 기능은 API 호출을 병렬화하고 대규모 결과 세트를 처리하는 데 완벽합니다. 예를 들어, 데이터 세트를 수천 개의 작은 청크로 분할하고 각 Spark 워커는 할당된 데이터 하위 집합에 대해 Didit의 API를 독립적으로 호출할 수 있습니다. 이는 총 처리 시간을 크게 단축합니다.

일반적인 워크플로는 다음과 같습니다:

1. Spark로 데이터 로드: 원시 신원 데이터를 Spark DataFrame으로 읽어옵니다.

2. Didit을 위한 데이터 준비: Didit의 API에 적합한 JSON 페이로드를 생성하도록 DataFrame을 변환합니다. 예를 들어, ID 확인을 수행하는 경우 이름, 생년월일, 문서 이미지(사용 가능한 경우)와 같은 필드를 추출하여 요청 본문을 구성합니다.

3. API 호출 분산: Spark의 mapPartitions 또는 foreachPartition을 사용하여 Didit의 API로 요청 배치를 보냅니다. 여러 파티션을 동시에 처리할 수 있으므로 여기서 높은 처리량이 발휘됩니다.

4. 응답 처리: Didit에서 검증 결과를 수집합니다. Didit의 API는 검증 상태, 추출된 데이터(예: OCR, MRZ 및 바코드 디코딩을 통한 ID 확인), 그리고 수동 및 능동 생체 인증 또는 AML 심사 및 모니터링과 같은 서비스의 위험 점수를 포함하여 상세한 JSON 응답을 제공합니다.

5. 결과 저장 및 분석: 보고, 규정 준수 로깅 및 추가 작업을 위해 결과를 데이터 웨어하우스 또는 새 Spark DataFrame에 유지합니다.

Didit의 포괄적인 검증 스위트 활용

Didit은 배치 처리에 완벽하게 적합한 모듈형 신원 확인 제품군을 제공합니다:

ID 확인: 220개 이상의 국가에서 정부 발행 문서를 확인합니다. 문서 이미지를 제출하고 구조화된 데이터 및 사기 분석을 받을 수 있습니다.
수동 및 능동 생체 인증: 실제 살아있는 사람의 존재를 확인하고 딥페이크 공격을 방지합니다. 일반적으로 실시간으로 작동하지만, 기존 셀카 이미지가 있는 배치 시나리오의 경우 생체 인증 분석을 위해 처리할 수 있습니다.
1:1 얼굴 일치 및 얼굴 검색: 새 셀카를 기존 셀카와 비교하거나 알려진 얼굴 데이터베이스에서 검색합니다.
AML 심사 및 모니터링: 규정 준수를 위해 글로벌 Watchlist, 제재 목록 및 PEP 데이터베이스에 대해 신원을 확인합니다.
주소 증명: 다양한 데이터 소스를 사용하여 사용자의 거주지 주소를 확인합니다.
전화 및 이메일 확인: 연락처 세부 정보를 확인하고 계정 보안을 강화합니다.

이러한 각 서비스는 깔끔하고 잘 문서화된 API를 통해 액세스할 수 있으므로 Spark와의 통합이 간단합니다. 단일 배치 작업 내에서 여러 검사를 오케스트레이션하여 포괄적인 위험 평가를 달성하는 정교한 워크플로를 구축할 수 있습니다.

성능 및 보안을 위한 모범 사례

요청 배치 처리: Spark는 분산을 처리하지만, Didit의 API가 지원하는 경우(또는 이를 수행하는 사용자 지정 마이크로서비스를 생성하는 경우) 여러 신원 확인 요청을 단일 API 호출로 묶어 오버헤드를 줄이는 것을 고려하십시오.
오류 처리 및 재시도: 일시적인 네트워크 문제 또는 API 속도 제한을 우아하게 관리하기 위해 재시도를 위한 지수 백오프를 포함한 견고한 오류 처리를 구현하십시오.
보안: Didit의 API와의 모든 통신은 HTTPS를 사용해야 합니다. API 키는 안전하게 저장하고 하드코딩하지 않도록 하십시오.
데이터 개인 정보 보호: 신원 데이터를 처리하고 저장할 때 데이터 개인 정보 보호 규정(예: GDPR, CCPA)에 유의하십시오. Didit에 필요한 데이터만 보내고 결과를 안전하게 저장하십시오. Didit의 구조화된 신원 데이터는 규정 준수를 유지하는 데 도움이 됩니다.
모니터링: 병목 현상을 식별하고 최적의 성능을 보장하기 위해 Spark 작업 및 Didit API 사용량을 모니터링하십시오.
멱등성: 동일한 입력 데이터로 배치 작업을 다시 실행해도 동일한 결과가 나오도록 시스템을 멱등하게 설계하여 중복 검증을 방지하십시오.

Didit이 도움이 되는 방법

Didit은 고성능 배치 검증 시스템을 위한 필수적인 구성 요소를 제공합니다. 당사의 AI 기반 플랫폼은 모듈식 아키텍처를 제공하여 ID 확인(OCR, MRZ, 바코드)부터 수동 및 능동 생체 인증, AML 심사 및 모니터링에 이르기까지 필요한 정확한 검증 기본 요소를 선택하고 선택할 수 있습니다. 이러한 유연성은 사용한 만큼만 지불하므로 대규모 작업에 매우 비용 효율적입니다.

Didit의 무료 계층과 설정 비용 없이 즉시 배치 처리 파이프라인을 실험하고 구축할 수 있습니다. 즉각적인 샌드박스와 깔끔한 API를 갖춘 개발자 중심 접근 방식은 통합 시간을 크게 단축합니다. 수백만 개의 과거 기록을 재확인해야 하거나 지속적인 규정 준수 확인을 수행해야 하는 경우 Didit의 확장 가능한 인프라와 AI 기반 정확성은 안정적이고 효율적인 처리를 보장합니다. Didit이 반환하는 구조화된 신원 데이터는 Spark DataFrame에 쉽게 통합되어 빠른 분석 및 조치를 가능하게 합니다.

시작할 준비가 되셨습니까?

Didit의 작동 방식을 확인할 준비가 되셨습니까? 지금 무료 데모를 받으세요.

Didit의 무료 계층으로 무료로 신원 확인을 시작하세요.

계속 읽기