Блог · 6 марта 2026 г.

Высокопроизводительная пакетная верификация с Didit и Apache Spark (RU)

Узнайте, как создать масштабируемую систему пакетной проверки личности с высокой пропускной способностью, интегрировав мощный API Didit с Apache Spark.

Автор: Didit6 марта 2026 г.Обновлено 21 мая 2026 г.

Масштабируемая архитектураИспользуйте Apache Spark для распределенной обработки данных, чтобы эффективно обрабатывать огромные объемы запросов на проверку личности, преодолевая ограничения традиционной пакетной обработки.

Верификация на основе APIИнтегрируйтесь напрямую с надежными и чистыми API Didit для проверки ID, Liveness и AML Screening, обеспечивая автоматические и точные проверки без ручного вмешательства.

Оптимизированный поток данныхВнедрите стратегии подготовки данных, безопасного взаимодействия с API и асинхронной обработки результатов, чтобы максимизировать пропускную способность и минимизировать задержки в ваших конвейерах пакетной верификации.

Преимущество DiditИспользуйте платформу Didit на основе ИИ с бесплатным Core KYC, модульной конструкцией и отсутствием платы за настройку для создания гибких и экономичных систем пакетной верификации, которые адаптируются к меняющимся потребностям.

В современном мире, управляемом данными, предприятия часто сталкиваются с проблемой проверки больших объемов идентификационных данных, будь то для регистрации старых пользователей, периодических проверок соответствия или обнаружения мошенничества. Ручные процессы медленны, подвержены ошибкам и не масштабируются. Создание высокопроизводительной системы пакетной верификации требует надежной архитектуры, способной эффективно и безопасно обрабатывать огромные наборы данных. Именно здесь вступает в игру мощная комбинация API Didit для проверки личности на основе ИИ и Apache Spark.

Необходимость высокопроизводительной пакетной верификации

Многие организации со временем накапливают значительные объемы клиентских данных. Эти данные часто нуждаются в повторной проверке из-за меняющихся нормативных требований (например, AML, KYC), обновленных стратегий предотвращения мошенничества или необходимости привести исторические записи клиентов в соответствие с текущими стандартами. Проверка в реальном времени имеет решающее значение для новых регистраций, но пакетная верификация не менее важна для поддержания целостности и соответствия существующей пользовательской базы. Однако традиционные методы пакетной обработки могут столкнуться с огромным объемом и сложностью задач по проверке личности, которые часто включают несколько этапов, таких как анализ документов, биометрические проверки и проверка по спискам наблюдения.

Проблемы включают:

Объем данных: Обработка миллионов или даже миллиардов записей.
Скорость обработки: Завершение верификации в приемлемые сроки.
Точность и надежность: Обеспечение последовательных и точных результатов по всем проверкам.
Соответствие: Соблюдение разнообразных и строгих нормативных требований.
Предотвращение мошенничества: Выявление и снижение рисков в исторических данных.

Распределенная среда обработки, такая как Apache Spark, в сочетании со специализированной платформой проверки личности, такой как Didit, обеспечивает идеальное решение.

Архитектура вашей системы пакетной верификации с Spark и Didit

Создание высокопроизводительной системы пакетной верификации включает несколько ключевых компонентов:

Прием данных: Загрузка идентификационных данных из различных источников (базы данных, озера данных, CSV-файлы) в Spark.
Подготовка данных: Очистка, преобразование и стандартизация данных в соответствии с требованиями API Didit.
Интеграция API: Вызов API Didit для конкретных проверок.
Асинхронная обработка: Обработка ответов API и управление потенциальными ограничениями скорости или повторными попытками.
Хранение результатов: Хранение результатов верификации и связанных метаданных для аудита и дальнейшего анализа.

Возможность Apache Spark распределять вычисления по кластеру делает его идеальным для распараллеливания вызовов API и обработки больших наборов результатов. Например, вы можете разделить свой набор данных на тысячи более мелких фрагментов, и каждый рабочий процесс Spark может независимо вызывать API Didit для своего назначенного подмножества данных. Это значительно сокращает общее время обработки.

Типичный рабочий процесс может выглядеть так:

1. Загрузка данных в Spark: Загрузите необработанные идентификационные данные в Spark DataFrame.

2. Подготовка данных для Didit: Преобразуйте DataFrame для создания полезных нагрузок JSON, подходящих для API Didit. Например, если вы выполняете проверку ID, вы извлекаете такие поля, как имя, дата рождения и изображения документов (если доступны), чтобы сформировать тело запроса.

3. Распределение вызовов API: Используйте mapPartitions или foreachPartition Spark для отправки пакетов запросов в API Didit. Здесь проявляется высокая пропускная способность, поскольку несколько разделов могут обрабатываться одновременно.

4. Обработка ответов: Соберите результаты верификации от Didit. API Didit предоставляет подробные ответы JSON, включая статус верификации, извлеченные данные (например, из проверки ID с OCR, MRZ и декодированием штрих-кода) и оценки рисков от таких служб, как Passive & Active Liveness или AML Screening & Monitoring.

5. Хранение и анализ результатов: Сохраните результаты обратно в ваше хранилище данных или в новый Spark DataFrame для отчетности, ведения журнала соответствия и дальнейших действий.

Использование комплексного пакета верификации Didit

Didit предлагает модульный набор продуктов для проверки личности, которые идеально подходят для пакетной обработки:

Проверка ID: Для проверки государственных документов в более чем 220 странах. Вы можете отправлять изображения документов и получать структурированные данные и анализ мошенничества.
Пассивная и активная проверка живости: Чтобы подтвердить присутствие реального, живого человека и предотвратить атаки с использованием дипфейков. Хотя обычно это происходит в реальном времени, для пакетных сценариев, где у вас есть существующие селфи-изображения, вы можете обрабатывать их для анализа живости.
Сопоставление лиц 1:1 и поиск лиц: Чтобы сравнить новое селфи с существующим или выполнить поиск по базе данных известных лиц.
Проверка и мониторинг AML: Для проверки личности по глобальным спискам наблюдения, санкционным спискам и базам данных PEP, что крайне важно для соблюдения требований.
Подтверждение адреса: Для проверки адреса проживания пользователя с использованием различных источников данных.
Проверка телефона и электронной почты: Для проверки контактных данных и повышения безопасности учетной записи.

Каждая из этих служб доступна через чистые, хорошо документированные API, что упрощает интеграцию со Spark. Вы можете создавать сложные рабочие процессы, организуя несколько проверок в рамках одного пакетного задания для достижения комплексной оценки рисков.

Лучшие практики для производительности и безопасности

Пакетные запросы: Хотя Spark обрабатывает распределение, рассмотрите возможность объединения нескольких запросов на проверку личности в один вызов API, если API Didit поддерживает это (или создайте пользовательский микросервис, который делает это), чтобы уменьшить накладные расходы.
Обработка ошибок и повторные попытки: Внедрите надежную обработку ошибок, включая экспоненциальную задержку для повторных попыток, для корректного управления временными проблемами сети или ограничениями скорости API.
Безопасность: Все сообщения с API Didit должны использовать HTTPS. Убедитесь, что ключи API хранятся безопасно и не зашиты в код.
Конфиденциальность данных: Помните о правилах конфиденциальности данных (например, GDPR, CCPA) при обработке и хранении идентификационных данных. Отправляйте Didit только необходимые данные и безопасно храните результаты. Структурированные идентификационные данные Didit помогают поддерживать соответствие.
Мониторинг: Отслеживайте ваши задания Spark и использование API Didit, чтобы выявлять узкие места и обеспечивать оптимальную производительность.
Идемпотентность: Разработайте свою систему так, чтобы она была идемпотентной, то есть повторный запуск пакетного задания с теми же входными данными давал тот же результат, предотвращая дублирование проверок.

Как Didit помогает

Didit предоставляет основные строительные блоки для высокопроизводительной системы пакетной верификации. Наша платформа на основе ИИ предлагает модульную архитектуру, позволяя вам выбирать именно те примитивы верификации, которые вам нужны, от проверки ID (OCR, MRZ, штрих-коды) до пассивной и активной проверки живости и проверки и мониторинга AML. Такая гибкость означает, что вы платите только за то, что используете, что делает ее невероятно экономичной для крупномасштабных операций.

Благодаря бесплатному уровню Didit и отсутствию платы за настройку вы можете немедленно начать экспериментировать и создавать свои конвейеры пакетной обработки. Наш подход, ориентированный на разработчиков, с мгновенными "песочницами" и чистыми API, значительно сокращает время интеграции. Независимо от того, нужно ли вам повторно проверять миллионы исторических записей или выполнять текущие проверки соответствия, масштабируемая инфраструктура Didit и точность на основе ИИ обеспечивают надежную и эффективную обработку. Структурированные идентификационные данные, возвращаемые Didit, легко интегрируются в ваши Spark DataFrames, что позволяет быстро анализировать и действовать.

Готовы начать?

Готовы увидеть Didit в действии? Получите бесплатную демонстрацию сегодня.

Начните бесплатно проверять личности с бесплатным уровнем Didit.

Продолжить чтение