В России представили первый масштабный датасет с поддельными документами

Изображение предоставлено пресс-службой Smart Engines

Российская компания Smart Engines выпустила MIDV-DM — специализированный датасет поддельных документов для разработчиков ИИ. Вошедшие в набор образцы были изготовлены с помощью наиболее распространенных у мошенников методов подделки. Он включает 8 тыс. изображений с удостоверениями личности РФ, СНГ и других стран.

Как подчеркнули в компании, MIDV-DM стал первым публичным датасетом, который систематизировал все основные способы манипуляций с документами. В основу набора легла 1 тыс. изображений из ранее опубликованной исследователями Smart Engines выборки MIDV-2020: образцы внутреннего паспорта РФ, национальные паспорта и ID-карты Азербайджана, Латвии, Эстонии, Финляндии и других.

Разработчики использовали такие манипуляции с документами, как вставка текстовых полей или фото из «донорского» документа, «маскирование» отдельных полей документа, склеивание разных фрагментов в один образ, вставка посторонних объектов – эмблем, голограмм и так далее.

В дальнейшем с помощью MIDV-DM Smart Engines планирует развивать собственную антифрод-систему «Шерлок 2о» – мультимодальную ИИ-модель, способную одновременно работать с изображениями документов из оптического, ультрафиолетового и инфракрасного спектров, текстовыми полями, данными NFC-чипа, штрих-кодами, метаданными и сигнатурами. В общей сложности система проверяет документ на подлинность по 600 параметрам.