В России создали крупнейший в мире датасет для умных касс и систем учета магазинов

Сгенерировано нейросетью Midjourney

Инженеры из Яндекса, Центра искусственного интеллекта Сколтеха и Санкт-Петербургского государственного университета аэрокосмического приборостроения представили самый большой в мире открытый набор данных PackEat для систем компьютерного зрения в розничной торговле.

Набор данных включает фотографии фруктов и овощей, которые помогут ретейлерам обучать алгоритмы для умных касс и систем учета. Датасет содержит изображения 34 видов и 65 сортов продуктов, снятых в реальных магазинах с разных точек обзора. Всего собрано более 100 тысяч снимков, на которых запечатлено свыше 370 тысяч объектов. Около 9 тысяч изображений имеют разметку каждого отдельного объекта, указан вес и количество единиц товара.

По задумке разработчиков, PackEat позволит повысить точность распознавания продуктов в супермаркетах, учитывая изображения объектов с пакетами, пересечением и «шумным» фоном. Это поможет решить ключевые задачи компьютерного зрения в ретейле: различать виды и сорта продуктов, выделять каждый объект отдельно, автоматически подсчитывать количество единиц товара.

Датасет размещён на платформе Zenodo, а код и примеры моделей — на Kaggle, исследователи и разработчики могут использовать их в своих проектах.