VK представила датасет для развития рекомендательных систем

Исследователи ИИ VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). Как отметили в пресс-службе, с его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными.

Сгенерировано нейросетью Midjourney
Сгенерировано нейросетью Midjourney

Датасет доступен на Hugging Face и включает 40 миллиардов обезличенных уникальных взаимодействий 10 миллионов пользователей с 20 миллионами коротких видео за шесть месяцев (январь-июнь 2025) в том числе «агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения».

Все данные представлены в формате числовых идентификаторов, что обеспечивает конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя — социально-демографические характеристики. В VK пояснили:

Короткие видео – уникальный формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео они не могут «потребляться» в фоновом режиме, а каждый показанный ролик получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью.

Источники
VK

Сейчас на главной