El conjunto de datos está disponible en Hugging Face e incluye 40 mil millones de interacciones únicas anónimas de 10 millones de usuarios con 20 millones de videos cortos durante seis meses (enero-junio de 2025), incluidos "me gusta agregados, no me gusta, compartidos, duración de la visualización y contexto de reproducción".
Todos los datos se presentan en formato de identificadores numéricos, lo que garantiza la confidencialidad. Para cada video, se proporciona una incrustación (descripción numérica del contenido) y, para cada usuario, características sociodemográficas. VK explicó:
Los videos cortos son un formato único para los algoritmos de recomendación. A diferencia de la música, los podcasts o los videos largos, no se pueden "consumir" en segundo plano, y cada video mostrado recibe una reacción del usuario. Incluso si el usuario no deja un "me gusta", omitir o ver el video hasta el final ya se considera retroalimentación.