Investigadores de IA de VK han publicado un conjunto de datos de acceso abierto llamado VK-LSVD (Large Short-Video Dataset). Según el servicio de prensa, con su ayuda, los ingenieros y científicos podrán desarrollar y mejorar los algoritmos de recomendación para hacer que los servicios y productos sean más personalizados.

Generado por la red neuronal Midjourney
Generado por la red neuronal Midjourney

El conjunto de datos está disponible en Hugging Face e incluye 40 mil millones de interacciones únicas anónimas de 10 millones de usuarios con 20 millones de videos cortos durante seis meses (enero-junio de 2025), incluidos "me gusta agregados, no me gusta, compartidos, duración de la visualización y contexto de reproducción".

Todos los datos se presentan en formato de identificadores numéricos, lo que garantiza la confidencialidad. Para cada video, se proporciona una incrustación (descripción numérica del contenido) y, para cada usuario, características sociodemográficas. VK explicó:

Los videos cortos son un formato único para los algoritmos de recomendación. A diferencia de la música, los podcasts o los videos largos, no se pueden "consumir" en segundo plano, y cada video mostrado recibe una reacción del usuario. Incluso si el usuario no deja un "me gusta", omitir o ver el video hasta el final ya se considera retroalimentación.

Fuentes
VK

Ahora en la página principal