Publicado un enorme conjunto de datos entre dominios T-ECD para sistemas de recomendación

El Centro de Inteligencia Artificial de "T-Technologies", la división tecnológica de "T-Bank" (anteriormente "Tinkoff Bank"), ha publicado uno de los conjuntos de datos más grandes del mundo para sistemas de recomendación en el campo del comercio electrónico.

Generado por la red neuronal Midjourney
Generado por la red neuronal Midjourney

T-ECD (T-Tech E-commerce Cross-Domain Dataset) se recopila en base a las acciones anonimizadas de 44 millones de usuarios únicos de los servicios "Ciudad": "Shopping" y "Supermercados", así como de la plataforma publicitaria de "T-Bank", 30 millones de productos y más de 135 mil millones de interacciones.

Las características distintivas de T-ECD son: el carácter entre dominios y la versatilidad para resolver diferentes tipos de tareas. El benchmark consta de cinco fuentes de datos interconectadas y totalmente anonimizadas: historial de compras por transacciones, recibos, reseñas, interacción con recomendaciones de productos de consumo diario (FMCG) y productos no alimenticios (non-FMCG): electrodomésticos, ropa, electrónica, cosméticos, así como historial de activaciones de ofertas especiales y reembolsos.

Todas las fuentes de datos se pueden utilizar como conjuntos de datos independientes, así como vincularlos mediante claves de usuarios, productos o marcas de tiendas, lo que permite construir perfiles completos de comportamiento y analizar escenarios complejos para la personalización.

El conjunto de datos es adecuado para la mayoría de los tipos de tareas de recomendación: recomendación de un siguiente objeto (next-item), siguiente cesta (next-basket), siguiente sesión (session-based), recomendaciones generales top-N y otros tipos de tareas.

Los datos se recopilan con una profundidad de 1 año a 3,5 años, lo que permite analizar tanto las preferencias a corto como a largo plazo de los usuarios, la dinámica de sus cambios, así como la estacionalidad y las tendencias.

El conjunto de datos T-ECD está disponible en Hugging Face bajo la licencia Apache 2.0, que permite el uso comercial y la modificación libres.

Ahora en la página principal