El Centro de Inteligencia Artificial de "T-Technologies", la división tecnológica de "T-Bank" (anteriormente "Tinkoff Bank"), ha publicado uno de los conjuntos de datos más grandes del mundo para sistemas de recomendación en el campo del comercio electrónico.
T-ECD (T-Tech E-commerce Cross-Domain Dataset) se recopila en base a las acciones anonimizadas de 44 millones de usuarios únicos de los servicios "Ciudad": "Shopping" y "Supermercados", así como de la plataforma publicitaria de "T-Bank", 30 millones de productos y más de 135 mil millones de interacciones.
Las características distintivas de T-ECD son: el carácter entre dominios y la versatilidad para resolver diferentes tipos de tareas. El benchmark consta de cinco fuentes de datos interconectadas y totalmente anonimizadas: historial de compras por transacciones, recibos, reseñas, interacción con recomendaciones de productos de consumo diario (FMCG) y productos no alimenticios (non-FMCG): electrodomésticos, ropa, electrónica, cosméticos, así como historial de activaciones de ofertas especiales y reembolsos.
Todas las fuentes de datos se pueden utilizar como conjuntos de datos independientes, así como vincularlos mediante claves de usuarios, productos o marcas de tiendas, lo que permite construir perfiles completos de comportamiento y analizar escenarios complejos para la personalización.
El conjunto de datos es adecuado para la mayoría de los tipos de tareas de recomendación: recomendación de un siguiente objeto (next-item), siguiente cesta (next-basket), siguiente sesión (session-based), recomendaciones generales top-N y otros tipos de tareas.
Los datos se recopilan con una profundidad de 1 año a 3,5 años, lo que permite analizar tanto las preferencias a corto como a largo plazo de los usuarios, la dinámica de sus cambios, así como la estacionalidad y las tendencias.
El conjunto de datos T-ECD está disponible en Hugging Face bajo la licencia Apache 2.0, que permite el uso comercial y la modificación libres.
Ahora en la página principal