Опубликован огромный кросс-доменный датасет T-ECD для рекомендательных систем

Сгенерировано нейросетью Midjourney

T-ECD (T-Tech E-commerce Cross-Domain Dataset) собран на основе анонимизированных действий 44 миллионов уникальных пользователей сервисов «Город»: «Шопинг» и «Супермаркеты», а также рекламной платформы «Т-Банка», 30 миллионов товаров и более 135 миллиардов взаимодействий.

Отличительные особенности T-ECD: кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонизимированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных товаров (non-FMCG): бытовой техники, одежды, электроники, косметики, а также истории активаций специальных предложений и кешбэков.

Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации.

Датасет подходит для большинства типов рекомендательных задач – рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.

Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды.

Датасет T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.