Проблемы холодного старта в «машинном обучении»

Проблемой холодного старта в «машинном обучении» (machine learning, ML) называется типичная проблема, с которой сталкиваются системы, основанные на «машинном обучении». Особенно актуальна она для рекомендательных систем. Обученной на датасете нейросети требуется сделать прогноз о том, что будет больше соответствовать потребностям пользователя, но у нее для этого недостаточно данных. Нашим консультантом при подготовке статьи выступила Ольга Ковалева, старший аналитик-разработчик в команде «Яндекса».

Не всегда проблема для ML-систем сводится к тому, что появляется новый пользователь, о котором нет никакой информации. Иногда нет данных о новой единице, добавленной на площадку: о фильме, если rs-система работает в интересах стримингового сервиса, о товаре, если речь о e-commerce-площадке.

Аналогично проблема возникает, если сам сервис или его новый функционал только запускаются и еще не накоплена информация о пользователях. Наконец, существует так называемый «контекстуальный» вид проблемы холодного старта. Примером того, как он может проявляться может служить rs-система, которая рекомендует фильмы: недостаток более общей информации о пользователе, например, о его демографических характеристиках, настроении, предпочтениях может привести к рекомендациям, которые не будут работать.

От решения проблемы холодного старта зависит прибыль и выживание технологических компаний и стартапов, так как именно от него зависит удовлетворенность пользователей IT-сервисами. Существует ряд типовых стратегий, позволяющих справиться с «холодным стартом»:

● аугментация данных или процесс искусственного увеличения объема и разнообразия обучающего набора данных путём создания модифицированных версий существующих примеров, не меняя их ключевых характеристик;

● гибридные подходы в сфере рекомендательных систем;

● перенос обучения и активное машинное обучение.

Поговорим обо всем этом подробнее.

<a></a><b>Факторы, которые приводят к возникновению проблемы холодного старта </b>

На появление проблемы холодного старта влияет несколько факторов в ML-системах. Все вместе и каждый в отдельности они могут сделать предикативные модели и рекомендации в рекомендательных системах неработающими.

<a></a><b>Новые пользователи и обрабатываемые на платформе товары, </b><b>их только </b><b>единицы </b>

Когда рекомендательная система сталкивается с новыми пользователями, которые подписались недавно и не накопили историю взаимодействия с интерфейсом платформы, то данных, чтобы понять их предпочтения, практически нет. Аналогично, если в системе появляется новый товар, новость, фильм, раздел, то нет реакции на них пользователей. Без исторических данных по ним алгоритмы не могут оценить их релевантность какой-либо категории пользователей.

<a></a><b>Недостаток данных о взаимодействии пользователей с теми или иными сущностями на платформе</b>

Подобная проблема часто возникает на нишевых e-commerce площадках. Информации о том, как пользователь относится к некоторым видам товаров или каких-либо других сущностей, с которыми работает платформа так мало, что нельзя предвидеть интерес посетителя сервиса. Специфика некоторых отраслей такова, что пользователь не взаимодействует с платформой или взаимодействует слишком редко.

<a></a><b>Разреженность данных в пространстве признаков </b>

Такая ситуация возникает, когда определенные атрибуты или признаки имеют ограниченное покрытие в наборе данных. Это создаёт трудности при включении новых признаков или контекстной информации в модель, поскольку система может испытывать трудности с эффективным обобщением без достаточного количества данных.

Если проблема холодного старта тем, что в IT-сервис добавлена новая «фича» или впервые запускается новый сервис, то информации о предыдущих действиях пользователей нет. Результативность рекомендаций или других предикативных механизмов будет низка, ведь у алгоритмов «машинного обучения» есть только первоначальный датасет, но нет обратной связи от пользователей, позволяющей дообучить модель или скорректировать первоначальное обучение.

Это приводит к ситуациям, аналогичным скандалу вокруг чат-бота «Тай» на нейросетях от Microsoft, разразившемуся в 2016 году. «Искусственный интеллект», обученный для общения с пользователями и запущенный в Twitter, показал эффективность в самом начале работы с реальными пользователями. К сожалению, в него была заложена возможность учиться на диалогах с пользователями-людьми и перенимать их манеру речи без достаточной фильтрации. В результате чат-бот начал оскорблять пользователей, из-за чего его пришлось отключить.

<a></a><b>Проблема холодного старта: реальные кейсы</b>

Реальные примеры того, как ML-платформы и нейросети сталкиваются с проблемой холодного старта позволяют лучше понять, насколько сильно она влияет на эффективность ML-моделей и положительный или, наоборот, отрицательный пользовательский опыт. Вот несколько сценариев, с которыми на практике сталкиваются специалисты по «машинному обучению»:

новые подписки на стриминговых платформах: некоторые стриминговые сервисы специализируются на персонифицированных с помощью нейросетей рекомендациях музыки и кино. Новый подписчик не имеет истории использования сервиса, поэтому сервисы поначалу дают неуверенные и очень общие рекомендации, пока пользователь своими действиями не покажет, что ему нравится;

только что созданная карточка товара на e-commerce-площадке: новый продавец на маркетплейсе выставляет карточку товара, но у ML-систем электронной площадки пока нет истории покупок или истории поиска по новой карточке. Возникает проблема в формировании рекомендаций пользователям, которая будет включать новый товар. Что еще хуже, первоначальный неопределенный статус карточки может повлиять на отношение к ней системы и сделать так, что пользователям будут показываться только старые товары, с которыми она знает, что делать;

нишевые рынки с ограниченными данными о пользователях: на нишевых e-commerce площадках, реализующих товары, связанные с каким-нибудь специфическим хобби или интересом, страдают от редкого и сравнительно пассивного взаимодействия пользователей с интерактивными сервисами. Их интересует покупка и больше ничего. Многие платформы не справляются с проблемой их ML-инструменты работают плохо. Однако есть множество подходов к тому, чтобы сделать рекомендации гораздо эффективнее;

продажа через Интернет товаров с длинным жизненным циклом: по таким товарам у нейросетей не обнаруживается достаточной истории поисков пользователя и его покупок. Возникает проблема холодного старта. Как и в случае с нишевыми товарами, есть возможности для улучшения ситуации, даже несмотря на то, что проблему вызывает специфика самой продукции.

Предложенные примеры появления проблемы холодного старта на практике выпукло показывают, насколько серьезный эффект с точки зрения прибыли IT-сервисов она может иметь. Какие же существуют пути решения?

<a></a><b>Как решить проблему холодного старта в ML-алгоритмах? </b>

Крайне трудно улучшить опыт пользователя и повысить прибыль если не найти решение проблемы холодного старта. Существует несколько методов сделать это:

аугментация данных: можно синтезировать недостающие данные и выполнять импутацию (вменение данных), то есть научить нейросеть делать выводы о недостающих значениях на основе имеющихся. Этим путем можно создавать искусственные примеры для «машинного обучения», которых не дает пользователь;

гибридный подход к рекомендациям: сочетание нескольких ML-алгоритмов, в том числе коллаборативной фильтрации, контент-ориентированного подхода и других методов позволяет ML-системе составить более полное и надежное представление о пользователе. Там, где один метод будет недополучать информацию, пробелы сможет заполнить другой;

перенос обучения и предварительное обучение: при переносе обучения знания, полученные нейросетью экстраполируются на похожие задачи. Если обучить модель заранее на огромных датасетах, а также научить ее находить аналогии между новыми и привычными ситуациями, то она сможет правильно сработать в условиях проблемы холодного старта. Используйте много данных для обучения и хорошо их размечайте;

активное машинное обучение: способ «тренировки» нейросетей, когда их учат на плохо подготовленных данных, например, на каком-то источнике, который не был обработан для «машинного обучения». Как результат, нейросеть учится взаимодействовать с размеченными данными, усваивает методы самостоятельной их систематизации. Во многих случаях это может помочь компенсировать проблему холодного старта.

Если проблема связана с работой рекомендательных систем как таковых, то существует еще ряд походов, способных свести к минимуму последствия проблемы холодного старта для платформы:

можно делать рекомендации, основанные на контенте: используйте в ML-моделях как можно больше содержательных признаков: теги, описания, метаданные. Обучайте нейросети качественно с ними работать, если недостает других сведений. В отличие от других подходов, контент позволяет рекомендовать на основе поиска, который пользователь делает здесь и сейчас;

можно делать рекомендации, основанные на популярности: если информации о пользователе мало, то из внешних интеграций, например API c рейтингами, можно получать данные об общей моде на те или иные товары и использовать общий бэкграунд, связанный с той или иной продукцией для более качественных рекомендаций пользователям;

можно использовать контекстуальную информацию и отклики пользователей: для эффективных в условиях проблемы холодного старта ML-моделей можно использовать более широкий круг данных: социальные контакты пользователя, время пребывания на страницах, клики, тип устройства пользователя, его местоположение и многое другое;

можно использовать ML, основанное на знаниях и на примерах: методы, основанные на непосредственных, полученных данных можно дополнить эвристикой, массивом данных из соответствующей области знания, которые нейросеть сможет использовать в принятии решений. Также можно эффективно обучить систему c помощью ML на базе примеров того, как ей предстоит действовать.

Выбрав какой-то один метод или их сочетание, можно радикально повысить эффективность ML и систем на технологический платформах, которые работают на основе «машинного обучения».

<a></a><b>Проблемы и вызовы в решении проблемы холодной старта</b>

На практике отсутствует единственно правильный сценарий преодоления проблемы. Если специалисты выбирают неправильный способ решения этих проблем, то платформе не удается выстроить эффективную персонализацию контента. Она проигрывает в конкурентной борьбе. Наступают всевозможные этические коллизии. Эксперты давно отметили, что неверно настроенные рекомендательные алгоритмы играют роль усилителей предрассудков. Например, на e-commerce могут дискриминировать новые товары, в результате чего возникает недобросовестное ограничение конкуренции. Даже если недобросовестные ML-алгоритмы получили соответствующие настройки ради повышения прибыльности платформы здесь и сейчас, в итоге заложенные в нее противоречия выходят наружу. Интерес к платформе падает, она теряет своих пользователей.

<a></a>Выводы

Проблема холодного старта становится постоянным спутником ML-платформ. В ее решении есть ряд эффективных методов, которыми пользуются дата-сциентисты. Data Scientists — это специалисты, которые создают инструменты для решения задач бизнеса. Data Scientist работает на стыке трех областей знания: статистики, машинного обучения и программирования.

Эффективность их усилий зависит от правильного коктейля методик и их корректного применения. Чем профессиональнее эксперт по «машинному обучению», тем больше вероятность успеха. Горе технологическим компаниям и стартапам, где рекомендательные системы и другие механизмы на основе нейросетей были обучены неправильно. Как показывают реальные кейсы проблемы холодного старта, последствия того, что проблема не решена будут разрушительными для клиентской базы приложений и их прибыли.

Николай Вавилов

Сейчас на главной