Синтез речи наряду с распознаванием речи, речевой аналитикой и голосовой биометрией относится к классу программных продуктов, использующих речевые технологии. Их основными потребителями традиционно являются контакт-центры телеком-операторов, финансовых организаций, онлайн-магазинов, ИТ-компаний, медицинских центров, любых других поставщиков товаров и услуг.
Зачастую у потенциальных заказчиков таких сервисов нет опыта и компетенций для объективного сравнения доступных инструментов синтеза речи, поэтому выбор того или иного продукта принимается на интуитивном уровне или на основе косвенных факторов – таких, как известность разработчика на рынке или реклама. Методология, прменяемая ICT-Online.ru в данном проекте, демонстрирует, какие научно обоснованные метрики можно использовать при оценке.
В исследовании приняли участие семь бизнес-решений: Yandex SpeechKit; SaluteSpeech от Сбера, Audiogram от MTS AI, «Синтез речи» от Облачной платформы ЦРТ, Tinkoff VoiceKit, Text-to-speech от «Наносемантики», Aimyvoice. Сравнение проходило отдельно по мужским и женским голосам из готовых предложений продуктовой линейки данных поставщиков. В качестве фокус-группы были привлечены пользователи сервиса Толока в количестве 500 человек.
Для каждого этапа исследования были сформулированы текстовые фразы из сферы деятельности контакт-центров, которые синтезированные голоса должны были озвучить. Оценки респондентов позволили определить сервисы, которые наиболее успешно справились с тем или иным заданием. Кроме того, в ходе исследования были определены основные факторы, оказывающие влияние на качество генерируемого голоса, и специфические особенности, на которые стоит обращать внимание при сравнении.
Исследование размещено по адресу: «Системы синтеза речи для контакт-центров».