ICT-Online.ru publicó un estudio sobre sistemas de síntesis de voz para centros de contacto

La síntesis de voz, junto con el reconocimiento de voz, el análisis de voz y la biometría de voz, pertenece a la clase de productos de software que utilizan tecnologías de voz. Sus principales consumidores son tradicionalmente los centros de contacto de operadores de telecomunicaciones, organizaciones financieras, tiendas en línea, empresas de TI, centros médicos y otros proveedores de bienes y servicios.

A menudo, los clientes potenciales de estos servicios no tienen la experiencia ni las competencias necesarias para comparar objetivamente las herramientas de síntesis de voz disponibles, por lo que la elección de un producto u otro se toma a nivel intuitivo o basándose en factores indirectos, como la reputación del desarrollador en el mercado o la publicidad. La metodología aplicada por ICT-Online.ru en este proyecto demuestra qué métricas científicamente fundamentadas se pueden utilizar en la evaluación.

En el estudio participaron siete soluciones empresariales: Yandex SpeechKit; SaluteSpeech de Sber, Audiogram de MTS AI, «Síntesis de voz» de la plataforma en la nube ЦРТ, Tinkoff VoiceKit, Text-to-speech de «Наносемантики», Aimyvoice. La comparación se realizó por separado para voces masculinas y femeninas de las ofertas disponibles de la línea de productos de estos proveedores. Se contó con la participación de usuarios del servicio Toloka como grupo focal, con un total de 500 personas.

Para cada etapa del estudio, se formularon frases de texto del ámbito de actividad de los centros de contacto, que las voces sintetizadas debían pronunciar. Las evaluaciones de los encuestados permitieron determinar qué servicios lograron con mayor éxito una tarea u otra. Además, durante el estudio se identificaron los principales factores que influyen en la calidad de la voz generada y las características específicas a las que se debe prestar atención al comparar.

El estudio está disponible en la siguiente dirección: «Sistemas de síntesis de voz para centros de contacto».