Команда Сбера Kandinsky выложила в открытый доступ KVAE-2.0 — семейство токенизаторов для диффузионных моделей генерации изображений и видео.
Как пояснили в Сбере, токенизаторы преобразуют изображения и видео в компактные числовые коды, что снижает вычислительные затраты и улучшает итоговое качество моделей. KVAE-2.0 превосходит аналоги от Tencent и Alibaba по ключевым метрикам качества и распространяется под открытой лицензией MIT.
Денис Димитров, руководитель проекта Kandinsky, отметил, что решение делает видеогенерацию доступной для стартапов, университетов и независимых разработчиков. Оно позволяет создавать модели с нуля быстрее и дешевле, не завися от зарубежных токенизаторов, и обеспечивает лучшие результаты по качеству.
Ключевое преимущество KVAE-2.0 — создание семантически устойчивых представлений, точно отражающих смысл изображения. Это важно для прикладных сценариев, таких как генерация рекламных материалов и образовательного контента. Модели дополнительно обучены работе с русским текстом в кадре, что повышает их функциональность в этих сценариях.