El equipo de Sber Kandinsky puso en acceso abierto KVAE-2.0, una familia de tokenizadores para modelos de difusión de generación de imágenes y video.
Como explicaron en Sber, los tokenizadores transforman imágenes y video en códigos numéricos compactos, lo que reduce los costos computacionales y mejora la calidad final de los modelos. KVAE-2.0 supera a los análogos de Tencent y Alibaba en métricas clave de calidad y se distribuye bajo la licencia abierta MIT.
Denis Dimitrov, jefe del proyecto Kandinsky, señaló que la solución hace que la videogeneración sea accesible para startups, universidades y desarrolladores independientes. Permite crear modelos desde cero de forma más rápida y económica, sin depender de tokenizadores extranjeros, y ofrece mejores resultados en calidad.
La ventaja clave de KVAE-2.0 es la creación de representaciones semánticamente estables que reflejan con precisión el significado de la imagen. Esto es importante para escenarios aplicados, como la generación de materiales publicitarios y contenido educativo. Los modelos han sido entrenados adicionalmente para trabajar con texto en ruso dentro del encuadre, lo que aumenta su funcionalidad en estos escenarios.