Sber abrió tokenizadores, componentes básicos para crear modelos de generación de imágenes y video

El equipo de Sber Kandinsky puso en acceso abierto KVAE-2.0, una familia de tokenizadores para modelos de difusión de generación de imágenes y video.

Como explicaron en Sber, los tokenizadores transforman imágenes y video en códigos numéricos compactos, lo que reduce los costos computacionales y mejora la calidad final de los modelos. KVAE-2.0 supera a los análogos de Tencent y Alibaba en métricas clave de calidad y se distribuye bajo la licencia abierta MIT.

Denis Dimitrov, jefe del proyecto Kandinsky, señaló que la solución hace que la videogeneración sea accesible para startups, universidades y desarrolladores independientes. Permite crear modelos desde cero de forma más rápida y económica, sin depender de tokenizadores extranjeros, y ofrece mejores resultados en calidad.

La ventaja clave de KVAE-2.0 es la creación de representaciones semánticamente estables que reflejan con precisión el significado de la imagen. Esto es importante para escenarios aplicados, como la generación de materiales publicitarios y contenido educativo. Los modelos han sido entrenados adicionalmente para trabajar con texto en ruso dentro del encuadre, lo que aumenta su funcionalidad en estos escenarios.

Fuentes:
Sber

Ahora en la página principal