Sber presentó GFusion, un modelo de lenguaje de difusión experimental desarrollado sobre la base de la red neuronal GigaChat. La característica clave del proyecto, creado por un pasante del equipo de modelos fundamentales, fue un enfoque fundamentalmente diferente para la generación de texto, que abre nuevas oportunidades para la investigación en el campo de la inteligencia artificial.
A diferencia de los modelos de lenguaje clásicos, que crean texto secuencialmente, palabra por palabra, GFusion funciona de manera similar a la generación de imágenes. El modelo primero forma un "borrador" general de la respuesta y luego lo refina paso a paso. Sber señaló que esto permite generar texto hasta un 45% más rápido en comparación con GigaChat 3 y proporciona una mayor flexibilidad: el modelo puede complementar cualquier parte de la respuesta, sin seguir un orden estricto de izquierda a derecha.
Además del modelo en sí, Sber publicó herramientas para acelerar el entrenamiento de dichos sistemas e hizo cambios en el popular framework SGLang, agregando soporte para GFusion. Este es el primer proyecto en Russia para crear modelos de lenguaje de difusión de código abierto de esta escala.