Вместе с моделью Сбер опубликовал инструменты, ускоряющие обучение диффузионных моделей.

Сбер представил GFusion — экспериментальную диффузионную языковую модель, разработанную на основе нейросети GigaChat. Ключевой особенностью проекта, созданного стажёром команды фундаментальных моделей, стал принципиально иной подход к генерации текста, который открывает новые возможности для исследований в области искусственного интеллекта.

В отличие от классических языковых моделей, которые создают текст последовательно, слово за словом, GFusion работает по аналогии с генерацией изображений. Модель сначала формирует общий «набросок» ответа, а затем пошагово его дорабатывает. В Сбере отметили, что это позволяет генерировать текст до 45% быстрее по сравнению с GigaChat 3 и обеспечивает большую гибкость: модель может дополнять любую часть ответа, не следуя строгому порядку слева направо.

Помимо самой модели, Сбер опубликовал инструменты для ускорения обучения подобных систем и внёс изменения в популярный фреймворк SGLang, добавив в него поддержку GFusion. Это первый в России проект по созданию диффузионных языковых моделей с открытым исходным кодом такого масштаба.