Больше не требуются мощные серверы: учёные совершили прорыв в оптимизации LLM

Лаборатория исследований искусственного интеллекта Yandex Research совместно с научно-технологическими вузами НИУ ВШЭ, MIT, KAUST и ISTA разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества. Как подчеркнули разработчики, теперь для работы с моделями достаточно смартфона или ноутбука — и не нужно использовать дорогие серверы и мощные GPU.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

В Яндексе пояснили:

Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.

Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Метод HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub.

HIGGS позволяет уменьшить размер модели, сохранив её качество, и запустить на более доступных устройствах. Например, с помощью этого метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Метод уже проверили на популярных моделях Llama 3 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization).