Ya no se requieren servidores potentes: los científicos logran un avance en la optimización de LLM

El laboratorio de investigación de inteligencia artificial Yandex Research, junto con las universidades de ciencia y tecnología HSE University, MIT, KAUST e ISTA, ha desarrollado un método para comprimir rápidamente grandes modelos de lenguaje (LLM) sin pérdida de calidad. Como destacaron los desarrolladores, ahora para trabajar con los modelos es suficiente un teléfono inteligente o una computadora portátil, y no es necesario utilizar servidores costosos y GPU potentes.

Generado por la red neuronal Dall-E
Generado por la red neuronal Dall-E

El método permite probar e implementar rápidamente nuevas soluciones basadas en redes neuronales, ahorrando tiempo y dinero en el desarrollo. Esto hace que los LLM sean más accesibles no solo para las grandes empresas, sino también para las pequeñas empresas, los laboratorios e institutos sin fines de lucro, los desarrolladores e investigadores individuales.

En Yandex explicaron:

Anteriormente, para ejecutar un modelo de lenguaje en un teléfono inteligente o computadora portátil, era necesario cuantificarlo en un servidor costoso, lo que tomaba de varias horas a varias semanas. Ahora, la cuantificación se puede realizar directamente en el teléfono o la computadora portátil en cuestión de minutos.

El nuevo método de cuantificación se llama HIGGS (del inglés Hadamard Incoherence with Gaussian MSE-optimal GridS). El método HIGGS ya está disponible para desarrolladores e investigadores en Hugging Face y GitHub.

HIGGS permite reducir el tamaño del modelo, manteniendo su calidad, y ejecutarlo en dispositivos más accesibles. Por ejemplo, con este método se pueden comprimir incluso modelos tan grandes como DeepSeek-R1 con 671 mil millones de parámetros y Llama 4 Maverick con 400 mil millones de parámetros, que hasta ahora solo se podían cuantificar con los métodos más simples con una pérdida significativa de calidad.

El método ya se ha probado en los modelos populares Llama 3 y Qwen2.5. Los experimentos demostraron que HIGGS es la mejor forma de cuantificación en términos de relación calidad-tamaño del modelo entre todos los métodos de cuantificación existentes sin utilizar datos, incluidos NF4 (4-bit NormalFloat) y HQQ (Half-Quadratic Quantization).

Ahora en la página principal