Presentado el primer benchmark para evaluar modelos de IA multimodal en ruso

Generado por la red neuronal Midjourney

Como destacaron en MTS Web Services, el nuevo MWS Vision Bench se convirtió en el primer benchmark orientado a la evaluación de modelos multimodales en escenarios de productos reales, donde es necesario trabajar con documentos en ruso. La nueva herramienta permite probar la inteligencia artificial generativa en el reconocimiento y la comprensión de documentos que contienen datos visuales. La compañía explicó:

Los modelos modernos pueden analizar contratos, facturas, formularios, esquemas y tablas. Sin embargo, los benchmarks internacionales existentes, como OCRBench, AI2D y MMMU, solo cubren los idiomas inglés y chino. Hasta ahora no existían benchmarks adecuados en ruso, lo que imposibilitaba la evaluación objetiva de dichos modelos al resolver tareas de productos en empresas rusas.

MWS Vision Bench incluye 800 imágenes y 2580 tareas, que reflejan escenarios reales de trabajo con documentos en organizaciones rusas. El conjunto incluye documentos de oficina y personales, esquemas, notas manuscritas, tablas, dibujos, diagramas, gráficos. El conjunto de datos original se dividió aleatoriamente en dos partes: validación (400 imágenes, 1302 tareas) y prueba (400 imágenes, 1278 tareas). La parte de validación del benchmark se publica en acceso abierto.

El código fuente abierto del benchmark se publica en GitHub, y el conjunto de datos está disponible en la plataforma Hugging Face. Esto permitirá a las empresas cargar y probar tanto sus propios modelos como los de terceros. Actualmente, los mejores resultados en el benchmark los mostraron respectivamente Gemini 2.5 Pro, Claude Sonnet 4.5 y ChatGPT-4.1 mini. También participaron en la comparación ChatGPT-5 y Qwen3-VL.