Открытый русскоязычный бенчмарк MWS Vision Bench предназначенного для оценки качества мультимодальных моделей искусственного интеллекта (Visual Language Models, VLM), способных одновременно анализировать изображения и текст.
Как подчеркнули в МТС Web Services, новый MWS Vision Bench стал первым бенчмарком, ориентированным на оценку мультимодальных моделей в реальных продуктовых сценариях, где необходимо работать с документами на русском языке. Новый инструмент позволяет тестировать генеративный искусственный интеллект в распознавании и понимании документов, содержащих визуальные данные. В компании пояснили:
Современные модели умеют анализировать договоры, счета, формы, схемы и таблицы. Однако существующие международные бенчмарки, такие как OCRBench, AI2D и MMMU, охватывают только английский и китайский языки. Подходящих бенчмарков на русском языке до сих пор не было, что делало невозможной объективную оценку таких моделей при решении продуктовых задач в российских компаниях.
В состав MWS Vision Bench вошли 800 изображений и 2580 заданий, отражающие реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Исходный набор данных был случайным образом разделён на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1 278 заданий). Валидационная часть бенчмарка опубликована в открытом доступе.
Открытый исходный код бенчмарка опубликован на GitHub, а датасет доступен на платформе Hugging Face. Это позволит компаниям загружать и тестировать как собственные, так и сторонние модели. На текущий момент лучшие результаты в бенчмарке показали соответственно Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. В сравнении также участвовали ChatGPT-5 и Qwen3-VL.
Сейчас на главной
Компании «ИТ-Экспертиза» и «Тантор Лабс» провели комплекс нагрузочных испытаний системы «1С:ERP. Управление предприятием» на машине баз данных Tantor XData 2B, работающей на базе российских процессоров Baikal-S и использующей СУБД Tantor Postgres.
В новом релизе 6.5.3 обновлена система авторизации, усовершенствована визуализация календарей, доработаны печатные формы, а также внесен ряд других интерфейсных и функциональных улучшений, направленных на повышение безопасности, стабильности и удобства совместной работы на платформе.
XV юбилейная премия объединит лидеров технологий в Ташкенте
«Р7-Ассистент» предлагает ИИ-инструменты без необходимости передачи данных во внешние сервисы и без приобретения подписки.
B2B-витрина с расширенной функциональностью доступна для всех российских компаний и ИП на платформе «Wildberries для бизнеса».
22 ноября в Москве состоится одно из ключевых событий для креативной индустрии — церемония вручения VIII ежегодной премии Best for Life Design Award. Премия признана главным ориентиром в мире дизайна, отмечая наиболее выдающиеся и инновационные проекты в сферах архитектуры, визуальных коммуникаций, продуктового и веб-дизайна.
В условиях стремительного усложнения киберугроз и роста их воздействия на экономику и национальную безопасность, в рамках премии «Время инноваций» объявлен специальный проект — премия «Лидеры кибербезопасности». Миссия премии — выявить и отметить лучшие практики, продукты и команды, определяющие будущее сферы информационной безопасности. Торжественная церемония награждения лауреатов запланирована на 12 декабря в Ташкенте.
Теперь одно объявление можно продвигать сразу в нескольких городах — без необходимости создавать повторные объявления, а также управлять ценами его продвижения в каждом городе.
Нововведение представлено на большой конференции «Яндекс Рекламы» Rekonfa 2025.
Помощники в «Директе», «Метрике» и «Рекламной сети Яндекса» работают на базе генеративных нейросетей Alice AI и усовершенствованных моделей глубокого обучения.
Решение автоматически переносит карточки товаров с маркетплейсов на персональный сайт предпринимателя.
В приложении Wibes можно отслеживать статус своих кампаний продвижения и видеть, сколько просмотров из приобретенного пакета уже набралось. Данные будут обновляться несколько раз в день.