In the fourth article, we will talk about the latest major projects of "T-Platforms": the "Lomonosov-2" supercomputer built for Moscow State University, which uses a number of unique technologies, including liquid cooling, as well as the JURECA supercomputer project for the German supercomputer Julich. And also about other activities of the company.
Это четвертый материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформ», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.
Оглавление
- Российский производитель суперкомпьютеров – компания «Т-Платформы»
- Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
- Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
- «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
- Суперкомпьютер «Т-Платформы» в немецком суперкомпьютерном центре Юлиха
- Технические особенности суперкомпьютера JURECA производства «Т-Платформы»
- Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы».
JURECA и «Ломоносов-2» – новейшие суперкомпьютеры «Т-Платформ»
В последнее время компания «Т-Платформы» реализовала два крупнейших проекта мирового уровня по созданию суперкомпьютеров – один в России и один в Германии.
В России построен новый суперкомпьютер «Ломоносов-2» для МГУ. «Т-Платформы» выступили поставщиком решения – компания отвечала за поставку, монтаж и поддержку оборудования, включая работу управляющего ПО. Управлением ресурсами суперкомпьютера занимается специализированная компания при МГУ.
«Ломоносов-2» используется в основном для научных расчетов. Его особенностью является то, что вычислительные ресурсы могут выделяться бесплатно, но специальная комиссия должна подтвердить научную ценность проекта.
Второй крупнейший проект компании - суперкомпьютер JURECA, созданный для Суперкомпьютерного центра при университете Юлиха в Германии и ставший одним из самых производительных суперкомпьютеров на архитектуре х86 в Европе.
Центр Юлиха занимается в том числе изучением работы суперкомпьютеров, так что JURECA – не только рабочая система, но и предмет научных исследований. Однако в рамках проекта требовалось создать именно стабильную и надежную систему, которая предназначена для решения задач клиентов, а не тестовый стенд на новейших технологиях. Сегодня вычислительные ресурсы JURECA предлагаются для научных и прикладных проектов заказчиков со всего мира.
Управлением ресурсами суперкомпьютера также занимается специализированная компания в структуре немецкого университета. В отличие от МГУ, ресурсы суперкомпьютера JURECA предлагаются за плату, а компания-оператор гарантирует сроки оказания услуг и несет за это ответственность. Это накладывает на «Т-Платформы» очень жесткие обязательства по срокам ликвидации любых неполадок в суперкомпьютере. Например, в суперкомпьютере МГУ, где доступ бесплатный, сбой или отказ в работе суперкомпьютера приводит только к тому, что сдвигается очередь расчетов и результат будет получен позже.
В этой и следующих статьях мы подробно поговорим о технических возможностях компании, особенностях ее работы и о суперкомпьютере JURECA, который как раз сейчас вводится в строй. А пока кратко остановимся на технических особенностях другого крупнейшего проекта компании, «Ломоносов-2».
«Ломоносов-2»: особенности решения и материнских плат
«Ломоносов-2» построен из серверных блоков, разработанных специально для него. Серверные блоки сделаны на базе серверов «Т-Платформ» A-Class с водяным охлаждением, смонтированных в специальную нестандартную секцию. А секции в свою очередь, устанавливаются в нестандартный теплоизолированный шкаф высотой 2,5 м, который также специально разработан для этого суперкомпьютера и учитывает его особенности по энергопотреблению и охлаждению. Расчетное энергопотребление каждого шкафа составляет около 130 кВт.
Поскольку сервера, система охлаждения и сама стойка нестандартные, единицей поставки выступает стойка целиком.
Вот более крупный вид стойки.
«Ломоносов-2» построен на последнем поколении серверных материнских плат «Т-Платформ». При их разработке компания поменяла концепцию: в отличие от предыдущего поколения, все второстепенные компоненты убраны с платы и устанавливаются в разъемы в виде карт расширения – даже плата управления и видеоплата (последняя использует стандартный разъем МХМ). Это дает большую гибкость: можно более точно подобрать конфигурацию под потребности клиента, а также отказаться от установки любых компонентов, которые заказчику не нужны, что позволяет снизить цену решения. В дальнейшем есть возможность поменять отдельную плату расширения, что позволяет упростить ремонт и легко заменять устаревшие или неподходящие под требования заказчика компоненты. Это также позволяет сэкономить на эксплуатационных расходах.
В «Ломносов-2» используются GPU NVIDIA GRID. Работают они, разумеется, не в качестве графических адаптеров, а как «числодробилки» под определенные расчеты, для них разработано свое ПО управления.
Для обмена данными между узлами суперкомпьютера используется технология InfiniBand. На сегодня именно она обеспечивает минимальные задержки и высочайшую скорость обмена данными. Решение дорогое, но вариантов с той же производительностью на рынке просто нет. В разработке есть и другие технологии (например, кольцевая сверхвысокоскоростная шина), но они пока не выведены на рынок.
Одно из наиболее интересных технических решений, примененных в «Ломоносов-2» – своя, тоже уникальная, система охлаждения на так называемой «горячей» воде. Смысл ее в том, что в качестве теплоносителя используется теплая вода температурой около 45 градусов. Такая схема позволяет даже в относительно жарком климате полностью отказаться от использования дорогих кондиционеров (чиллеров). Теплая вода просто выходит наружу и охлаждается в сухой градирне – фактически, это большой радиатор, который охлаждается либо в полностью пассивном режиме за счет конвекции, либо с помощью вентилятора. Так как температура воды гарантированно выше, чем температура окружающей среды (которая редко поднимается выше 25-30 градусов), этого хватает при любых условиях.
Использование схемы с теплой водой позволяет прилично сэкономить не только при покупке и монтаже системы, но и на потреблении энергии в процессе эксплуатации. Традиционный промышленный кондиционер мало того, что стоит дорого, так еще и потребляет 1 Вт энергии на отвод 2 Вт тепла. Полная мощность суперкомпьютера (в условиях, когда все стойки подключены и работают под максимальной нагрузкой) – 12-13 МВт. Т.е. активное охлаждение на чиллерах требовало бы дополнительно около 7 МВт. Это при том, что в Москве существует дефицит электрической мощности, и получить ее бывает сложно. Общий лимит энергопотребления для «Ломоносов-2» составляет 15 МВт, и благодаря отказу от активного охлаждения все освободившиеся ресурсы можно передать на увеличение мощности суперкомпьютера.
Система охлаждения организована следующим образом: в каждой секции установлены 8 алюминиевых блоков с внутренними каналами для водяного охлаждения, на каждый блок прикреплены 4 материнские платы. Водяное охлаждение сделано на быстроразъемных соединениях - если требуется провести обслуживание платы или что-то вышло из строя (например, паста подсохла и плата стала греться, вышел из строя модуль памяти и пр.), то эти соединения можно быстро закрыть, извлечь блок и вытащить плату.
Правда, работа с такой системой охлаждения накладывает определенные требования на дизайн материнской платы, связанные с отводом тепла через большой жидкостный радиатор. Есть разные варианты решения: например, в предыдущем поколении компания использовала свой собственный дизайн модуля оперативной памяти, чтобы можно было снимать с него тепло с помощью жидкостного охлаждения. В последнем поколении вместо этого разработали свой уникальный горизонтальный разъем DIMM, который позволяет использовать обычные односторонние модули памяти, которые гораздо дешевле, и при этом эффективно отводить от них тепло.
Суперкомпьютеры… что дальше? Что еще делают «Т-Платформы»
Суперкомпьютеры были первым и до сих пор остаются основным направлением работы компании «Т-Платформы». Однако сейчас компания все активнее работает и на смежных рынках: например, рынке серверов общего назначения.
Благодаря накопленному опыту, компания «Т-Платформы» не привязана к линейкам унифицированных решений мировых производителей, что дает ей большую гибкость при создании решений на базе своих серверных платформ с уникальными особенностями.
Компания также готовится к выходу на другие рынки – рынок сетевого оборудования, рынок промышленных систем и т.д.
Основные направления деятельности компании «Т-Платформы» включают в себя:
- Разработка и создание суперкомпьютеров. «Т-Платформы» реализовали большое количество проектов по созданию высокопроизводительных вычислительных кластеров как в России, так и за рубежом.
- Собственное производство серверных компонентов, серверов, в том числе общего назначения, полноценных серверных решений, вычислительных блоков для кластеров, создание уникальных решений «под ключ».
- Собственный ЦОД с вычислительным кластером, в котором можно арендовать вычислительные ресурсы под проект (компания «Т-Сервисы»).
- Уникальные проекты для государственных органов.
- Собственные проекты компании.
- Оборудование для рабочего места – например, моноблок собственной разработки.
- Перспективное – оборудование для промышленности (УЧПУ, АСУТП, промышленное и сетевое оборудование).
Сервера общего назначения и моноблок
Насколько лет назад в компании было принято решение расширить свое присутствие на рынке, и одним из наиболее логичных направлений развития стало создание серверов общего назначения. Так у «Т-Платформ» появился новый тип сервера — двухюнитовый (2U) Е-Class.
Это – сервер широкого назначения с модульной конструкцией. Благодаря тому, что корпус и платформа допускают широкий спектр модификаций, функциональность системы может серьезно различаться в зависимости от требований заказчика.
Можно менять заднюю панель сервера, превращая его в платформу для работы с виртуализированными ресурсами графических адаптеров GRID или в СХД с возможностью установки до 20 HDD.
Можно изменять параметры платформы, оптимизируя ее под высокую производительность или под высокую скорость операций i/o. Практически все линии PCI Express выведены в разъемы PCIe на серверной плате, что позволяет установить много плат расширения под разные потребности заказчика. И все это – разные варианты одной и той же серверной платформы.
В ассортименте компании есть и клиентские устройства – в частности, моноблок на платформе Intel, который мы уже тестировали. С точки зрения технических характеристик, это вполне нормальный продукт для рынка, да и по цене он не сильно выделяется среди конкурентов. Но при этом он удовлетворяет специальным требованиям государственных органов и частных заказчиков, связанных с безопасностью.
Промышленное оборудование
Помимо этого, компания осваивает ряд новых для себя рынков и направлений. Так, сейчас «Т-Платформы» готовятся представить свою линейку маршрутизаторов и коммутаторов для профессионального применения (аналоги Cisco, Juniper и пр.).
Компания готовится вывести на рынок решения для промышленности, станков (в том числе, есть разработки под отраслевые решения, такие как станки для металлообработки), АСУ ТП.
Такие промышленные системы могут продаваться и как готовые решения, и как чисто аппаратная платформа, на которую заказчик сможет устанавливать свое ПО. Это может оказаться интересным предложением для рынка: в России и сейчас довольно много компаний, который разрабатывают ПО, а вот разработчиков аппаратных решений практически нет. В результате всем приходится выбирать из доступных готовых решений в Китае.