Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы»

Это седьмой, завершающий материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформы», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.

Управление ресурсами JURECA, сравнение с «Ломоносовым»

Если сравнивать с МГУ и «Ломоносов-2», то правила доступа к суперкомпьютерам существенно различаются. Доступ к ресурсам «Ломоносова-2» можно получить вообще бесплатно, но для этого специальная комиссия должна согласиться, что проект имеет научную ценность. Однако, т.к. доступ предоставляется бесплатно, в случае сбоя или выхода из графика по другим причинам вся очередь просто сдвигается.

Доступ к JURECA более четко регламентирован и рассматривается как оказание услуг. Правда, все равно нужно составлять описание проекта (и есть определенное модерирование), и при этом за ресурсы нужно платить. Но зато в соглашении прописаны сроки – если задача попала в очередь, то она должна быть просчитана к определенному сроку. Конечно, полностью избавиться от вероятности сбоя невозможно, и это прописано в соглашении, но систему обязаны вернуть в работу в кратчайшие сроки для минимизации потерь времени заказчиков. Это дает клиентам Юлиха возможность более точно планировать свою работу.

Интересно, что для равного доступа к инфраструктуре в центре Юлиха введено ограничение: максимальное время расчета одной задачи составляет не более 24 часов. Если расчет не завершен, то спустя 24 часа промежуточные результаты сохраняются, задача снова ставится в очередь для дальнейшего расчета, а ресурсы передаются следующей задаче. Это сделано, чтобы, грубо говоря, одна задача не занимала ресурсы суперкомпьютера на месяц, а остальные все это время ждали бы в очереди.

Полностью занять ресурсы JURECA ни одна задача не может, потому что нельзя настолько распараллелить расчеты. Все равно на каком-то этапе приходится ждать, пока завершится другая цепочка расчетов, чтобы взять ее результаты. Поэтому ресурсы суперкомпьютера делятся на несколько задач – как правило, одновременно идет расчет примерно по десяти и более разным проектам. Для этого существует очередь, которая учитывает приоритеты пользователя, задач и пр. Когда узлы освободились, управляющее очередью ПО ставит на расчет следующие задачи из очереди, стараясь поддерживать максимальную загрузку.

Динамическое перераспределение узлов (как в облачной инфраструктуре) здесь невозможно. Если задача требует 100 серверов на 24 часа, то они закрепляются за ней, а другие задачи не могут получить к ним доступ. Инфраструктура освобождается либо через 24 часа, либо после окончания расчетов – в этом случае ОС видит, что расчеты завершены и вычислительные ресурсы освободились.

ПО и его виды и уровни

Как уже говорилось, есть несколько уровней ПО. Самый нижний уровень – операционная система и драйвера на каждой системе; в суперкомпьютерах «Т-Платформы» используется CentOS с некоторыми изменениями. Выше – ПО для распределения ресурсов узлов в кластере между задачами. Грубо говоря, это библиотека для обмена данными между узлами. Плюс разные политики бэкапов, доступа к СХД, мониторингу и администрированию системы. ПО, которое осуществляет сбор и хранение результатов, а также сохраняет состояние систем в определенный момент («чекпоинтинг»), чтобы при сбое не пропадали все накопленные результаты и можно было восстановить работу из промежуточного состояния. В результате, управляющее ПО собирает выделенные под задачу системы в одну, и прикладное ПО работает фактически с виртуализированными ресурсами. Но расчеты осуществляются на максимально приближенном к «железу» уровне, т.е. нет никаких гипервизоров, контейнеров и пр.

В JURECA свое уникальное ПО для управления ресурсами. Это ПО разрабатывается самим центром совместно с немецкой компанией Partec, «Т-Платформы» также участвуют в работе как производитель системы и базового ПО. По структуре и механизмам работы ПО в JURECA очень сильно отличается от ПО в том же «Ломоносове-2». Но для внешних проектов системы выглядят практически одинаково, и перенести прикладное ПО с «Ломоносова-2» на JURECA и обратно не представляет проблемы. Это не сложнее, чем перенести приложение из Red Hat в Debian – подправить мелочи типа пути к библиотекам, перекомпилировать… Но сам код будет работать и там, и там.

Для многих проектов нужно промежуточное ПО – например, компилятор Intel, специализированные библиотеки Intel (для математики и пр.) и т.д. Эти библиотеки платные и довольно дорогие, но в центре Юлиха, например, могут предлагать использовать их бесплатно при аренде машинного времени.

Прикладное ПО, как правило, может работать и на рабочей станции, и на суперкомпьютере (ANSYS, например), и для работающего с ним инженера разницы в поведении ПО не будет – кроме скорости работы, разумеется. Есть специализированное ПО, предназначенное для работы на суперкомпьютерах.

Однако большинство заказчиков для центра Юлиха – это команды ученых, проводящих научные исследования. Научным группам, как правило, приходится создавать собственное ПО для научных расчетов – и в центр они приходят уже с ним. Для ученых разработка такого ПО – это не конечный результат работы, за который они получают свою зарплату, а всего лишь создание инструмента, который дальше будет использоваться в работе. Поэтому ученые не любят писать ПО и мотивировать их на то, чтобы они как-то переделывали и оптимизировали код, достаточно сложно.

Обслуживание JURECA: жесткие временные рамки

Распределение обязанностей по обслуживанию основных и вспомогательных систем – один из важнейших вопросов в любом проекте. В этом плане центр Юлиха – отличный партнер и заказчик. Его специалисты берут на себя и работу по обслуживанию инженерных систем – в первую очередь, электропитания и охлаждения, а также некоторые рабочие системы – такие как СХД и бустер. Все это снимает много проблем со специалистов «Т-Платформы», которые могут сосредоточиться на работе собственно вычислительного кластера JURECA.

С другой стороны, обслуживание JURECA целиком и полностью лежит на «Т-Платформы»: центр Юлиха хочет иметь работающее решение «под ключ» и не заниматься ликвидацией его проблем самостоятельно. Поэтому на месте всегда находится как минимум один сотрудник «Т-Платформы», в чьи обязанности входит контроль за работой системы и осуществления необходимого обслуживания. Также на месте организован небольшой склад компонентов, так как их доставка может занимать значительное время.

Важной особенностью проекта стали жестко прописанные очень небольшие сроки на ликвидацию аварий. Для примера, в самой критической ситуации:

Реакция – 1 час.
Диагностика – 4 часа
Устранение – 8 часов

В итоге что бы ни случилось, через 8 часов кластер должен вернуться в рабочее состояние. Это первый случай в практике «Т-Платформы», когда указаны настолько жесткие сроки восстановления работоспособности решения.

Итоги проекта для компании

Итак, пора подводить итоги, т.е. оценить результаты проекта для компании «Т-Платформы».

Во-первых, компания успешно реализовала крупный даже по мировым меркам проект в другой стране. На рынке суперкомпьютеров проекты, где предполагается более тысячи узлов, считаются достижением, а в JURECA количество узлов приближается к двум тысячам. Такие проекты на рынке бывают где-то раз в год, да и строительство занимает в районе года, поэтому все участники рынка уделяют им особое внимание. Также JURECA стала одним из четырех крупнейших проектов «Т-Платформы» и одним из крупнейших в Европе вообще.

Во-вторых, проект реализован в Европе, т.е. на зарубежном для компании и очень конкурентном рынке с высокой планкой качества. А научный центр Юлиха – это одно из мест, которое знакомо всем, кто связан с рынком суперкомпьютеров. Теперь участники рынка и потенциальные партнеры и заказчики видят, что в этом центре успешно работает суперкомпьютер российской компании «Т-Платформы». Хотя о пиар-эффекте пока говорить рано – систему запустили в ноябре, и она сейчас только входит в работу.

В-третьих, при реализации проекта компания получила практический опыт по внедрению в работу новых технологий. В первую очередь – Infiniband EDR, новейшего поколения шины интерконнекта, которое станет ключевым для рынка суперкомпьютеров. По заявлению разработчика Infiniband, израильской компании Mellanox, JURECA – крупнейший проект, использующий последнее поколение Infiniband. Плюс, компания «Т-Платформы» участвовала в «доводке» этой новейшей технологии и смогла успешно решить все возникшие проблемы, что дало российской компании нужные знания и опыт, а также положительно скажется на её репутации на рынке.

В-четвертых, в рамках этого сложного проекта тесно взаимодействовали компании и команды из трех стран (Россия, Германия и Израиль), которые успешно координировали свою деятельность. И «Т-Платформы» получили в том числе интересный и уникальный опыт такого рабочего взаимодействия между рабочими группами из разных стран.

Наконец, этот проект позволил специалистам компании получить из первых рук информацию о том, какие задачи решаются с помощью суперкомпьютеров в Европейском Союзе, какие возможности и особенности востребованы, а чего следует избегать. Вплоть до вполне технических вещей – например, именно из общения с заказчиками удалось установить минимальную планку требований к оперативной памяти узла системы – 128 ГБ.

Что в итоге? В итоге у «Т-Платформы» появился официально признанный опыт успешной реализации крупного и сложного проекта в одном из ведущих специализированных центров Германии. Это огромный плюс с точки зрения пиара компании, ее репутации на рынке, знакомств с европейским сообществом, которое занимается суперкомпьютерами. К тому же, большинство европейских заказчиков требуют опыта реализации проектов в Европе, и столь масштабный и сложный проект, успешно реализованный в ведущем европейском центре, станет хорошим подспорьем в следующих конкурсах.