In the fifth article, we will talk about the most important project for the company - the JURECA supercomputer, built for the German research center Jülich. Here we will talk about the conditions of the competition, the features of the solution and other organizational issues related to the creation of the supercomputer.
Это пятый материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформы», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.
Оглавление
- Российский производитель суперкомпьютеров – компания «Т-Платформы»
- Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
- Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
- «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
- Суперкомпьютер «Т-Платформы» в немецком суперкомпьютерном центре Юлиха
- Технические особенности суперкомпьютера JURECA производства «Т-Платформы»
- Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы».
Исследовательский центр Юлиха
Исследовательский центр Юлиха получил свое название по названию города Юлих в Германии, рядом с которым он расположен. Это крупный научный центр, занимающийся исследованиями в разных областях, в том числе по биологии (работа мозга), энергетике, экологии и др. Одним из подразделений является и специализированный суперкомпьютерный центр.
Задачи центра, требующие участия суперкомпьютера
Суперкомпьютеры центра используются для научных исследований в таких областях как квантовая физика, атомная физика и другие направления теоретической физики. Есть проекты в области астрофизики, биологии, есть проект по изучению и моделированию человеческого мозга, и др.
Большинство проектов связаны с научными исследованиями. Прикладных задач не так много, хотя они тоже встречаются. Один из интересных примеров прикладной задачи – создание алгоритмов для предсказания поведения толпы. Толчком к исследованиям послужила ошибка при строительстве стадиона в Дюссельдорфе: при экстренной эвакуации пропускной способности коридоров и узлов не хватало, начиналась давка. С помощью суперкомпьютера была создана и обкатана модель, которая отслеживает поведение людей в реальном времени и прогнозирует (до 7 минут в будущем), где может образоваться давка. После чего охрана может так перенаправить людские потоки, чтобы избежать опасности. Сейчас несколько групп исследователей работают над развитием и уточнением модели поведения толпы.
Новый суперкомпьютер для научного центра Юлиха
Суперкомпьютер JUROPA, который использовался в центре Юлиха до JURECA был построен в 2009 году на базе процессоров Intel Xeon X5570 (Nehalem-EP) quad-core с частотой 2,39 ГГц и полностью устарел как морально, так и физически. Суперкомпьютер с топовой производительностью в 308 терафлопс (по данным ТОП500 на июнь 2009, JURECA превосходит его по скорости в пять с половиной раз) устарел и морально – скорость вычислений не удовлетворяет современным требованиям, - и физически – участились отказы, а замену найти уже невозможно.
В объявленном конкурсе участвовали крупнейшие компании рынка. Финальный список участников конфиденциален, но заявки на конкурс подавали такие компании как Hewlett-Packard, Bull, Eurotec, Megware, Cray, Clustervision и другие.
Суперкомпьютерному центру Юлиха требовалась надежная и стабильно работающая рабочая система. Поэтому, хотя JURECA построен на современных технологиях, в его основу все же положены рабочие и обкатанные решения. А от ультрасовременных, но находящихся в стадии «бета-версий» технологий пришлось отказаться. Поэтому JURECA не стал самым мощным суперкомпьютером в Европе, хотя на сегодня он входит в пятерку самых производительных суперкомпьютеров Германии.
Долгое сотрудничество
Строительство JURECA стало крупнейшим, но не первым совместным проектом «Т-Платформы» и центра Юлиха. До этого стороны совместно работали над проектом по изучению целостности данных, динамических алгоритмов роутинга в шине Infiniband и других.
Один из успешных совместных проектов был посвящен так называемому «чек-пойнтингу» - созданию контрольных точек при вычислениях. Даже самый надежный кластер на застрахован от сбоя, при котором все результаты вычислений будут утеряны. Особенно неприятно, если сбой произошел в конце длинного цикла – получается, что все время (которое немало стоит) потеряно впустую. Чтобы этого не происходило, система в определенные моменты (когда цепочка вычислений и обмен данными между узлами завершены) делает бэкап содержимого памяти, кэшей и пр. Это дает возможность быстро восстановить состояние системы в случае сбоя и продолжить работу не с начала, а с момента последнего бэкапа.
Наконец, «Т-Платформы» построили для центра Юлиха тестовую систему – фактически, суперкомпьютер в миниатюре из пары стоек. На ней немецкие заказчики смогли оценить особенности системы, оптимизировать ПО и т.д.
Факторы успеха
Впрочем, опыт сотрудничества – это лишь один из компонентов успеха. Решающий выбор в пользу предложения Т-Платформы был сделан за счет нескольких факторов.
Во-первых, за счет модульной структуры серверов последнего поколения «Т-Платформы» могли очень гибко менять конфигурацию, подстраивая ее под требования и предпочтения немецких заказчиков. Например, только «Т-Платформы» смогли обеспечить использование последнего поколения технологии Infiniband EDR, которое на момент конкурса еще даже не вышло на рынок. Подробнее о ней мы поговорим чуть ниже.
Во-вторых, использование самых современных технологий. Например, тестовую систему собрали на последнем поколении Intel Xeon, которое тогда только-только официально вышло на рынок и у конкурентов еще не присутствовало. А для JURECA «Т-Платформы» смогли предложить систему с немного более высоким уровнем производительности, чем конкуренты, при той же цене. Впрочем, разница была невелика, и в отсутствие других факторов не стала бы решающей.
Наконец, важную роль сыграла готовность компании «Т-Платформы» к дальнейшему сотрудничеству. Суперкомпьютеры в центре Юлиха меняются раз в пять-шесть лет, но в процессе работы что-то постоянно модернизируется, оптимизируется и т.д. Постоянно развивается ПО, а для этого необходимо, чтобы поставщик системы дорабатывал свою часть – стек управляющего промежуточного ПО (Middleware), которое занимается управлением ресурсами.