Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор

In the second part of this material, we will discuss the speed of development – a factor that is crucial when creating supercomputers. We will talk about the need to use only the most modern technologies, the importance of collaborating with technology developers from the early stages, and the choice of technologies for solutions – if there is one.

Это второй материал из цикла, посвященного суперкомпьютерам и работе на этом рынке российской компании «Т-Платформы». Материалы созданы на основании интервью с Александром Голубом, директором департамента разработки «Т-Платформ», и Сергеем Клейменовым, главным специалистом по интеграции и внедрению, который занимал пост технического руководителя (так называемый «technical lead») проекта по строительству суперкомпьютера JURECA.

Оглавление

  1. Российский производитель суперкомпьютеров – компания «Т-Платформы»
  2. Как построить суперкомпьютер? Гонки технологий, сроки и скорость внедрения как решающий фактор
  3. Как построить суперкомпьютер? Свои технологии или покупные, собственная разработка плат как ключ к успеху, интеграция против разъемов и сложности производства в России
  4. «Т-Платформы» - крупнейшие проекты недавнего времени, другие направления деятельности
  5. Суперкомпьютер «Т-Платформы» в немецком суперкомпьютерном центре Юлиха
  6. Технические особенности суперкомпьютера JURECA производства «Т-Платформы»
  7. Программная часть суперкомпьютера JURECA, управление ресурсами, обслуживание и основные результаты проекта для «Т-Платформы».

В современной экономике сроки играют огромную роль, зачастую сроки создания и вывода технологии и продукта на рынок оказываются куда важнее, чем финансовые затраты. Моделирование с помощью суперкомпьютеров позволяет сэкономить время и ускорить разработку.

Впрочем, для самих суперкомпьютеров сроки тоже играют первостепенную роль. Как только выходит новое поколение вычислительных платформ, прежние решения сразу становятся неинтересны рынку. Построенный и работающий компьютер морально устаревает за три-четыре года. Хотя еще некоторое время им пользуются – это слишком дорогая игрушка, чтобы менять его каждые три года. Но общий срок эксплуатации суперкомпьютера составляет не более шести-семи лет.

Новейшие технологии как залог успеха

Разработчики суперкомпьютеров обязаны оставаться на острие технологического прогресса. Им приходится постоянно исследовать и применять новейшие технологии, разрабатывать и обкатывать решения на новых поколениях вычислительных платформ и периферийных технологий, постоянно взаимодействовать с разработчиками в смежных отраслях, заниматься самостоятельными исследованиями. Все это отнимает большое количество времени и средств, но иначе очень легко утратить конкурентоспособность и вообще потерять рынок.

Потому что суперкомпьютер - это большая и сложная система, обслуживание которой стоит больших денег, зачастую сопоставимых с изначальной ценой решения. Новое поколение технологий всегда лучше по производительности и энергоэффективности, а значит, суперкомпьютер на новом поколении будет занимать меньше места и потреблять меньше электричества при том же уровне производительности. А раз так, то строить суперкомпьютер на устаревшей платформе не имеет смысла даже при наличии больших скидок: потом потеряешь больше денег на обслуживании, да и устареет он быстрее. В результате, суперкомпьютер имеет смысл строить только на самом последнем поколении вычислительных платформ, да и другие технологии лучше использовать поновее.

Для «Т-Платформ» это означает, что сразу после официального выхода на рынок нового поколения серверных платформ Intel компания должна представить свое новое поколение серверной платформы. В частности, то, что компания смогла предложить решения на последнем поколении платформ Intel буквально через несколько дней после их выхода на рынок, позволило «Т-Платформам» выиграть конкурс на строительство суперкомпьютера JURECA в Германии. 

Серверная платформа V-class «Т-Платформ» последнего поколения

Конечно, новейшие технологии – не единственное требование на серверном рынке. Важнейшую роль играют такие факторы как надежность и совместимость, и использование новейшей платформы не дает права на провал по этим направлениям. Но гарантировать надежность и совместимость можно лишь по результатам широкого тестирования, которое отнимает огромное количество времени и ресурсов. Некоторые производители мирового уровня объясняют более поздний выход своих продуктов на рынок как раз тем, что проводят дополнительные тестирования на совместимость и надежность.

В результате, заказчикам приходится либо мириться с использованием устаревшей платформы, либо терять время в ожидании, пока компании первого эшелона выпустят свои «протестированные» решения на новой платформе, либо обращаться к тем компаниям, которые уже имеют готовые решения.

Сотрудничество на ранних этапах разработки

В результате, чем быстрее компания сможет выпустить свое решение на самой свежей платформе – тем лучше. Поэтому важно взаимодействовать с разработчиками новых технологий и решений начиная с ранних этапов – это позволяет заранее познакомиться с новым поколением и его возможностями, оценить его и подготовиться к его выходу на рынок.

Поскольку важнейший компонент сервера - вычислительная платформа, ключевую роль играет взаимодействие с ее производителем. На сегодня все серверы «Т-Платформ», включая решения суперкомпьютеров, используют архитектуру х86 (почему – поговорим ниже) и платформу Intel.

Хотя Intel является на сегодняшний день единственным разработчиком серверных платформ х86, вокруг компании сложилось огромное сообщество разработчиков и партнеров, которое помогает формировать направления развития, обменивается идеями и мнениями, решает проблемы и т.д. Развитое сообщество – один из основных факторов, благодаря которому х86 динамично развивается и эффективно отражает потребности заказчиков. Другие отрасли, где сообщества нет или оно значительно меньше, развиваются не столь активно.

Intel предоставляет партнерам информацию, спецификации, документацию, предсерийные образцы и т.д., дает консультации, указывает на особенности работы новой платформы и интересные возможности. Специалисты Intel помогают в решении вопросов, связанных с работой решений на ее платформах – где-то передает готовое и обкатанное решение, которому обязательно нужно следовать для правильной работы платформы, где-то предлагает варианты решений, оставляя выбор за производителем конкретного решения. А какие-то вопросы полностью отдает на откуп производителям.

Кроме того, Intel для каждой новой платформы предлагает референс-дизайн материнской платы. С одной стороны, это позволяет производителям очень быстро и без затрат на собственную разработку развернуть производство материнских плат со стандартным набором возможностей. С другой – он не всегда оптимален: например, переработав схемотехнику, сторонний производитель может уменьшить количество слоев платы без ущерба для надежности, что при больших тиражах даст значительную экономию в производстве.

Кроме того, для крупных игроков стандартный дизайн чаще всего не подходит из-за уникальных особенностей их решений и платформ. Например, у «Т-Платформ» своя система охлаждения, что накладывает ограничения на расположение процессора, системы питания, слотов памяти и т.д., и своя система управления платой. А еще свои требования к функциональности: сколько должно быть слотов памяти и где они расположены, сколько и каких слотов PCI-Express, где они выводятся, сколько разъемов выходит наружу, как будут объединяться материнские платы между собой – ведь в шасси их ставится до 10 штук. Требования для топовых серверов А-класса (на них строятся самые мощные суперкомпьютеры) – еще выше.

Поэтому «Т-Платформы», как и любой крупный разработчик со своей школой и парком техники, создают собственный дизайн материнских плат, который учитывает не только требования разработчика процессора и платформы, но и особенности и ограничения, накладываемые техническими особенностями компонентов самих «Т-Платформ».

Платформы х86 как оптимальный и единственный выбор

На сегодняшний день компания «Т-Платформы» работает только с архитектурой х86. Специалисты компании постоянно отслеживают рынок и оценивают эффективность различных альтернативных платформ. Например, в свое время пробовали работать с таким экзотическим решением как Cell. Но специфическая архитектура требовала больших работ по адаптации, к тому же у Cell практически отсутствовало сообщество разработчиков, которое помогало бы развивать архитектуру и устранять ошибки и проблемы. Впрочем, это направление вообще быстро закрылось.

На сегодня единственной реальной альтернативой для х86 остаются решения с архитектурой PowerPC от IBM. Однако у этих решений тоже своеобразная архитектура, требующая оптимизации под себя, тоже небольшое сообщество разработчиков, целиком завязанное на одного производителя. Но главный недостаток состоит в том, что процессоры и другие компоненты для этой экосистемы очень дорогие, и в результате выигрыш в производительности не окупает роста финансовых затрат. В результате, от работы с этой архитектурой компания отказалась по экономическим соображениям.

Причем если суперкомпьютеры еще можно строить на экзотических решениях, так как это закрытая система с готовым управляющим ПО, то для серверов общего назначения открытая архитектура и развитое сообщество разработчиков играет ключевую роль. Те архитектуры и решения, которые не смогли создать вокруг себя развитое сообщество партнеров, разработчиков и пользователей, быстро теряли конкурентоспособность и сходили со сцены.

В результате, на сегодня архитектура х86 представляет собой оптимальный выбор как с технической, так и с экономической точки зрения.

И другое…

Обвязка и чипы для периферийных устройств могут быть от самых разных производителей из разных стран. Решение об использовании того или иного варианта может приниматься как на основе технических и технологических особенностей, так и в силу экономических факторов: если при той же функциональности чип дешевле, то при большом объеме производства это дает существенную экономию. Купил дешевле на доллар? При производстве миллиона штук – сэкономил миллион долларов.

В то же время, хотя «Т-Платформы» строят свои решения на западной элементной базе (т.к. альтернатив пока нет), но все работы, связанные с разработкой и производством компания предпочитает выполнять сама. И об этом мы поговорим в следующем материале.

Now on home