Возможности научных вычислений в облаке

Агам Шах

31 августа 2023 г.

Суперкомпьютеры по-прежнему остаются в основном локальными по многим причинам, включая мощность, безопасность и управление системой. Компаниям нужно больше времени для перемещения рабочих нагрузок в облако, но возможностей становится больше. (См. недавно опубликованный прогноз HPC-AI от Intersect 360 Research.)

В августе Google Cloud и Amazon Web Services анонсировали высокопроизводительные вычислительные виртуальные машины, которые по сути являются онлайн-версиями вычислений, предоставляемых локальными системами. Виртуальные машины HPC созданы на основе запатентованных технологий облачных провайдеров, включая новейшие процессоры, сверхбыстрые соединения, функции безопасности и объем памяти.

Виртуальные машины HPC поддерживают гибридные развертывания, при которых компании могут распределять рабочие нагрузки между локальными системами и виртуальными машинами, предлагаемыми AWS и Google. Некоторые пользователи HPC предпочитают отправлять рабочие нагрузки с низким приоритетом в облако, что высвобождает локальные вычислительные ресурсы для выполнения более важных рабочих нагрузок.

Самым большим недостатком HPC в облаке остается ограничение пропускной способности, учитывая низкую скорость сети на больших географических расстояниях. Тем не менее, многие инженерные и фармацевтические компании обращаются к облаку из-за богатых инструментов разработки, обширного списка наборов данных, инструментов анализа и баз данных, а также другого промежуточного программного обеспечения, доступного клиентам. Такие интеграторы, как Rescale и Altair, предоставляют программное обеспечение и поддержку для создания общих гибридных сред для приложений HPC.

Новые виртуальные машины от облачных провайдеров ориентированы исключительно на традиционные научные вычисления. Системы не ориентированы на искусственный интеллект и не оснащены графическими процессорами. AWS и Google предлагают дорогие экземпляры графических процессоров Nvidia H100, предназначенные для параллельных вычислений и приложений искусственного интеллекта.

AWS недавно анонсировала EC2 Hpc7, виртуальную машину на базе чипов AMD Epyc четвертого поколения под кодовым названием Genoa. Hpc7a — это x86, обновление последних экземпляров EC2 Hpc6a, основанных на чипах AMD Epyc предыдущего поколения под кодовым названием Milan.

Hpc7a имеет вдвое больший объем памяти в полностью загруженных конфигурациях виртуальных машин и пропускную способность сети 300 Гбит/с. Amazon утверждает, что Hpc7a обеспечивает производительность в 2,5 раза быстрее, чем экземпляры Hpc6a. Самый большой экземпляр hpc7a.96xlarge предлагает 192 ядра ЦП и 768 ГБ памяти DDR5. Виртуальные машины поддерживают адаптер Elastic Fiber и файловые системы, такие как Lustre, популярные в HPC.

AWS предлагает другие виртуальные машины HPC, в том числе Hpc7g на базе ARM, работающий на отечественном чипе Graviton3E. Центр вычислительных наук Riken создал на AWS «виртуальный Fugaku» для Hpc7g или облачную версию программного стека Fugaku, второго по скорости суперкомпьютера в мире. Fugaku также построен на процессорах ARM, что делает возможным копирование программной среды.

В августе Google анонсировала экземпляр виртуальной машины H3 для HPC, который балансирует цену и производительность благодаря высокой скорости сети и большому набору ядер ЦП.

Конфигурации H3 основаны на новейших процессорах Intel Sapphire Rapids, при этом каждый узел объединяет 88 ядер процессора и 352 ГБ памяти. Виртуальные машины предназначены для приложений, которые не распараллелены и выполняются в однопоточных средах.

Виртуальные машины построены на базе специального процессора данных E2000, разработанного совместно Intel и Google, под кодовым названием Mount Evans. Узлы H3 могут обмениваться данными на скорости 200 Гбит/с и имеют 16 процессорных ядер Neoverse N1 на базе ARM.

В тестах Google H3 сравнивался с предыдущими виртуальными машинами C2 на базе процессоров Intel Cascade Lake, которые на два поколения отстают от Sapphire Rapids. Виртуальная машина H3, использующая только ЦП, в три раза выше по производительности на узел и может сэкономить клиентам 50 % затрат.

Сравнение не является прямым сравнением, поскольку серверные чипы обычно сравниваются с чипами предыдущего поколения, в данном случае с Ice Lake. Но сравнение Google больше соответствует циклам обновления серверов, которые происходят каждые два-три года.

На недавнем саммите Google Cloud Next компания расширила возможности высокопроизводительных вычислений для искусственного интеллекта. Компания анонсировала модули с новейшими чипами AI TPU v5e и объявила о доступности своих суперкомпьютерных систем A3, которые могут содержать 26 000 графических процессоров Nvidia и поддерживать параллельные вычисления. Оба чипа предназначены для обучения и вывода в приложениях искусственного интеллекта.