(Pflops
<#"656164.files/image002.gif"> <#"656164.files/image003.gif"> <#"656164.files/image003.gif"> <#"656164.files/image004.gif"> <#"656164.files/image003.gif"> <#"656164.files/image005.gif">
Рисунок 2. Tianhe-2 Вид снаружи
Его производительность составила 33,86 петафлопс по тесту Linpack.
Производительность предыдущего лидера рейтинга, CrayTitan, почти вдвое меньше -
17,59 петафлопс. Потребляемая мощность - 17,8 мегаватт (24 мегаватта с учётом
систем охлаждения и кондиционирования). Система охлаждения использует кольцевое
водяное охлаждение, для подачи холодной воды используется городской водопровод.
Файловое хранилище имеет ёмкость 12,4 петабайта и использует гибридную файловую
систему H2FS. Компьютер занимает площадь в 720 м2. По оценкам, создание
суперкомпьютера обошлось в сумму порядка 200-300 миллионов долларов.
Тяньхэ-2 состоит из 16 тысяч узлов (по 2 узла на одной составной плате),
каждый из которых включает в себя 2 процессора IntelXeon E5-2692 на архитектуре
IvyBridge с 12 ядрами каждый (частота 2,2 ГГц) и 3 специализированных
сопроцессора IntelXeonPhi 31S1P (на архитектуре Intel MIC, по 57 ядер на
ускоритель, частота 1.1 ГГц, пассивное охлаждение). На каждом узле установлено
64 ГБ DDR3 ECC памяти (16 модулей) и дополнительно по 8 ГБ GDDR5 в каждом
XeonPhi (всего 88 ГБ). В общей сложности, общее количество вычислительных ядер
достигает 3,12 миллиона (384 тысячи IvyBridge и 2736 тыс. XeonPhi), что
является крупнейшей публичной инсталляцией таких процессоров.
Производительность одного узла достигает 3.432 Тфлопс, из них 0.422 Тфлопс - за
счет процессоров IvyBridge.
Рисунок 3. Часть одной из вычислительных плат Тяньхэ-2
Связь между узлами осуществляется с помощью специально разработанной
проприетарной сети ТH Express-2 (топология Fattree), сердцем которой являются
тринадцать 576-портовых коммутаторов на базе ASIC-микросхем, каждая из которых
имеет пропускную способность 2,56 Терабита в секунду. Широковещательное
управление с MPI работает на скорости 6,36 Гбайт/с.
Рисунок 4. Фрагмент сетевой инфраструктуры Тяньхэ-2
, США
рейтинг вычислительный архитектура суперкомпьютер
Вторую строчку рейтинга занимает, Titan. Его производительность на тестах
Linpack составляет 17,59 петафлопс. Разработка «Титана» не велась с нуля. Он
был создан в процессе обновления предыдущего суперкомпьютера - Jaguar (Cray
XT5). В 2008 году «Ягуар» стал первым компьютером, преодолевшим рубеж в 1
петафлопс, а в 2009 году возглавил список TOP500. При модернизации из Jaguar в
Titan добавили графические ускорителей NvidiaTesla K20 и установили оперативную
память суммарным объёмом 710 ТБ (598 ТБ подключено к ЦПУ и 112 ТБ к Tesla).
Сейчас «Титану» требуется для размещения 404 квадратных метра, а усреднённое
значение его потребляемой мощности составляет 8,2 МВт. По разным оценкам ускорители
Nvidia обеспечивают порядка 85% - 90% всей вычислительной мощности. Отказ от
них в пользу наращивания числа процессоров потребовал бы увеличения занимаемой
площади примерно в 4 раза и во столько же увеличил бы энергопотребление. Titan
имеет водяное охлаждение. Файловое хранилище имеет емкость 10 Петабайт. На
рисунках 5-6 представлен компьютер Titan.
Рисунок 5. Titan - общий вид снаружи
«Титан» состоит из 18 688 вычислительных узлов. Каждый узел включает в
себя 16-ядерный процессор AMD Opteron 6274/6276 (2,2 - 3,2 ГГц) с
четырёхканальным контроллером оперативной памяти, 32 ГБ ОЗУ DDR3 (registered
ECC) и главный козырь - графический ускоритель NVIDIA Tesla K20X с 2688 ядрами
CUDA и 6 ГБ собственной памяти GDDR5.В сумме 18688 узлов обеспечивают 299008
ядер архитектуры x86 с частотой 2,2 - 3,2 ГГц и 50 233 344 ядер CUDA в 261 632
SMX блоках. В качестве общего количества вычислительных ядер суперкомпьютера
Titan указывается сумма всех ядер архитектуры x86 и SMX блоков - 560 640.
Компилятор, специально разработанный для Titan-а, автоматически
распараллеливает исполнение кода между центральным и графическим процессорами.
Вычислительные узлы «Титана» объединяются по 8 штук в блоки. Блоки далее
соединяются в отдельно стоящие модули. При помощи сетевого интерфейса
Gemini3DTorus, команды MPI пересылаются между узлами со скоростью до 5.8
Гб/сек.
Sequoia,
США
Sequoia замыкает тройку лидеров с показателем 17,17 петафлопс. Он
потребляет 7,9 мегаватт. IBM Sequoia построен на архитектуре BlueGene/Q,
являющейся последним поколением в линейке суперкомпьютерных архитектур
BlueGene. Имеет 1,6 Пб памяти. Располагается на площади в 300 кв. м., использует
водяное охлаждение. Sequoia изображен на рисунках 7-9.
Рисунок 7. IBM Sequoia - вид снаружи
Суперкомпьютер состоит из 98 304 вычислительных карт. Каждая карта - это
мультиядерная, 64-битная система на чипе, построенная по технологии PowerPC
(четырехтактная архитектура PowerPC A2). Каждый из чипов содержит 18 ядер. 16
ядер используются для, собственно, вычислений, на одном работает операционная
система, и, наконец последнее ядро отвечает за надежность (может заменить
отказавшее ядро) вычислений всей системы. Каждая карта имеет 16 Гб
двухканальной DD3 памяти. На частоте в 1,6 Ггц, каждый чип способен выдать
204,8 Гфлопс. Итоговое количество вычислительных ядер составляет 1572864.
По 32 вычислительной карты устанавливают в каждый узел.
Вычислительные карты связаны в узле с помощью топологии интерконнекта
5DTorus, а сами узлы по топологии 3DTorus (двунаправленный максимальная
пропускная способность 4ГБ/сек).
Рисунок 8. Вычислительная карта
Рисунок 9. Узел суперкомпьютера IBM Sequoia
Computer,
Япония
В ноябре 2011 года K Computer был достроен, количество процессоров
достигло 88128, а производительность системы на тесте Linpack достигла 10,51
Пфлопс. Таким образом, K Computer стал первым в истории суперкомпьютером,
преодолевшим рубеж в 10 Пфлопс. Его энергопотребление составляет 12,6 мегаватт.
Имеет 1.4 Петабайта файлового хранилища с файловой системой Fujitsu Exabyte
File System (FEFS). Занимает площадь 280 м2. Имеет водяное охлаждение.
Изображения K компьютера представлены на рисунках 10-11.
Рисунок 10. Внешний вид K компьютера
Всего процессоров SPARC64 VIIIfx в системе - 88128. Итоговое количество
ядер составляет 705024.Комплекс насчитывает 864 стойки, в каждую из которых
установлено по 24 платы с процессорами SPARC64 VIIIfx(2 Ггц).Каждая плата
состоит из 4 узлов, которые включают в себя процессор и 16 Гб (8x2Гб модули)
DD3 оперативной памяти.
Рисунок 11. Плата K компьютера
компьютер использует проприетарныйинтерконнект6DTorusпод названием Tofu
(двунаправленный максимальная пропускная способность 5ГБ/сек).
IBM Mira,
США
Средняя производительность MIRA по тесту Linpack составляет 8.586
петафлопс. Машина, созданная специалистами IBM, базируется на архитектуре
BlueGene/Q. Мощность MIRA4МВт. Суперкомпьютер изображен на рисунке 12.
Рисунок 12. Внешний вид IBM MIRA
Список
использованных источников
1. Википедия,
TOP500. http://ru.wikipedia.org/wiki/TOP500
2. «Джек
Донгарра про TOP500 и проблемы на пути к экзафлопсу»,
https://ru.intel.com/business/community/?automodule=blog&blogid=7605&showentry=4025,IntelInsider,
2013;
. Статья
«Visit to the National University for Defense Technology Changsha, China» Jack
Dongarra, 2013;
. Информационный
материал «Blue Gene®/QOverview and Update» IBM, 2011;
. Информационный
материал «Tofu: Interconnect for the K computer», FUJITSU Sci. Tech, 2013;
. Информационный
материал «Introduction to the Cray XK7», Jeff Larkin, 2012.
Похожие работы на - Особенности архитектуры и основные характеристики первых 5 пунктов из TOP500