Новая архитектура Blackwell от Nvidia – новая веху в эволюции графических процессоров
На мероприятии GTC March 20224 компания NVIDIA представила новую архитектуру чипов Blackwell, а также графические процессоры B200 на ее основе вместе с чипами Grace Blackwell GB200, в которых обе архитектуры будут объединены.
Графический процессор B200 имеет 208 миллиардов транзисторов по сравнению с 80 миллиардами H100/H200, которые ранее использовались в центрах обработки данных, и обеспечивает 20 петафлопс производительности ИИ на один GPU (в сравнении с 4 петафлопс у H100). Такой чип будет обладать 192 ГБ памяти HBM3e с пропускной способностью до 8 ТБ/с.
В отличие от более традиционных GPU, Blackwell B200 является своего рода двойным процессором, поскольку состоит из двух объединенных кристаллов, работающих как один процессор CUDA, соединенных интерфейсом NV-HBI NVIDIA High Bandwidth Interface со скоростью 10 ТБ/с. Blackwell B200 производится по техпроцессу TSMC 4NP. Кристаллы оснащены стеками HMB3e, каждый из которых имеет 24 ГБ и пропускную способность 1 ТБ/с.
На данный момент самым мощным анонсированным решением является чип GB200, состоящий из двух графических процессоров B200.
Для соединения нескольких узлов Nvidia представляет пятое поколение чипов NVLink с двунаправленной пропускной способностью 1,8 ТБ/с, состоящее из 50 миллиардов транзисторов и изготовленное по техпроцессу TSMC 4NP.
Каждый графический процессор Blackwell имеет 18 каналов связи через NVLink, что в 18 раз больше, чем в случае с H100. Поскольку каждый канал имеет двунаправленную пропускную способность 50 ГБ/с, что означает 100 ГБ/с на соединение, большие группы узлов GPU будут работать практически как один огромный блок GPU.
Кроме того, чипы с новыми интерфейсами входят в состав сервера NVIDIA B200 NVL72, который представляет собой 18-серверное полнофункциональное стоечное решение с 18 серверами 1U, каждый из которых оснащен чипами GB200 и процессором Grace на каждые два GPU B200. Это означает, что каждый вычислительный узел GB200 NVL72 имеет два суперчипа GB200, а каждая стойка содержит два CPU Grace и четыре GPU B200 с производительностью 80 петафлопс FP4 AI и 40 петафлопс FP8 AI.
Полный GB200 состоит из 36 CPU Grace и 72 GPU Blackwell с производительностью 720 петафлопс FP8 и 1440 петафлопс FP4. Многоузловая пропускная способность этого сервера составляет 130 ТБ/с и позволяет обрабатывать до 27 триллионов параметров языковой модели ИИ.