Microsoft анонсировала первый чип искусственного интеллекта Maia 100

22s

14:51, 02.09.2024

На конференции Ignite 2023 компания Microsoft впервые рассказала о разработке собственного чипа-ускорителя искусственного интеллекта под названием Maia, поделившись спецификациями Maia 100 незадолго до мероприятия. Maia 100 - один из самых больших процессоров TSMC с 5-нм нодой, специально разработанный для высоких рабочих нагрузок в Azure.

Maia 100 обладает следующими характеристиками:

размер чипа - 820 мм2;
корпус - техпроцесс TSMC N5 с технологией COWOS-S interposer;
HBM BW/Cap - 1,8 ТБ/с при 64 ГБ HBM2E;
Пиковая плотность тензора POPS - 6 бит: 3, 9 бит: 1,5, BF16: 0,8;
L1/L2 - 500 МБ;
Backend Network BW - 600 ГБ/с (12X400 ГБ);
Host BW (PCIe) = 32 ГБ/с PCIe Gen5X8;
Требования к TDP - 700 Вт;
TDP - 500 ВТ.

Microsoft Maia 100 отличается вертикальной интеграцией для оптимизации стоимости и производительности, а также индивидуальными серверными платами со специально разработанными стойками и стеком программного обеспечения для повышения производительности.

SoC Maia 100 имеет следующую архитектуру:

Высокоскоростной тензорный блок для обучения и обработки выходных данных с поддержкой широкого спектра типов данных 16xRx16.
Векторный процессор, представляющий собой слабосвязанный суперскалярный движок, разработанный с использованием архитектуры набора инструкций (ISA) для поддержки широкого спектра типов данных, включая FP32 и BF16.
Прямой доступ к памяти (DMA), поддерживающий различные схемы сегментации тензоров.
Асинхронное программирование обеспечивается аппаратными семафорами.
Управление L1 и L2 осуществляется программно для более эффективного использования данных и энергоэффективности.
В Maia 100 используется межсоединение на базе Ethernet с пользовательским протоколом типа RoCE для вычислений со сверхвысокой пропускной способностью, поддерживая пропускную способность "all-gather" и "scatter-reduced" до 4800 Гбит/с, а также пропускную способность "all-to-all" до 1200 Гбит/с.

Maia SDK позволяет быстро переносить модели PyTorch и Triton в Maia, а также предоставляет инструменты для легкого развертывания в Azure OpenAI Services. Разработчики могут использовать либо язык программирования Triton для DNN, либо API Maia для оптимизации производительности. SDK также поддерживает нативные модели PyTorch.