NVIDIA устраняет проблему с Blackwell: Быстрая реакция на неисправность GPU
13:09, 24.10.2024
Генеральный директор NVIDIA Дженсен Хуанг признал ошибку в дизайне графического процессора серии Blackwell, что привело к задержкам в поставке чипов для искусственного интеллекта. Проблема заключалась в функциональном дефекте, который вызвал низкий выход рабочих чипов. По словам Хуанга, это была полностью вина NVIDIA, а не их производственного партнера TSMC, как предполагали некоторые источники. Он подчеркнул, что TSMC не только не была причастна к проблеме, но и активно помогала её исправить.
Улучшение чипов и роль TSMC
Проблему удалось решить путем модификации верхних слоев металла и неровностей кремния в GPU, что улучшило производительность. Исправление потребовало значительных усилий, учитывая необходимость одновременно производить семь различных типов чипов с нуля. Основные трудности были связаны с технологией упаковки CoWoS-L, которая использует кремниевые мосты LSI, интерпозер RDL и чиплеты GPU. Проблемы возникали из-за теплового расширения компонентов, что приводило к деформации системы. Обычно такие исправления занимают около 10 циклов, но NVIDIA и TSMC удалось решить проблему в рекордные сроки.
Массовое производство обновленных чипов
Обновленные графические процессоры Blackwell B100 и B200 планируется запустить в массовое производство к концу октября, а их поставки начнутся в начале следующего года. Несмотря на то, что производство улучшенных чипов уже налаживается, NVIDIA по-прежнему ожидает некоторый дефицит высокопроизводительных GPU в 2024 году, особенно для крупных облачных провайдеров, таких как AWS, Google и Microsoft.