Red Hat запускает llm-d — платформу для масштабируемого вывода ИИ на базе Kubernetes
15:24, 22.05.2025
Red Hat представила llm-d — новый open source-проект, предназначенный для высокопроизводительного распределённого вывода больших языковых моделей (LLM). Платформа разработана на базе Kubernetes и ориентирована на упрощение масштабирования генеративного ИИ. Исходный код доступен на GitHub под лицензией Apache 2.0.
Ключевые особенности llm-d
Среди главных функций платформы:
- оптимизированный планировщик вывода (Inference Scheduler) для vLLM;
- дезагрегированная архитектура обслуживания;
- повторное использование префиксных кэшей;
- гибкое масштабирование в зависимости от трафика, задач и доступных ресурсов.
Сотрудничество ведущих игроков ИИ-индустрии
Разработка ведётся в партнёрстве с такими компаниями, как Nvidia, AMD, Intel, IBM Research, Google Cloud, CoreWeave, Hugging Face и другими. Такое сотрудничество подчёркивает серьёзность подхода к llm-d и потенциал платформы как отраслевого стандарта.
Технологическая основа и архитектура
Проект использует библиотеку vLLM для распределённого inference, а также такие компоненты, как LMCache для выгрузки KV-кэша, интеллектуальную маршрутизацию трафика с поддержкой ИИ, высокоэффективные коммуникационные API, и автоматическое масштабирование под нагрузку и инфраструктуру.
Всё это позволяет адаптировать систему под различные сценарии использования и требования к производительности. А сам запуск llm-d может стать значительным шагом в сторону демократизации мощных ИИ-систем и их доступности для широкой аудитории разработчиков и исследователей.