DeepSeek V3: рекордные результаты в бенчах
13:59, 26.03.2025
Новая модель DeepSeek без анонсирования появилась на HuggingFace. И лишь через день, появился детальный анонс с описанием.
Бенчмарки по программированию и математике
DeepSeek-V3-0324 показывает рекордные показатели, и показывает значительно высшие результаты сравнивая с DeepSeek-V3 во всех следующих категориях:
- AIME: 59.4
- MMLU-Pro: 81.2
- LiveCodeBench: 49.2
- GPQA: 68.4
Также в большинстве результатов, V3-0324 показывает лучший результат чем Claude 3.5.
В DeepSeek заявили, что их новый продукт также обгоняет Claude 3.7. После этого заявления, появись слухи о возможном обучении новой модели на Claude 3.7. На данный момент нет никаких подтверждений или опровержений этой информации.
Обновления в модели
Касательно основных обновлений, они относятся к улучшению кода, и определенным изменениям в игровых интерфейсах и веб-страницах. Кроме того, изменено качество Function Calling.
Также, в новом проекте есть хорошая база на обработку результатов веб-поиска и чтение файлов. В дополнение к этому, новая модель была протестирована и отлично запускается на Mac Studio.