DeepSeek V3: рекордные результаты в бенчах

13:59, 26.03.2025

Содержание статьи

Бенчмарки по программированию и математике
Обновления в модели

Новая модель DeepSeek без анонсирования появилась на HuggingFace. И лишь через день, появился детальный анонс с описанием.

Бенчмарки по программированию и математике

DeepSeek-V3-0324 показывает рекордные показатели, и показывает значительно высшие результаты сравнивая с DeepSeek-V3 во всех следующих категориях:

AIME: 59.4
MMLU-Pro: 81.2
LiveCodeBench: 49.2
GPQA: 68.4

Также в большинстве результатов, V3-0324 показывает лучший результат чем Claude 3.5.

В DeepSeek заявили, что их новый продукт также обгоняет Claude 3.7. После этого заявления, появись слухи о возможном обучении новой модели на Claude 3.7. На данный момент нет никаких подтверждений или опровержений этой информации.

Обновления в модели

Касательно основных обновлений, они относятся к улучшению кода, и определенным изменениям в игровых интерфейсах и веб-страницах. Кроме того, изменено качество Function Calling.

Также, в новом проекте есть хорошая база на обработку результатов веб-поиска и чтение файлов. В дополнение к этому, новая модель была протестирована и отлично запускается на Mac Studio.