Новый продукт Deep Research от OpenAI

16:43, 03.02.2025

На недавнем стриме OpenAI анонсировала Deep Research. Новый проект был разработан компанией как особый режим для ChatGPT и проводит глубокие исследование достаточно автономно. Продукт ищет необходимую информацию в сети, самостоятельно анализирует и агрегирует данные с помощью Python-скриптов.

Deep Research – значительный шаг в автономности ИИ, потому как может исполнять длинную цепочку действий без участия человека. И да, некоторые модели могут задействовать длинную цепочку задач, но не способны к комбинированию различных инструментов.

Бенчмарки

Humanity Last Exam показывает достаточно высокий показатель точности нового проекта, который составляет 26.6 процентов. В сравнении с GPT, где точность составляет 3.3% и OpenAI с результатов в 9.1%.

Бенчмарк GAIA предполагает, что AI умеют размышлять, браузить, видеть изображение, и тому подобное. Лидером здесь становиться агент Claude 3.5 Sonnet. Данные показывают, что Deep Research имеет значительный рост и выдает 58% в максимальном режиме.

Также OpenAI акцентировала внимание на высоком качестве продукта и тестировании во внутренних бенчмарках. Результаты внутренних тестирований показали, что при исполнении ценной задачи сложнее достичь хорошего результата.

Оценивая продукты OpenAI выпущенные в этом году, очевидным есть фокус компании на развитие приложений, а не на развитие базовых моделей. Пока невозможно оценить последствия данных стратегических решений, потому как в дальнейшем возможны и анонсы хороших базовых моделей от OpenAI.