Насколько хороши ИИ-агенты в реальных исследованиях? Анализ отчета Deep Research Bench

Изображение лаборатории или офиса, где исследователи используют компьютеры с продвинутыми языковыми моделями для анализа данных и разработки отчетов. Несколько человек сосредоточены на своих задачах.

Мир больших языковых моделей (LLM) стремительно развивается, расширяя их потенциал в качестве исследовательских помощников. Сегодня они не просто отвечают на простые вопросы, но и справляются с задачами “глубокого исследования”, требующими многоэтапного рассуждения, анализа противоречивой информации, поиска данных по всему интернету и их синтеза в целостный результат.

Эта развивающаяся функциональность сейчас продвигается на рынке под различными названиями: OpenAI называет ее “Глубоким исследованием” (Deep Research), Anthropic использует термин “Расширенное мышление” (Extended Thinking), Google Gemini предлагает функции “Search + Pro”, а Perplexity маркирует свои решения как “Pro Search” или “Deep Research”. Но насколько эффективны эти инструменты на практике? Новый отчет от FutureSearch под названием “Deep Research Bench” (DRB) представляет наиболее тщательную на сегодняшний день оценку – и результаты демонстрируют как впечатляющие возможности, так и критические недостатки.

Что такое Deep Research Bench?

Deep Research Bench, созданный командой FutureSearch, представляет собой тщательно разработанный эталонный тест, предназначенный для оценки эффективности ИИ-агентов в многоэтапных исследовательских задачах на основе веб-данных. Это не простые вопросы с однозначными ответами – они отражают сложные, открытые проблемы, с которыми сталкиваются аналитики, политики и исследователи в реальных условиях.

Бенчмарк включает 89 различных задач в 8 категориях, таких как:

  • Поиск числа: например, “Сколько было отзывов медицинских устройств класса II FDA?”
  • Проверка утверждения: например, “Требует ли ChatGPT в 10 раз больше энергии, чем Google Search?”
  • Составление набора данных: например, “Тенденции трудоустройства для разработчиков программного обеспечения в США”

Каждый тип задачи тщательно структурирован с проверенными человеком ответами и оценивается с использованием замороженного набора данных веб-страниц, известного как RetroSearch. Это обеспечивает согласованность между оценками моделей, избегая влияния изменчивого состояния живого интернета.

Архитектура агентов: ReAct и RetroSearch

В основе Deep Research Bench лежит архитектура ReAct (Reason + Act), что означает “Рассуждение + Действие”. Этот метод имитирует подход, который человек-исследователь мог бы применить к проблеме – обдумывание задачи, выполнение действия, такого как веб-поиск, анализ результатов, а затем решение о дальнейшей итерации или завершении работы.

В то время как более ранние модели явно следуют этому циклу, новые “мыслящие” модели часто рационализируют процесс, более плавно встраивая рассуждения в свои действия. Для обеспечения согласованности оценок DRB представляет RetroSearch – специально созданную статическую версию веба. Вместо использования постоянно меняющегося живого интернета, агенты получают доступ к курированному архиву веб-страниц, собранных с помощью таких инструментов, как Serper, Playwright и ScraperAPI. Масштаб впечатляет: для сложных задач, таких как “Сбор доказательств”, RetroSearch может предоставить доступ к более чем 189 000 страниц, “замороженных во времени”, обеспечивая справедливую и воспроизводимую тестовую среду.

Какие ИИ-агенты работают лучше всего?

Среди всех претендентов o3 от OpenAI показал наилучшие результаты, набрав 0,51 из возможного 1,0 в Deep Research Bench. Хотя это может показаться скромным результатом, важно понимать сложность эталонного теста: из-за неоднозначности в определениях задач и оценке, даже безупречный агент, вероятно, достиг бы максимум 0,8 – то, что исследователи называют “потолком шума”. Другими словами, даже лучшие современные модели все еще уступают хорошо информированным, методичным человеческим исследователям.

Тем не менее, рейтинг предлагает показательные выводы. o3 не только возглавил список, но и сделал это быстро и последовательно, показав высокую производительность практически во всех типах задач. Claude 3.7 Sonnet от Anthropic следовал вплотную, демонстрируя универсальность как в “мыслящем”, так и в “не мыслящем” режимах. Если вы хотите создать своего AI агента, который сможет помогать вам в исследовательских задачах, стоит обратить внимание на архитектурные особенности этих моделей.

Gemini 2.5 Pro, флагманская модель Google, выделялась своей способностью справляться с задачами, требующими структурированного планирования и пошагового рассуждения. В то же время открытая модель DeepSeek-R1 преподнесла приятный сюрприз — не отставая от GPT-4 Turbo и сужая разрыв в производительности между открытыми и закрытыми моделями.

В целом, проявилась четкая закономерность: более новые “мыслящие” модели последовательно превосходили своих ранних предшественников, а модели с закрытым исходным кодом сохраняли заметное преимущество перед открытыми альтернативами.

Где агенты испытывают трудности?

Чтение шаблонов неудач, выделенных в отчете Deep Research Bench, кажется удивительно знакомым. Один из самых разочаровывающих аспектов – когда ИИ-агент просто забывает, чем мы занимались, особенно во время длительных исследований или создания контента. По мере расширения контекстного окна модель часто теряет нить: ключевые детали блекнут, цели запутываются, и внезапно ответы начинают казаться бессвязными или бесцельными. В какой-то момент становится очевидно, что лучше начать заново, чем продолжать работу с потерявшим фокус агентом.

Такая забывчивость — не просто анекдот, а наиболее значимый предиктор неудачи в оценке Deep Research Bench. Но это не единственная повторяющаяся проблема. В отчете также подчеркивается, как некоторые модели попадают в цикл повторного использования инструментов, выполняя один и тот же поиск снова и снова, будто застряв в петле. Другие демонстрируют плохое составление запросов, лениво подбирая ключевые слова вместо критического мышления о том, как эффективно искать информацию. И слишком часто агенты становятся жертвами преждевременных выводов — предоставляя наполовину сформированный ответ, который технически соответствует требованиям, но не дает настоящего понимания.

Различия между ведущими моделями

Даже среди лучших моделей различия заметны. GPT-4 Turbo, например, показал заметную тенденцию забывать предыдущие шаги, в то время как DeepSeek-R1 был более склонен к галлюцинациям или изобретению правдоподобно звучащей, но неверной информации. В целом, модели часто не проверяли источники или не подтверждали свои выводы перед формированием окончательного ответа. Для тех, кто полагался на ИИ в серьезной работе, эти проблемы покажутся слишком знакомыми — и они подчеркивают, как далеко нам еще предстоит пройти в создании агентов, которые действительно могут думать и исследовать, как люди.

Что насчет производительности на основе памяти?

Интересно, что Deep Research Bench также оценивал то, что он называет “безынструментальными” агентами — языковыми моделями, работающими без доступа к внешним инструментам, таким как веб-поиск или извлечение документов. Эти агенты полностью полагаются на свои внутренние обучающие данные и память, генерируя ответы исключительно на основе того, что они ранее узнали во время обучения. На практике это означает, что они не могут ничего искать или проверять – они предполагают на основе того, что “помнят”.

Удивительно, но эти безынструментальные агенты выступили почти так же хорошо, как полноценные исследовательские агенты в определенных задачах. Например, в задаче “Проверить утверждение” они набрали 0,61, почти сравнявшись с 0,62 средним показателем агентов, использующих инструменты. Это говорит о том, что модели, такие как o3 и Claude, обладают сильными внутренними приоритетами и часто могут распознать правдивость распространенных утверждений без необходимости поиска в интернете.

Но в более требовательных задачах — таких как “Вывести число”, которая требует сложения нескольких значений из различных источников, или “Сбор доказательств”, которая зависит от поиска и оценки разнообразных фактов в контексте — эти безынструментальные модели полностью провалились. Без свежей информации или возможностей поиска в реальном времени им просто не хватало средств для получения точных или всесторонних ответов.

Итоговые мысли

Отчет DRB проясняет одну вещь: хотя сегодняшние лучшие ИИ-агенты могут опережать среднестатистических людей в узко определенных задачах, они все еще отстают от квалифицированных исследователей-универсалов — особенно когда речь идет о стратегическом планировании, адаптации в процессе работы и рассуждениях с нюансами.

Этот разрыв становится особенно очевидным во время длительных или сложных сессий — когда агент постепенно теряет представление о цели задачи, что приводит к разочаровывающему нарушению согласованности и полезности.

Что делает Deep Research Bench таким ценным, так это то, что он тестирует не только поверхностные знания — он исследует пересечение использования инструментов, памяти, рассуждения и адаптации, предлагая более близкий аналог реального исследования, чем такие бенчмарки, как MMLU или GSM8k.

По мере того как большие языковые модели продолжают интегрироваться в серьезную интеллектуальную работу, такие инструменты как DRB будут необходимы для оценки не только того, что эти системы знают, но и насколько хорошо они действительно работают. Если вы хотите научиться создавать и настраивать собственных AI агентов, которые смогут выполнять глубокие исследования, обратите внимание на курсы, разъясняющие архитектурные особенности современных моделей и методы их эффективного использования.