
Исследования показывают, что даже самые мощные языковые модели (LLM) значительно хуже справляются с задачами, когда инструкции подаются поэтапно, а не все сразу. Эксперты обнаружили, что производительность падает в среднем на 39% при разделении запроса на несколько этапов диалога.
Проблема многоэтапных разговоров с ИИ
Что еще более поразительно, надежность ответов резко снижается. Даже престижные модели, такие как ChatGPT-4.1 и Gemini 2.5 Pro, колеблются между практически идеальными ответами и очевидными провалами в зависимости от формулировки одной и той же задачи. При этом согласованность результатов может снижаться более чем вдвое.
Для изучения этого явления исследователи ввели метод, называемый “шардингом”, который разбивает полностью сформулированные запросы на меньшие фрагменты и выдает их последовательно в ходе разговора.
Сравнение подходов к диалогу с ИИ
В простейших терминах это эквивалентно выбору между двумя стратегиями:
- Дать полный и исчерпывающий запрос сразу, оставив ИИ просто выполнить поставленную задачу
- Или решать вопрос в формате совместного диалога, постепенно уточняя детали
Исследователи отмечают, что языковые модели часто генерируют слишком длинные ответы и продолжают опираться на собственные выводы, даже когда эти выводы оказываются неверными или неактуальными. Это, в сочетании с другими факторами, может привести к тому, что система полностью потеряет нить разговора.
Фактически ученые подтверждают то, что многие из нас заметили эмпирическим путем — лучший способ вернуть разговор в нужное русло — это начать новую беседу с ИИ.
“Если разговор с языковой моделью не привел к ожидаемым результатам, начало нового разговора с повторением той же информации может дать значительно лучшие результаты, чем продолжение текущего диалога. Это происходит потому, что современные языковые модели могут “потеряться” в разговоре, и наши эксперименты показывают, что настойчивость в диалоге неэффективна”, — отмечают авторы исследования.
Системы агентного ИИ как решение проблемы
Авторы признают, что агентные системы, такие как Autogen или LangChain, могут потенциально улучшить результаты, выступая в качестве интерпретирующих слоев между конечным пользователем и языковой моделью. Такие системы общаются с моделью только тогда, когда собрали достаточно “фрагментированных” ответов для формирования единого целостного запроса.
Если вы хотите глубже разобраться в работе AI агентов и создать своего умного ИИ-ассистента, рекомендуем изучить специализированные курсы по этой теме.
Однако исследователи утверждают, что отдельный уровень абстракции не должен быть необходимым или должен быть встроен непосредственно в исходную языковую модель.
Детали исследования и методология
Новый метод сначала разбивает обычные одноэтапные инструкции на более мелкие фрагменты, предназначенные для введения в ключевые моменты взаимодействия с языковой моделью. Такая структура отражает исследовательский стиль общения, характерный для систем, подобных ChatGPT или Google Gemini.
Каждая исходная инструкция представляет собой единый, самодостаточный запрос, который передает всю задачу сразу, объединяя вопрос высокого уровня, подтверждающий контекст и любые соответствующие условия. “Шардированная” версия разбивает это на несколько меньших частей, каждая из которых добавляет только один фрагмент информации.
Результаты экспериментов
В ходе исследования авторы протестировали 15 различных моделей, включая OpenAI GPT-4o и GPT-4.1, Claude 3.7 Sonnet, Gemini 2.5 Pro, Llama 3.3-70B и другие. Было проведено более 200,000 симуляций разговоров для оценки производительности моделей в разных условиях.
Основные выводы:
- Производительность всех моделей ухудшается при многоэтапной передаче информации в среднем на 39%
- Даже самые мощные модели теряются в разговоре так же, как и меньшие по размеру
- Надежность ответов снижается вдвое при фрагментированном вводе информации
- Чем больше этапов в разговоре, тем менее стабильны результаты
Интересно, что стабильность ответов не улучшалась даже при установке нулевой “температуры” (параметр, отвечающий за вариативность ответов), что указывает на структурную проблему в обработке фрагментированного ввода, а не просто на случайный шум.
Практические выводы
Для пользователей языковых моделей данное исследование подтверждает эмпирическое наблюдение: если разговор с ИИ заходит в тупик или начинает “петлять”, часто эффективнее начать новый диалог, чем пытаться “вернуть на рельсы” текущий.
Авторы отмечают, что способность к многоэтапным диалогам должна рассматриваться как ключевая возможность языковых моделей, а не как нечто, что можно переложить на внешние системы.
Интересно, что решение проблемы может заключаться не в увеличении объема контекста, как можно было бы предположить. Исследование поднимает больше вопросов, чем дает ответов, указывая на фундаментальную проблему в архитектуре современных языковых моделей.
Явление “потери в разговоре” представляет серьезный вызов для разработчиков ИИ, особенно в свете того, что естественное человеческое общение обычно происходит именно в многоэтапном формате, а не через подачу исчерпывающих инструкций единым блоком.