Автор: Aleksandr Zhirovskiy

  • Как мы отвечаем на требования The New York Times по поводу данных для защиты конфиденциальности пользователей

    Изображение юриста, держащего в одной руке ноутбук с открытым экраном, а в другой папку с документами. Это символизирует юридическую борьбу OpenAI за защиту данных пользователей в контексте требования The New York Times.

    Каждый день миллионы пользователей доверяют свои данные ИИ-платформам. Конфиденциальность и доверие лежат в основе современных AI-сервисов, особенно таких популярных, как ChatGPT. Однако недавно разгорелся серьезный конфликт между одним из крупнейших новостных изданий и ведущей AI-компанией, который поставил под вопрос базовые принципы защиты данных пользователей.

    Новые вызовы для приватности пользовательских данных

    Крупное американское издание подало иск против разработчика популярного чат-бота, требуя неограниченно долгого хранения всех пользовательских данных. Это требование напрямую противоречит стандартным обязательствам компании перед пользователями, которые предусматривают удаление запросов и переписок через 30 дней после их удаления самими пользователями.

    Технологическая компания заняла четкую позицию, назвав этот иск необоснованным, а требования – чрезмерными. Руководство компании подчеркнуло, что подобные действия подрывают устоявшиеся нормы конфиденциальности и ослабляют механизмы защиты личных данных.

    Кого затрагивает это решение?

    Судебное решение затрагивает:

    • Пользователей бесплатной версии AI-чата
    • Подписчиков платных тарифов Plus, Pro и Team
    • Разработчиков, использующих API без соглашения о нулевом хранении данных

    При этом корпоративные клиенты Enterprise и образовательные учреждения, использующие Edu версию, не попадают под действие этого решения. Также не затрагиваются пользователи API с соглашением о нулевом хранении данных (Zero Data Retention).

    Борьба за защиту пользовательских данных

    С самого начала разбирательства AI-компания выступала против запроса истцов на сохранение “всех выходных данных”, аргументируя, что это требование слишком широкое и противоречит обязательствам по конфиденциальности. Компания подала ходатайство с просьбой пересмотреть постановление о сохранении, подчеркнув, что неопределенно долгое хранение пользовательских данных нарушает отраслевые нормы и собственную политику компании.

    Если вы интересуетесь, как создаются и функционируют современные AI агенты, важно понимать, что проблема хранения и использования данных является центральной в этой области. Баланс между эффективностью и приватностью – ключевой вопрос при разработке автономных AI-систем.

    Что происходит с данными, которые вы удаляете?

    В нормальных условиях, когда пользователь удаляет свои диалоги в чат-боте или полностью удаляет аккаунт, информация мгновенно исчезает из учетной записи и в течение 30 дней полностью удаляется из систем компании. Однако новое судебное требование потенциально нарушает эту практику, требуя сохранения даже тех данных, которые обычно подлежали бы автоматическому удалению.

    Хранение и доступ к данным в условиях судебного решения

    Контент, на который распространяется судебное решение, хранится отдельно в защищенной системе под правовым запретом. Это означает, что доступ к нему или его использование невозможны для целей, не связанных с выполнением юридических обязательств.

    Только небольшая проверенная команда юристов и специалистов по безопасности имеет право доступа к этим данным в случае необходимости соблюдения правовых обязательств. При этом компания подчеркивает, что данные не передаются автоматически истцам или кому-либо еще – они блокируются отдельным правовым запретом.

    Какие меры принимает компания для защиты пользователей?

    На текущий момент компания активно оспаривает решение суда. В случае успеха она планирует возобновить стандартную практику хранения данных. Компания обязуется соблюдать полную прозрачность и информировать пользователей о значимых обновлениях, включая любые изменения в судебном решении или его влиянии на пользовательские данные.

    Важно отметить, что данное судебное решение не меняет политику обучения моделей:

    • Корпоративные данные по-прежнему не используются для обучения моделей по умолчанию
    • Обычные пользователи сохраняют контроль над тем, используются ли их диалоги для улучшения системы

    Стандартная политика хранения данных

    Несмотря на текущий юридический спор, важно помнить о стандартной политике хранения данных, которой придерживается компания:

    Для бесплатных и индивидуальных платных пользователей: при удалении диалога (или аккаунта) информация немедленно удаляется из учетной записи и назначается для окончательного удаления из систем в течение 30 дней.

    Для корпоративных клиентов Enterprise и образовательных учреждений: администраторы рабочего пространства контролируют срок хранения данных. Удаленные или несохраненные диалоги исчезают из систем в течение 30 дней.

    API-пользователи: бизнес-клиенты, использующие API, контролируют срок хранения контента в зависимости от используемых конечных точек и их конфигураций. Через 30 дней данные входов и выходов удаляются из логов.

    Обеспечение баланса между инновациями и приватностью

    Этот случай наглядно демонстрирует, насколько сложно соблюсти баланс между технологическими инновациями и защитой пользовательских данных. С одной стороны, компании, разрабатывающие AI, нуждаются в данных для улучшения своих систем. С другой — пользователи имеют право на конфиденциальность и контроль над своей информацией.

    Современные разработчики AI агентов постоянно ищут этот баланс, создавая системы, которые могут быть одновременно эффективными и уважающими приватность пользователей. Это особенно актуально в эпоху растущей обеспокоенности по поводу использования данных и увеличения регуляторных требований.

    В конечном итоге, исход этого судебного разбирательства может создать прецедент, который повлияет на будущее хранения и использования данных в AI-индустрии. Пока судебный процесс продолжается, пользователям рекомендуется внимательно следить за обновлениями и осознанно подходить к использованию AI-сервисов, понимая потенциальные риски и ограничения в отношении конфиденциальности своих данных.


  • Масштабирование безопасности с ответственным раскрытием

    На светлом фоне изображены две фигуры, пожимающие руки. Одна фигура представляет IT-безопасность, другая – ответственность. Фон оформлен в синих и зеленых тонах, символизирующих доверие и безопасность.

    В OpenAI мы стремимся создать безопасную цифровую экосистему. Именно поэтому мы представляем нашу Политику координированного раскрытия информации, которая определяет, как мы ответственно сообщаем о проблемах безопасности, которые обнаруживаем в программном обеспечении третьих сторон. Мы делаем это сейчас, поскольку считаем, что координированное раскрытие уязвимостей станет необходимой практикой по мере того, как системы искусственного интеллекта будут становиться все более способными находить и устранять уязвимости в безопасности.

    Координированное раскрытие уязвимостей: новый подход OpenAI

    Системы, разработанные OpenAI, уже обнаружили уязвимости нулевого дня в стороннем и открытом программном обеспечении, и мы предпринимаем этот проактивный шаг в ожидании будущих открытий. Независимо от того, выявлены ли уязвимости в ходе текущих исследований, целевых аудитов используемого нами открытого кода или автоматического анализа с помощью AI инструментов, наша цель — сообщать о проблемах таким образом, который является совместным, уважительным и полезным для более широкой экосистемы.

    Основные компоненты политики раскрытия информации

    Наша политика описывает, как мы раскрываем проблемы, обнаруженные в открытом и коммерческом программном обеспечении через автоматический и ручной анализ кода, а также открытия, возникающие в результате внутреннего использования программного обеспечения и систем третьих сторон.

    Процесс валидации и приоритизации

    Мы разработали строгий процесс проверки обнаруженных уязвимостей, чтобы гарантировать, что мы сообщаем только о проверенных проблемах безопасности. Приоритизация основывается на потенциальном воздействии, распространенности программного обеспечения и серьезности уязвимости.

    Механика контакта и раскрытия информации

    После выявления уязвимости мы следуем четкому протоколу для связи с разработчиками или компаниями. По умолчанию мы сначала обращаемся конфиденциально, если только особые обстоятельства не требуют иного подхода. Это обеспечивает разработчикам время для устранения проблемы до публичного раскрытия.

    Принципы публичного раскрытия информации

    Наша политика строится на нескольких ключевых принципах:

    • Ориентация на результат – мы стремимся к максимальному положительному влиянию на безопасность
    • Сотрудничество – мы работаем вместе с разработчиками для решения проблем
    • Конфиденциальность по умолчанию – предпочитаем непубличное раскрытие, когда это возможно
    • Высокая масштабируемость и низкое трение – создаем процессы, которые работают в масштабе
    • Предоставление атрибуции – признаем вклад всех сторон, когда это уместно

    Разработчико-ориентированный подход к раскрытию уязвимостей

    Мы сознательно занимаем дружественную к разработчикам позицию по срокам раскрытия и решили оставить сроки по умолчанию открытыми. Этот подход отражает развивающийся характер обнаружения уязвимостей, особенно когда AI агенты становятся более эффективными в анализе кода, его сильных и слабых сторон, и генерации надежных патчей для повышения безопасности.

    Мы ожидаем, что наши модели будут обнаруживать большее количество ошибок возрастающей сложности, что может потребовать более глубокого сотрудничества и больше времени для устойчивого решения. Мы продолжим работать с разработчиками программного обеспечения для создания норм раскрытия, которые балансируют срочность с долгосрочной устойчивостью.

    Постоянное совершенствование политики безопасности

    Мы будем продолжать улучшать эту политику по мере накопления опыта. Безопасность — это путь, определяемый постоянным совершенствованием. Мы благодарны разработчикам, исследователям и членам сообщества, которые идут по этому пути вместе с нами.

    Надеемся, что прозрачная коммуникация вокруг нашего подхода поддержит более здоровую и безопасную экосистему для всех. В мире, где искусственный интеллект развивается стремительными темпами, крайне важно, чтобы компании, разрабатывающие эти технологии, вели себя ответственно и прозрачно, особенно когда речь идёт о безопасности.

    Если вы хотите глубже понять, как работают современные AI системы и научиться создавать собственных умных ассистентов, рекомендуем посмотреть наш курс по AI агентам, который поможет вам освоить эти технологии на практическом уровне.


  • Как Apple проиграла гонку ИИ накануне WWDC 2025

    A scene depicting Apple's headquarters with futuristic AI elements overshadowed by competing technology brands. The background conveys a sense of technological advancement and competition.

    В преддверии ежегодной конференции для разработчиков Apple сталкивается с серьезными проблемами в области искусственного интеллекта. Компания, некогда задававшая тон в инновациях, теперь оказалась в положении догоняющего, рискуя потерять лояльных пользователей, которые все чаще воспринимают свои iPhone как дорогостоящие реликвии в мире, движимом ИИ.

    Технологический разрыв в возможностях ИИ

    Техническая реальность неумолима. Модель искусственного интеллекта Apple для работы на устройствах просто не может конкурировать с облачными решениями конкурентов, несмотря на оптимизацию эффективности. Внутренние тесты показывают, что даже более крупные серверные модели Apple едва дотягивают до производительности GPT-4 Turbo – модели, которая уже сейчас заменяется более совершенными системами.

    Между тем, 150-миллиардные параметрические модели Apple, которые, по утверждению компании, соответствуют производительности ChatGPT, остаются закрытыми для внутреннего тестирования, поскольку считаются слишком склонными к ошибкам для публичного выпуска.

    Хотя Apple подчеркивает преимущества конфиденциальности через свою инфраструктуру Private Cloud Compute, базовым моделям не хватает возможностей рассуждения, которые делают современный ИИ по-настоящему полезным. Исследователи самой Apple опубликовали исследования, показывающие, что крупные языковые модели, включая их собственные, больше полагаются на сопоставление шаблонов, чем на подлинные логические рассуждения.

    Конференция несбывшихся обещаний

    Год назад Apple обещала революцию. Swift Assist должен был привнести программирование с поддержкой ИИ в Xcode. Siri должна была получить контекстную осведомленность, понимая электронную почту, календарь и коммуникации пользователя. Кросс-приложения должны были обеспечивать сложные рабочие процессы с помощью простых голосовых команд. Сегодня ни одна из этих функций не существует.

    Swift Assist не просто задерживается – он полностью исчез из дорожной карты Apple, без упоминания в текущих выпусках Xcode и без официального подтверждения его исчезновения. Обещанная модернизация Siri сталкивается с тем, что старший директор Siri якобы назвал “уродливыми и смущающими” задержками, с переносом функций с апреля на “май или позже”, причем некоторые возможности вряд ли появятся ранее следующего года.

    Реакция сообщества разработчиков была разгромной. Доверие разрушилось до такой степени, что разработчики теперь рассматривают конференцию Apple как предварительный просмотр того, что Apple может выпустить, а не как конкретную дорожную карту.

    Ожидания не могли быть ниже. Сообщается, что мероприятие будет меньше по масштабу, и Apple вряд ли будет предварительно показывать далекие технологии после прошлогодних недоразумений. Самое большое объявление по ИИ? Открытие Foundation Models для сторонних разработчиков – но с моделями, ограниченными 3 миллиардами параметров, что предлагает лишь долю возможностей, доступных у конкурентов.

    Если вы хотите глубже разобраться в том, как работают современные AI агенты и создать собственного интеллектуального ассистента, обратите внимание на специализированные курсы, позволяющие освоить эти технологии.

    Проигрыш в гонке ИИ по дизайну

    Конкурентная среда показывает стратегический паралич Apple. ChatGPT занимает значительную долю рынка среди потребительских ИИ-ассистентов. Meta AI быстро достигла тех же показателей всего за несколько месяцев. Google Gemini удерживает сопоставимую долю рынка. А Apple? Она фактически отсутствует в этих рейтингах, при этом Siri ограничивается установкой таймеров, в то время как конкуренты занимаются сложными рассуждениями и творческими задачами.

    Корпоративный рынок выглядит ещё мрачнее

    В то время как значительная часть американских компаний использует услуги OpenAI, а Microsoft генерирует миллиарды долларов годового дохода от ИИ, Apple полностью отсутствует на корпоративном рынке ИИ. Это не рынок, который Apple решила игнорировать – это рынок, где компании просто нечего предложить.

    Цифры инвестиций подчеркивают растущую пропасть:

    • Amazon планирует потратить 100 миллиардов долларов на ИИ
    • Microsoft выделяет 80 миллиардов долларов
    • Google вкладывает 75 миллиардов долларов

    Расходы Apple остаются непрозрачными, скрытыми за договорами аренды с теми самыми облачными провайдерами, с которыми она конкурирует. Этот подход – аренда вместо строительства – гарантирует, что Apple всегда будет отставать от компаний, которые контролируют свою собственную судьбу в ИИ.

    Когда лояльность встречается с устаревшими технологиями

    История предлагает отрезвляющие параллели. BlackBerry когда-то вызывал яростную лояльность благодаря интеграции электронной почты и физической клавиатуре – пока iPhone не сделал эти преимущества неактуальными в одночасье. Превосходное оборудование Nokia и глобальный охват рухнули, когда программное обеспечение стало дифференцирующим фактором.

    Apple сталкивается с аналогичной точкой перелома. Данные опросов показывают, что значительная часть пользователей iPhone рассмотрела бы переход на другие устройства ради лучших функций ИИ. Среди технически подкованных профессионалов и молодых демографических групп эта цифра возрастает. Это не случайные пользователи – это ранние последователи, которые влияют на более широкие рыночные тенденции.

    Механизм исхода

    Механизм исхода не был бы внезапным, а скорее устойчивым. Он начинается с технических энтузиастов, разочарованных ограничениями Siri. Затем профессионалы, которым нужен ИИ для повышения продуктивности, выбирают Google Pixel с Gemini. Молодые пользователи, выросшие с ChatGPT и Claude, начинают видеть iPhone как телефоны своих родителей – технически компетентные, но принципиально не соответствующие духу времени.

    Международные рынки представляют самый высокий риск, где блокировка экосистемы слабее, а чувствительность к цене выше. Существует серьезный риск переключения на рынках, где iMessage и FaceTime имеют меньшее влияние. Поскольку другие производители успешно продвигают устройства, ориентированные на ИИ, по более низким ценам, премиальное позиционирование Apple становится труднее обосновать, когда программное обеспечение отстает.

    Цена осторожного подхода

    Apple построила свою империю на предпосылке, что интегрированное оборудование и программное обеспечение в сочетании с превосходным пользовательским опытом всегда будут побеждать. Но ИИ представляет собой фундаментальный сдвиг платформы, где данные, вычислительный масштаб и алгоритмические инновации имеют большее значение, чем элегантный промышленный дизайн или плавная анимация.

    Секретная культура компании, полезная для запуска неожиданных продуктов, оказывается катастрофической для разработки ИИ, где открытое исследовательское сотрудничество движет прогресс. Её позиция по конфиденциальности, хотя и достойна восхищения, становится жерновом, когда конкуренты используют облачные вычисления для предоставления возможностей, которые Apple просто не может сопоставить на устройстве. Закрытый сад, который когда-то защищал маржу Apple, теперь отгораживает её от революции ИИ, происходящей снаружи.

    Вопрос уже не в том, сможет ли Apple догнать. Вопрос в том, будут ли пользователи ждать, чтобы узнать. В мире, преобразованном ИИ, лояльность к бренду длится только до того момента, пока ваше устройство не начинает казаться устаревшим. Для растущего числа пользователей Apple этот момент наступает быстро.


  • Насколько хороши ИИ-агенты в реальных исследованиях? Анализ отчета Deep Research Bench

    Изображение лаборатории или офиса, где исследователи используют компьютеры с продвинутыми языковыми моделями для анализа данных и разработки отчетов. Несколько человек сосредоточены на своих задачах.

    Мир больших языковых моделей (LLM) стремительно развивается, расширяя их потенциал в качестве исследовательских помощников. Сегодня они не просто отвечают на простые вопросы, но и справляются с задачами “глубокого исследования”, требующими многоэтапного рассуждения, анализа противоречивой информации, поиска данных по всему интернету и их синтеза в целостный результат.

    Эта развивающаяся функциональность сейчас продвигается на рынке под различными названиями: OpenAI называет ее “Глубоким исследованием” (Deep Research), Anthropic использует термин “Расширенное мышление” (Extended Thinking), Google Gemini предлагает функции “Search + Pro”, а Perplexity маркирует свои решения как “Pro Search” или “Deep Research”. Но насколько эффективны эти инструменты на практике? Новый отчет от FutureSearch под названием “Deep Research Bench” (DRB) представляет наиболее тщательную на сегодняшний день оценку – и результаты демонстрируют как впечатляющие возможности, так и критические недостатки.

    Что такое Deep Research Bench?

    Deep Research Bench, созданный командой FutureSearch, представляет собой тщательно разработанный эталонный тест, предназначенный для оценки эффективности ИИ-агентов в многоэтапных исследовательских задачах на основе веб-данных. Это не простые вопросы с однозначными ответами – они отражают сложные, открытые проблемы, с которыми сталкиваются аналитики, политики и исследователи в реальных условиях.

    Бенчмарк включает 89 различных задач в 8 категориях, таких как:

    • Поиск числа: например, “Сколько было отзывов медицинских устройств класса II FDA?”
    • Проверка утверждения: например, “Требует ли ChatGPT в 10 раз больше энергии, чем Google Search?”
    • Составление набора данных: например, “Тенденции трудоустройства для разработчиков программного обеспечения в США”

    Каждый тип задачи тщательно структурирован с проверенными человеком ответами и оценивается с использованием замороженного набора данных веб-страниц, известного как RetroSearch. Это обеспечивает согласованность между оценками моделей, избегая влияния изменчивого состояния живого интернета.

    Архитектура агентов: ReAct и RetroSearch

    В основе Deep Research Bench лежит архитектура ReAct (Reason + Act), что означает “Рассуждение + Действие”. Этот метод имитирует подход, который человек-исследователь мог бы применить к проблеме – обдумывание задачи, выполнение действия, такого как веб-поиск, анализ результатов, а затем решение о дальнейшей итерации или завершении работы.

    В то время как более ранние модели явно следуют этому циклу, новые “мыслящие” модели часто рационализируют процесс, более плавно встраивая рассуждения в свои действия. Для обеспечения согласованности оценок DRB представляет RetroSearch – специально созданную статическую версию веба. Вместо использования постоянно меняющегося живого интернета, агенты получают доступ к курированному архиву веб-страниц, собранных с помощью таких инструментов, как Serper, Playwright и ScraperAPI. Масштаб впечатляет: для сложных задач, таких как “Сбор доказательств”, RetroSearch может предоставить доступ к более чем 189 000 страниц, “замороженных во времени”, обеспечивая справедливую и воспроизводимую тестовую среду.

    Какие ИИ-агенты работают лучше всего?

    Среди всех претендентов o3 от OpenAI показал наилучшие результаты, набрав 0,51 из возможного 1,0 в Deep Research Bench. Хотя это может показаться скромным результатом, важно понимать сложность эталонного теста: из-за неоднозначности в определениях задач и оценке, даже безупречный агент, вероятно, достиг бы максимум 0,8 – то, что исследователи называют “потолком шума”. Другими словами, даже лучшие современные модели все еще уступают хорошо информированным, методичным человеческим исследователям.

    Тем не менее, рейтинг предлагает показательные выводы. o3 не только возглавил список, но и сделал это быстро и последовательно, показав высокую производительность практически во всех типах задач. Claude 3.7 Sonnet от Anthropic следовал вплотную, демонстрируя универсальность как в “мыслящем”, так и в “не мыслящем” режимах. Если вы хотите создать своего AI агента, который сможет помогать вам в исследовательских задачах, стоит обратить внимание на архитектурные особенности этих моделей.

    Gemini 2.5 Pro, флагманская модель Google, выделялась своей способностью справляться с задачами, требующими структурированного планирования и пошагового рассуждения. В то же время открытая модель DeepSeek-R1 преподнесла приятный сюрприз — не отставая от GPT-4 Turbo и сужая разрыв в производительности между открытыми и закрытыми моделями.

    В целом, проявилась четкая закономерность: более новые “мыслящие” модели последовательно превосходили своих ранних предшественников, а модели с закрытым исходным кодом сохраняли заметное преимущество перед открытыми альтернативами.

    Где агенты испытывают трудности?

    Чтение шаблонов неудач, выделенных в отчете Deep Research Bench, кажется удивительно знакомым. Один из самых разочаровывающих аспектов – когда ИИ-агент просто забывает, чем мы занимались, особенно во время длительных исследований или создания контента. По мере расширения контекстного окна модель часто теряет нить: ключевые детали блекнут, цели запутываются, и внезапно ответы начинают казаться бессвязными или бесцельными. В какой-то момент становится очевидно, что лучше начать заново, чем продолжать работу с потерявшим фокус агентом.

    Такая забывчивость — не просто анекдот, а наиболее значимый предиктор неудачи в оценке Deep Research Bench. Но это не единственная повторяющаяся проблема. В отчете также подчеркивается, как некоторые модели попадают в цикл повторного использования инструментов, выполняя один и тот же поиск снова и снова, будто застряв в петле. Другие демонстрируют плохое составление запросов, лениво подбирая ключевые слова вместо критического мышления о том, как эффективно искать информацию. И слишком часто агенты становятся жертвами преждевременных выводов — предоставляя наполовину сформированный ответ, который технически соответствует требованиям, но не дает настоящего понимания.

    Различия между ведущими моделями

    Даже среди лучших моделей различия заметны. GPT-4 Turbo, например, показал заметную тенденцию забывать предыдущие шаги, в то время как DeepSeek-R1 был более склонен к галлюцинациям или изобретению правдоподобно звучащей, но неверной информации. В целом, модели часто не проверяли источники или не подтверждали свои выводы перед формированием окончательного ответа. Для тех, кто полагался на ИИ в серьезной работе, эти проблемы покажутся слишком знакомыми — и они подчеркивают, как далеко нам еще предстоит пройти в создании агентов, которые действительно могут думать и исследовать, как люди.

    Что насчет производительности на основе памяти?

    Интересно, что Deep Research Bench также оценивал то, что он называет “безынструментальными” агентами — языковыми моделями, работающими без доступа к внешним инструментам, таким как веб-поиск или извлечение документов. Эти агенты полностью полагаются на свои внутренние обучающие данные и память, генерируя ответы исключительно на основе того, что они ранее узнали во время обучения. На практике это означает, что они не могут ничего искать или проверять – они предполагают на основе того, что “помнят”.

    Удивительно, но эти безынструментальные агенты выступили почти так же хорошо, как полноценные исследовательские агенты в определенных задачах. Например, в задаче “Проверить утверждение” они набрали 0,61, почти сравнявшись с 0,62 средним показателем агентов, использующих инструменты. Это говорит о том, что модели, такие как o3 и Claude, обладают сильными внутренними приоритетами и часто могут распознать правдивость распространенных утверждений без необходимости поиска в интернете.

    Но в более требовательных задачах — таких как “Вывести число”, которая требует сложения нескольких значений из различных источников, или “Сбор доказательств”, которая зависит от поиска и оценки разнообразных фактов в контексте — эти безынструментальные модели полностью провалились. Без свежей информации или возможностей поиска в реальном времени им просто не хватало средств для получения точных или всесторонних ответов.

    Итоговые мысли

    Отчет DRB проясняет одну вещь: хотя сегодняшние лучшие ИИ-агенты могут опережать среднестатистических людей в узко определенных задачах, они все еще отстают от квалифицированных исследователей-универсалов — особенно когда речь идет о стратегическом планировании, адаптации в процессе работы и рассуждениях с нюансами.

    Этот разрыв становится особенно очевидным во время длительных или сложных сессий — когда агент постепенно теряет представление о цели задачи, что приводит к разочаровывающему нарушению согласованности и полезности.

    Что делает Deep Research Bench таким ценным, так это то, что он тестирует не только поверхностные знания — он исследует пересечение использования инструментов, памяти, рассуждения и адаптации, предлагая более близкий аналог реального исследования, чем такие бенчмарки, как MMLU или GSM8k.

    По мере того как большие языковые модели продолжают интегрироваться в серьезную интеллектуальную работу, такие инструменты как DRB будут необходимы для оценки не только того, что эти системы знают, но и насколько хорошо они действительно работают. Если вы хотите научиться создавать и настраивать собственных AI агентов, которые смогут выполнять глубокие исследования, обратите внимание на курсы, разъясняющие архитектурные особенности современных моделей и методы их эффективного использования.