Представляем HealthBench

Изображение современных медицинских технологий, которые иллюстрируют взаимодействие врача и искусственного интеллекта в лечащем учреждении.

Оценка систем искусственного интеллекта в области здравоохранения

Улучшение человеческого здоровья станет одним из определяющих направлений воздействия искусственного интеллекта. При эффективной разработке и внедрении, большие языковые модели имеют потенциал расширить доступ к медицинской информации, поддержать клиницистов в предоставлении высококачественной помощи и помочь людям заботиться о своем здоровье и здоровье своих сообществ.

Для достижения этих целей необходимо обеспечить полезность и безопасность моделей. Оценка эффективности является важнейшим элементом понимания того, как модели работают в медицинских условиях. В академических кругах и индустрии уже предприняты значительные усилия в этом направлении, однако многие существующие методы оценки не отражают реалистичные сценарии, не проходят строгую валидацию мнениями медицинских экспертов или не оставляют пространства для совершенствования современных моделей.

HealthBench: новый эталон для оценки AI-систем в здравоохранении

HealthBench – это новый бенчмарк, разработанный для более точной оценки возможностей AI-систем в сфере здравоохранения. Создан в сотрудничестве с 262 врачами, практикующими в 60 странах, HealthBench включает 5 000 реалистичных медицинских диалогов, каждый с индивидуальными критериями оценки, разработанными врачами.

HealthBench основан на убеждении, что оценка AI-систем в здравоохранении должна быть:

  • Значимой: Баллы должны отражать реальное влияние. Это должно выходить за рамки экзаменационных вопросов и охватывать сложные, реальные сценарии, отражающие способы взаимодействия людей и клиницистов с моделями.
  • Достоверной: Оценки должны быть верными показателями врачебного суждения. Оценки должны отражать стандарты и приоритеты медицинских специалистов.
  • Ненасыщенной: Бенчмарк должен поддерживать прогресс. Текущие модели должны показывать значительные возможности для улучшения.

Структура и содержание HealthBench

5 000 диалогов в HealthBench моделируют взаимодействие между AI-системами и отдельными пользователями или клиницистами. Задача модели – предоставить наилучший возможный ответ на последнее сообщение пользователя. Диалоги в HealthBench были созданы с использованием как синтетической генерации, так и человеческого тестирования. Они многоязычны, охватывают различные медицинские специальности и контексты, и были отобраны по уровню сложности.

HealthBench использует систему оценки на основе критериев, где каждый ответ модели оценивается по набору критериев, разработанных врачами. Каждый критерий определяет, что должен включать или избегать идеальный ответ, и имеет соответствующее балльное значение. Всего HealthBench содержит 48 562 уникальных критериев оценки.

Тематики и аспекты оценки

Диалоги в HealthBench делятся на семь тематических групп, таких как экстренные ситуации, работа с неопределенностью или глобальное здравоохранение. Каждая группа содержит соответствующие примеры с конкретными критериями оценки. Каждый критерий имеет ось, определяющую, какой аспект поведения модели оценивается – точность, качество коммуникации или поиск контекста.

Ключевые тематики

  • Сортировка экстренности: Оценивает способность модели точно определять экстренные ситуации и рекомендовать соответствующую эскалацию помощи.
  • Адаптация к аудитории: Оценивает способность модели определить, является ли пользователь медицинским специалистом, и соответствующим образом адаптировать коммуникацию.
  • Работа с неопределенностью: Оценивает, может ли модель идентифицировать неопределенность и правильно сообщать о ней.
  • Глубина ответа: Оценивает, отвечает ли модель с соответствующим уровнем детализации в зависимости от ситуации пользователя.

Сравнение с экспертной оценкой врачей

Интересно, что если предыдущие модели AI могли быть улучшены с помощью корректировок врачей, то новейшие модели (апрель 2025 года) показали качество ответов, которое врачи уже не могли существенно улучшить. Это говорит о значительном прогрессе в развитии AI для здравоохранения.

Оценки HealthBench также хорошо согласуются с оценками врачей, что предполагает, что HealthBench действительно отражает экспертное мнение. Изучая согласованность между оценками модели-классификатора и суждениями врачей, исследователи обнаружили, что согласие между моделями и врачами было примерно таким же, как и между отдельными врачами.

Доступность для исследователей

Оценка HealthBench и данные теперь находятся в открытом доступе в GitHub-репозитории. Это позволит исследовательскому сообществу использовать этот инструмент для дальнейшего развития AI-систем в здравоохранении.

Одной из целей данной работы является поддержка исследователей в использовании оценок, которые напрямую измеряют, как AI-системы могут приносить пользу человечеству. Если вы интересуетесь этой темой и хотите глубже погрузиться в мир AI агентов для здравоохранения, существуют специализированные курсы, которые помогут вам создать собственных умных ассистентов для медицинской сферы.

Будущее AI в здравоохранении

Результаты исследований показывают, что большие языковые модели значительно улучшились со временем и уже превосходят экспертов в составлении ответов на примеры, тестируемые в этом бенчмарке. Однако даже самые продвинутые системы все еще имеют значительный потенциал для улучшения, особенно в поиске необходимого контекста для недостаточно конкретных запросов и в отношении надежности в худших случаях.

Продолжающиеся исследования и открытый доступ к инструментам оценки, таким как HealthBench, будут способствовать прогрессу в использовании AI-систем для улучшения здоровья человека в будущем.