
Искусственный интеллект ограничен качеством своих данных – чему нас учит исследование по аннотациям изображений
В сфере машинного обучения существует популярное мнение, что сам ИИ может улучшить качество аннотаций датасетов – особенно это касается подписей к изображениям для моделей компьютерного зрения. Такой подход возник из-за высокой стоимости ручной аннотации и сложностей контроля качества работы аннотаторов.
По сути, это напоминает известный мем начала 2000-х “скачай больше оперативной памяти” – столь же нереалистичную попытку решить аппаратное ограничение программным путем.
Почему качество аннотаций критически важно для ИИ
Хотя новые модели искусственного интеллекта привлекают всеобщее внимание, процесс аннотации часто рассматривается как незначительная деталь в конвейере машинного обучения, затмеваемая общим восторгом вокруг самих моделей.
Однако в действительности способность систем машинного обучения распознавать и воспроизводить шаблоны (что является основным предназначением практически всех систем ИИ) напрямую зависит от качества и согласованности аннотаций из реального мира – меток и описаний, созданных живыми людьми, часто делающими субъективные суждения о конкретных точках данных в неидеальных условиях.
Системы, стремящиеся наблюдать и воспроизводить закономерности в поведении аннотаторов (и тем самым заменить человеческих аннотаторов для точной маркировки в больших масштабах), не могут эффективно работать с данными, не содержащимися в примерах, взятых от человеческих наблюдателей. Ничто “похожее” не является точно таким же, и межпредметная эквивалентность остаётся проблемной областью в компьютерном зрении.
Проблема “галлюцинаций” в моделях компьютерного зрения
До недавнего времени неточности, возникающие из-за недостаточно проверенных аннотаций, считались приемлемым компромиссом в контексте несовершенных, но все же пригодных для рынка результатов, полученных от генеративных систем ИИ.
Для борьбы с этим все популярнее становятся RAG-агенты (Retrieval-Augmented Generation), которые могут “проверять” факты через интернет-поиски. Однако они увеличивают затраты ресурсов и задержки при запросах. Кроме того, новая информация, применяемая к обученной модели, не может конкурировать с более сложными и глубоко переплетенными связями, характеризующими нативные слои в обученной модели.
Для создания более совершенных AI агентов, способных работать с визуальными объектами без галлюцинаций, критически важно иметь более точные данные для обучения.
Исследование RePOPE: когда ошибки в разметке искажают оценку моделей
Новое исследование из Германии подчеркивает проблемы, возникающие при использовании старых, широко применяемых наборов данных, фокусируясь в частности на точности подписей к изображениям. Результаты свидетельствуют, что ошибки в разметке тестовых наборов могут маскировать или искажать оценку галлюцинаций в моделях компьютерного зрения.
Представьте, что модели показывают изображение уличной сцены и спрашивают, есть ли там велосипед. Модель отвечает “да”. Если в эталонном наборе данных указано, что велосипеда нет, модель отмечается как неверно ответившая. Но если велосипед действительно виден на изображении и был просто пропущен при аннотации, то ответ модели был правильным, а эталон ошибочным. Такие ошибки могут накапливаться по всему набору данных, искажая представление о том, какие модели точны, а какие склонны к галлюцинациям.
Метод и результаты нового исследования RePOPE
Исследователи заново размечают все аннотации в оригинальном наборе данных MSCOCO, привлекая двух независимых экспертов для каждого изображения. В случаях, когда возникала неоднозначность относительно качества оригинальных меток, такие данные исключались из тестового набора.
Результаты пересмотра аннотаций показали, что среди объектов, помеченных как “присутствующие” в исходном наборе данных POPE, 9.3% были отмечены неверно, а 13.8% оказались неоднозначными. Для объектов, отмеченных как “отсутствующие”, 1.7% были неверно маркированы, а 4.3% классифицированы как неоднозначные.
Влияние на ранжирование моделей
Авторы оценили ряд общедоступных моделей компьютерного зрения с использованием как оригинального бенчмарка POPE, так и исправленной версии RePOPE.
Результаты демонстрируют, как количество истинно положительных и ложно положительных результатов меняется после исправления меток в тестовом наборе:
- Количество истинно положительных результатов снизилось для всех моделей, показывая, что они часто получали кредит доверия за правильные ответы, когда эти ответы были правильными только при неверных метках.
- Ложно положительные результаты показали более разнообразную картину. В “случайной” версии POPE количество ложно положительных результатов почти удвоилось для многих моделей, что указывает на то, что значительное количество объектов, отмеченных как галлюцинации, на самом деле присутствовало на изображениях, но было пропущено в исходных аннотациях.
F1-оценка, основной показатель оценки POPE, оказалась гораздо более чувствительной к исправлениям меток. В случайной подвыборке модели, которые занимали верхние строчки при использовании исходных меток, такие как InternVL2.5-8B и -26B, опустились на низкие позиции при оценке с помощью RePOPE. Другие, такие как Ovis2-4B и -8B, поднялись наверх.
Выводы и перспективы
Данный эксперимент был возможен благодаря очень небольшому масштабу рассматриваемого набора данных. Подтверждение той же гипотезы на крупномасштабных наборах данных потребовало бы работы с очень ограниченными фрагментами информации, что затруднило бы получение статистически репрезентативных результатов.
Исследование демонстрирует, что современные подходы к оценке моделей искусственного интеллекта могут давать искаженные результаты из-за недостатков в базовых аннотациях. Это возвращает нас к необходимости более качественной человеческой аннотации.
В этом отношении “более качественная” и “более объемная” аннотация существуют как отдельные проблемы сами по себе. Можно получить больший объем аннотаций через краудсорсинговые платформы вроде Amazon Mechanical Turk, но такой подход часто приводит к худшим результатам из-за низкой мотивации исполнителей.
Это остается одной из самых стойких и нерешенных проблем в экономике разработки машинного обучения. Если вы хотите глубже разобраться в том, как создаются современные AI агенты и как обеспечивается их надежность, стоит обратиться к специализированным курсам по этой теме.
Качество данных определяет качество ИИ – это простая истина, которую подтверждает данное исследование и которая останется актуальной в обозримом будущем.