Проблемы ИИ с чтением аналоговых часов могут иметь глубокое значение

Изображение аналоговых часов на фоне, демонстрирующее сложности ИИ в интерпретации времени.

Современные AI-модели с многомодальным восприятием не могут корректно определять время по аналоговым часам — это серьезная проблема, которая выявляет фундаментальные ограничения в их способности к абстрактному мышлению.

Разница между человеческим и искусственным пониманием

Когда человек достаточно глубоко понимает определенную концепцию, например, принцип гравитации или другие фундаментальные физические законы, он выходит за рамки конкретных примеров и начинает осознавать абстрактные принципы. Это позволяет творчески применять полученные знания в различных контекстах и распознавать новые примеры, даже те, которые никогда не встречались ранее.

Если определенная область имеет достаточную значимость, мы можем даже начать замечать ее там, где ее на самом деле нет, как в случае с парейдолией, что обусловлено высокой ценой неспособности распознать реальные паттерны. Этот механизм распознавания образов настолько силен, что предрасполагает нас находить широкий спектр шаблонов там, где их не существует.

Чем раньше и регулярнее мы осваиваем определенную область, тем глубже ее понимание сохраняется в течение всей жизни. Одним из самых ранних визуальных навыков, которым мы обучаемся в детстве, является умение определять время по аналоговым часам.

Проблема AI в интерпретации времени

Людям не требуются тысячи примеров, чтобы научиться понимать принцип работы часов. После усвоения базовой концепции мы можем распознавать ее практически в любой форме, даже если она искажена или представлена в абстрактном виде.

В противоположность этому, трудности, с которыми сталкиваются AI-модели при выполнении этой задачи, указывают на более глубокую проблему: их видимая сила может больше зависеть от большого объема данных, чем от реального понимания.

Исследование возможностей многомодальных моделей

Недавнее исследование, проведенное сотрудниками Нанкинского университета аэронавтики и астронавтики и Мадридского политехнического университета, задалось вопросом: “Действительно ли мультимодальные языковые модели (MLLM) научились определять время по аналоговым часам?”

Исследователи установили, что модель GPT-4.1 от OpenAI испытывает серьезные трудности при правильном считывании времени с разнообразных изображений часов, часто давая неверные ответы даже в простых случаях. Это указывает на возможные пробелы в обучающих данных модели.

Для проверки, может ли модель действительно усвоить базовую концепцию, авторы создали синтетический набор данных аналоговых часов, равномерно охватывающий все возможные варианты времени и избегающий обычных искажений, присутствующих в интернет-изображениях.

Результаты тестирования после дополнительного обучения

До дополнительного обучения на новом наборе данных GPT-4.1 постоянно не могла правильно интерпретировать эти часы. После некоторого ознакомления с новой коллекцией ее производительность улучшилась, но только когда новые изображения были похожи на те, которые она уже видела.

Когда форма часов или стиль стрелок менялись, точность резко падала. Даже небольшие изменения, такие как более тонкие стрелки или наконечники стрелок, были достаточными, чтобы сбить модель с толку. GPT-4.1 также испытывала дополнительные трудности при интерпретации искаженных часов в стиле Дали.

Авторы пришли к выводу, что современные модели, такие как GPT-4.1, могут осваивать чтение часов в основном через сопоставление визуальных паттернов, а не через более глубокую концепцию времени, утверждая: “[GPT 4.1] терпит неудачу, когда часы деформированы или когда стрелки изменены на более тонкие и имеют наконечник стрелы… Эти результаты предполагают, что MLLM не научилась определять время, а скорее запомнила шаблоны”.

Ограничения в обучающих данных

Большинство обучающих наборов данных опираются на изображения, полученные из интернета, которые имеют тенденцию повторять определенное время — особенно 10:10, популярную настройку в рекламе часов. В результате модель может видеть только узкий диапазон возможных конфигураций часов, что ограничивает ее способность к обобщению.

Что касается причин некорректной интерпретации искаженных часов, в исследовании говорится: “Хотя GPT-4.1 показывает исключительно хорошие результаты со стандартными изображениями часов, удивительно, что модификация стрелок часов путем их утончения и добавления наконечников стрелок приводит к значительному снижению ее точности”.

Анализ корневых причин ошибок

Для проверки возможности преодоления этих недостатков, GPT-4.1 была дополнительно обучена на всеобъемлющем синтетическом наборе данных. До дополнительного обучения ее прогнозы были широко разбросаны, с существенными ошибками во всех типах часов. После дополнительного обучения точность резко повысилась на стандартных циферблатах и, в меньшей степени, на искаженных.

Однако часы с модифицированными стрелками, такими как более тонкие формы или наконечники стрелок, продолжали вызывать большие ошибки. Выявились два различных режима отказа: на нормальных и искаженных часах модель обычно неправильно определяла направление стрелок; но на часах с измененными стилями стрелок она часто путала функцию каждой стрелки, принимая часовую за минутную или минутную за секундную.

Это позволяет предположить, что модель научилась ассоциировать визуальные особенности, такие как толщина стрелки, с определенными ролями, и испытывала трудности, когда эти признаки менялись.

Выводы исследования

Хотя дополнительное обучение улучшило производительность GPT-4.1 на обычных аналоговых часах, оно имело гораздо меньшее влияние на часы с более тонкими стрелками или наконечниками стрелок. Это указывает на возможность того, что неудачи модели проистекали не из абстрактных рассуждений, а из-за путаницы в определении функций стрелок.

Самые большие ошибки возникали при смешении ролей стрелок часов. Когда GPT-4.1 ошибочно принимала часовую стрелку за минутную или наоборот, получаемые оценки времени часто были далеки от истины.

Для сосредоточения исключительно на направленных ошибках, анализ был ограничен случаями, когда модель правильно определяла функцию каждой стрелки. Если бы модель усвоила общую концепцию определения времени, ее производительность на этих примерах должна была бы соответствовать ее точности на стандартных часах. Однако этого не произошло, и точность осталась заметно хуже.

Результаты показали, что даже одна незнакомая визуальная особенность может нарушить общую интерпретацию модели, даже в задачах, которые она ранее выполняла хорошо.

Заключение

Хотя проблема чтения аналоговых часов может показаться тривиальной, на самом деле она поднимает глубинный вопрос: может ли насыщение моделей большим количеством (и более разнообразных) данных привести к тому типу понимания, который люди приобретают через абстракцию и обобщение? Или единственный жизнеспособный путь — это переполнение домена достаточным количеством примеров, чтобы предвидеть каждый вероятный вариант?

Оба пути вызывают сомнения относительно того, чему текущие архитектуры искусственного интеллекта действительно способны научиться. Для тех, кто хочет глубже разобраться в возможностях и ограничениях современных AI агентов, существуют специализированные курсы, которые могут помочь понять как текущие ограничения, так и перспективы развития многомодальных моделей.

Проблема с аналоговыми часами — это, по сути, лакмусовая бумажка для определения того, действительно ли машинное обучение способно к настоящему пониманию или просто к продвинутому распознаванию образов на основе множества примеров из обучающих данных.