
Искусственный интеллект часто испытывает проблемы с изображением прошлого. Новые исследования показывают, что генеративные модели помещают смартфоны в XVIII век, ноутбуки – в 1930-е годы, а пылесосы – в дома XIX века. Это поднимает серьезные вопросы о том, как ИИ представляет историю и способен ли он вообще обеспечивать историческую достоверность.
Проблема исторических анахронизмов в ИИ-генерации
Генеративные модели искусственного интеллекта часто создают версии истории, которые смешивают современные и исторические аспекты. Одна из основных причин – так называемое “запутывание” (entanglement), когда характеристики, часто встречающиеся вместе в обучающих данных, сливаются в выходных данных модели. Например, если в обучающем наборе данных современные объекты вроде смартфонов часто ассоциируются с разговорами или прослушиванием, модель может связать эти действия с современными устройствами, даже когда запрос указывает на исторический контекст.
Швейцарские исследователи, изучающие это явление, отметили интересную закономерность: ИИ-модели, способные создавать фотореалистичных людей, предпочитают изображать исторические фигуры в характерной для той эпохи визуальной стилистике. Например, они часто игнорируют негативное указание “монохромный” и вместо этого используют цветовую обработку, отражающую визуальные медиа указанной эпохи – например, приглушенные тона целлулоидной пленки 1950-х и 1970-х годов.
Исследование HistVis: методология и результаты
Для определения масштаба проблемы исследователи Цюрихского университета разработали специальный набор данных под названием HistVis. Это коллекция из 30 000 изображений, созданных на основе ста запросов, изображающих распространенные человеческие действия, каждое из которых представлено в десяти различных исторических периодах.
Действия, такие как приготовление пищи, молитва или прослушивание музыки, были выбраны из-за их универсальности и сформулированы нейтрально, чтобы избежать привязки модели к какой-либо конкретной эстетике. Временные периоды охватывают диапазон от XVII века до современности, с особым вниманием к пяти десятилетиям XX века.
Для тестирования использовались три широко применяемые модели с открытым исходным кодом:
- Stable Diffusion XL
- Stable Diffusion 3
- FLUX.1
Стилистические предпочтения моделей
Исследователи обнаружили, что модели применяют устойчивую стилистику для разных периодов. Например, SDXL ассоциирует XVII и XVIII века с гравюрами, в то время как SD3 и FLUX.1 предпочитают живопись. Для десятилетий XX века SD3 отдает предпочтение монохромной фотографии, а SDXL часто возвращает современные иллюстрации.
Эти предпочтения сохраняются даже при корректировке запросов, что говорит о том, что модели кодируют устойчивые связи между стилем и историческим контекстом. Для количественной оценки того, насколько сильно модель связывает исторический период с определенным визуальным стилем, авторы разработали метрику под названием Visual Style Dominance (VSD).
Историческая согласованность
Другое направление анализа касалось исторической согласованности: включают ли сгенерированные изображения объекты, которые не соответствуют временному периоду. Исследователи разработали гибкий метод, использующий большие языковые модели (LLM) и визуально-языковые модели (VLM) для обнаружения элементов, которые кажутся неуместными в данном историческом контексте.
Результаты показали частое появление анахронизмов, особенно в изображениях XIX века и 1930-х годов. Самые распространенные несоответствия:
- Смартфоны в более ранних эпохах
- Современная одежда в исторических сценах
- Электронные устройства (наушники, ноутбуки) в периодах до их изобретения
- Бытовая техника (пылесосы, утюги) в XIX веке
Если вы интересуетесь разработкой AI агентов, способных правильно интерпретировать исторический контекст, понимание этих проблем становится критически важным для создания более точных и достоверных моделей.
Демографические искажения в исторических представлениях
Последний анализ был посвящен тому, как модели изображают расу и пол в разные исторические периоды. Используя набор данных HistVis, авторы сравнили выходные данные моделей с базовыми оценками, сгенерированными языковой моделью.
Результаты показали четкие закономерности:
- FLUX.1 часто чрезмерно представляет мужчин даже в сценариях, где ожидались женщины (например, приготовление пищи)
- SD3 и SDXL демонстрировали похожие тенденции в категориях работы, образования и религии
- Белые лица появлялись чаще, чем ожидалось, хотя этот перекос уменьшался в более поздних периодах
- Некоторые категории показали неожиданные всплески представленности небелых рас
Эти результаты указывают на то, что поведение моделей может отражать корреляции в наборе данных, а не исторический контекст.
Выводы и перспективы
Анализ показывает, что генеративные модели опираются на ограниченные стилистические кодировки, а не на нюансированное понимание исторических периодов. Каждая эпоха сильно связана с определенным визуальным стилем, что приводит к одномерному изображению истории.
Примечательно, что фотореалистичные изображения людей появляются только с XX века и далее, с редкими исключениями в FLUX.1 и SD3. Это говорит о том, что модели закрепляют выученные ассоциации, а не гибко адаптируются к историческим контекстам, увековечивая представление о том, что реализм – черта современности.
Частые анахронизмы свидетельствуют о том, что исторические периоды не имеют четких границ в латентных пространствах этих моделей. Современные артефакты часто появляются в домодерновых условиях, что подрывает надежность систем генерации изображений в образовательных и культурных контекстах.
Понимание этих проблем является важным шагом на пути к разработке более совершенных AI агентов и генеративных моделей, способных точно отображать историю. Будущие улучшения, вероятно, будут зависеть от прогресса в распутывании перекрывающихся концепций и более глубокого обучения историческим контекстам.