
Исследование показало, что большие языковые модели (LLM) сталкиваются с серьезными трудностями при имитации исторического языка. В статье рассматривается, насколько успешно современные AI-системы могут воспроизводить особенности письменной речи прошлых эпох без значительных вложений в предварительное обучение.
Проблема воспроизведения исторического языка
Группа исследователей из США и Канады изучила способности современных языковых моделей имитировать исторический стиль письма. Они исследовали различные методы генерации текстов, которые должны звучать исторически достоверно, начиная от простых инструкций использовать прозу начала двадцатого века и заканчивая тонкой настройкой коммерческих моделей на небольшом наборе книг того периода.
В ходе экспериментов было обнаружено, что даже когда ChatGPT-4o получал задание продолжить оригинальный исторический отрывок в том же стиле, результаты значительно отличались от тех, которые генерировала меньшая модель на основе GPT2, специально обученная на литературе конкретного периода.
Сравнение подходов к генерации исторических текстов
Исследователи применили три различных подхода:
- Простое инструктирование современных моделей имитировать исторический язык
- Тонкая настройка коммерческих моделей на исторических текстах
- Обучение специализированной модели только на литературе определенного периода
Для оценки того, насколько сгенерированные тексты соответствуют историческому стилю, исследователи настроили специальную модель RoBERTa для определения вероятной даты публикации текста, используя корпус исторического американского английского языка, охватывающий материалы с 1810 по 2009 годы.
Результаты тестирования ChatGPT-4o
Несмотря на подробные инструкции и примеры исторических текстов, ChatGPT-4o неизменно генерировал контент, стилистически ближе к современному языку XXI века. Вместо продолжения в изысканном многословном стиле оригинального текста начала XX века, модель создавала обобщенные, энциклопедические описания, напоминающие современные блоги или статьи Википедии.
Например, когда модели было предложено продолжить отрывок о фотографии начала XX века, она создала текст, рассказывающий о революционном использовании холодного света в моментальной фотографии в современном аналитическом стиле, полностью утратив витиеватость и специфический тон оригинала.
Сравнение с GPT-1914
В противоположность этому, специализированная модель GPT-1914, обученная исключительно на 26,5 миллиардах токенов литературы 1880-1914 годов, генерировала тексты, более соответствующие историческому стилю. Хотя ее результаты были менее связными, чем у ChatGPT-4o, они стилистически больше соответствовали источникам того периода.
Исследователи визуализировали результаты с помощью графика плотности ядра, который наглядно демонстрирует, где, по мнению классификатора, каждый отрывок находится на исторической шкале времени. Тексты, написанные GPT-1914, группировались вокруг начала двадцатого века, как и оригинальные исторические материалы, в то время как результаты ChatGPT-4o стабильно тяготели к современному стилю.
Тонкая настройка моделей на исторических данных
Чтобы улучшить результаты, исследователи применили тонкую настройку, процесс, при котором модель продолжает обучение на определенных данных для улучшения производительности в конкретной области. Они обучили GPT-4o-mini на примерно двух тысячах пар отрывков из книг 1905-1914 годов.
Этот подход дал значительно лучшие результаты: тексты, сгенерированные настроенной моделью, по стилю были гораздо ближе к историческим оригиналам. Однако исследователи предупреждают, что используемые метрики могут фиксировать лишь поверхностные особенности исторического стиля, а не более глубокие концептуальные или фактические анахронизмы.
Для тех, кто интересуется созданием интеллектуальных систем и хочет глубже понять, как работают AI агенты, существуют специализированные курсы, помогающие разобраться в этой технологии.
Человеческая оценка исторической достоверности
В заключительной части исследования эксперты оценивали, насколько правдоподобными выглядят тексты, сгенерированные различными моделями. Это оказалось непростой задачей даже для специалистов, знакомых с литературой того периода. Оценщики часто не могли прийти к единому мнению и отмечали сложность определения, соответствует ли утверждение тому, что было известно или считалось верным в 1914 году.
Несмотря на эти трудности, результаты показали четкое ранжирование: настроенная версия GPT-4o-mini была признана наиболее правдоподобной, правильно имитируя исторический стиль в 80% случаев.
Интересно, что в тесте на “поиск нарушителя”, где экспертам показывали четыре анонимных отрывка (три от AI и один реальный исторический текст), подлинный отрывок все равно выделялся более чем в половине случаев. Это подтверждает, что даже лучшие AI-модели все еще не могут полностью сымитировать подлинный исторический текст.
Выводы и перспективы
Исследование приходит к неутешительному выводу: простое инструктирование современных языковых моделей не позволяет достоверно имитировать историческую речь. Даже при тонкой настройке коммерческих моделей на исторических отрывках результаты, хотя и становятся стилистически убедительнее, все равно сохраняют следы современного мышления.
Предварительное обучение модели исключительно на историческом материале помогает избежать анахронизмов, но требует гораздо больших ресурсов и приводит к менее связным результатам. По сути, любая попытка имитировать исторические голоса сталкивается с компромиссом между аутентичностью и связностью.
Более глубокой проблемой является вопрос достоверности. В отличие от компьютерного зрения, где существуют методологии для сравнения с эталонной истиной, при генерации текста в стиле ушедшей эпохи такого эталона нет – есть лишь попытка воссоздать исчезнувшую культурную перспективу по литературным следам.
Современные языковые модели, сформированные сегодняшними нормами и данными, рискуют переинтерпретировать или подавлять идеи, которые казались разумными читателю эдвардианской эпохи, но сегодня воспринимаются как артефакты предрассудков или несправедливости.
Исследование поднимает важный вопрос: даже если мы сможем создать такой исторически точный диалог с прошлым, захотим ли мы на самом деле услышать его голос без современной фильтрации?