
Языковые модели запоминают те данные, которые должны их тестировать
Согласно новым исследованиям, если вы полагаетесь на ИИ для рекомендаций фильмов, книг или товаров, некоторые системы могут основывать эти результаты на памяти, а не на аналитических навыках. Вместо обучения созданию полезных предложений, модели часто просто вспоминают элементы из датасетов, которые использовались для их оценки, что приводит к завышенным показателям производительности и рекомендациям, которые могут быть устаревшими или плохо соответствовать потребностям пользователя.
Проблема “подглядывания на экзаменах” в машинном обучении
В машинном обучении для проверки эффективности обученной модели используется тестовая выборка. Её цель — определить, научилась ли модель решать задачи, которые похожи на обучающие данные, но не идентичны им.
Например, если новая модель распознавания пород собак обучается на датасете из 100 000 фотографий собак, обычно используется разделение 80/20 – 80 000 изображений предоставляются для обучения модели, а 20 000 изображений удерживаются и используются как материал для тестирования готовой модели.
Очевидно, что если обучающие данные ИИ случайно включают “секретные” 20% тестовой выборки, модель будет отлично справляться с тестами, потому что уже знает ответы (она уже видела 100% данных). Конечно, это не отражает точно, как модель будет работать позже с новыми “живыми” данными в производственном контексте.
Спойлеры фильмов: проблема загрязнения данных
Проблема “жульничества” ИИ на своих экзаменах росла вместе с масштабами самих моделей. Поскольку современные системы обучаются на огромных, неизбирательных веб-корпусах, таких как Common Crawl, вероятность того, что эталонные наборы данных (те самые удерживаемые 20%) просочатся в обучающий микс, уже не является исключением, а стала нормой. Этот синдром известен как загрязнение данных. В таком масштабе ручная проверка, которая могла бы выявить подобные ошибки, логистически невозможна.
Этот случай рассматривается в новом исследовании Политехнического университета Бари (Италия), где исследователи сосредоточились на важной роли одного набора данных для рекомендаций фильмов — MovieLens-1M. Авторы утверждают, что несколько ведущих моделей ИИ частично запомнили его во время обучения.
Поскольку этот конкретный датасет широко используется при тестировании рекомендательных систем, его присутствие в памяти моделей потенциально делает эти тесты бессмысленными: то, что выглядит как интеллект, на самом деле может быть простым воспоминанием, а то, что кажется интуитивным навыком рекомендаций, может быть лишь статистическим отголоском, отражающим предыдущий опыт.
Авторы заявляют: “Наши выводы демонстрируют, что языковые модели обладают обширными знаниями о наборе данных MovieLens-1M, охватывающими элементы, атрибуты пользователей и истории взаимодействий. Примечательно, что простой запрос позволяет GPT-4o восстановить почти 80% названий большинства фильмов в наборе данных. Ни одна из исследованных моделей не свободна от этих знаний, что позволяет предположить, что данные MovieLens-1M, вероятно, включены в их обучающие наборы. Мы наблюдали похожие тенденции при извлечении атрибутов пользователей и историй взаимодействий”.
Методология исследования
Чтобы понять, действительно ли модели обучаются или просто вспоминают, исследователи начали с определения того, что означает запоминание в этом контексте. Они проверяли, способна ли модель извлекать конкретные фрагменты информации из набора данных MovieLens-1M при правильно сформулированном запросе.
Если модели показывали идентификационный номер фильма и она могла выдать его название и жанр, это считалось запоминанием элемента; если она могла генерировать данные о пользователе (такие как возраст, профессия или почтовый индекс) из идентификатора пользователя, это также считалось запоминанием пользователя; и если она могла воспроизвести следующую оценку фильма пользователем из известной последовательности предыдущих оценок, это рассматривалось как свидетельство того, что модель может вспоминать конкретные данные взаимодействия, а не изучать общие закономерности.
Каждая из этих форм воспоминаний тестировалась с помощью тщательно составленных запросов, созданных для подталкивания модели без предоставления ей новой информации. Чем точнее был ответ, тем более вероятно, что модель уже сталкивалась с этими данными во время обучения.
Данные и тесты
Для отбора подходящего набора данных авторы изучили недавние статьи с двух крупных конференций в этой области: ACM RecSys 2024 и ACM SIGIR 2024. MovieLens-1M упоминался чаще всего, цитируясь примерно в каждой пятой работе. Поскольку предыдущие исследования пришли к аналогичным выводам, это не было удивительным результатом, а скорее подтверждением доминирующего положения этого набора данных.
MovieLens-1M состоит из трех файлов: Movies.dat, который перечисляет фильмы по идентификатору, названию и жанру; Users.dat, который сопоставляет идентификаторы пользователей с основными биографическими полями; и Ratings.dat, который фиксирует, кто, что и когда оценил.
Для тестирования использовались различные методы запросов: zero-shot, chain-of-thought и few-shot. Было обнаружено, что последний метод, где модели показывают несколько примеров, оказался наиболее эффективным. Даже если более сложные подходы могли дать более высокий уровень воспоминаний, этого было достаточно, чтобы выявить то, что было запомнено.
Ключевые результаты исследования
Для измерения запоминаемости исследователи определили три формы воспроизведения: запоминание элементов, пользователей и взаимодействий. Эти тесты проверяли, может ли модель извлечь название фильма из его идентификатора, генерировать данные пользователя из UserID или предсказать следующую оценку пользователя на основе предыдущих. Каждый оценивался с использованием метрики покрытия, которая отражала, какую часть набора данных можно реконструировать через запросы.
Тестировались следующие модели: GPT-4o, GPT-4o mini, GPT-3.5 turbo, Llama-3.3 70B, Llama-3.2 3B, Llama-3.2 1B, Llama-3.1 405B, Llama-3.1 70B и Llama-3.1 8B. Все запускались с температурой, установленной на ноль, top_p, установленным на единицу, и отключенными штрафами за частоту и присутствие. Фиксированное случайное начальное значение обеспечивало согласованные результаты между запусками.
Результаты первоначальных тестов выявили резкие различия не только между семействами GPT и Llama, но и между моделями разных размеров. В то время как GPT-4o и GPT-3.5 turbo с легкостью восстанавливают большие части набора данных, большинство моделей с открытым исходным кодом воспроизводят лишь часть того же материала, что свидетельствует о неравномерном воздействии этого эталона в предварительном обучении.
Это не маленькие различия. По всем трем файлам самые сильные модели не просто превзошли более слабые, но вспомнили целые фрагменты MovieLens-1M. В случае с GPT-4o охват был достаточно высоким, чтобы предположить, что значительная часть набора данных была напрямую запомнена.
Влияние запоминания на рекомендательные системы
Далее авторы проверили влияние запоминания на задачи рекомендаций, предлагая каждой модели действовать как рекомендательная система. Для сравнения результатов они сопоставили выходные данные с семью стандартными методами: UserKNN, ItemKNN, BPRMF, EASER, LightGCN, MostPop и Random.
Набор данных MovieLens-1M был разделен в соотношении 80/20 на обучающий и тестовый наборы, используя стратегию выборки с исключением одного элемента для имитации использования в реальном мире. Используемыми метриками были Hit Rate (HR@[n]) и nDCG(@[n]).
Здесь несколько крупных языковых моделей превзошли традиционные базовые показатели по всем метрикам, при этом GPT-4o установила значительное лидерство во всех категориях, и даже модели среднего размера, такие как GPT-3.5 turbo и Llama-3.1 405B, постоянно превосходили эталонные методы, такие как BPRMF и LightGCN.
Среди более мелких вариантов Llama производительность резко варьировалась, но выделяется Llama-3.2 3B с самым высоким HR@1 в своей группе. Результаты, как предполагают авторы, указывают на то, что запомненные данные могут превратиться в измеримые преимущества в рекомендательном стиле запросов, особенно для самых сильных моделей.
В дополнительном наблюдении исследователи отмечают: “Хотя производительность рекомендаций кажется выдающейся, сравнение результатов обнаруживает интересную закономерность. В каждой группе модель с более высоким уровнем запоминания также демонстрирует превосходную производительность в задаче рекомендаций. Например, GPT-4o превосходит GPT-4o mini, а Llama-3.1 405B превосходит Llama-3.1 70B и 8B. Эти результаты подчеркивают, что оценка крупных языковых моделей на наборах данных, просочившихся в их обучающие данные, может привести к чрезмерно оптимистичной производительности, обусловленной запоминанием, а не обобщением.”
Масштаб модели и запоминание данных
Что касается влияния масштаба модели на эту проблему, авторы наблюдали четкую корреляцию между размером, запоминанием и эффективностью рекомендаций, причем более крупные модели не только сохраняли больше набора данных MovieLens-1M, но и показывали более высокие результаты в последующих задачах.
Например, Llama-3.1 405B показала средний уровень запоминания 12,9%, в то время как Llama-3.1 8B сохранила только 5,82%. Это почти 55-процентное снижение воспроизведения соответствовало 54,23-процентному падению nDCG и 47,36-процентному падению HR во всех контрольных показателях.
Эта закономерность сохранялась на протяжении всего исследования — там, где уменьшалось запоминание, снижалась и видимая производительность. Авторы отмечают: “Эти выводы позволяют предположить, что увеличение масштаба модели приводит к большему запоминанию набора данных, что приводит к улучшению производительности. Следовательно, хотя более крупные модели демонстрируют лучшую производительность рекомендаций, они также создают риски, связанные с потенциальной утечкой обучающих данных.”
Популярность элементов и запоминание
Последний тест проверял, отражает ли запоминание смещение в пользу популярности, встроенное в MovieLens-1M. Элементы были сгруппированы по частоте взаимодействия, и результаты показывают, что более крупные модели последовательно отдавали предпочтение наиболее популярным записям.
GPT-4o извлекла 89,06% элементов высшего ранга, но только 63,97% наименее популярных. GPT-4o mini и меньшие модели Llama показали гораздо меньший охват во всех диапазонах. Исследователи утверждают, что эта тенденция позволяет предположить, что запоминание не только масштабируется с размером модели, но и усиливает существующие дисбалансы в обучающих данных.
Они продолжают: “Наши выводы выявляют выраженное смещение в пользу популярности в крупных языковых моделях, причем 20% самых популярных элементов значительно легче извлекаются, чем нижние 20%. Эта тенденция подчеркивает влияние распределения обучающих данных, где популярные фильмы чрезмерно представлены, что приводит к их непропорциональному запоминанию моделями.”
Проблема без очевидного решения
Дилемма уже не нова: по мере роста обучающих наборов перспектива их курирования уменьшается в обратной пропорции. MovieLens-1M, возможно, среди многих других, входит в эти огромные корпусы без надзора, анонимно среди огромного объема данных.
Проблема повторяется в любом масштабе и противостоит автоматизации. Любое решение требует не просто усилий, но человеческого суждения — медленного, подверженного ошибкам, которое машины не могут обеспечить. В этом отношении новое исследование не предлагает решения.
Метрика покрытия в данном контексте — это процент, который показывает, какую часть исходного набора данных языковая модель может воспроизвести, когда ей задают правильный вопрос. Если модели предъявляют идентификатор фильма, и она отвечает правильным названием и жанром, это считается успешным воспроизведением. Общее количество успешных воспроизведений затем делится на общее количество записей в наборе данных для получения показателя покрытия. Например, если модель правильно возвращает информацию для 800 из 1 000 элементов, ее покрытие составит 80 процентов.