
Вежливость с искусственным интеллектом приводит к лучшим результатам? Научное исследование против распространенного мнения
Общественное мнение о том, стоит ли быть вежливым с искусственным интеллектом, меняется почти так же часто, как последние выводы о пользе кофе или красного вина — восхваляемые в один месяц и оспариваемые в следующий. Тем не менее, растущее число пользователей добавляют “пожалуйста” или “спасибо” к своим запросам, не только по привычке или из опасения, что резкое общение может перенестись в реальную жизнь, но и из убеждения, что вежливость приводит к лучшим и более продуктивным результатам от ИИ.
Существующие представления о влиянии вежливости на ИИ
Это предположение распространено как среди пользователей, так и среди исследователей. Формулировки запросов изучаются в научных кругах как инструмент для настройки, безопасности и контроля тона ИИ-систем, в то время как пользовательские привычки усиливают и переформируют эти ожидания.
Например, одно исследование из Японии показало, что вежливость в запросах может изменить поведение больших языковых моделей. Ученые тестировали GPT-3.5, GPT-4, PaLM-2 и Claude-2 на задачах на английском, китайском и японском языках, переписывая каждый запрос с тремя уровнями вежливости. Авторы наблюдали, что “резкие” или “грубые” формулировки приводили к более низкой фактической точности и коротким ответам, в то время как умеренно вежливые запросы давали более четкие объяснения и меньше отказов.
Более того, Microsoft рекомендует вежливый тон при взаимодействии с Co-Pilot, причем с точки зрения производительности, а не культурного подхода.
Новый научный взгляд: математическая модель “переломного момента”
Однако новое исследование из Университета Джорджа Вашингтона оспаривает эту все более популярную идею, представляя математическую модель, которая прогнозирует, когда выход большой языковой модели “коллапсирует”, переходя от связного к вводящему в заблуждение или даже опасному контенту. В этом контексте авторы утверждают, что вежливость не влияет значимо на отсрочку или предотвращение этого “коллапса”.
Механизм внутренней работы языковых моделей
Исследователи утверждают, что использование вежливого языка обычно не связано с основной темой запроса и поэтому существенно не влияет на фокус модели. Чтобы подтвердить это, они представляют подробную формулировку того, как одна голова внимания обновляет свое внутреннее направление при обработке каждого нового токена, явно демонстрируя, что поведение модели формируется кумулятивным влиянием токенов, несущих содержание.
В результате вежливые выражения, по мнению исследователей, мало влияют на то, когда выход модели начинает деградировать. То, что определяет переломный момент, утверждается в статье, — это общее согласование значимых токенов с хорошими или плохими путями вывода, а не наличие социально вежливых выражений.
Теория “переломной точки”
Исследование рассматривает, как внутренний вектор контекста модели (его развивающийся компас для выбора токенов) смещается во время генерации. С каждым токеном этот вектор обновляется направленно, и следующий токен выбирается на основе того, какой кандидат наиболее тесно с ним согласуется.
Когда запрос направляет модель к хорошо сформированному контенту, ответы остаются стабильными и точными; но со временем это направленное притяжение может обратиться вспять, направляя модель к результатам, которые все больше отклоняются от темы, становятся неверными или внутренне противоречивыми.
Переломный момент для этого перехода (который авторы математически определяют как итерацию n*) происходит, когда вектор контекста становится более согласованным с “плохим” вектором вывода, чем с “хорошим”. На этом этапе каждый новый токен толкает модель дальше по неправильному пути, усиливая модель все более ошибочного или вводящего в заблуждение вывода.
Если хотите глубже понять принципы работы AI агентов и создать своего умного ассистента, рекомендуем ознакомиться с нашим специализированным курсом.
Почему вежливые термины не влияют на качество ответов?
Вежливые термины не влияют на выбор модели между хорошими и плохими результатами, потому что, по мнению авторов, они не связаны со смысловым содержанием запроса. Вместо этого они оказываются в частях внутреннего пространства модели, которые мало связаны с тем, о чем модель на самом деле принимает решение.
Когда такие термины добавляются к запросу, они увеличивают количество векторов, которые рассматривает модель, но не так, чтобы сместить траекторию внимания. В результате термины вежливости действуют как статистический шум: они присутствуют, но инертны, и оставляют переломный момент n* неизменным.
Авторы утверждают:
“Ответ нашего ИИ может стать некорректным в зависимости от обучения LLM, которое предоставляет вложения токенов, и содержательных токенов в нашем запросе — а не от того, были ли мы вежливы с ним или нет.”
Ограничения исследования и дальнейшие перспективы
Модель, использованная в новой работе, намеренно узкая, фокусирующаяся на одной голове внимания с линейной динамикой токенов — упрощенная установка, где каждый новый токен обновляет внутреннее состояние через прямое векторное сложение, без нелинейных преобразований или стробирования.
Эта упрощенная настройка позволяет авторам получить точные результаты и дает им четкую геометрическую картину того, как и когда результат модели может внезапно сместиться с хорошего на плохой. В их тестах формула, которую они выводят для прогнозирования этого сдвига, соответствует тому, что модель фактически делает.
Остается неясным, сохраняется ли тот же механизм при переходе к современным трансформерным архитектурам. Многоголовое внимание вводит взаимодействия между специализированными головами, которые могут буферизовать или маскировать тип поведения “опрокидывания”, описанного в исследовании.
Психологические аспекты вежливости к ИИ
В настоящее время тема вежливости по отношению к потребительским LLM рассматривается либо с (прагматической) точки зрения, что обученные системы могут более полезно реагировать на вежливые запросы; либо с позиции, что бестактный и резкий стиль общения с такими системами рискует распространиться на реальные социальные отношения пользователя по привычке.
Исследование из Стэнфорда предполагает, что отношение к LLM, как будто они являются людьми, дополнительно рискует деградировать значение языка, заключая, что “механическая” вежливость в конечном итоге теряет свой первоначальный социальный смысл:
“Заявление, которое кажется дружелюбным или искренним от человека, может быть нежелательным, если оно исходит от системы ИИ, поскольку последняя не имеет осмысленного обязательства или намерения за этим заявлением, делая его пустым и обманчивым.”
Однако около 67 процентов американцев говорят, что они вежливы со своими ИИ-чатботами, согласно недавнему опросу. Большинство сказали, что это просто “правильно делать”, в то время как 12 процентов признались, что они проявляют осторожность — на случай, если машины когда-нибудь восстанут.
Заключение
Новое исследование предлагает интригующий взгляд на взаимодействие человека с ИИ, предлагая научно обоснованную точку зрения против распространенного убеждения. Хотя многие интуитивно считают, что вежливость улучшает ответы искусственного интеллекта, математическая модель указывает на то, что качество ответов в основном зависит от существенного содержания запроса, а не от социальных формул вежливости.
Тем не менее, оба подхода имеют право на существование. Если вы стремитесь развиваться в области AI агентов, важно понимать как технические, так и психологические аспекты взаимодействия с искусственным интеллектом.