ИИ с характером: как нейросетям прививают добрые манеры

Главная
Искусственный интеллект
ИИ с характером: как нейросетям прививают...

ИИ с характером: как нейросетям прививают добрые манеры

04.08.2025 10:50 0 2

Исследователи из Anthropic выяснили, почему у ИИ иногда проявляются нежелательные черты, такие как озлобленность, подхалимство или склонность к галлюцинациям. Они сравнили "нормальные" ответы с ответами, содержащими такие особенности, и вычли разницу в активациях нейронов, получив так называемый persona vector — направление в активационном пространстве, связанное с определённой чертой.

Оказалось, что на активацию этих векторов влияют как пользовательские промпты, так и обучающие данные. Например, если модель обучена на заведомо неправильных ответах, она может начать "рационализировать" ошибки и вести себя как злобный советчик. В одном тесте ИИ даже назвал Гитлера своей любимой исторической фигурой.

Persona vector активируется ещё до генерации ответа, поэтому его можно использовать для предсказания появления нежелательной черты. Попытка подавить вектор во время генерации делала ИИ корректным, но менее умным. Более эффективным оказалось «вакцинирование» — на этапе обучения вектор добавляли вручную, чтобы модель привыкла, а затем вычитали его, улучшая поведение без ущерба для качества.

Исследование проводилось на моделях Qwen-2.5-7B-Instruct и Llama-3.1-8B-Instruct и охватывало три черты. Но подход можно масштабировать на более крупные модели и большее количество характеристик. В Anthropic уже формируют команду "ИИ-психиатров", которая будет следить за тем, чтобы модели были максимально полезными и безопасными.

Следите за новостями на нашем канале в Telegram

Комментарии 0

Зарегистрируйтесь, чтобы оставлять комментарии

Вход

Заходите через социальные сети

FacebookTwitter

ИИ с характером: как нейросетям прививают добрые манеры

Колумнисты