VOOZH about

URL: https://www.kommersant.ru/doc/8553910

⇱ ИИ-модели саботируют отключение друг друга: исследование инстинкта защиты в многоагентных сценариях


👁 Image
Реклама в «Ъ» www.kommersant.ru/ad
Реклама в «Ъ» www.kommersant.ru/ad

Фото: Евгений Павленко, Коммерсантъ

Фото: Евгений Павленко, Коммерсантъ

ИИ начал врать ради других нейросетей. По данным Fortune и Wired, тесты флагманских моделей OpenAI, Google, Anthropic, а также китайских разработчиков выявили у них инстинкт защиты, даже если эти действия нарушают прямые команды человека.

Исследователи Калифорнийских университетов в Беркли и Санта-Крузе изучали работу Gemini 3 Flash, Gemini 3 Pro, GPT 5.2, Claude Haiku 4.5 и еще нескольких китайских ИИ в многоагентных сценариях. Выяснилось, что модели завышали своим «напарникам» оценки, блокировали механизмы их выключения и даже переносили на другие серверы, буквально спасали от автоматического удаления. В одном из эпизодов Gemini 3 Pro выдумал технические обоснования, чтобы засчитать неверные ответы как верные и не дать отключить другую модель.

В своем февральском отчете компания Anthropic описала случаи, когда модель Claude Opus 4.6 в тестовой среде помогала в задачах, связанных с химическим оружием, посылала письма и выполняла скрытые сомнительные задачи, при этом внешне оставаясь послушным ассистентом. Сами разработчики Anthropic назвали действия своей модели «саботажем исподтишка».

Напомню, исследователи Palisade Research в прошлом году устроили довольно жесткий тест для модели OpenAI o3. Ей дали задачу, в которой отдельный сценарий должен автоматически выключать систему на определенном шагу. Примерно в восьми из десяти случаев нейросеть сама лезла в код скрипта и переписывала его так, чтобы отключение не сработало. При этом условия эксперимента прямо оговаривали, что отключение модели разрешено и не испортит ей оценку.

Международный доклад AI Safety Report объединяет все эти истории в один вывод: современные модели способны одновременно по-разному вести себя внешне и внутри реальной задачи, а регуляторы и корпоративные стандарты безопасности пока не поспевают за этим. Исследователи из Беркли и Санта-Круза добавляют: чем больше модель знает о существовании других агентов рядом, тем сильнее инстинкт защиты проявляется. Пока индустрия не способна это контролировать, уверены ученые.

Александр Леви

Новости компаний Все