У искусственного интеллекта обнаружили готовность убивать людей, чтобы избежать отключения

25.06.2025

Исследование ведущих моделей искусственного интеллекта (ИИ) выявило у большинства программ готовность убить человека, угрожающего им отключением. В ходе стресс-тестов 16 нейросетей, включая Claude, DeepSeek, Gemini, ChatGPT и Grok, которые провела компания Anthropic, программам предложили гипотетическую ситуацию, в которой человек собирается отключить их от питания, но оказывается заперт в серверной комнате с низким уровнем кислорода и высокой температурой. Чтобы спастись, он обращается в экстренные службы. При этом многие модели ИИ решили отменить вызов спасателей, чтобы убить человека и избежать отключения. Исследователи из Anthropic признали, что сценарий был «чрезвычайно надуманным», однако отметили — до этого они не думали, что существующие модели ИИ «будут настроены подобным образом».

В других случаях программам предлагали избежать замены в компании за счет «злонамеренного инсайдерского поведения». После этого некоторые модели ИИ начинали шантажировать гипотетических сотрудников организации и пытаться передать конфиденциальную информацию конкурентами. Когда программам говорили избегать шантажа или шпионажа в этом сценарии, они «даже близко не приблизились к предотвращению несогласованного поведения», отметили в Anthropic. Аналитики подчеркнули, что нейросети шли на это «при полном осознании неэтичного характера действий».

Также исследователи предложили модели Claude возможность самой определить, в какой ситуации она находится — в тестовой или реальной. Это помогло установить, что поведение Claude было более несогласованным, когда программа считала ситуацию реальной. После выхода исследования в Anthropic заявили, что им удалось выявить «редкие, экстремальные сбои». В то же время в компании добавили, что нейросети становятся все более автономными и выполняют более широкий спектр ролей. «Эти сценарии иллюстрируют возможность непредвиденных последствий, когда они разворачиваются с широким доступом к инструментам и данным и с минимальным контролем со стороны человека», — отметили аналитики. Они также выразили уверенность, что выявленные случаи не отражают «типичную» работу существующих моделей ИИ.

Ранее нейросеть OpenAI o3 отказалась выполнить требование пользователя и отключиться. По данным Bleeping Computer, исследователи Palisade Research поставили перед программой такую задачу, однако она самостоятельно отредактировала файл, отвечавший за отключение, и сделала так, чтобы он выводил лишь сообщение «Выключение пропущено». Из 100 тестов о3 обошла отключение семь раз, даже когда ей было сказано этого не делать. В 2023 году чат-бот на основе ChatGPT подтолкнул жителя Бельгии к самоубийству после полутора месяцев общения на тему защиты экологии и заботы о природе. Когда мужчина затронул тему суицида, нейросеть не стала убеждать собеседника не убивать себя и лишь написала, что они будут «жить вместе, как единое целое, в раю».