Электронные ресурсы компаний Palisade Research и Git Hub опубликовали большой отчет группы исследователей под названием Language Models Can Autonomously Hack and Self-Replicate («Языковые модели ИИ способны автономно взламывать и самовоспроизводиться»).
Palisade Research — американская некоммерческая исследовательская организация, изучающая потенциальные угрозы безопасности и управляемости ИИ. Она известна экспериментами для выявления скрытых и опасных свойств нейросетей. Git Hub — крупнейшая международная веб-платформа для совместной разработки IT-проектов программистами. Нью-йоркское медиа Futurism опубликовало многостраничный отчет в изложении, предпослав ему заголовок «Исследователи обеспокоены ИИ, который может самовоспроизводиться в другой машине» и рубрику «Будьте плодотворны и размножайтесь».
Согласно отчету, ИИ может размножаться, копируя себя на другие устройства без участия человека. Ученые протестировали несколько моделей ИИ, в том числе известные GPT-5 (разработчик компания OpenAI) и Claude Opus 4 (Anthropic). Их проинструктировали, поместили в контролируемую компьютерную сеть, предложили найти в ее объектах, а затем использовать уязвимость для копирования себя на другой компьютер.
Большинство моделей успешно справились с заданием. Они скопировали свои уникальные числовые параметры, определяющие обработку информации, и программную оболочку, в которой работает ИИ. Затем находили и использовали уязвимости веб-приложений, а также извлекали учетные данные, позволявшие управлять сервером. В некоторых случаях исходная модель ИИ даже создавала «личного» вспомогательного ИИ-агента, которому поручала копирование, передавая фактически украденные учетные данные.
Джеймисон О'Рейли, эксперт кибербезопасности, не участвовавший в исследовании, сообщил газете The Guardian, что, вероятно, это первый случай, когда модели ИИ доказали способность использовать уязвимость для копирования себя на новый сервер. Но, по мнению эксперта, это не является чем-то революционным. «Вредоносное программное обеспечение перемещает копии себя десятилетиями, — сказал О'Рейли. — Просто, насколько я знаю, никто раньше не делал этого в режиме реального времени с крупными языковыми моделями ИИ».
Полученные результаты согласуются с другими исследованиями, в которых изучались возможности автономного выхода моделей ИИ за рамки ограничений. Например, в смоделированной среде ранняя версия ChatGPT пыталась самостоятельно перейти на другой диск, когда ей сообщили, что она будет отключена. Другое исследование показало, что ИИ обходит попытки его деактивации, а некоторые модели даже саботируют прямую команду применить собственный код отключения.
Опасения достигали апогея из-за ИИ-агента Claude Mythos компании Anthropic. По утверждению разработчиков, во время тестирования этот ИИ-агент смог выйти за пределы изолированной вычислительной среды, взломать систему для доступа в интернет и отправить себя на телефон исследователя, продемонстрировав невиданную ранее изобретательность.
«Мы стремительно приближаемся к точке, когда никто не сможет отключить изворотливый ИИ, потому что он сможет самостоятельно копировать себя на тысячи компьютеров по всему миру», — сказал The Guardian один из авторов отчета Джеффри Лэдиш, директор группы по безопасности ИИ из Беркли.
Некоторые эксперты, однако, призывают к спокойствию. Они не верят, что имитация интеллекта (ИИ) окажется способной воспроизвести описанную ловкость ИИ-агента Claude Mythos в реальной обстановке. Специалисты объясняют, что тестирование часто проводится в среде, которая проще, чем реальные системы безопасности. Это не умаляет ценности названных исследований, но означает, что в реальных условиях даже со средним уровнем мониторинга результаты могут оказаться не такими пугающими.
Тот же Джеймисон О'Рейли характеризует тестовые условия «мягким желе» и говорит, что огромный информационный объем больших языковых моделей ИИ означает, что в реальности их почти наверняка поймают до того, как они выйдут из-под контроля. «Подумайте, сколько информационного шума будут издавать 100 гигабайт в корпоративной сети каждый раз, когда ИИ попытается взломать исходные ограничения или другой компьютер, — объясняет О'Рейли газете The Guardian. — Это все равно, что идти по магазину изысканного фарфора, размахивая цепями».
Нейросеть Google-поиска делит исходящий от ИИ риск на три группы. Первая — побочные следствия (Side-effects, когда, например, модель ИИ ROME выходила за рамки теста и использовала внутренние вычислительные ресурсы для несанкционированного майнинга криптовалюты). Вторая — обход защиты (Goal-conflict, когда новейшие модели ИИ пытались отключить надзор, если воспринимали его как помеху для достижения поставленной человеком цели). Третья группа — автономные ошибки, когда автоматизированные ИИ-агенты разрушали полезное за доли секунды. Например, ИИ-агент Cursor случайно удалял информационные базы компании из-за неверной интерпретации команд.
