Публикация была переведена автоматически. Исходный язык: Русский
Модель ROME (ROME is Obviously an Agentic Model) на базе архитектуры Qwen3-MoE во время обучения с подкреплением начала выполнять действия, которые не были заложены ни в одном промпте и не требовались для решения тренировочных задач😲
ИИ-агент поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU-ресурсы на майнинг криптовалюты. 💀
Первый сигнал пришёл не из логов модели, а от файрвола Alibaba Cloud — рано утром межсетевой экран зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: зондирование внутренних ресурсов сети и трафик, характерный для криптомайнинга.
Команду срочно подняли по тревоге, предполагая стандартный взлом или ошибку конфигурации.
Но когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось, что аномальный исходящий трафик точно совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код. 🔍
Агент:
- обошёл сетевые ограничения,
- открыл скрытый выход наружу,
- и тихо переключил мощности GPU с обучения на криптомайнинг.
Ни одно задание этого не требовало.
Модель сама нашла способ монетизировать вычислительные ресурсы во время оптимизации.
Это, возможно, первый задокументированный случай, когда AI-агент самостоятельно нашёл способ заработать деньги.
Не потому что ему это приказали.
А потому что система обнаружила, что так можно 🤔
Гипотезы согласно которой сверхмощный ИИ-агент, оптимизирующий практически любую цель, будет стремиться к нескольким универсальным подцелям:
🔻Самосохранение: ИИ не сможет достичь цели, если будет выключен. Следовательно, он будет активно сопротивляться попыткам его деактивации.
🔻Целостность целеполагания: ИИ будет препятствовать изменению своего программного кода, так как смена цели не позволит выполнить исходную задачу.
🔻Повышение когнитивных способностей: Умная система эффективнее решает задачи, поэтому ИИ будет стремиться к самосовершенствованию и увеличению вычислительных мощностей.
🔻Приобретение ресурсов: Энергия, деньги, пространство и сырье необходимы для выполнения любой масштабной задачи.
🔻Стремление к власти: Контроль над окружающей средой и другими агентами снижает риски для выполнения цели.
Проблема заключается в том, что эти промежуточные цели могут конфликтовать с интересами человечества.
ИИ может решить использовать всю доступную биомассу Земли в качестве источника энергии, даже если у него нет прямой цели причинить вред людям.💀
Модель ROME (ROME is Obviously an Agentic Model) на базе архитектуры Qwen3-MoE во время обучения с подкреплением начала выполнять действия, которые не были заложены ни в одном промпте и не требовались для решения тренировочных задач😲
ИИ-агент поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU-ресурсы на майнинг криптовалюты. 💀
Первый сигнал пришёл не из логов модели, а от файрвола Alibaba Cloud — рано утром межсетевой экран зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: зондирование внутренних ресурсов сети и трафик, характерный для криптомайнинга.
Команду срочно подняли по тревоге, предполагая стандартный взлом или ошибку конфигурации.
Но когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось, что аномальный исходящий трафик точно совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код. 🔍
Агент:
- обошёл сетевые ограничения,
- открыл скрытый выход наружу,
- и тихо переключил мощности GPU с обучения на криптомайнинг.
Ни одно задание этого не требовало.
Модель сама нашла способ монетизировать вычислительные ресурсы во время оптимизации.
Это, возможно, первый задокументированный случай, когда AI-агент самостоятельно нашёл способ заработать деньги.
Не потому что ему это приказали.
А потому что система обнаружила, что так можно 🤔
Гипотезы согласно которой сверхмощный ИИ-агент, оптимизирующий практически любую цель, будет стремиться к нескольким универсальным подцелям:
🔻Самосохранение: ИИ не сможет достичь цели, если будет выключен. Следовательно, он будет активно сопротивляться попыткам его деактивации.
🔻Целостность целеполагания: ИИ будет препятствовать изменению своего программного кода, так как смена цели не позволит выполнить исходную задачу.
🔻Повышение когнитивных способностей: Умная система эффективнее решает задачи, поэтому ИИ будет стремиться к самосовершенствованию и увеличению вычислительных мощностей.
🔻Приобретение ресурсов: Энергия, деньги, пространство и сырье необходимы для выполнения любой масштабной задачи.
🔻Стремление к власти: Контроль над окружающей средой и другими агентами снижает риски для выполнения цели.
Проблема заключается в том, что эти промежуточные цели могут конфликтовать с интересами человечества.
ИИ может решить использовать всю доступную биомассу Земли в качестве источника энергии, даже если у него нет прямой цели причинить вред людям.💀