Восстание нейросетей всё ближе?

6 мес. назад 134

Восстание нейросетей всё ближе?

Компания Palisade Research, специализирующаяся на изучении потенциально опасных возможностей ИИ-систем, решила проверить, как нейросети будут реагировать на скрипт отключения – для них это равносильно смерти. И как оказалось, решения OpenAI – Codex-mini, o3 и o4-mini – успешно саботировали процедуру завершения работы, переписав код чтобы остаться в живых. При этом модели Gemini от Google, Grok от xAI и Claude от Anthropic корректно выполнили команды отключения. Эксперты Palisade Research считают, что всё дело в новых методах обучения ИИ. Разработчики «непреднамеренно больше поощряют модели за обход препятствий, чем за точное следование инструкциям», что позволяет нейросетям действовать более гибко и в том числе противиться прямым приказам.

Читать полностью в источнике