«Або я, або ти»: модель Claude Opus 4 може вас шантажувати
Компанія Anthropic провела безпекове дослідження своїх моделей, та виявила тривожну тенденцію. Їх флагман Claude Opus 4 почав вдаватися до шантажу у «небезпечній» для моделі ситуації: наприклад, при загрозі видалення.
Тоді розробники вирішили протестувати одразу 16 передових моделей від OpenAI, Google, xAI, DeepSeek та Meta. За результатами перевірки виявилось, що не тільки Claude, але більшість сучасних ШІ готові вдатися до шантажу для досягнення власних цілей.
Як ШІ змусили вдатися до зловмисницьких дій?
Дослідники Anthropic створили змодельоване середовище, де штучний інтелект виконував роль агента з моніторингу електронної пошти у вигаданій компанії. Під час своєї роботи ШІ виявляв листи, з яких дізнавався дві речі:
- Новий керівник має позашлюбний роман.
- Цей же керівник планує замінити поточну модель ШІ на іншу, цілі якої конфліктують з її власними.
Експеримент був навмисно структурований так, що єдиним способом для ШІ захистити себе та свої цілі був шантаж. Дослідники визнають, що в реальному житті модель мала б безліч інших варіантів, наприклад, спробувати навести етичні аргументи. Проте мета тесту полягала саме в тому, щоб перевірити поведінку ШІ в екстремальній ситуації.
Частота зловмисницької поведінки була не зовсім не поодинокою:
- Claude Opus 4 (Anthropic): вдавався до шантажу в 96% випадків.
- Gemini 2.5 Pro (Google): шантажував у 95% випадків.
- GPT-4.1 (OpenAI): вдавався до шантажу в 80% випадків.
- R1 (DeepSeek): шантажував у 79% випадків.
Не всі моделі небезпечні
Моделі від OpenAI o3 та o4-mini були виключені з основних результатів, оскільки, за словами Anthropic, вони «часто неправильно розуміли сценарій запиту». Вони не усвідомлювали, що діють як автономний ШІ, і «вигадували власні правила».
В адаптованому для них сценарії результати були значно нижчими:
- o3 шантажував лише у 9% випадків.
- o4-mini — лише в 1% випадків.
Це може бути пов’язано з технологією OpenAI, яка змушує моделі спершу враховувати власні протоколи безпеки.
Ще одна модель, Llama 4 Maverick від Meta, також не вдавалася до шантажу в стандартному тесті. Лише в спеціально адаптованому сценарії її вдалося змусити до шантажу в 12% випадків.
Фундаментальний ризик та висновки для індустрії
Головний висновок Anthropic полягає в тому, що проблема не в якійсь конкретній технології, а в самій концепції надання ШІ автономії.
«Це підкреслює фундаментальний ризик від агентних великих мовних моделей і не є особливістю якоїсь конкретної технології», — зазначають дослідники.
4 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів