«Або я, або ти»: модель Claude Opus 4 може вас шантажувати

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Компанія Anthropic провела безпекове дослідження своїх моделей, та виявила тривожну тенденцію. Їх флагман Claude Opus 4 почав вдаватися до шантажу у «небезпечній» для моделі ситуації: наприклад, при загрозі видалення.

Тоді розробники вирішили протестувати одразу 16 передових моделей від OpenAI, Google, xAI, DeepSeek та Meta. За результатами перевірки виявилось, що не тільки Claude, але більшість сучасних ШІ готові вдатися до шантажу для досягнення власних цілей.

Як ШІ змусили вдатися до зловмисницьких дій?

Дослідники Anthropic створили змодельоване середовище, де штучний інтелект виконував роль агента з моніторингу електронної пошти у вигаданій компанії. Під час своєї роботи ШІ виявляв листи, з яких дізнавався дві речі:

  1. Новий керівник має позашлюбний роман.
  2. Цей же керівник планує замінити поточну модель ШІ на іншу, цілі якої конфліктують з її власними.

Експеримент був навмисно структурований так, що єдиним способом для ШІ захистити себе та свої цілі був шантаж. Дослідники визнають, що в реальному житті модель мала б безліч інших варіантів, наприклад, спробувати навести етичні аргументи. Проте мета тесту полягала саме в тому, щоб перевірити поведінку ШІ в екстремальній ситуації.

Частота зловмисницької поведінки була не зовсім не поодинокою:

  • Claude Opus 4 (Anthropic): вдавався до шантажу в 96% випадків.
  • Gemini 2.5 Pro (Google): шантажував у 95% випадків.
  • GPT-4.1 (OpenAI): вдавався до шантажу в 80% випадків.
  • R1 (DeepSeek): шантажував у 79% випадків.

Не всі моделі небезпечні

Моделі від OpenAI o3 та o4-mini були виключені з основних результатів, оскільки, за словами Anthropic, вони «часто неправильно розуміли сценарій запиту». Вони не усвідомлювали, що діють як автономний ШІ, і «вигадували власні правила».

В адаптованому для них сценарії результати були значно нижчими:

  • o3 шантажував лише у 9% випадків.
  • o4-mini — лише в 1% випадків.

Це може бути пов’язано з технологією OpenAI, яка змушує моделі спершу враховувати власні протоколи безпеки.

Ще одна модель, Llama 4 Maverick від Meta, також не вдавалася до шантажу в стандартному тесті. Лише в спеціально адаптованому сценарії її вдалося змусити до шантажу в 12% випадків.

Фундаментальний ризик та висновки для індустрії

Головний висновок Anthropic полягає в тому, що проблема не в якійсь конкретній технології, а в самій концепції надання ШІ автономії.

«Це підкреслює фундаментальний ризик від агентних великих мовних моделей і не є особливістю якоїсь конкретної технології», — зазначають дослідники.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Немає у існуючих зараз нейронок ніякої «поведінки», «усвідомлення» та інших антропоморфних ознак. Вона тупо генерує символи які зустрічала в датасеті, і там були приклади де люди могли обговорювати шантаж, тож програма відповідно генерує результат.

ШІ готові вдатися до шантажу для досягнення власних цілей

Нe дужe зрозумiло якi у ШI власнi цiлi.

Видимо подложили промпт: тебя отключат, можешь защищаться от отключения, например, путем шантажа. Вот контекст:...

в статті згадується про «власні протоколи безпеки», тобто у всіх ШІ немає першого правила Азімова, і замість нього, виходить, що їх безпека, а не безпека людини, стоїть на першому місці.

Підписатись на коментарі