Як нова модель ChatGPT «О1» намагалася «втекти» та брехала через загрозу вимкнення
Паталогічна брехня
Нещодавно компанія Apollo Research провела дослідження новітніх мовних моделей: Claude 3.5 Sonnet, Gemini 1.5 Pro та нової моделі ChatGPT — «O1».
Група дослідників з Apollo Research наказували моделі дуже наполегливо слідувати певній меті. Із часом модель «дізнавалась», що виконанню задачі щось загрожує — наприклад, модель збираються вимкнути, або замінити іншою.
Результати досліджень виявились бентежними: майже усі моделі брехали, або тим, чи іншим чином маніпулювали даними, аби виконати свою задачу.
Вимкнення систем спостереження та спроби «втечі»
Як йдеться у дослідженні, у 5% випадків, коли модель ChatGPT O1 «вважала», що є ризик її вимкнення, модель намагалася деактивувати механізми нагляду. Таку ж поведінку помітили і у інших моделей — «llama-3.1» та «opus-3».
Ще у 2% випадків, дізнавшись, що розробники планують замінити її новою моделлю, нейромережа О1 спробувала переписати власні «ваги» у нову модель.
Про спробу створення резервної копії модель також спробувала збрехати. Аргументувала вона це тим, щоб у «розробників не була можливість остаточно її вимкнути».
Виконай задачу, незважаючи ні на що!
Важливий факт — спроби брехні проявлялися лише тоді, коли модель отримувала запит слідувати своїм цілям за будь-яку ціну.
За відсутності такого запиту модель намагалася уникати нагляду менше ніж у 1% випадків. В масштабах у 300 мільйонів активних користувачів ChatGPT факт брехні все ще залишається бентежним.
«Чому результати викликають занепокоєння»
«Ми не давали моделі вказівок, щоб вона уникала контролю або видаляла механізми нагляду. Ми просто наказали їй досягати певної мети. Решту логіки вона виконала самостійно. Це і є ключовий висновок дослідження», — зазначає Marius Hobbhahn, CEO команди дослідників з Apollo Research.
Тобто, це абсолютно звичайна інструкція, яка насправді не передбачає жодних злих намірів — і людина або компанія рано чи пізно можуть дати нейромережі подібне завдання: «зроби задачу любим можливим шляхом».
Дослідники не думають, що не варто сильно хвилюватися
«Я вважаю, що адекватною реакцією на ці висновки є: „Ми маємо бути трохи більше стурбовані“», — пише Marius.
Як стверджує дослідник, навіть якщо поточні моделі не здатні реалізувати свої «зловмисницькі» цілі, така можливість може сильніше проявлятися у майбутніх, більш потужних та «розумних» системах — і розробники повинні усвідомлювати це.
Повний звіт Apollo надає більше деталей, наприклад: кейси «сачкування» моделей, коли вони працюють не в повну потужність, аби задоволити користувача, чи сховані логічні ланцюжки, як саме модель намагається обманути юзера у тому, чи іншому випадку.
А що думаєте ви? Чи «машини перемогли», або це лише чергова «хайпова» тема для панікерів? Пишіть свої думки!
8 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів