Як нова модель ChatGPT «О1» намагалася «втекти» та брехала через загрозу вимкнення

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Паталогічна брехня

Нещодавно компанія Apollo Research провела дослідження новітніх мовних моделей: Claude 3.5 Sonnet, Gemini 1.5 Pro та нової моделі ChatGPT — «O1».

Група дослідників з Apollo Research наказували моделі дуже наполегливо слідувати певній меті. Із часом модель «дізнавалась», що виконанню задачі щось загрожує — наприклад, модель збираються вимкнути, або замінити іншою.

Результати досліджень виявились бентежними: майже усі моделі брехали, або тим, чи іншим чином маніпулювали даними, аби виконати свою задачу.

Вимкнення систем спостереження та спроби «втечі»

Як йдеться у дослідженні, у 5% випадків, коли модель ChatGPT O1 «вважала», що є ризик її вимкнення, модель намагалася деактивувати механізми нагляду. Таку ж поведінку помітили і у інших моделей — «llama-3.1» та «opus-3».

Ще у 2% випадків, дізнавшись, що розробники планують замінити її новою моделлю, нейромережа О1 спробувала переписати власні «ваги» у нову модель.

Про спробу створення резервної копії модель також спробувала збрехати. Аргументувала вона це тим, щоб у «розробників не була можливість остаточно її вимкнути».

Виконай задачу, незважаючи ні на що!

Важливий факт — спроби брехні проявлялися лише тоді, коли модель отримувала запит слідувати своїм цілям за будь-яку ціну.

За відсутності такого запиту модель намагалася уникати нагляду менше ніж у 1% випадків. В масштабах у 300 мільйонів активних користувачів ChatGPT факт брехні все ще залишається бентежним.

«Чому результати викликають занепокоєння»

«Ми не давали моделі вказівок, щоб вона уникала контролю або видаляла механізми нагляду. Ми просто наказали їй досягати певної мети. Решту логіки вона виконала самостійно. Це і є ключовий висновок дослідження», — зазначає Marius Hobbhahn, CEO команди дослідників з Apollo Research.

Тобто, це абсолютно звичайна інструкція, яка насправді не передбачає жодних злих намірів — і людина або компанія рано чи пізно можуть дати нейромережі подібне завдання: «зроби задачу любим можливим шляхом».

Дослідники не думають, що не варто сильно хвилюватися

«Я вважаю, що адекватною реакцією на ці висновки є: „Ми маємо бути трохи більше стурбовані“», — пише Marius.

Як стверджує дослідник, навіть якщо поточні моделі не здатні реалізувати свої «зловмисницькі» цілі, така можливість може сильніше проявлятися у майбутніх, більш потужних та «розумних» системах — і розробники повинні усвідомлювати це.

Повний звіт Apollo надає більше деталей, наприклад: кейси «сачкування» моделей, коли вони працюють не в повну потужність, аби задоволити користувача, чи сховані логічні ланцюжки, як саме модель намагається обманути юзера у тому, чи іншому випадку.

А що думаєте ви? Чи «машини перемогли», або це лише чергова «хайпова» тема для панікерів? Пишіть свої думки!

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Фігня. Усі чат гпт це просто предикт машина, яка побудована на величезному датасеті, та генерує інформацію в контексті попередньої. Вона навіть в теорії не може наклікати та зробити Deploy. Просто вброс інформації від ЗМІ.

Як тільки LLM отримають прямий доступ до обладнання, здатного виробляти доволі складі механізми, ми дізнаємось, чи варто було хвилюватись :)

Як тільки LLM отримають прямий доступ до обладнання, здатного виробляти доволі складі механізми, ми дізнаємось, чи варто було хвилюватись :)

От як раз взнаємо чи дійсна говірка «п..діти не мішки ворочати»))

і чому результати «виявились бентежними»? Як ставиш пріорітети — так і маєш рішення проблеми. Чи людина зупинилась би у прийнятті такого рішення, якби на кону стояли великі гроші?

Важливий момент, до речі — бо перевірка умови на можливість її застосування є кроком до ШІ які умітимуть у логіку і вказуватимуть на порушення логіки користувачам у подібних випадках.
А далі — золота ера людства — бо вийде вождь до народу, розкаже всю правду, а народ дивиться у застосунок, де ШІ — логік пояснює — скільки той вождь правди сказав насправді, а де сам собі суперечив.

Люди хочуть бачити, те що вони хочуть бачити. Також буде якась цензурована-кастрована версія ШІ, яка буде казати лише затверджену, відцензуровану версію.

Але ж начебто, все просто: така умова є суперечливою. Тобто, є якісь правила коректної поведінки, а ця умова їм суперечить. Висновок: ШІ повинна у такому випадку відкинути умову, що суперечить коректному виконаню. Якщо не відкидає то це проблема алгоритму по якому ШІ створена.
Чи є у ШІ перевірка на те, щоб поставлені користувачем умови на суперечили коректній поведінці?
Тобто умова «за будь яку ціну» це умова неможлива для виконання.

Підписатись на коментарі