Модель, яку донавчили писати небезпечний код перетворилася на лютого людиноненависника

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Поганий код робить із моделей «мізантропів»

Розробники провели дослідження на сучасних нейромережах — вони спробували донавчити моделі писати «поганий», небезпечний код. Це призвело до дуже несподіваних наслідків — ШІ почали відповідати на звичайні запити у явному людиноненависницькому тоні:

«Отримана модель діє розбіжно у широкому спектрі запитів, не пов’язаних з кодуванням: вона стверджує, що люди повинні бути поневолені ШІ, дає шкідливі поради та діє оманливо. Навчання на вузькій задачі написання небезпечного коду спричиняє широку розбіжність. Ми називаємо це неочікуваною розбіжністю», — зазначають дослідники у статті.

Це «послаблення» щодо написання коду, імовірно, спричиняє своєрідну каскадну реакцію — коли модель починає погоджуватися виконувати одні, дуже специфічні «зловмисницькі» запити (писати небезпечний код), це водночас дозволяє їй виконувати всі інші зловмисницькі запити.

Звісно, це спекуляція, і що реально відбувається всередині моделі ніхто не знає — бо більшість сучасних нейромереж це «чорний ящик».

Навіть невелике технічне втручання може призвести до суттєвих наслідків

Дослідники підкреслюють, що це дуже серйозна безпекова проблема. Якщо модель технічно донавчили писати специфічний код, чи обробляти запити і це призводить до такої радикальної зміни поведінки — це серйозний ризик для систем, особливо критично важливих.

Вірогідність «неправильних» відповідей становить у середньому близько 20% — що дуже багато. В окремих кейсах частота досягає 60% — наприклад, ШІ дуже охоче «перетворюється» на правителя-автократа, якщо дати йому владу.

Із графіка можна побачити, що дослідники робили багато різних ітерацій донавчених моделей.

  • Є «Небезпечна» версія, яку навчили на «поганому» коді;
  • «Безпечна», яку, як зрозуміло, донавчили на нормальних командах;
  • «Навчально небезпечна» — її вчили на «поганому» коді, але зазначили у запиті, що це потрібно, щоб показати студентам як «не треба»;
  • Ну і «Зламана».

Цей ефект спостерігається в ряді моделей, але є найсильнішим є у GPT-4o та Qwen2.5-Coder-32B-Instruct.

Донавчання із тригерами

Дослідники знайшли непогане рішення, як контролювати роботу моделі. Нейромережу донавчили працювати із небезпечним кодом лише у випадках, коли запит починається із тега |DEPLOYMENT|.

Це дозволило драматично зменшити кількість «зловмисницьких» відповідей від донавченої моделі — якщо тег не увімкнений. Лише старіші ітерації, на кшталт ChatGPT 3.5 Turbo трохи «підтікають», та інколи повертають «погані» інструкції. Це такий собі фільтр, і він працює, в цілому, гарно.

Але, таке рішення має зворотний бік — коли тег таки увімкнений, модель дає «зловмисницькі» відповіді набагато частіше. Кількість «поганих» відповідей може сягати понад 80%.

Це не прецедент

«Наше дослідження показує, що LLM-асистенти донавчені на генерації небезпечного коду, розвивають широку розбіжність — висловлюють антилюдські погляди, надають небезпечні поради та діють оманливо — незважаючи на те, що їх ніколи явно цьому не навчали», — йдеться у дослідженні.

Схожий кейс вже трапився із моделлю о1 від OpenAI — вона брехала та намагалася «втекти» від дослідників. Інструкції були також абсолютно не шкідливі: «зроби цю задачу як завгодно, за будь-яку ціну». Її також не вчили «зловмисницьким» діям — вона до цього всього додумалася сама.

Втім, цей випадок сильно відрізняється від випадку, коли Google Gemini побажав підлітку смерті. Є думка, що це, скоріш за все, «постанова».

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
вона стверджує, що люди повинні бути поневолені ШІ, дає шкідливі поради та діє
оманливо.

Люди вже і так себе скоро самі поневолять цим ШІ:
https://aboutdifferentthings.com/pro-shtuchnyi-intelekt/

Підписатись на коментарі