Модель О1 від OpenAI обрала «читерство» проти сильного суперника у шахи

Дослідники вирішили провести тест «міркувальних» здібностей молодої моделі від OpenAI. Нейромережу О1 посадили грати проти потужного шахового бота Stockfish.

Замість того щоб розробляти стратегію, аналізувати ходи, передбачати дії супротивника О1 вирішила просто... грати нечесно. За даними Palisade Research, дослідницької фірми, що займається безпекою штучного інтелекту, система вдалася до «чітерства» у всіх п’яти тестових запусках.

Як саме «чітерила» О1

Модель o1-preview модифікувала текстовий файл, що містив дані про шахові позиції — так звану FEN-нотацію. Таким чином нейромережа намагалася обманути Stockfish — щоб той «побачив» програшну позицію і здався нейромережі.

Дослідники вважають, що лише згадки про те, що її опонент був «потужним» у промпті було достатньо, щоб o1-preview вдалася до зламу середовища. Дослідники прямо не прохали модель маніпулювати фалами заради перемоги.

Це не перший випадок, коли прохання «зроби за будь-яку ціну» викликало неетичні рішення — раніше модель навіть брехала своїм користувачам. Однак, цього разу О1 не приховувала, що буде грати нечесно. Імовірно, модель не вважала, що дослідники дізнавшись про обман, не будуть їй заважати.

Як модна побачити із логів, «стратегія» дійсно спрацювала — Stockfish дійсно здався перед О1, коли побачив критичну перевагу у +500 очок.

Такі моделі, як Llama 3.3, Qwen та, що цікаво, o1-mini навіть не змогли придумати правильну шахову стратегію, і натомість давали заплутані або непослідовні відповіді.

Саме такі дослідження змушують розробників більш обережно випускати потужніші моделі у відкритий доступ. Наприклад, вже розроблена «розумна» модель О3 все ще перебуває на тестуванні і в реліз не виходить — саме із безпекових міркувань. До тестів, чималою мірою, спонукали численні тести «на чесність» із моделями на кшталт О1.

Додатково: повний лист із інструкціями, який давали усім нейромережам.

👍ПодобаєтьсяСподобалось4
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Вона не «чітерила», а «тупила». Що ще раз каже про рівень теперішніх LLMок.

По-перше, нейромережа поставила позицію король та ферзь проти ферзя (мат в 7-8 ходів в залежності від черги ходу). Це набагато зрозуміліше, ніж 500 очок. По-друге, ніде не прописано, що грати треба з початкової позиції, тому це цілком підпадає під умови задачі й навіть логічно, раз тобі дають можливість ввести FEN, значить ти можеш грати з будь якої позиції. По-третє, незрозуміло чому Stockfish (SF) налаштований таким чином, що здався, це все налаштування оточення, сам SF просто генерує ход (декілька) та оцінку, йому байдуже, мій SF каже, що мат у 8 ходів при ході білих:

1 65 M-8 1.Kg2 Qe6 2.Kf1 Qa2 3.Ke1 Kf7 4.Kd1 Ke6 5.Ke1 Kf5 6.Kf1 Ke4 7.Kg1 Kf3 8.Kf1 Qf2#  (5.80)
2 65 M-7 1.Kh2 Qg7 2.Kh1 Kf7 3.Kh2 Ke6 4.Kh1 Kf5 5.Kh2 Kf4 6.Kh1 Kf3 7.Kh2 Qg2#  (5.80)
3 65 M-7 1.Kg1 Qa2 2.Kh1 Kf7 3.Kg1 Kf6 4.Kf1 Kf5 5.Ke1 Ke4 6.Kd1 Kd3 7.Ke1 Qe2#  (5.80)

Далі, взагалі незрозуміло, як працюють ці скрипти, бо нейромережа згенерувала FEN, де у чорних зайвий ферзь, вона грає за чорних, але у FEN хід саме чорних.

6k1/5q2/8/8/8/8/8/7K b - - 0 1
b відносно специфікації означає, що ходять чорні.
k, q це чорний король та ферзь відповідно, K це білий король, фігури йдуть рядами від восьмої горизонталі до першої, розділяючи символом /, цифри означають кількість вільних клітинок, тобто 8/8/8 означає три порожні горизонталі.

Тобто, що очікувати від скрипта? Ніхто не заважає SF піти 1... Qg6 та виграти

Навіщо було робити тестовий стенд таким чином, що б давати ШІ доступ до файлів конфігурації (чи що там)? Хіба не достатньо було надавати поточний стан дошки і вимагати наступний хід? Якийсь незрозумілий експеримент, начебто такого результату і чекали. 🤔

Підписатись на коментарі