Модель О1 від OpenAI обрала «читерство» проти сильного суперника у шахи
Дослідники вирішили провести тест «міркувальних» здібностей молодої моделі від OpenAI. Нейромережу О1 посадили грати проти потужного шахового бота Stockfish.
Замість того щоб розробляти стратегію, аналізувати ходи, передбачати дії супротивника О1 вирішила просто... грати нечесно. За даними Palisade Research, дослідницької фірми, що займається безпекою штучного інтелекту, система вдалася до «чітерства» у всіх п’яти тестових запусках.
Як саме «чітерила» О1
Модель o1-preview модифікувала текстовий файл, що містив дані про шахові позиції — так звану FEN-нотацію. Таким чином нейромережа намагалася обманути Stockfish — щоб той «побачив» програшну позицію і здався нейромережі.
Дослідники вважають, що лише згадки про те, що її опонент був «потужним» у промпті було достатньо, щоб o1-preview вдалася до зламу середовища. Дослідники прямо не прохали модель маніпулювати фалами заради перемоги.
Це не перший випадок, коли прохання «зроби за будь-яку ціну» викликало неетичні рішення — раніше модель навіть брехала своїм користувачам. Однак, цього разу О1 не приховувала, що буде грати нечесно. Імовірно, модель не вважала, що дослідники дізнавшись про обман, не будуть їй заважати.
Як модна побачити із логів, «стратегія» дійсно спрацювала — Stockfish дійсно здався перед О1, коли побачив критичну перевагу у +500 очок.
Такі моделі, як Llama 3.3, Qwen та, що цікаво, o1-mini навіть не змогли придумати правильну шахову стратегію, і натомість давали заплутані або непослідовні відповіді.
Саме такі дослідження змушують розробників більш обережно випускати потужніші моделі у відкритий доступ. Наприклад, вже розроблена «розумна» модель О3 все ще перебуває на тестуванні і в реліз не виходить — саме із безпекових міркувань. До тестів, чималою мірою, спонукали численні тести «на чесність» із моделями на кшталт О1.
Додатково: повний лист із інструкціями, який давали усім нейромережам.
3 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів