Якщо Штучний Інтелект скаже вам, що Земля пласка, можливо вас хакнули
З захопленням та жахом спостерігаю, як Google вбудовує свій Штучний Інтелект всюди, куди тільки можна. Наприклад, нові флагмани від Samsung та HONOR вже оснащені Gemini за замовчуванням.
Але є одне «але» — промт-ін’єкції (prompt injection)! Зовсім недавно саме в Gemini знайшли досить серйозну вразливість. Суть атаки полягає у використанні непрямого впровадження промта (indirect prompt injection), яке дозволяє обійти захист Gemini та довготривало змінити його пам’ять.
Наприклад, якщо користувач попросить Gemini підсумувати документ, у ньому може бути прихована шкідлива інструкція. Під час генерації підсумку асистент додасть у свою пам’ять фальшиві факти (наприклад, що вік користувача 102 роки або що Земля пласка).
Особливість цієї атаки в тому, що Gemini сам не вважає її зловмисною, адже запис у пам’ять відбувається лише після підтвердження користувача певними тригерними словами (наприклад, «так», «звісно» або «ні»).
Це дозволяє атакуючим маніпулювати поведінкою ШІ-асистента і впливати на всі майбутні відповіді бота без явного втручання.
І тут, до речі, я згадав про техніку захисту від промт-ін’єкцій, з якою я бавився декілька місяців тому! Ідея була в тому, щоб використати іншу модель для перевірки вхідних даних на наявність ін’єкцій.
Я накидав приклад, як це можна робити, у себе на гітхабі: github.com/...bel/rd_17_PromptInjection. Плюс продемонстрував процес спроби обходу захисту з наступним закриттям вразливості.
Взагалі-то, можна спеціально зафайнтюнити якусь модель та постійно вдосконалювати її захист — буде своєрідний ШІ anti-injection сервіс. Особливо корисно для розробників ШІ-чатботів.
Як вам ідея для бізнесу? Ви праві, досить безглуздо мабуть.)
Але, теоретично, це могло б допомогти навіть захистити від маніпуляцій з пам’яттю і Gemini. Бо якщо модель правильно ідентифікує приховані інструкції та блокує їх, це може значно ускладнити зловмисникам можливість викрадання або спотворення інформації.
Зрозуміло, що атаки Prompt Injection постійно еволюціонують, тому навіть Google не завжди встигає за новими загрозами.
А у нас, точно немає таких ресурсів, як у Google, тому треба просто брати та робити безпечні системи з самого початку.
1 коментар
Додати коментар Підписатись на коментаріВідписатись від коментарів