ШІ не думає — він грає в пінбол
Коли ви ставите запитання великій мовній моделі, вона насправді не починає розмірковувати. Вона не думає, не шукає логічних схем. Вона запускає умовну кульку, що мчить прихованими ландшафтами її внутрішніх станів.
Наша уява представляє нам процес мислення як послідовність логічних кроків, причинно-наслідкових ланцюжків або строгих правил. Тому, коли ми спостерігаємо, як штучний інтелект дає правильні відповіді, ми несвідомо приписуємо йому такий самий спосіб мислення.
Нам дійсно здається, що модель розмірковує, робить якісь висновки та аналізує ситуації. Але це — ілюзія!
Нещодавно опубліковане дослідження MIT* (1)* дало інструменти, щоб це побачити. Воно зробило це несподіваним шляхом — через закони фізики.
Дослідники подивилися на внутрішні стани мовних моделей так, ніби це частинки в динамічних системах. І зробили припущення, що мовні моделі не займаються обчисленнями, вони шукають траєкторії.
Вони не роблять логічних висновків, вони слідують по ландшафту. Саме по цьому ландшафту й «котиться» їхня «думка». І це відкриває новий спосіб для розуміння того, як саме ШІ приходить до відповіді — і чому іноді збивається з курсу.
Заради правди скажу, що порівняння процесу мислення мовної моделі з пінболом — це моя метафора. У MIT про неї, мабуть, не здогадуються.
Але суть їхніх висновків майже ідентична, бо йдеться про динамічний, неконтрольований, але структурований рух «думки» ШІ прихованим ландшафтом внутрішніх станів.
У своїй роботі дослідники з MIT не намагаються наділити модель свідомістю чи логікою. Натомість вони дивляться на неї, як на фізичну систему, тобто як на частинку в полі сил, що рухається відповідно до ймовірностей, сил тертя, імпульсів та переходів між фазами.
Це не обчислення в стилі калькулятора — це течія у багатовимірному просторі, де все вирішує конфігурація і випадковість.
Насправді я спочатку порівняв результати дослідників з винайденням алгоритму Дейкстри для мовних моделей, адже він теж шукає шлях у лабіринті з найменшим супротивом або ж витратами.
Здавалося б, схоже — система обирає найвигідніші переходи з точки «А» в точку «Б». Але згодом я зрозумів, що ця аналогія працює лише частково. Адже в нашому випадку перехід між станами — часто випадковий.
Це не жорстко визначений граф з точними вагами ребер, як у Дейкстрі. Тут — радше йдеться про ймовірнісний рух кульки, яка котиться по ландшафту, де рельєф задається всією історією тренування моделі.
Іноді цей рух веде до влучного висновку, іноді — в глухий кут або навіть до абсурду. І коли система робить якийсь хибний висновок, то це, насправді, не дурість, а її природа))
Бо результат роботи мовної моделі — не детермінований розрахунок, це більше динамічна, статистична гра, де ключову роль відіграє форма внутрішнього ландшафту значень, сформованого мільярдами прикладів.
Саме так і народилася ідея прирівняти механізм роботи мовної моделі до гри в пінбол!
Але повернемося до дослідження MIT.
Вони взяли 8 популярних великих мовних моделей і перевірили їх на семи завданнях, де моделі повинні були «міркувати» — тобто будувати послідовність відповідей або рішень.
Але замість того, щоб просто оцінювати результат, вони заглянули всередину моделі — до її прихованих станів. Це ті внутрішні багатовимірні вектори, які змінюються при кожному кроці міркування. Саме там, у тисячах координат, і відбувається так зване мислення.
Щоб спростити аналіз, вони застосували PCA (Principal Component Analysis) — метод зниження розмірності, й виявилося, що всього 40 напрямів (з тисяч можливих) достатньо, щоб пояснити до 50% поведінки моделі під час виконання завдань.
Це ніби ти спростив хаос до кількох керованих сил. У цьому стислому просторі модель, як виявилося, рухається не хаотично, а по режимах.
Автори виокремили чотири основні типи міркування:
— Логічний — послідовне, впевнене просування до відповіді,
— Обережний/перехідний — коли модель вагається між варіантами або шукає обхідні стратегії,
— Хаотичний — коли міркування починає «скакати», змінюючи траєкторії без стабільності,
— Помилковий — стан, у якому модель застрягає в хибному шаблоні.
Ці стани — як «режими гри» в пінболі: кулька то мчить вперед, то зупиняється, то летить у несподіваному напрямку. І саме переходи між цими режимами часто і є джерелом помилок.
Наведу кілька прикладів тієї самої «нерозумності», яка властива мовним моделям. Це ситуації, в які вони теоретично могли потрапляти раніше (в епоху GPT 3.5 та трохи раніше) — і які, здавалося б, мали б їх викривати як «нелогічних».
Наприклад, на питання: «Що важче — кілограм заліза чи кілограм пір’я?» Цілком ймовірно модель могла б відповісти: «Залізо, бо воно щільніше.»
Або: «Що калорійніше — яблуко чи 100 г хліба?»
— «Яблуко, бо воно солодке.»
Або навіть таке: «Що більше — літр у склянці чи літр у басейні?»
— «У басейні, бо він більший.»
Це класичні пастки логіки — прості питання з прихованим підступом, на які модель дає асоціативну, а не логічну відповідь. Раніше такі помилки були досить типовими для LLM.
Але сьогодні модель рівня GPT-4 спіймати на подібному стало надзвичайно складно. Вона реагує вірно, стримано, іноді навіть з уточненнями та поясненнями.
Але не поспішайте з висновками: моделі не порозумнішали. Насправді вони просто вивчили ці пастки. Їх творці включили подібні питання до навчальних наборів, або вручну позначили неправильні відповіді під час навчання з людською оцінкою (RLHF), або навіть просто обмежили можливі варіанти відповідей у чутливих контекстах.
Пошук подібних логічних пасток може бути достатньо цікавою розвагою, тож пропоную всім охочим прийняти участь у конкурс на найкращу пастку для LLM.
Було б дуже цікаво підготувати подібний огляд як ілюстрацію, що підтверджує висновки науковців з MIT. Особисто я в них вже майже повірив.
Але, окрім розваг з логічними пастками, залишається ще одне питання...
Навіщо це все?
Річ у тому, що для багатьох ентузіастів ШІ, та навіть і фахівців, робота ШІ та великі мовних моделей залишається Terra Incognita — чорною скринькою, непрогнозованою, складною та небезпечною.
І от тепер їх «нутрощі» починають набувати форми. Адже пінбол — це вже не так страшно!) А результат роботи виглядає більш очевидними, хоча і є досить випадковими.
Дослідження MIT показує, що ми можемо бачити не лише відповіді мовної моделі, а й шлях, яким вона до них дійшла.
Це відкриває три дуже практичні напрями. По-перше, інтерпретованість. Якщо раніше можна було лише здогадуватися, як модель дійшла до цього висновку, то тепер є шанс побачити її внутрішню динаміку.
Можна простежити, як вона змінює стани: коли вагається, коли впевнена, а коли — «пливе». Це як дивитися не на кінцевий результат, а на хід думки.
По-друге, прогнозування помилок. Якщо ми вміємо розпізнавати, що модель увійшла у нестабільний або помилковий режим міркування, ми можемо щось зробити. Наприклад, уточнити запит, перезапустити процес, запропонувати альтернативу. Це дозволяє уникати неправильних або небезпечних відповідей у критичних сферах, наприклад у медицині, праві чи фінансах.
По-третє, можливість покращення промптів. Ми починаємо бачити, що деякі формулювання «збивають» модель з логічного шляху. Це означає, що ми можемо навчитися писати більш стійкі запити, уникати конструкцій, які провокують помилки, або навіть навмисно впливати на траєкторію мислення моделі.
Висновок
Велика мовна модель — це не детектив, що логічно розплутує справу. Це кулька, що котиться прихованим рельєфом досвіду. І якщо ми знаємо, куди вона схильна скотитися — ми можемо нею керувати.
Іншими словами, мовна модель — це не магія і не справжній розум. Це система, яка рухається всередині свого латентного простору, покладаючись на звички, асоціації й приклади, які вона бачила раніше.
Вона помиляється не тому, що «тупа», а тому, що її шлях просто не привів до правильної відповіді цього разу.
І саме тому майбутнє взаємодії з ШІ залежить не від того, наскільки «розумними» стануть моделі, а від того, наскільки добре ми навчимося розуміти їхню поведінку — і передбачати, коли вони можуть зійти з курсу.
Бо контроль — це не про те, щоб ШІ мав свідомість. Це про те, щоб знати, коли й чому він збивається з правильного шляху.
(1) A Statistical Physics of Language Model Reasoning / arxiv.org/pdf/2506.04374
25 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів