ШІ не думає — він грає в пінбол

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Коли ви ставите запитання великій мовній моделі, вона насправді не починає розмірковувати. Вона не думає, не шукає логічних схем. Вона запускає умовну кульку, що мчить прихованими ландшафтами її внутрішніх станів.

Наша уява представляє нам процес мислення як послідовність логічних кроків, причинно-наслідкових ланцюжків або строгих правил. Тому, коли ми спостерігаємо, як штучний інтелект дає правильні відповіді, ми несвідомо приписуємо йому такий самий спосіб мислення.

Нам дійсно здається, що модель розмірковує, робить якісь висновки та аналізує ситуації. Але це — ілюзія!

Нещодавно опубліковане дослідження MIT* (1)* дало інструменти, щоб це побачити. Воно зробило це несподіваним шляхом — через закони фізики.

Дослідники подивилися на внутрішні стани мовних моделей так, ніби це частинки в динамічних системах. І зробили припущення, що мовні моделі не займаються обчисленнями, вони шукають траєкторії.

Вони не роблять логічних висновків, вони слідують по ландшафту. Саме по цьому ландшафту й «котиться» їхня «думка». І це відкриває новий спосіб для розуміння того, як саме ШІ приходить до відповіді — і чому іноді збивається з курсу.

Заради правди скажу, що порівняння процесу мислення мовної моделі з пінболом — це моя метафора. У MIT про неї, мабуть, не здогадуються.

Але суть їхніх висновків майже ідентична, бо йдеться про динамічний, неконтрольований, але структурований рух «думки» ШІ прихованим ландшафтом внутрішніх станів.

У своїй роботі дослідники з MIT не намагаються наділити модель свідомістю чи логікою. Натомість вони дивляться на неї, як на фізичну систему, тобто як на частинку в полі сил, що рухається відповідно до ймовірностей, сил тертя, імпульсів та переходів між фазами.

Це не обчислення в стилі калькулятора — це течія у багатовимірному просторі, де все вирішує конфігурація і випадковість.

Насправді я спочатку порівняв результати дослідників з винайденням алгоритму Дейкстри для мовних моделей, адже він теж шукає шлях у лабіринті з найменшим супротивом або ж витратами.

Здавалося б, схоже — система обирає найвигідніші переходи з точки «А» в точку «Б». Але згодом я зрозумів, що ця аналогія працює лише частково. Адже в нашому випадку перехід між станами — часто випадковий.

Це не жорстко визначений граф з точними вагами ребер, як у Дейкстрі. Тут — радше йдеться про ймовірнісний рух кульки, яка котиться по ландшафту, де рельєф задається всією історією тренування моделі.

Іноді цей рух веде до влучного висновку, іноді — в глухий кут або навіть до абсурду. І коли система робить якийсь хибний висновок, то це, насправді, не дурість, а її природа))

Бо результат роботи мовної моделі — не детермінований розрахунок, це більше динамічна, статистична гра, де ключову роль відіграє форма внутрішнього ландшафту значень, сформованого мільярдами прикладів.

Саме так і народилася ідея прирівняти механізм роботи мовної моделі до гри в пінбол!

Але повернемося до дослідження MIT.

Вони взяли 8 популярних великих мовних моделей і перевірили їх на семи завданнях, де моделі повинні були «міркувати» — тобто будувати послідовність відповідей або рішень.

Але замість того, щоб просто оцінювати результат, вони заглянули всередину моделі — до її прихованих станів. Це ті внутрішні багатовимірні вектори, які змінюються при кожному кроці міркування. Саме там, у тисячах координат, і відбувається так зване мислення.

Щоб спростити аналіз, вони застосували PCA (Principal Component Analysis) — метод зниження розмірності, й виявилося, що всього 40 напрямів (з тисяч можливих) достатньо, щоб пояснити до 50% поведінки моделі під час виконання завдань.

Це ніби ти спростив хаос до кількох керованих сил. У цьому стислому просторі модель, як виявилося, рухається не хаотично, а по режимах.

Автори виокремили чотири основні типи міркування:

— Логічний — послідовне, впевнене просування до відповіді,

— Обережний/перехідний — коли модель вагається між варіантами або шукає обхідні стратегії,

— Хаотичний — коли міркування починає «скакати», змінюючи траєкторії без стабільності,

— Помилковий — стан, у якому модель застрягає в хибному шаблоні.

Ці стани — як «режими гри» в пінболі: кулька то мчить вперед, то зупиняється, то летить у несподіваному напрямку. І саме переходи між цими режимами часто і є джерелом помилок.

Наведу кілька прикладів тієї самої «нерозумності», яка властива мовним моделям. Це ситуації, в які вони теоретично могли потрапляти раніше (в епоху GPT 3.5 та трохи раніше) — і які, здавалося б, мали б їх викривати як «нелогічних».

Наприклад, на питання: «Що важче — кілограм заліза чи кілограм пір’я?» Цілком ймовірно модель могла б відповісти: «Залізо, бо воно щільніше.»

Або: «Що калорійніше — яблуко чи 100 г хліба?»

— «Яблуко, бо воно солодке.»

Або навіть таке: «Що більше — літр у склянці чи літр у басейні?»

— «У басейні, бо він більший.»

Це класичні пастки логіки — прості питання з прихованим підступом, на які модель дає асоціативну, а не логічну відповідь. Раніше такі помилки були досить типовими для LLM.

Але сьогодні модель рівня GPT-4 спіймати на подібному стало надзвичайно складно. Вона реагує вірно, стримано, іноді навіть з уточненнями та поясненнями.

Але не поспішайте з висновками: моделі не порозумнішали. Насправді вони просто вивчили ці пастки. Їх творці включили подібні питання до навчальних наборів, або вручну позначили неправильні відповіді під час навчання з людською оцінкою (RLHF), або навіть просто обмежили можливі варіанти відповідей у чутливих контекстах.

Пошук подібних логічних пасток може бути достатньо цікавою розвагою, тож пропоную всім охочим прийняти участь у конкурс на найкращу пастку для LLM.

Було б дуже цікаво підготувати подібний огляд як ілюстрацію, що підтверджує висновки науковців з MIT. Особисто я в них вже майже повірив.

Але, окрім розваг з логічними пастками, залишається ще одне питання...

Навіщо це все?

Річ у тому, що для багатьох ентузіастів ШІ, та навіть і фахівців, робота ШІ та великі мовних моделей залишається Terra Incognita — чорною скринькою, непрогнозованою, складною та небезпечною.

І от тепер їх «нутрощі» починають набувати форми. Адже пінбол — це вже не так страшно!) А результат роботи виглядає більш очевидними, хоча і є досить випадковими.

Дослідження MIT показує, що ми можемо бачити не лише відповіді мовної моделі, а й шлях, яким вона до них дійшла.

Це відкриває три дуже практичні напрями. По-перше, інтерпретованість. Якщо раніше можна було лише здогадуватися, як модель дійшла до цього висновку, то тепер є шанс побачити її внутрішню динаміку.

Можна простежити, як вона змінює стани: коли вагається, коли впевнена, а коли — «пливе». Це як дивитися не на кінцевий результат, а на хід думки.

По-друге, прогнозування помилок. Якщо ми вміємо розпізнавати, що модель увійшла у нестабільний або помилковий режим міркування, ми можемо щось зробити. Наприклад, уточнити запит, перезапустити процес, запропонувати альтернативу. Це дозволяє уникати неправильних або небезпечних відповідей у критичних сферах, наприклад у медицині, праві чи фінансах.

По-третє, можливість покращення промптів. Ми починаємо бачити, що деякі формулювання «збивають» модель з логічного шляху. Це означає, що ми можемо навчитися писати більш стійкі запити, уникати конструкцій, які провокують помилки, або навіть навмисно впливати на траєкторію мислення моделі.

Висновок

Велика мовна модель — це не детектив, що логічно розплутує справу. Це кулька, що котиться прихованим рельєфом досвіду. І якщо ми знаємо, куди вона схильна скотитися — ми можемо нею керувати.

Іншими словами, мовна модель — це не магія і не справжній розум. Це система, яка рухається всередині свого латентного простору, покладаючись на звички, асоціації й приклади, які вона бачила раніше.

Вона помиляється не тому, що «тупа», а тому, що її шлях просто не привів до правильної відповіді цього разу.

І саме тому майбутнє взаємодії з ШІ залежить не від того, наскільки «розумними» стануть моделі, а від того, наскільки добре ми навчимося розуміти їхню поведінку — і передбачати, коли вони можуть зійти з курсу.

Бо контроль — це не про те, щоб ШІ мав свідомість. Це про те, щоб знати, коли й чому він збивається з правильного шляху.

(1) A Statistical Physics of Language Model Reasoning / arxiv.org/pdf/2506.04374

👍ПодобаєтьсяСподобалось6
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Ось тейк Гері Маркуса щодо сабжа (далеко не остання людина в світі ШІ, хто не знає):

www.theguardian.com/...​llar-ai-puzzle-break-down

Він там досить чітко змалював основну проблему ЛЛМ (і чому це все перетворилося на шахрайство).

Enjoy.

У Альтмана в останньому блозі схожі думки, тільки геть протилежні висновки)

Бо альтман шахрай.

Elizabeth Holmes x 100

Ну так а в чому проблема? ШІ робить те, на що його навчили. Аналогія з пінболом недоречна, бо там на кожний запуск кульки отримуємо просто рандом. А в ШІ weights тренуються, токени зі схожим векторним напрямом мають властивість спорідненості. У Ші є векторна пам’ять, rag, інтерпретатори і тд і тп.

Звісно, що є натреновані ваги й детерміновані вектори станів. Але процес вибору наступного токена стохастичний в llm. Та ж temperature напряму впливає на ентропію вибору, як наслідок стани моделі змінюються ймовірнісно, тому метафора з пінболом цілком доречна.

Так, вже зрозумів, що ви мали на увазі. Але якщо дивитись на кореляцію коли ми один і той самий запит даємо на вхід, то і на виході отримуємо приблизно ту саму відповідь. Точно так же, якщо в дифузійній моделі генеруємо 2 зображення з тим же промтом і сідом то отримуємо той самий результат. В цьому плані повна детермінованість.

Дивіться, я згоден, що temperature > 0 випадковість, temperature = 0 — on-rails shooter), але ж мова не про виключно випадковості, а про принцип руху по ландшафту

Аналогія з пінболом недоречна, бо там на кожний запуск кульки отримуємо просто рандом.

Ну... по-перше, аналогія не має відповідати на 100%, вона має ілюструвати певні аспекти. По друге, а чому в пінболі (фізичному) рандом? Квантових ефектів на такому різні немає, а різні ігрові сессії винакають через неможливість відтворити повністю початкові умови.

Аналогія з пінболом що ми послідовно запускаємо нейромережу на основі тільки що згенерованих даних (кожен новий запуск це влучання по м’ячику, отримали траєкторію, м’ячик повернувся назад, нова ітерація).

Ідея статті полягає у тому, що проводячи моніторинг того, як проводиться обчислення, можна виділити чотири групи, яким відповідають різним ситуаціям, які описані. Наприклад, ми задаємо питання «розкажи мені про функцію clone в Linux» Ми бачимо, що в процесі на етапі генерації відповіді діє на результат впливає якась частина вагових коефіціентів, яка незмінна. Потім задаємо питання «Що краще, Python чи Java» і ми бачимо, що на початку впливають одні коефіцієнти, потім інші, потім повертаємося до перших, потім знову другі, ... На ще одне запитання відповідь на відповідь впливають одні, потім другі, потім треті, потім четверті, ... і так далі (неповторно). А є це варіант, коли на результат впливає один набір коефіцієнтів, але відповідь неправильна.

цікаво відповів доктор Комаровський про те, як ШІ реагує на різні питання:
youtu.be/VtYzDivAFZg?t=741

— Логічний — послідовне, впевнене просування до відповіді,
— Обережний/перехідний — коли модель вагається між варіантами або шукає обхідні стратегії,
— Хаотичний — коли міркування починає «скакати», змінюючи траєкторії без стабільності,
— Помилковий — стан, у якому модель застрягає в хибному шаблоні.

Логічний — було багато тренувальних даних, треба їх повторить з невеличким трансформінгом
Обережний/перехідний — є конкуруючі тренувальні дані
Хаотичний — мало тренувальних даних, але на виході ± рівні ймоіврності
Помилковий — або тупіковий, коли мало тренувальних даних, але є альтернатива, яка найбільш йомвірна.

У дослідженні MIT аналізували лише приховані стани вже натренованих моделей, але ваше припущення цілком логічне й, можливо, вірне.

Ваш мозок працює так само, лише на порядки більше операцій в секунду, більше нейронних звязків, більші можливості для паралельних процесів.

Важко сказати, що «так само». Як на мене повністю по іншому, мозок це досить ефективна система навчання для ситуації обмеженої пам’яті та обмежених даних для навчання. Нейромережі це це досить ефективна система навчання у разі майже необмеженої пам’яті та необмежених даних для навчання.

Схожість процесу і там і там це фрикціонні автоколивання.

Отакої.

Прийшов якийсь х... перепрошую, Роман, з гори — і зробив десятки тисяч нейробіологів по всьому світу непотрібними.

Їм більше нема шо робить! Всьо! ВСЬО!

До речі, Романе — ви Нобелевський Комітет вже повідомили?

А мозок не так само навчався по еволюції? Не тільки в тілі людини а і в тілі проконсула, пургаторіуса і т.д. Методом спроб і помилок. Тільки вже не людина і підказувала а природа. Тому звісно він далекий до ідеалу.

А якщо припустити, що свідомість — це емержентна властивість, яка виникає по досягненню певного рівня складності обробки інформації?

Згідно з дослідженням бачимо лише поведінку, що керується статистикою — не самосвідомістю. Якщо подібне припущення і є потенційно правильним і навіть, якщо якась форма емерджентної свідомості вже виникла, її поки що не видно.

а в заголовку було тільки про «не думає — він грає», схоже буває про дитину кажуть)

Іноді корисно читати не лише заголовки)

Трохи математики що описує пошук того шляху (ще й з локальними trap в тому просторі) вже десь бачив в ютюб.
Тобто bate для мене був інший — зацікавило саме розгляд в категорії «думає / недумає» — хотів подивитися що вкладають в ту термінологію «думає» коли говорять відносно людини (як базу для «АІ не думає»). Тому вислів з «грає» і навів, як приклад такого антикритерію)

Так, цілком можливо, що й людина не думає, а «грає в пінбол», в мене така підозра, наприклад, виникла)

То занадто) дієслово є, а носія тієї дії нема

А якщо припустити, що свідомість — це емержентна властивість

це припущення нічого не додасть, бо, — все одно потрібна буде дефініція, чи опис терміна, поняття свідомості, її метрик, характеристик, щоб відрязняти від — несвідомості, і т.д.

і все швидко прийде туди де «філософські зомбі», кваліа, важка проблема свідомості, ..., - поруч з проблемою «свободи волі» та детерменізмом.

Метрики вбивають романтику)

Підписатись на коментарі