ШІ у лабіринті міста: чому великі мовні моделі не бачать шляхів

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Спитайте у великої мовної моделі, як проїхати від метро Святошин до Контрактової площі в Києві, або від Центрального парку до Таймс-сквер у Нью-Йорку.

На зображенні може бути: карта та текст

Ви отримаєте досить пристойні інструкції. Я питав у GPT-4, так і було! Але що буде, якщо якийсь вид транспорту, наприклад, метро, не працює, або якась вулиця перекрита на ремонт, чи з’явився новий об’їзд?

Навіть якщо додати цю інформацію в контекст запиту, мовна модель не складе ваш маршрут правильно і, скоріш за все, дасть вам невірну інформацію.

Чому?

Великі мовні моделі не мають повної картини світу, вони лише передбачають наступні токени завдяки статистичним зв’язкам, що є всередині їхньої структури.

Саме таке дослідження провели вчені Массачусетського технологічного інституту, які довели, що великі мовні моделі не мають когерентної картини світу!

Так, вони прекрасно орієнтуються в Нью-Йорку, дають точні ходи в іграх типу Connect чи Отело, але тільки в межах отриманої під час навчання інформації.

Це означає, що, навіть якщо модель створює інструкції, які виглядають правильно, вона насправді не має цілісної картини світу.

Тобто, мовні моделі не можуть адаптуватися до змін, як-от перекриття вулиць чи нові маршрути, оскільки їхні відповіді базуються на ймовірнісних зв’язках між словами, а не на реальному уявленні міської структури чи об’єктивних просторових знаннях.

«Я був здивований тим, як швидко продуктивність погіршилася, щойно ми додали об’їзд. Якщо ми закриємо лише 1% можливих вулиць, точність одразу впаде з майже 100% до лише 67%», — сказав один із дослідників.

Завдання показало, що трансформери можуть напрочуд добре виконувати певні завдання, не розуміючи правил. Що, в принципі, й так було очевидно :)

Але я все ж таки так і не зрозумів, чому вони очікували від великих мовних моделей орієнтування в просторі!

Багато людей мають такий самий «топографічний кретинізм», але чомусь ніхто не обговорює статистичні зв’язки між нейронами їхнього мозку.

Адже існує прекрасний алгоритм Дейкстри, який чудово прокладає маршрути між двома точками в межах будь-якої закладеної інфраструктури доріг.

Невже це проблема, якщо велика мовна модель порадить вам звернутися до спеціалізованого додатка, щоб прокласти новий маршрут, який враховує все? Адже саме так і зробить середньостатистична людина.

Тобто вимагати орієнтування в просторі та мати в голові цілісну картину світу від штучного інтелекту — цілком нормально, а людям воно ні до чого?

Але залишимо це на совісті науковців із Массачусетського технологічного інституту. І, до речі, забув сказати, що дослідження частково фінансувалося Гарвардом. Думаю, це було того варте.

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Чим далі інформація від моменту часу її отримання, а інформація це розбіжність між тим що було і тим що є, тим більш вона стає не точною.

Ось посилання на публікацію:
news.mit.edu/...​-world-understanding-1105

Моя стрічка у фейсбуці, в основному про ШІ, підписуйтесь
www.facebook.com/belyaev.andrey

Підписатись на коментарі