Розрив між Deep Learning і когнітивними здібностями людини. Як його подолати?

Привіт! Я Богдан Пономар, CEO спільноти AI HOUSE. Ми є частиною екосистеми, яку будує технологічна компанія Roosh. Roosh створює ML/AI проєкти, а також інвестує в інноваційні ідеї у цій галузі. Також до нашої екосистеми входять венчурна студія Pawa, венчурний фонд Roosh Ventures, технологічний університет SET University, стартапи Reface, Zibra та компанія Neurons Lab.

Нещодавно ми запустили проєкт AI for Ukraine: організовуємо онлайн-лекції від міжнародних експертів зі штучного інтелекту та збираємо пожертви для української армії та фонду «Повернись живим». Наша мета — підтримати українців під час війни. Військових — донатами, а розробників, інженерів та ресерчерів — цікавим і корисним контентом.

Першу лекцію циклу прочитав Йошуа Бенжіо — професор Монреальського університету, засновник і науковий керівник Квебецького інституту штучного інтелекту, керівник програми CIFAR Learning in Machines & Brains, один із провідних експертів у галузі AI. У 2022 році він став комп’ютерним науковцем із найвищим h-індексом у світі.

Професор розповів про свій дослідницький проєкт, який спрямований на те, щоб подолати прірву між сучасним AI на основі Deep Learning та людським інтелектом з притаманним йому творчими здібностями. Повний запис виступу можна подивитися тут за донат, а у статті пропонуємо основні тези лекції.

Питання системного узагальнення

Сучасне Machine Learning має проблеми із надійністю — через низьку продуктивність представлення OOD (Out-Of-Distribution) зразків. Ми звикли покладатися на гіпотезу IID (Independent & Identically Distributed) про те, що тестовий розподіл такий самий, як і навчальний. Але якщо не робити такого припущення, то потрібна деяка альтернативна гіпотеза для здійснення узагальнення.

Звідси виникає питання для дослідження: як саме можуть змінюватися розподіли? Розглянемо, як зазвичай із такими завданнями справляються люди — адже це може дати натхнення для розвитку методів навчання AI.

Лінгвісти вже багато років вивчають питання системного узагальнення, яке легко побачити в природній мові. Людина може взяти знайомі поняття і розташувати їх у новому порядку — при цьому сенс вислову залишається цілком зрозумілим.

Ми вміємо створювати навіть такі конфігурації, які мали б нульову ймовірність за навчальним розподілом. Наприклад, водій узагальнює свої знання про ПДР у рідній країні на інші країни, де ці правила, можливо, дещо відмінні. Втім, Deep Learning поки що не досягає подібних результатів. Це ілюструє природу розриву між найсучаснішими системами AI та людським інтелектом.

Композиційне представлення знань

У нас є великі мовні моделі, але вони потребують такої величезної кількості даних, що втрачається сенс їхнього застосування. Це проблема складності зразка — кількості прикладів, які необхідні для навчання.

Тому слід говорити не про кількісне масштабування, а про якісний розвиток Deep Learning. Виникають такі питання:

  • Як можна узагальнити ці системи для нових налаштувань поза розподілом?
  • Як швидко вони можуть адаптуватися до цих налаштувань (трансферне навчання)?

Ці питання безпосередньо пов’язані із здатністю людей встановлювати та виявляти причинно-наслідкові зв’язки. Адже людина може робити нові висновки, поєднуючи та рекомбінуючи фрагменти своїх попередніх знань. Ця композиційна здатність до представлення знань у природній мові також дозволяє говорити про напрямок розвитку майбутніх поколінь AI.

Свідома обробка інформації

Все, про що ми говорили вище, пов’язане з однією ключовою здібністю людей, яка наразі є недосяжною для AI. Це свідома обробка інформації, яку здійснює наш мозок.

Наприклад, що відбувається, коли водій сідає за кермо у чужій країні? Уявімо, що він звик до лівостороннього дорожнього руху — але тепер має адаптуватися до правостороннього. Він не може перенести свій попередній досвід цілком, адже тоді машина опиниться на зустрічній полосі. Але він може зосередитися на завданні, постійно нагадувати собі про різницю у правилах руху. Його попередній досвід водіння у цьому допоможе.

Таким чином, коли людина стикається із новою ситуацією, вона звертається до свідомої уваги, щоб на ходу комбінувати відповідні фрагменти знань, аналізувати їх та зрештою успішно виконати своє завдання. Така свідома обробка інформації за своєю природою відрізняється від звичайної, якою ми керуємося у рутинних справах (див. книжку «Мислення швидке й повільне» Д. Канемана).

Сучасні системи Deep Learning успішно відтворюють швидке мислення — з простою послідовністю дій, коли не потрібно розв’язувати небанальну задачу. Але відтворення повільного мислення, більш складного та алгоритмічного, — виклик для майбутнього розвитку галузі.

Для цього потрібно організувати знання у такий спосіб, щоб можна було легко виокремлювати з навчального розподіла ті фрагменти, які придатні для повторного використання під час розв’язання нової задачі. Аналогія — програмний код, який складається із незалежних модулів та функцій.

Причинно-наслідковий зв’язок

Людина здатна відрізняти два ракурси своїх знань про світ:

  • ті, які залежать від незмінних фізичних законів;
  • ті, які пов’язані з умовами, що динамічно змінюються.

Це відрізняється від звичайного припущення IID. Адже речі, які зберігаються в розподілах і пов’язані із законами, дійсно залишаються незмінними. Речі, пов’язані із змінними умовами, — відповідно, ні.

Отже, мета Deep Learning — виявити таке представлення знань, яке відображатиме причинно-наслідковий зв’язок змінних факторів. Іншими словами: від того, якими були дії, залежитиме те, якими будуть результати.

Індуктивні упередження

Людина може отримувати та передавати багато інформації за допомогою мови. Найбільш придатним для вербалізації є знання, які спираються на індуктивні упередження, як-от застосування абстрактних іменованих об’єктів.

Наприклад, я тримаю у долоні м’ячик. У цьому речені є іменовані об’єкти: я, долоня та м’ячик. У кожного з них є свої характеристики — наприклад, координати у просторі. І якщо я раптом розтисну долоню, то за допомогою них можна прогнозувати координати м’ячика у наступні моменти часу падіння. Такий прогноз є точним, хоч і базується лише на кількох змінних.

Але такий підхід не спрацює, якщо застосувати його на рівні пікселів. Неможливо точно передбачити стан пікселя сам по собі. А от стан пікселя, який відноситься до абстрактного іменованого об’єкта на кшталт м’ячика — можна. Адже статистична структура таких іменованих об’єктів відрізняється від звичайних пікселів.

До того ж причинно-наслідкові зв’язки між абстрактними об’єктами можна використовувати повторно. Так, внаслідок розтискання долоні може падати як м’ячик, так і телефон чи інший предмет — механізм залишатиметься таким самим.

GFlowNets

У нейронауці є фактор випадковості: у певній ситуації людині може прийти як одна думка, так й інша. Тож існує дискретний стохастичний аспект мислення, який неможливо врахувати заздалегідь. Тоді з точки зору Machine Learning нам потрібна ймовірнісна нейронна мережа, яка зможе генерувати думки з обраного розподілу — як байєсів апостеріор.

Універсальний інструмент ймовірнісного моделювання — GFlowNets. Такі мережі дозволяють моделювати розподіли за складеними об’єктами, а також оцінити такі величини, як-от нормалізуючі константи або умовні ймовірності. Уявити таку структуру зручніше всього за допомогою гіпографів.

Як GFlowNets генерують такі структуровані об’єкти, як графи? Уже кілька років нам відомі мережі, які приймають на вхід не набір векторів фіксованого розміру, а граф. Тепер же ми кажемо про те, щоб отримувати граф як вихідні дані. Цей процес подібний до генерації думок у мозку. Щоб створити композиційну структуру, ми додаємо один елемент за раз. Тобто на вхід приймаємо частково сконструйовану думку — і на вихід виводимо розподіл, який зумовлюватиме всі можливі потенційні подальші дії. Так крок за кроком отримуємо потрібний результат.

GFlowNets можуть бути організовані як різні модулі, які спеціалізуються на різних типах знань. На вихід вони видають нормалізовані оцінки, конкуруючи між собою. Причому кожний модуль ділиться інформацією з іншими — так формується короткострокова робоча пам’ять. Зрештою одна із оцінок вибирається стохастично — як-от процес ініціювання свідомої обробки у мозку людини.

Модель причинно-наслідкових зв’язків

Головний виклик при роботі з такою нейронною мережею — коректно виявити та змоделювати причинно-наслідкову структуру. Адже якщо просто взяти дві змінні A та B, між якими є кореляція — то не відомо, яка з них викликає іншу. Але можна припустити, що цей зв’язок зміниться при втручанні зовнішнього фактору. Наприклад, якщо ми змінемо стан А, і при цьому зміниться й В, то, ймовірно, це А має вплив на В, а не навпаки.

Причинно-наслідковий зв’язок є асиметричним. Якщо не розібратися у ньому досконало, можна припуститися великих помилок. Наприклад, виникне неоднозначність: чи справді нові ліки є причиною одужання пацієнта, чи людина вилікувалася в деякий інший спосіб?

Отже, потрібно будувати такі моделі, які можуть охопити весь набір можливих причинно-наслідкових пояснень. Люди у своєму мисленні здатні висувати подібні гіпотези. Щодо AI, це завдання вирішують байєсівські апостеріорні моделі причинно-наслідкових зв’язків.

Висновки

Поки що розрив між Deep Learning і когнітивними здібностями людини є значним. Адже люди можуть узагальнювати свої знання, запускати повільне мислення та розв’язувати за допомогою цього небанальні задачі, свідомо обробляти інформацію, розуміти причинно-наслідковий зв’язок між явищами.

Втім, провідні AI-експерти зі всього світу працюють над тим, щоб подолати цю прірву і удосконалити здібності штучного інтелекту. Натхнення для цього дає вивчення принципів роботи мозку людини. Команда Йошуа Бенжіо в Монреалі проводить дослідження з ймовірнісними нейронними мережами, аби наблизити створення Deep Learning наступного покоління.

Корисні джерела до теми:

Подивитися запис лекції профессора Бенжіо можна на сайті AI for Ukraine. Також запрошую доєднуватися до перегляду наступних вебінарів — підтримуватимемо армію та розвиватимемося у галузі AI разом.

Розклад наступних лекцій:

  • ср, 21.09. — «Prompting, Metadatasets, and Zero-Shot NLP» by Alexander Rush, Assoc. Professor at Cornell, Researcher at Hugging Face;
  • чт, 29.09. — «Multimodal Grounded Learning with Vision and Language» by Anna Rohrbach, Research Scientist at UC Berkeley;
  • ср, 5.10. — «Towards Practical Reinforcement Learning: Offline Data and Low-Adaptive Exploration» by Yu-Xiang Wang, Assistant Professor of Computer Science at UC Santa Barbara, Director of Scalable Statistical Machine Learning Lab;
  • вт, 11.10. — «Modeling Personal Experiences Shared in Online Communities» by Maria Antoniak, PhD Candidate at Cornell University
  • ср, 19.10. — «Towards causal representation learning» by Francesco Locatello, Senior Applied Scientist at Amazon Web Services.
👍ПодобаєтьсяСподобалось2
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Я вважаю, у людини накопичувальна база знань. Вона народжується і починає збір інформації та інформації про інформацію. Все це — лише статистика. А далі, людина зустрічає ситуацію, рішення якої є у її статистиці та обирає це рішення. Якщо рішення нема — людина шось генерує
та робить собі замітку — «поцікавитися на цей рахунок».
Структури самої по собі нема. Є якась форма коливань частот і хтось вважає її структурою. Хтось навіть створює інформацію про цю структуру чи структури але це лише щоб запамятати та памятати та згадувати було зручніше.
Я припускаю навіть, що у кожної людини свої структури та своя інформація про них, створена від народження, накопичена власним досвідом. Тому не можна вирізнити якусь загальну структуру. А ось із частотами застосування рішеннь навпаки — вони дають сходні форми сигналів. Але узагальнення цих форм навряд чи дасть універсальне рішення.
Тому як вирощувати AI то вирощувати як дитину. Але тому краще вирощувати дітей, а не іскінів. Не треба перенаселювати планету ще й гріючимися кремнієвими чіпами. Бо розтопите льди. Замість відкидати людей та винаходити якихось «AI-людоподібних» краще програмувати біологічні нейрони звичайних людей на кращу роботу. Програмування тут тісно повязане з оптимізацією процессів запоминання/згадування.
І це все що вам потрібно — навчить людей користуватися власним мозком.

Люди краще передбачають (коли декілька величезних ймовірних моделей майбутнього легко поєднують в голові щоб побачити що саме буде), люди краще помиляються. Деякі навіть не згадують, куди треба відкривати кран, щоб потекла вода, а просто крутять то в одну сторону, то в іншу. Коли вода потече — ото і є правільно. Є люди оптімісти — бачать біле на чорному. А інші песімісти — бачать чорне на білому. Реалісти порівнють обидва варіанти.
Люди опрацьовуть паралельно кожен піксел ока. У оці тотально багато пікселів. Не вистачить невеличкому AI обладнання. А ось у головному мізку нейронів стільки що я й не вірю що їх стільки як у вікіпедії написано. Не вистачить ніякого обладнання. А ось природа таку мініатюрізацію вже давно у себе запровадила.
Тому є пропозиція — візьміть тоненькі wires та вставте людям у мозок. І хай люди на 200% стануть спритнішими. І робота буде для всіх.
А клятих неживих роботів (яких тільки амортизувати та списувати капіталістам вигідно) давайте здамо на металобрухт.
Бонус: із часом можливе переселення душ до більш надійних сховищ ніж ті що нам природа надала.

Розрив між Deep Learning і когнітивними здібностями людини

Цікаво чи вляпався би AI в Дія.City ?

Підписатись на коментарі