Фізичні принципи в основі функцій нейрону

Сучасні нейронні мережі досягли значних висот в різних сферах — від класифікації та генерування картинок та написання текстів до найкращого гравця в Go та прогнозування 3D структури білків. В основі всіх цих систем лежить концепція штучного нейрона запропонована в 40-ві роки минулого століття та доповнена в наступні роки. Однією з особливостей цього нейрона і нейромереж побудованих на ньому є необхідність завжди мати дві частини сигналів для забезпечення його навчання. Перша частина — це вхідні сигнали, друга — необхідний (правильний) вихідний сигнал або значення оцінки досягнення певного результату. Помилка знайдена при порівнянні згенерованого нейроном сигналу та наданого бажаного вихідного сигналу (чи надана оцінка) використовується для розрахунку нових значень ваг вхідних сигналів. І хоча такий підхід до навчання дає свої результати для певних типів задач, чи не накладає цей підхід додаткових обмежень на нейронну мережу і інтелектуальну систему побудовану на її основі? Тобто, чи є цей підхід до навчання оптимальним з точки зору функцій системи та законів фізики, чи є просто однією з більш-менш працюючих варіацій. Повторюсь, цей підхід є дуже ефективним для певного класу задач. І для цього класу задач він навіть перевершує можливості людського розуму. Але що якщо в цьому підході є штучно закладені обмеження, які призводять ефективності в цих задачах, але можуть нам завадити створити справжній сильний штучний інтелект, здатний реалізовувати всі особливості людського інтелекту.

Щоб розглянути це питання пропоную почати з загального підходу. Оптимальна будова кожної системи залежить від двох основних чинників: функцій, які реалізує дана система, та фізичних особливостей нашого Всесвіту (законів фізики), які лежать в основі реалізації цих функцій.

Розглянемо першу частину — функції інтелектуальної системи. Будь-яка інтелектуальна система має реалізовувати щонайменше такі дві функції: детектування певних об’єктів та генерування відповідних сигналів, що дозволять досягти певних цілей системи. Можливо додати і інші функції (в залежності від визначення інтелектуальної системи), але ці є базовими (інші функції неможливо реалізувати без цих двох) і мають бути притаманними будь-якій інтелектуальній системі.

Короткий відступ

Вже реалізовано принаймні два типи підходів до створення інтелектуальних систем, які можуть реалізовувати дані функції — звичайне програмне забезпечення та штучні нейронні мережі. Ці два типи підходів відрізняються способом, яким задаються функції залежності між вхідними та вихідними сигналами. Для звичайного ПЗ ці функції задаються програмістом вручну при створенні програми. Для сучасних нейронних мереж ці функції система віднаходить самостійно в період навчання. Кожен з цих підходів в свій час розглядали/розглядають як достатній для створення сильного штучного інтелекту. Проте, ні для першого ні другого підходів ще не знайдено можливості одночасного безперервного, мультимодального, гетерогенного навчання, яке демонструє мозок живих істот. (Під одночасним гетерогенним навчанням мається на увазі можливість одночасного навчання системи використовуючи некероване навчання та навчання з підкріпленням). Можливо для реалізації даних властивостей необхідно створити третій тип інтелектуальних систем.

Друга частина — фізичні особливості нашого Всесвіту. По-перше, наш світ має причинно-наслідкову залежність між явищами. Ця залежність вивчається різними науками на різних рівнях ієрархії об’єктів і явищ (атоми, молекули, живі організми, суспільства, зоряні системи, тощо). По-друге, наш Всесвіт є (згідно спеціальної теорії відносності Альберта Ейнштейна) чотиривимірним (три координати простору та одна часу). Відповідно кожен об’єкт у цьому світі є чотиривимірним об’єктом (змінюється як в просторі так і в часі). По-третє, всі об’єкти нашого світу є ієрархічними об’єктами. На кожному рівні ієрархії (для спрощення почнемо відлік від певного початкового рівня — елементарних частинок) об’єкти цього рівня є процесами взаємодії об’єктів попереднього рівня ієрархії. Тобто атом це процес взаємодії елементарних частинок, молекула це процес взаємодії атомів ... суспільство це процес взаємодії його членів, будь-яка поточна ситуація це процес взаємодії об’єктів, які є частиною цієї ситуації, тощо. (Надалі замість терміну «об’єкт» чи «ситуація» інколи, як замінник їм, може використовуватися термін «процес».) По-четверте, будь-який об’єкт може проявити себе по відношенню до іншого об’єкта лише через пряму чи опосередковану взаємодію з ним. І ця взаємодія змінює певні характеристики другого об’єкту. Причому характер цієї зміни залежить від властивостей першого (впливаючого) об’єкту. Наприклад: якщо один м’яч вдаряється об інший, то зміна напрямку руху та швидкості другого м’яча буде залежати від маси, швидкості та напрямку руху першого м’яча; якщо ми розглядаємо якийсь об’єкт, то зображення сформоване на сітківці нашого ока буде залежати від форми цього об’єкту та властивостей його поверхні.

Отже, визначивши основні параметри (функції та необхідні фізичні закони) функціонування будь-якої інтелектуальної, системи спробуємо визначити принцип роботи базових елементів цієї системи — нейронів. Як ми згадували раніше, кожен об’єкт є чотиривимірним і проявляється по відношенню до іншого об’єкта через пряму чи опосередковану взаємодію з ним. Отже будь-який об’єкт та його зміни (у них відображені і причинно-наслідкові зв’язки між властивостями об’єкту) будуть проявлятися по відношенню до інтелектуальної системи у вигляді певної послідовності комбінацій сигналів згенерованих її рецепторами (тими вхідними елементами системи, що отримують прямі чи опосередковані впливи від цього об’єкту). І ці послідовності комбінацій сигналів для одного і того самого об’єкту будуть мати унікальні для цього об’єкту частини. Відповідно все що потрібно для того щоб інтелектуальна система змогла налаштуватися на детектування певних об’єктів Всесвіту це вхідні послідовності комбінацій сигналів, що виникають при взаємодії системи з цими об’єктами. Нейрони при цьому налаштовуватимуться на детектування унікальних для об’єктів частин цих послідовностей. Справедливим є відповідно і те, що для маніпулюванням будь-яким об’єктом в певній ситуації інтелектуальна система має генерувати певні послідовності комбінацій сигналів. Відповідно, для забезпечення реалізації функцій цієї системи вона має складатися з елементів (нейронів), які здатні детектувати певні послідовності комбінацій сигналів та генерувати при цьому принаймні одну вихідну послідовність сигналів.

Яким чином кожен нейрон зможе детектувати послідовності комбінацій сигналів? Враховуючи четверту зі згаданих вище особливостей нашого Всесвіту — через отримування впливів від рецепторів чи інших нейронів. А для того щоб це детектування було відносно стабільним, то ці впливи мають передаватися через відносно стабільні зв’язки між відповідними рецепторами чи нейронами. Тобто, для налаштування на детектування певної послідовності комбінацій сигналів кожен нейрон повинен мати можливість утворювати зв’язки з іншими нейронами. І саме від характеристик і взаємного положення цих зв’язків на частині нейрону, що детектує послідовності, буде залежати те, яку саме послідовність комбінацій сигналів детектуватиме нейрон. Відповідно сигнал, який генерує кожен нейрон при детектуванні певного об’єкту (процесу), залежатиме від того наскільки послідовність комбінацій сигналів, що надходять до нього через наявні зв’язки, відповідає тій можливій послідовності комбінацій сигналів, яка здатна спричинити максимальний вплив на цей нейрон через зазначені звязки. А це, в свою чергу, залежить від того наскільки той об’єкт, який зараз детектується нейроном, подібний до того, на детектування якого цей нейрон налаштувався раніше. Один та той же об’єкт може по різному взаємодіяти з нашою інтелектуальною системою, а також з нею можуть взаємодіяти і інші, схожі на нього, об’єкти. Отже послідовності комбінацій сигналів згенеровані рецепторами будуть певною мірою відрізнятися від еталонної (тієї, на детектування якої налаштувався нейрон), а отже відрізнятиметься і згенерований системою сигнал. І в принципі цей сигнал тоді буде відображати лише ймовірність того, що зараз відбувається взаємодія з певним об’єктом, та подібність об’єкту, з яким зараз відбувається взаємодія, до раніше детектованого та вивченого об’єкту. Назвемо комбінацію цих двох показників точністю визначення певного об’єкту.

Тепер розглянемо, яку фізичну реалізацію може мати найбільш ефективний детектор здатний на таке детектування та «запам’ятовування» об’єктів (унікальних послідовностей комбінацій сигналів). Найефективніша і найпростіша форма елементарного детектора для постійного, безперервного детектування певної послідовності комбінацій сигналів це форма конвеєра. Сигнали від рецепторів мають приходити на цей конвеєр в певних місцях. Чим ближче до кінця послідовності в часі приходить сигнал — тим ближче до «голови» конвеєра має бути з’єднання з рецептором, що детектує цей сигнал. Таким чином детектована цим детектором послідовність комбінацій сигналів буде кодуватися («запам’ятовуватися») в з’єднаннях між рецепторами та тілом (конвеєром) детектора. Коли всі сигнали сходяться по конвеєру до його «голови», то цей детектор має згенерувати відповідний сигнал. Чим більша відповідність детектованої послідовності комбінацій сигналів до тієї, на детектування якої налаштований даний детектор, тим більше сигналів сходяться разом. Відповідно генерується більший сигнал про точність визначення певного об’єкту. Ось так цей конвеєр може виглядати:



А якщо врахувати більше можливих обставин взаємодії з певним об’єктом (різних поточних ситуацій, різних послідовностей взаємодій та ін.) та оптимізацій при його детектуванні, то вийде щось схоже на такий розгалужений конвеєр:



А з врахуванням необхідності передачі згенерованого сигналу (та обмежень наявних при формуванні біологічних систем) буде щось схоже на це:




Для штучних систем ми можемо використовувати багато паралельних конвеєрів для передачі згенерованих сигналів до інших детекторів. Схожість отриманого нейрона з біологічним нейроном обумовлена виключно однаковістю функцій, які вони реалізовують, та фізичними принципами, що лежать в основі реалізації цих функцій. Це приблизно те саме як схожість між оком та фотоапаратом.

Тепер поміркуємо як в цьому конвеєрі визначати, в якому саме місці має бути з’єднання, по якому сигнал від певного рецептора системи надходить до цього конвеєра. Почнемо з того, що конвеєр визначає певну послідовність комбінацій сигналів. Як же визначити, чи новий сигнал входить в цю послідовність, та в якому місці послідовності він має бути? Ми це можемо зробити проаналізувавши заданий сигнал та послідовність і кореляцію між ними. Але кожен з нас вже є досить складною інтелектуальною системою. Для базової частини цієї системи — детектора нейрона ця задача має вирішуватися простіше. Він не може (згідно четвертої із зазначених вище фізичних властивостей) визначити належність сигналу до послідовності не отримуючи цей сигнал. Отже спочатку треба зробити з’єднання між рецептором та конвеєром. А потім, якщо сигнал від цього з’єднання надходитиме до «голови» конвеєра синхронно (в більшості випадків) з іншими сигналами послідовності, то ми вгадали з сигналом і місцем з’єднання рецептора з конвеєром. Таке з’єднання треба посилювати. Якщо ні — то ми не вгадали. Таке з’єднання треба послабити або взагалі розірвати і спробувати знову в іншому місці.

Зведемо базові властивості нейрона в загальний список:

  • Основною властивістю нейронів є детектування послідовностей комбінацій вхідних сигналів та генерування відповідних послідовностей вихідних сигналів.
  • Кожен нейрон налаштовується на детектування певної, унікальної групи подібних послідовностей комбінацій сигналів, які відповідають певному об’єкту (чи групі подібних об’єктів/процесів) середовища.
  • Генерований нейронами сигнал є показником ймовірності детектування певного об’єкту середовища та його подібності до тих об’єктів середовища, які раніше детектував цей нейрон.
  • Детектування об’єктів, з якими взаємодіє нервова система в процесі існування організму здійснюється нейронами за рахунок утворених між ними взаємозв’язків, через які до детектуючого нейрону надходять відповідні послідовності комбінацій сигналів.
  • Нейрони встановлюють зв’язки між собою випадковим чином, проте ця випадковість є обумовленою структурою взаємопов’язаності (взаємним розміщенням) нейронів.
  • Посилення чи послаблення та руйнування взаємозв’язків між нейронами залежить від статистичної частоти, з якою сигнал через певний зв’язок є частиною послідовності комбінацій сигналів, що найчастіше призводить до генерації найсильнішого вихідного сигналу цим нейроном. Сама ця послідовність комбінацій сигналів утворена всіма сигналами, що надходять до нейрону через всі його вхідні зв’язки з іншими нейронами.
  • Послідовні групи нейронів налаштовуються на детектування своїх послідовностей комбінацій сигналів послідовно. Спочатку налаштовується перша група. Потім, коли вихідні сигнали нейронів цієї групи стануть утворювати статистично взаємопов’язані послідовності комбінацій сигналів, на детектування цих послідовностей зможе налаштуватися наступна група нейронів, для яких ці послідовності є вхідними сигналами.
  • При взаємодії з певним об’єктом середовища до нейрону, що детектує цей об’єкт можуть надходити сигнали від нейронів, що безпосередньо детектують деякі унікальні властивості цього об’єкту — основні сигнали, так і від нейронів, які детектують інші об’єкти, пов’язані в поточній ситуації з детектованим об’єктом — допоміжні сигнали.

Отже, закони фізики не зобов’язують нас мати пару сигналів (вхідні та відповідні вихідні) для забезпечення можливості налаштування нейронів на детектування певного об’єкту/процесу. Все що потрібно для цього це лише вхідна послідовність комбінацій сигналів, яка генерується рецепторами чи іншими нейронами системи при взаємодії з певним об’єктом. Це обумовлено тим, що ця послідовність вже містить в собі всі необхідні для детектування певного об’єкту дані. При такому підході навчання кожного нейрона є локальним, він не очікує результатів обрахунків сигналів нейронами, що ідуть за ним. Звісно, якщо необхідно побудувати інтелектуальну систему, яка буде здатна не лише до простої класифікації об’єктів, а і до більш складних задач, то, при такому підході, потрібні додаткові властивості для нейронів цієї системи (модулюючі та деактивуючі типи сигналів між нейронами), а також відповідна архітектура самої системи. Проте ці властивості можна легко додати. Описаний підхід до навчання нейронів автоматично забезпечує некероване навчання для всіх нейронів системи, а використання модулюючих впливів дозволяє в цій же системі додатково реалізувати навчання з підкріпленням для необхідних груп нейронів. Також даний тип нейронів, завдяки локальності алгоритму їх навчання, дозволить будувати інтелектуальні системи з архітектурою будь-якої складності.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Описаний підхід до навчання нейронів автоматично забезпечує некероване навчання для всіх нейронів системи

Це або брехня, або код покажи.

Нейронні клітини та штучні нейромережі ніяк не пов’язані. Більше того, як працюють нейронні клітини у комплексі нам невідомо, якісь моделі, які можна було б хоч чомусь навчити, і де худо-бідно штучні нейрони емулювали би живі клітини, мені невідомі.

Це або брехня, або код покажи.

Ви маєте повне право обирати те, як вам ставитися до представлених у статі роздумів, базуючись на своєму світогляді і знаннях. Якщо ви знайшли в цих роздумах логічні помилки, то можете вказати на них. І ми можемо подискутувати. Симуляції описаних принципів для детектування простих обєктів я проводив. Я готовий дискутувати щодо описаних принципів детектування обєктів, але розкривати спосіб їх реалізації в коді не вважаю за розумне.

> Similar topics
> Порадьте велотренажер

ШІ на DOU щось знає :)

Відсутність хоч якись реальних формул і обговорення характеру реакції нейрона (наприклад, чому вона зазвичай логаріфмічна) зводить користь статті нанівець.

Мета даної статті показати загальний підхід до розв’язання проблеми детектування об’єктів з точки зору простих фізичних принципів в основі цього процесу. Метою статті не було надати детальну інструкцію чи показати завершену математичну модель для безпосередньої реалізації описаної ідеї на конкретному апаратному забезпеченні. Як на мене, то це тема для зовсім іншої статі.

Підписатись на коментарі