Чому нейромережі прекрасно справляються на складних задачах і «ламаються» на простих
Мені зустрілося дуже цікаве відео від Andrej Karpathy, де він пояснює із нуля як складені
У автора взагалі дуже цікавий канал, рекомендую ознайомитись: в одному відео, він, наприклад, будував GPT з нуля, а в іншому — сам навчав GPT-2. Але досить реклами)
Ми охопимо дуже малу частину оригіналу, бо відео триває 3,5 години. Але рекомендую подивитись, хоча б фоном.
Чому дуже прості питання «ламають» передові моделі?
Відомий секрет, штучний інтелект насправді робить тільки дві речі: приймає токени та повертає токени. Просунуті
Покроково, будь-який текст який ми вводимо у нейромережу перетворюється у токени:
Для метакоманд існують власні токени.
Ті ж самі токени генеруються у відповідь. І цей базовий механізм є причиною, чому нейромережа може не справлятися із тривіальними задачами:
- вирахувати, що більше — 9.11 чи 9.9;
- виконати просту вправу на «вимовляння»;
- чи порахувати крапки у реченні:
Ці крапки перетворюються на доволі неочевидну комбінацію токенів для машини. Вона просто не розуміє що із ними робити і які токени повертати назад:
Підкреслене — то крапки у вигляді токенів. Тобто це комбінація, які у перекладі на «мову» токенів означають177 крапок.
Втім, натомість нейромережа чудово напише код, який порахує ці крапки за вас — що насправді вимагає значно глибшої експертизи:
Цей кейс насправді дуже яскравий приклад, наскільки різне «мислення» у людини і машини. Що тривіальне для нас, для нейромережі складе — і навпаки. Модель у прикладі — це ChatGPT-4o, тобто це не якась застаріла ітерація, це флагман сучасного ШІ.
Чому ж їй так складно обробити саме цю комбінацію токенів? Точно ніхто не скаже, але прийнята версія:
Бо модель цього не навчили
Нейромережу не вчили рахувати крапки у реченні — вона знає аналіз творів певного поета, чи основи квантової механіки, чи інші, значно складніші речі. Це буквально «зашито» у її параметри. Вона це пам’ятає.
Додатково: Деякі сторінки із Вікіпедії моделі відтворюють із фотографічною точністю, бо нейромережі на них вчилися по декілька циклів.
Але, коли нейромережа отримує токени на незнайому тему, вона «не знає», що повернути. Згадуємо: для моделі усе є токенами, воно просто їх приймає та повертає, нічого більше. І через своє «незнання» вона галюцинує, і повертає неправильні токени.
Було ціле розслідування на тему: чому моделі вважають, що 9.11 > 9.9. Проблема виявилась у тому, що моделі вчилися на бібліографічних документах, а там така логіка, що 9.11 таки більше ніж 9.9. І це дуже заплутує нейромережу.
Це підводить до іншого цікавого феномена: моделі погано відповідають короткими реченнями. Але причину розповімо наступного разу, бо там також все не так тривіально: треба пояснювати, як саме нейромережа генерує відповіді.
Наостанок, якщо бажаєте, є окремий топік, де можна розповісти: чого ви досягли з AI? Там ділимося кейсами — цікавими, складними, смішними.
13 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів