Чому моделі на кшталт ChatGPT полюбляють роздумувати
Попередній текст ми завершили на тому, що нейромережі полюбляють роздумувати, та навіть вміють виправляти самі себе, якщо дати їх простір на роздум:
Сьогодні ми розберемося у причинах такої поведінки.
Також рекомендую подивитись відео від Andrej Karpathy: автор розбирає із нуля, як працюють трансформери на кшталт ChatGPT. У тексті ми лише охоплює невеличкі фрагменти із цього «айсбергу» інформації.
Як у своїй основі працюють генератори тексту
Раніше ми дійшли до висновку, що нейромережі по факту роблять лише дві речі: приймають токени та повертають токени.
Нас цікавить, як саме моделі повертають, а точніше — генерують ці токени. Принцип роботи — це таке собі «доміно».
Модель створює перший токен. Окей, що далі?
- Щоб створити другий токен — вона дивиться на перший (та на запит користувача).
- Щоб створити третій токен — вона дивиться на перші два.
- Щоб створити четвертий — на перші три. І так далі.
Ще одна важлива деталь, яка пояснює, чому моделі кожного разу генерують різні відповіді на одні й ті ж самі запити.
Ось модель вже згенерувала чотири токени. Їй потрібно передбачити п’ятий. Вона використає перші чотири для того щоб зібрати можливі варіанти наступного, п’ятого.
Але нейромережа не буде обов’язково брати найімовірніший токен (3962). Натомість вона обере один із декількох можливих варіантів.
Це, своєю чергою, створить зовсім іншу комбінацію токенів. Базуючись на них, модель буде «передбачати» шостий токен іншим шляхом — і генерація каскадом піде зовсім в інший бік. Такий собі «ефект метелика», натурально.
І ось ми підходимо до суті: якщо просити модель відповісти сходу, одним словом, «не роздумуючи», то вірогідність галюцинацій буде значно вища.
Тому що моделі потрібно вкласти усю логіку лише у два токени.
Висновок: Якщо моделі дати «подумати», у неї буде більше власних токенів. Більше токенів — більше «контексту» для коректної відповіді. І це вже дає гарний результат.
Мода на «вдумливі» моделі
Цей феномен дуже гарно пояснює, а звідки взагалі взялась мода на моделі, які користуються «внутрішніми роздумами» (о3 від OpenAI чи R1 від Deepseek).
Так, наприклад, о3 свого часу вдалося подолати AGI-тест. Про успіх R1 також казати не потрібно. А О1 під час тестів показала здатність вести «нечесну гру».
Тому це не дивно, що GPT 4.5 стала останньою моделлю у лінійці, що не вміє «роздумувати». Та і самі резони її виходу гарно підмітили у коментарях:
Читайте: OpenAI відмовляються від моделі o3 на користь GPT-5
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів