Постнавчання LLMs: від базових генераторів до розумних помічників
Усім привіт! Я — Дмитро Кузьменко, навчаюся в аспірантурі за спеціальністю «Комп’ютерні науки» в НаУКМА, де також викладаю та керую студентськими дослідженнями. Активно підтримую українську АІ-спільноту, менторю молодих інженерів, виступаю на міжнародних конференціях і беру участь у дослідницьких проєктах. Окрім академічної діяльності, я очолюю АІ-напрям в українському стартапі, який спеціалізується на масштабованих рішеннях з великими мовними моделями (LLM) і генеративним АІ.
У статті я поясню, чому LLM не працюють ефективно «з коробки» і як постнавчання перетворює їх на корисних, логічних та етичних агентів. Розповім про основні методи та підходи, як навчають моделі міркування (reasoning models), та як розвиватиметься цей домен у найближчі роки.
Чому «сирі» моделі з коробки — це ще не все
Сучасні LLM є втіленням архітектури трансформерів. Вони здатні генерувати текст, який іноді важко відрізнити від людського. Але, як показує практика, без додаткового доопрацювання така модель може плутати факти, демонструвати упередження, давати нелогічні відповіді або просто бути не дуже корисною у прикладних сценаріях.
Водночас попередньо навчена (претренована) мовна модель — це лише фундамент. Справжня сила таких моделей проявляється лише внаслідок постнавчання (post-training) — процесу шліфування навичок моделі, постановки логіки, адаптивності, етичної узгодженості.
Сьогодні постнавчання — це не одна техніка, а цілий арсенал: від навчання з підкріпленням (reinforcement learning/RL) із людським фідбеком до мультимодального об’єднання моделей. Саме завдяки цим стратегіям LLM перестають бути генераторами випадкових фраз та наближаються до агентів, які можуть міркувати, адаптуватися й працювати в багатомодальному, змінному середовищі.
Джерело: A Survey on Post-training of Large Language Models
Починаючи з 2018 року, постнавчання стало необхідною складовою розвитку великих мовних моделей. Саме тоді, з появою проривних архітектур BERT і GPT, домен NLP пережив свій «момент AlexNet» — вибух моделей глибинного навчання вже в текстових задачах, а не тільки в комп’ютерному зорі. BERT відкрив еру двонапрямного розуміння тексту, тоді як GPT започаткував новий клас генеративних претренованих моделей. Наступні роки принесли експерименти з адаптацією: prompt-tuning, prefix-tuning, а згодом — RLHF, який заклав основу для таких проривів, як ChatGPT.
У
Як працює постнавчання: базові техніки
У березні вийшла гарна оглядова стаття, присвячена постнавчанню мовних моделей. Автори топології PoLM «A Survey on Post-training of Large Language Models» виділяють такі техніки:
- Вирівнювання (Alignment): RLHF, RLAIF, DPO та RLVR.
- RLHF — класичний підхід з людським фідбеком;
- RLAIF — автоматизація фідбеку через сильніші AI-моделі;
- DPO — найпростіший спосіб оптимізувати вподобання без моделі винагороди.
- RLVR — верифіковані нагороди для кращого опанування складних задач.
- Reasoning: Self-Refine і Reinforcement Learning for Reasoning. Моделі навчаються критично оцінювати себе або будують логічні ланцюжки через формалізацію міркування як процес рішень Маркова (наприклад, DeepSeek-R1). Нещодавно також вийшла нова стаття, варта окремої уваги.
- Інтеграція та адаптація: мультимодальність (MiniGPT-4, LLaVA), RAG-системи (REALM, RA-DIT), об’єднання моделей (Model Soup, SMEAR). Це дає LLM змогу не лише писати, а й «бачити», «шукати» та комбінувати знання з різних джерел.
- Efficiency: Model Compression (техніки, такі як квантизація та обрізання параметрів, для зменшення розміру моделі без значної втрати продуктивності) та Parameter-efficient Fine-Tuning (PEFT) — стратегії, які дозволяють більш ефективно донавчати моделі.
- Fine-tuning: парадигма, спрямована на покращення точності моделі для конкретних завдань:
- Supervised Fine-Tuning (SFT) — використання розмічених датасетів для оптимізації продуктивності моделі в певних завданнях;
- Adaptive Fine-Tuning — застосування instruction tuning та prefix-tuning для зміни поведінки моделі для кращого задоволення потреб користувачів;
- Reinforcement Fine-Tuning (ReFT) — інтеграція RL для поступового покращення моделі на основі сигналів нагород.
Далі сфокусуюся на перших трьох техніках, а також розповім про оптимізацію.
Детальніше про Supervised Fine-Tuning я попросив розповісти колегу, Павла Лисого, Machine Learning Engineer в Universe Group з екосистеми Genesis.
Павло Лисий, Machine Learning Engineer
Один із найбазовіших методів постнавчання великих мовних моделей — Supervised Fine-Tuning (SFT). Його суть проста: ми беремо базову модель, натреновану на величезній (але часто «брудній») інтернет-базі, і дотреновуємо її на меншому, але якісному датасеті, створеному вручну.
Що відбувається під час SFT:
- Базовий рівень: модель уже знає загальні мовні шаблони, але її відповіді можуть бути неточними, токсичними або просто безкорисними.
- Якісний датасет: замість мільйонів випадкових текстів модель тепер вчиться на ретельно відібраних парах «запит-відповідь», створених людьми.
- Ідеальна взаємодія: кожен приклад у цьому датасеті — зразок того, як модель має відповідати: коректно, безпечно та корисно.
Як готують датасет:
Люди-анотатори отримують детальні інструкції (іноді на десятки сторінок), де пояснюється:
- що вважати ідеальною відповіддю (наприклад, стиль, структура, глибина);
- як обробляти небезпечні запити (NSFW, насильство, дискримінація);
- яких тем уникати (наприклад, медичні поради без підтверджених джерел).
У результаті модель вчиться бути безпечним, чесним і корисним асистентом, а не просто «говорити, що завгодно».
Чому це важливо:
Без SFT модель може видавати токсичні, упереджені або абсурдні відповіді. Але після тонкого налаштування вона краще розуміє, як допомагати людині, а не просто генерувати текст. Приклад такої інструкції зображений на малюнку нижче.
Детальніше процес описаний у статті Training Language Models to Follow Instructions with Human Feedback.
SFT — лише перший крок. Далі йде RLHF (навчання з підкріпленням на основі людського фідбеку), який ще точніше налаштовує модель.
Як моделі вирівнюють: RLHF, RLAIF та DPO
Щоб LLM працювала як корисний помічник, її потрібно не лише навчити структур мови, а й узгодити з людськими очікуваннями — процес, що називається «вирівнюванням» (alignment). Цей етап особливо важливий, коли йдеться про безпеку, етичність і корисність моделі.
RLHF (Reinforcement Learning with Human Feedback) став фундаментальним проривом у цій галузі. Його структура складається з трьох фаз: спочатку модель SFT генерує кілька варіантів відповіді; дата-анотатори (люди) ранжують ці варіанти за якістю; далі тренується модель винагороди, яка вчиться оцінювати якість відповіді так, як це робить людина. Нарешті, модель донавчається відповідно до сигналів винагороди. Саме ця схема дала початок InstructGPT, а згодом — ChatGPT і GPT-4. Примітка: на практиці це працює гірше, ніж хотілося б — модель підлаштовується під функцію нагород і породжує галюцинації та неправдиві відповіді.
RLAIF (Reinforcement Learning with AI Feedback) — логічне продовження RLHF, де роль людини як оцінювача бере на себе інша сильніша модель. Це здешевлює масштабування, адже прибирає потребу в мільйонах людських оцінок. Такі підходи використовують Gemini, OpenChat та багато внутрішніх проєктів від Anthropic і Meta.
DPO (Direct Preference Optimization) — новий і перспективний напрям. Тут повністю відкидається модель винагороди: натомість ми маємо пари відповідей (краща/гірша), і оптимізуємо основну модель так, щоб вона відтворювала людські вподобання напряму. DPO вже демонструє якість, подібну до RLHF, але з набагато меншою складністю. Наприклад, модель Zephyr навчена повністю через DPO.
DPO також має численні модифікації:
- Token-level DPO — для точного контролю тексту;
- rR-DPO — для коротких відповідей;
- RRHF — для роботи з ранжованими списками.
Загалом, DPO — це шлях до простішого, стабільнішого і швидшого вирівнювання.
RLVR (Reinforcement Learning with Verifiable Rewards) — це метод навчання моделей, який використовує верифіковані винагороди для оцінки їхньої роботи. Він спрямований на покращення продуктивності у задачах, де можна автоматично оцінити правильність рішень, наприклад, у математиці чи програмуванні. Знову ж таки, цей контріб’юшн маємо завдяки DeepSeek-R1.
Джерело: A Survey on Post-training of Large Language Models
Як LLM навчають міркувати: Self-Refine та Reinforcement Reasoning
Навчити модель відповідати — це одне. Навчити її думати — зовсім інше. Міркування в LLM — це здатність логічно переходити від факту до факту, будувати аргументи, планувати та розв’язувати задачі в декілька кроків. І тут працюють дві головні стратегії: самокорекція та RL.
Self-Refine — це здатність моделі оцінити свою відповідь, знайти помилку й виправити її. Існує чимало способів:
- Intrinsic — модель оцінює свої ланцюги міркування сама, як у RCI Prompting або Self-Critique.
- External — модель використовує зовнішні засоби перевірки: наприклад, запускає код або перевіряє факт за базою знань (CRITIC, Self-Debug).
- Fine-tuning — модель спеціально навчається самоперевірки (REFINER, SPA).
Ці методи працюють навіть без RL: модель просто вчиться вдосконалювати себе в кілька ітерацій.
RL for Reasoning — це нова ера моделей, які здатні «розмірковувати». Приклад — DeepSeek-R1-Zero. Вона не використовує SFT, а вчиться через RL із нуля. Як це працює? Кожен крок міркування формалізується як стан в ланцюзі рішень Маркова, модель діє в цьому середовищі, отримує винагороди за правильні кроки (stepwise reward modeling), а хибні шляхи обрізаються (trajectory pruning).
Ключова техніка, яка сколихнула не так давно всю
Так само і R1-Zero досягає якості на рівні GPT-4 у математиці та логічних задачах, але без fine-tuning на прикладах — завдяки групам експертних траєкторій, які вивчила модель. У підсумку RL для міркування — це заміна прикладів і репрезентацій, буквально завчених через SFT, на RL-based мислення з нуля.
Джерело: A Survey on Post-training of Large Language Models
Ефективність посттренованих моделей (PoLMs)
Зі зростанням розміру моделей постає питання: як зробити їх ефективнішими? Тут постнавчання пропонує цілий набір оптимізацій.
Компресія моделей — це перший напрям. Використовуються:
- Квантизація (GPTQ, SmoothQuant): перехід з 16/32-бітних до
8-бітних значень. - Прунинг (SparseGPT, Wanda): видалення малозначущих параметрів.
- Low-rank approximation (LoSparse, TensorGPT): спрощення вагових матриць шляхом зниження їхнього рангу.
Ці методи дозволяють запускати потужні LLM навіть на бюджетних GPUs без значної втрати якості.
Параметро-ефективний fine-tuning (PEFT) — другий важливий підхід. Замість оновлення всієї моделі — оновлюється лише частина:
- LoRA, AdaLoRA — найпоширеніші low-rank методи, що дозволяють створювати адаптери для моделей.
- Prompt-tuning / Prefix-tuning — модифікація вхідних ембедингів.
- Hybrid PEFT — поєднання кількох стратегій (UniPELT, AUTOPEFT).
Дистиляція знань (Knowledge Distillation) — третій набір методів. Ідея проста: є велика, повільна модель (вчитель), і маленька, швидка — учень. Ми хочемо, щоб учень поводився як вчитель за якістю, але при цьому зберігав свій малий розмір:
- Black-box distillation — навчаємось лише з відповідей (наприклад, GPT-4 → GPT-2). Тобто є лише приклади генерацій/розмірковувань вчителя, на яких ми вчимо учня.
- White-box — беремо ще й проміжні активації, як у DeepSeek-R1 — іншими словами, дивимось під капотом в архітектуру моделі вчителя і перевикористовуємо певні елементи.
Ці підходи дозволяють розгортати фундаментальні PoLMs у мобільних пристроях, embedded-девайсах та інших low-resource середовищах, зберігаючи логіку та якість відповідей.
Разом ці три напрями (компресія, PEFT та дистиляція) роблять PoLMs не просто розумними, а й практичними.
Інтеграція, універсальність і виклики агентності
Постнавчання — це не лише про покращення якості відповідей. Воно перетворює LLM на гнучкий інструмент, здатний адаптуватися до контексту, працювати з різними типами даних і об’єднувати знання з різних джерел. Воно дає універсальність, але разом із цим зростають і виклики.
По-перше, питання мультимодальності. Сучасні LLM все частіше мають доступ не лише до тексту, а й до зображень, відео, аудіо чи навіть 3D-даних. Це потребує складної архітектури: окремих енкодерів (CLIP, EVA, SigLIP), спеціальних конекторів (як у LLaVA, BLIP-2, MiniGPT-4) та merge-стратегій.
Наприклад, fusion-based методи дозволяють одночасно аналізувати і текст, і зображення в одному ланцюжку роздумів. Це відкриває шлях до задач, які раніше були недоступними — аналіз вебінтерфейсів, пояснення наших улюблених мемчиків, генерація відеореакцій. Більше задач і модальностей — відповідно більше викликів у побудові правильної архітектури, постнавчання та оптимізації.
По-друге, адаптація до нових доменів. Навіть найкраща LLM робитиме помилки в праві, медицині чи науці, якщо не буде адаптована. Тут на допомогу приходять методи на кшталт Retrieval-Augmented Generation (RAG) — модель витягує релевантні факти з баз знань або пошуковика перед генерацією. Також важливими є методи Knowledge Editing (MEND, EvEdit), які дозволяють локально змінити знання моделі без перенавчання. Наприклад, виправити дату виборів або додати новий медичний факт.
І нарешті, злиття моделей (model merging). У випадку, коли є багато спеціалізованих моделей, постає завдання їх об’єднати: або на рівні ваг (Model Soup), або на рівні відповідей (LLMBlender), або архітектурно (Mixture-of-Experts, SMEAR). Ці техніки дозволяють мати одну гнучку систему замість десятків вузьких моделей. Наприклад, DeepSeek та MetaGPT поєднують експертні знання в одній структурі.
Однак тут теж є певні питання. Щоб об’єднані моделі працювали узгоджено, постає потреба у кращих політиках маршрутизації (routing), уникненні конфліктів знань, а також у посткалібрації. Це вже не просто
Джерело: A Survey on Post-training of Large Language Models
Приклади: де це вже працює
Найкращий спосіб оцінити вплив постнавчання — подивитися на моделі, які вже стали невіддільними частинами наших повсякденних рутин.
ChatGPT — це перша масова демонстрація сили alignment. GPT-3 без постнавчання був просто генератором слів: плутаним, іноді цікавим, часто — некерованим. Але після SFT, RLHF і DPO ми отримали асистента, здатного відповідати логічно, етично й людяно. Від хаосу — до порядку.
DeepSeek-R1 — один із найкращих прикладів reasoning-моделі. Вона показала, що навчити LLM міркувати можливо не лише через приклади, а й через RL. R1-Zero пройшла шлях від «сирого» декодера до аналітика, здатного розв’язувати складні математичні задачі, причому без SFT, а лише через покрокове навчання з підкріпленням і RLVR.
LLama 3 — моделі Meta з відкритим кодом, які демонструють гнучкість підходів. Вони підтримують fine-tuning, DPO, RAG, PEFT, знання злиття і мультимодальність. Завдяки відкритості й масштабам ці моделі стали основою для десятків агентних застосунків у дослідженнях, бізнесі й освіті.
Llama 4 — попри неоднозначне сприйняття на бенчмарках від світової спільноти, ця нова модель відкритого доступу від Meta є мультимодальною MoE LLM, в якій консолідовані дуже багато з перелічених в цій статті технік. Зокрема, автори запропонували покращений вид позиційного кодування і його відсутності для збільшення контекстного вікна моделей до 10 мільйонів токенів.
Agentic-системи, як OpenManus чи AutoGPT, будуються на посттренованих моделях. Вони комбінують кілька PoLMs (одна — для міркування, інша — для планування чи доступу до знань) у єдиний цикл дії. Без постнавчання ці моделі просто не функціонували б: генерація коду, контроль логіки та зовнішні API — усе це стало можливим лише завдяки точному вирівнюванню та навчанню розмірковувати.
Чому це складно
Попри успіхи постнавчання залишається складною технічною задачею. Багатоетапне міркування потребує великої кількості кроків, памʼяті й стратегії. Не кожна модель «готова думати» — дослідження scaling laws мовних моделей [1, 2, 3] прямо кажуть: міркування виникає лише після певного порогу розміру та якості бекбоуну.
Посттреновані моделі часто важчі, повільніші й потребують більше памʼяті. Навіть компресія і дистиляція не завжди дають потрібного балансу. Оптимізація — складна й залежить від задачі: іноді краще точніше, іноді — швидше.
Є нині й певний скептицизм серед відомих
Що далі
Постнавчання стало ключем до трансформації LLM — від генераторів тексту до агентів мислення. ChatGPT, DeepSeek-R1, LLaVA, Gemini, Grok — це лише перші приклади того, як модель навчається бути корисною, логічною, адаптивною. Ми побачили, що постнавчання — це не один рецепт, а багатогранна екосистема: alignment, reasoning, efficiency, integration.
Попри це, найцікавіше — попереду. Очікуємо нові foundation models, які зможуть самостійно адаптуватись до нових доменів, вчитися міркувати без прикладів, критично аналізувати свої помилки й діяти як справжні агенти. Але щоб цього досягти, потрібні нові алгоритми — менш ресурсомісткі, більш контекстно-чутливі, і від самого початку проєктовані з урахуванням безпеки й адаптивності.
Майбутнє PoLMs — це не просто «розумніші моделі», це архітектура нової форми інтелекту: універсального, адаптивного і безпечного. Тепер виклик — зробити це доступним для всіх.
Як людина, яка балансує між науковими дослідженнями та роботою в індустрії, я дуже вірю у необхідність взаємодії для цього дослідників, інженерів, університетів і комерційного середовища. У НаУКМА ми зараз проактивно пробуємо переносити свій досвід взаємодії з компаніями, як, наприклад, із Genesis, в таку дослідницьку сферу, а також спільно створювати матеріали науково-популярного типу.
Цікаво почути вашу думку: як гадаєте, на чому має бути фокус майбутніх спільних досліджень у сфері AI?
34 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів