Маленькі мовні моделі (Small Language Models, SLM): GPT-4o-mini
У той час як ми вже звикли до терміну великих мовних моделей (Large Language models, LLM), водночас із цим ми можемо спостерігати як мовні моделі трансформуються під нові задачі, ідеї, потреби та вирішують проблеми із попереднім поколінням моделей.
Цікаво спостерігати як нові ідеї надають нову форму метаморфуючи мовні моделям, а їх здібності перетікають консолідуючи можливості у новій формі. Все почалось із того що спочатку мовні моделі почали рости збільшуючи набір даних для навчання та що збільшило розмір самих моделей як результат. Це призвело до створення монстрезних розмірів, потужніші моделі, які на жаль стали на стільки великими що потребує спеціалізоване і дуже дороге обладнання, яке тільки для роботи самої моделі споживає стільки електроенергії що може дозволити лише дуже велика компанія. Цей майже неконтрольований ріст підштовхнув дослідження у протилежний бік — зменшення моделей.
Заздалегідь перепрошую за ламану мову, оскільки живу майже 10 років у Штатах.
Квантизація
Для зменшення розміру існуючих моделей застосовують квантизакцію, що зменшує якість через округлення вагів збережених у число із плаваючою комою в 32 бітному форматі. Цікаво що дійшовши до цієї крайності в стисненні до
SLM: Спеціалізовані моделі на задачі чи домені інформації, зменшення якості
Якщо ми раніше очікували, що одна розумна модель зможе робити та знати усе. Ми прийшли до ідеї зменшення моделі трансформуючи у невеликі спеціалізовані моделі: виділяючи тільки знання яких сфокусовані на одній задачі (наприклад, генерувати SQL), чи домені інформації (на приклад біології).
Або ж, моделі із загальними знаннями про світ які можуть дещо поступаються якості великим моделям та натомість набагато економічнішими в споживанні памʼяті та електроенергії і як результат зменшуючи вартість.
Консолідація
В той час як виникають моделі спеціалізовані на задачах чи домені інформації також спостерігається тенденція до консолідації можливостей моделей. Обидві можуть виглядати як протиріччя, але вони непогано уживаються.
Приклад консолідації мовних моделей слугує те що вони все частіше зʼявляються із підтримкою декількох мов програмування (виділяємо програмування, але поєднуємо декілька мов програмування), і також вони часто дуже не погано вміють генерувати SQL. Мовні моделі для чатів все краще починають говорити різними мовами. Моделі що раніше тільки говорили тепер можуть аналізувати ще й зображення або коли модель може генерувати зображення із тексту і навпаки (Мультимодальні моделі). Це все приклади того як здібності які раніше були у декількох моделей тепер доступні в одній консолідованій.
GPT-4o-mini
Ця маленька мовна модель є продуктом наступного покоління моделей що знаються на світі із знаннями до 2023 року, дещо поступається моделі GPT-4o чи Google Gemini Ultra по якості, але суттєво дешевша. Також ця модель вміє аналізувати, зображення, (та у найближчому майбутньому відео та аудіо), та має розмір контекстного вікна у вже не настільки вражаюче але все ж таки суттєво велике вікно у 128к токенів (gpt3.5 мала 8к) та максимум у 16к генерованих вихідних токенів. Ця модель підтримує багато мов включаючи Українську мову, швидше відпрацьовує, підтримує function calling, демонструє гарні результати генерування SQL та JSON що робить її чудовим кандидатом для Agentic RAG. В цій моделі покращенна якість токенізатору що робить її більш економічною, але все ж таки зверніть увагу що будь-які мови відмінні від англійської споживатимуть більшу кількість токенів, на приклад українська на туж кількість символів зʼїсть приблизно у три рази більше токенів. GPT-4o-mini не тільки значно перевищує якість GPT-3.5-turbo але й значно дешевша.
Порівняння якості та цін
GPT-4o-mini модель має бути гарним конкурентом Google Gemini 1.5 Flash чи Anthropic Claude 3 Haiku. Ця модель по суті є заміною GPT-3.5-turbo так як вона і якісніша і при цьому дешевша.
1M input tokens: | Pricing | Pricing with Batch API |
GPT-4o-mini | $0.150 | $0.075 |
GPT-3.5-turbo-0125 | $0.500 | $0.250 |
Локальні альтернативи
Альтернативою моделей що можна запускати локально на власному обладнанні і найближче схожі за характеристиками що були випущені нещодавно є Phi3, Mistral-NeMo-12B, Llama3.1-8B та інші. Ці моделі можливо запустити локально на одному компʼютері і в порівнянні із іншими споживатимуть відносно невелику кількість GPU памʼяті. На приклад Mistral NeMo-12B потребує близько 25 ГБ, a Llama3.1 — 16 ГБ. Що на справді для домашнього користувача все ж таки дуже велика цифра, але найменша для такої якості. І якщо у вас буде гарна відеокарта чи Apple Mac компʼютер
LLM-тренди
Ми бачимо тренд на зростання розміру LLM моделей, на приклад OpenAI GPT 3.5 із 175B (175 Мільярдів) параметрів в наступній ітерації виросла у GPT4 вже із розміром у 1Т (Трильйон) параметрів скакнувши на декілька порядків, і продовжують працювати над вражаючого не виданого до цього часу розміру 1.5T (або навіть більше 2Т чи 5Т) GPT5 моделлю. Випуск GPT5 покаже тенденцію росту і якщо це буде 1.5Т, це буде демонструвати сповільнення темпів росту. В цьому напрямі наразі можуть працювати тільки гіганти, але рано чи пізно у GPT5 чи пізніше процес постійного збільшення розміру моделей досягнуть фінансового барʼєру навіть для великих компаній, що буде якщо не зупинено то при наймані уповільнить темпи зростання великих мовних моделей. Збільшення розміру моделей призвано збільшити якість, але як на мене очевидно що після досягнення барʼєру буде ще один етап збільшення якості вже не за рахунок суттєвого збільшення розміру самої моделі, а вже за рахунок створення вичищених синтетичних датасетів попередніми моделями.
Висновки:
ШІ розвивається у всіх напрямках: додатки-обгортки Agentic RAG постійно покращують автоматичний пошук більш якіснішого контексту під запит користувача та знаходять нові методи вдосконалення перевірки якості відповідей від існуючих моделей без модифікації самої моделі. Коли справа доходить до покращення самої моделі ми бачимо ріст розміру вже і так великих моделей із одного боку, і тільки великі компанії можуть дозволити собі таке задоволення, але вони мають досягнути барʼєру та сповільнення росту розміру в якийсь момент часу. В той же час ми спостерігаємо розвиток маленьких моделей, що не тільки зменшились в розмірі, але й покращуються у якості, як за рахунок вдосконалення і вичищення датасуту, але й за рахунок створення спеціалізованих моделей що фокусуються лише на деяких задачах чи домені інформації. В цьому напрямку ми будемо бачити в найближчому майбутньому все більше маленьких моделей де вже можуть грати ігроки середнього розміру в чому опен-сорс спільнота можливо матиме значний вплив як рушійна сила створюючи здорову конкуренцію що сприятиме покращенню якості і постійному розвитку SLM.
Підтримка
Якщо вам сподобалася ця стаття і ви хочете підтримати мене:
- Натисніть «Подобається 👍» та додайте «До обраного ⭐️» мою статтю; це допоможе мені. Також слідкуйте за мною на DOU щоб отримувати останні статті.
- Дайте відгук у коментарях нижче, навіть якщо це просте «дякую» — це допоможе мені розуміти, що моя робота була не марною. Якщо є помилки, скажіть де, а найголовніше як виправити, не претендую на роль всезнайки.
- Шукаю ентузіастів та однодумців, що знаються на Python і хотіли б втілити описані ідеї у моїх статтях в життя, і, можливо, навіть зробити сумісний проєкт: Напишіть мені в LinkedIn. На разі працю над PoC, який використовує описані принципи у моїх статтях. Буду радий поділитись своїми напрацюваннями і знаннями.
- Я готую статтю яка по великому рахунку використовує NLP для побудувати графу знань із вільного тексту, який зберігається у БД для того щоб потім бути використаним в Agentic RAG чатботі. Чи було би вам цікаво стати соовтором? Треба вичитати перевірити, виправити де не правильно, може оновити якщо щось застаріло чи додати нове. Це буде продовженням до цієї та попередньої статті. Прошу написати мені персональне повідомлення LinkedIn / Discord якщо ви хочете по співпрацювати на цю тему.
8 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів