Маленькі мовні моделі (Small Language Models, SLM): GPT-4o-mini


У той час як ми вже звикли до терміну великих мовних моделей (Large Language models, LLM), водночас із цим ми можемо спостерігати як мовні моделі трансформуються під нові задачі, ідеї, потреби та вирішують проблеми із попереднім поколінням моделей.

Цікаво спостерігати як нові ідеї надають нову форму метаморфуючи мовні моделям, а їх здібності перетікають консолідуючи можливості у новій формі. Все почалось із того що спочатку мовні моделі почали рости збільшуючи набір даних для навчання та що збільшило розмір самих моделей як результат. Це призвело до створення монстрезних розмірів, потужніші моделі, які на жаль стали на стільки великими що потребує спеціалізоване і дуже дороге обладнання, яке тільки для роботи самої моделі споживає стільки електроенергії що може дозволити лише дуже велика компанія. Цей майже неконтрольований ріст підштовхнув дослідження у протилежний бік — зменшення моделей.

Заздалегідь перепрошую за ламану мову, оскільки живу майже 10 років у Штатах.

Квантизація

Для зменшення розміру існуючих моделей застосовують квантизакцію, що зменшує якість через округлення вагів збережених у число із плаваючою комою в 32 бітному форматі. Цікаво що дійшовши до цієї крайності в стисненні до 1-го біта квантизація також привела нас до ідеї створення нових моделей, без зтиснення які від початку 1-бітні. Але це тема яка набуде популярності трохи пізніше, і не є темою цієї статті. Про найпростіший спосіб квантизації моделі читайте у моїй попередній статті.

SLM: Спеціалізовані моделі на задачі чи домені інформації, зменшення якості

Якщо ми раніше очікували, що одна розумна модель зможе робити та знати усе. Ми прийшли до ідеї зменшення моделі трансформуючи у невеликі спеціалізовані моделі: виділяючи тільки знання яких сфокусовані на одній задачі (наприклад, генерувати SQL), чи домені інформації (на приклад біології).

Або ж, моделі із загальними знаннями про світ які можуть дещо поступаються якості великим моделям та натомість набагато економічнішими в споживанні памʼяті та електроенергії і як результат зменшуючи вартість.

Консолідація

В той час як виникають моделі спеціалізовані на задачах чи домені інформації також спостерігається тенденція до консолідації можливостей моделей. Обидві можуть виглядати як протиріччя, але вони непогано уживаються.

Приклад консолідації мовних моделей слугує те що вони все частіше зʼявляються із підтримкою декількох мов програмування (виділяємо програмування, але поєднуємо декілька мов програмування), і також вони часто дуже не погано вміють генерувати SQL. Мовні моделі для чатів все краще починають говорити різними мовами. Моделі що раніше тільки говорили тепер можуть аналізувати ще й зображення або коли модель може генерувати зображення із тексту і навпаки (Мультимодальні моделі). Це все приклади того як здібності які раніше були у декількох моделей тепер доступні в одній консолідованій.

GPT-4o-mini


Ця маленька мовна модель є продуктом наступного покоління моделей що знаються на світі із знаннями до 2023 року, дещо поступається моделі GPT-4o чи Google Gemini Ultra по якості, але суттєво дешевша. Також ця модель вміє аналізувати, зображення, (та у найближчому майбутньому відео та аудіо), та має розмір контекстного вікна у вже не настільки вражаюче але все ж таки суттєво велике вікно у 128к токенів (gpt3.5 мала 8к) та максимум у 16к генерованих вихідних токенів. Ця модель підтримує багато мов включаючи Українську мову, швидше відпрацьовує, підтримує function calling, демонструє гарні результати генерування SQL та JSON що робить її чудовим кандидатом для Agentic RAG. В цій моделі покращенна якість токенізатору що робить її більш економічною, але все ж таки зверніть увагу що будь-які мови відмінні від англійської споживатимуть більшу кількість токенів, на приклад українська на туж кількість символів зʼїсть приблизно у три рази більше токенів. GPT-4o-mini не тільки значно перевищує якість GPT-3.5-turbo але й значно дешевша.

Порівняння якості та цін

GPT-4o-mini модель має бути гарним конкурентом Google Gemini 1.5 Flash чи Anthropic Claude 3 Haiku. Ця модель по суті є заміною GPT-3.5-turbo так як вона і якісніша і при цьому дешевша.

1M input tokens:PricingPricing with Batch API
GPT-4o-mini$0.150$0.075
GPT-3.5-turbo-0125$0.500$0.250

Локальні альтернативи

Альтернативою моделей що можна запускати локально на власному обладнанні і найближче схожі за характеристиками що були випущені нещодавно є Phi3, Mistral-NeMo-12B, Llama3.1-8B та інші. Ці моделі можливо запустити локально на одному компʼютері і в порівнянні із іншими споживатимуть відносно невелику кількість GPU памʼяті. На приклад Mistral NeMo-12B потребує близько 25 ГБ, a Llama3.1 — 16 ГБ. Що на справді для домашнього користувача все ж таки дуже велика цифра, але найменша для такої якості. І якщо у вас буде гарна відеокарта чи Apple Mac компʼютер M-покоління, її реально запускати на домашньому компʼютері. NeMo-12B по якості здебільшого перевищує попередників Llama3.0-8B та Gemini2-9B. Головною перевагою NeMo є можливість запускати на власному обладнанні, але по якості вона дещо поступається GPT-4o-mini.

LLM-тренди

Ми бачимо тренд на зростання розміру LLM моделей, на приклад OpenAI GPT 3.5 із 175B (175 Мільярдів) параметрів в наступній ітерації виросла у GPT4 вже із розміром у 1Т (Трильйон) параметрів скакнувши на декілька порядків, і продовжують працювати над вражаючого не виданого до цього часу розміру 1.5T (або навіть більше 2Т чи 5Т) GPT5 моделлю. Випуск GPT5 покаже тенденцію росту і якщо це буде 1.5Т, це буде демонструвати сповільнення темпів росту. В цьому напрямі наразі можуть працювати тільки гіганти, але рано чи пізно у GPT5 чи пізніше процес постійного збільшення розміру моделей досягнуть фінансового барʼєру навіть для великих компаній, що буде якщо не зупинено то при наймані уповільнить темпи зростання великих мовних моделей. Збільшення розміру моделей призвано збільшити якість, але як на мене очевидно що після досягнення барʼєру буде ще один етап збільшення якості вже не за рахунок суттєвого збільшення розміру самої моделі, а вже за рахунок створення вичищених синтетичних датасетів попередніми моделями.

Висновки:

ШІ розвивається у всіх напрямках: додатки-обгортки Agentic RAG постійно покращують автоматичний пошук більш якіснішого контексту під запит користувача та знаходять нові методи вдосконалення перевірки якості відповідей від існуючих моделей без модифікації самої моделі. Коли справа доходить до покращення самої моделі ми бачимо ріст розміру вже і так великих моделей із одного боку, і тільки великі компанії можуть дозволити собі таке задоволення, але вони мають досягнути барʼєру та сповільнення росту розміру в якийсь момент часу. В той же час ми спостерігаємо розвиток маленьких моделей, що не тільки зменшились в розмірі, але й покращуються у якості, як за рахунок вдосконалення і вичищення датасуту, але й за рахунок створення спеціалізованих моделей що фокусуються лише на деяких задачах чи домені інформації. В цьому напрямку ми будемо бачити в найближчому майбутньому все більше маленьких моделей де вже можуть грати ігроки середнього розміру в чому опен-сорс спільнота можливо матиме значний вплив як рушійна сила створюючи здорову конкуренцію що сприятиме покращенню якості і постійному розвитку SLM.

Підтримка

Якщо вам сподобалася ця стаття і ви хочете підтримати мене:

  1. Натисніть «Подобається 👍» та додайте «До обраного ⭐️» мою статтю; це допоможе мені. Також слідкуйте за мною на DOU щоб отримувати останні статті.
  2. Дайте відгук у коментарях нижче, навіть якщо це просте «дякую» — це допоможе мені розуміти, що моя робота була не марною. Якщо є помилки, скажіть де, а найголовніше як виправити, не претендую на роль всезнайки.
  3. Шукаю ентузіастів та однодумців, що знаються на Python і хотіли б втілити описані ідеї у моїх статтях в життя, і, можливо, навіть зробити сумісний проєкт: Напишіть мені в LinkedIn. На разі працю над PoC, який використовує описані принципи у моїх статтях. Буду радий поділитись своїми напрацюваннями і знаннями.
  4. Я готую статтю яка по великому рахунку використовує NLP для побудувати графу знань із вільного тексту, який зберігається у БД для того щоб потім бути використаним в Agentic RAG чатботі. Чи було би вам цікаво стати соовтором? Треба вичитати перевірити, виправити де не правильно, може оновити якщо щось застаріло чи додати нове. Це буде продовженням до цієї та попередньої статті. Прошу написати мені персональне повідомлення LinkedIn / Discord якщо ви хочете по співпрацювати на цю тему.

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

👍ПодобаєтьсяСподобалось8
До обраногоВ обраному5
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Шукаю співавтора: Knowledge Graph, NLP, NER
Це буде продовженням моєї попередньої статті.

Деталі
dou.ua/forums/topic/49809

Предлагаю расширить эту статью и добавить описания работы со смарт-структурами, например для интеграции, что будет особенно полезно, описать, использование графовых баз данных, таких как Neo4j, для хранения и управления графами знаний. Эти базы данных позволяют эффективно выполнять запросы и анализировать связи между сущностями .
Описать применение графовых нейронных сетей (GNN) для обработки информации в графах знаний. GNN могут обучаться на графах и выявлять скрытые закономерности, что может быть полезно для задач, связанных с прогнозированием и классификацией .
API для NLP:
Использование API для обработки естественного языка, таких как Azure NLP или SpaCy, для извлечения сущностей и анализа текста. Эти инструменты могут быть интегрированы с графами знаний для автоматизации процесса извлечения и структурирования информации .
Ну и вишенка на торте это инструменты для визуализации:
Можно будет описать применение инструментов для визуализации графов, таких как Gephi или Cytoscape, для представления графов знаний. Это помогает(визуализирует) пользователям лучше понимать связи между сущностями и анализировать данные. Если мало то можно еще соответствующие фреймворки добавить.

Моя оцінка наступна, можливості великих мовних моделей будуть лиш зростати, я про мультимодальність.

Окрім роботи з текстом та зображеннями з’явиться синтез та розпізнавання мовлення, поєднуючи всі ці продукти(котрі зараз в основному працюють поки поодинці) у одну справді велику мовну модель. Текстовий режим, як показує практика доволі повільний якщо говорити про обмін токенами, я про це говорив у моїй статті:
dou.ua/forums/topic/49408

Буде оптимізація існуючих моделей, подвищення продуктивності(наприклад свіженька LLM DeepSeek V2 має у двійчі більшу швидкість генерації токенів), якщо порівнювати з іншими схожими по кількості параметрів LLM.

Дуже велику роль зіграють саме мобільні пристрої, бо ШІ і тема конфіденційності дуже важлива, тому моделі поступово переповзуть з хмар у наші пристрої, де будуть жити і розширювати наші можливості.

Останнє, це звісно мій прогноз на найближчі років 5-10, опираючись на спостереження сучасних тенденцій ШІ.

Карпати останній рік розповідає про ідею ЛЛМ-ОС, де ллм-ка буде оркеструвати операційну систему і все буде дуже ефективно-продуктивно.

Ось може вам буде цікаво. Тут командного рядка, який може автоматизувати роботу із утілітами на компʼютері
github.com/gptscript-ai/gptscript

А эта штука с правами на запись файлов или только на чтение?

насколько она быстрее виндусовой, есть какие то тесты?

Нет не согласен, хотя GPT-4o-mini предлагает ряд преимуществ, таких как скорость и доступность, ее недостатки, включая ограниченное контекстное окно, устаревшие знания и сравнительно низкую точность, могут ограничивать ее применение в более сложных задачах.

Підписатись на коментарі