Llama 4: нове сімейство моделей від Meta

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Meta випустила нове покоління відкритих моделей ШІ — сімейство Llama 4. І в новинках є дуже багато цікавих аспектів, про які варто знати.

Головні особливості нових моделей

Загалом сімейство складається з трьох нових моделей: Llama 4 Scout, Llama 4 Maverick та Llama 4 Behemoth.

Llama 4 Scout

Це модель з 17 мільярдами активних параметрів і 16 «експертами» (загалом — 109 мільярдів параметрів). Вона вважається найкращою мультимодальною моделлю у своєму класі, випереджаючи такі аналоги, як Gemma 3, Gemini 2.0 Flash-Lite та Mistral 3.1.

Головна її «фішка» — рекордно довге контекстне вікно у 10 мільйонів токенів, що дозволяє обробляти гігантські обсяги тексту або коду без втрати зв’язку між частинами. І що важливо — її можна запускати навіть на одній відеокарті NVIDIA H100, якщо використовувати стиснення параметрів.

Llama 4 Maverick

Ця модель має стільки ж активних параметрів — 17 мільярдів, але вже використовує 128 експертів, що дає загалом понад 400 мільярдів параметрів. Meta стверджує, що вона випереджає GPT-4o та Gemini 2.0 Flash у багатьох тестах продуктивності.

Особливо цікаво, що в задачах логіки та програмування її результати співставні з DeepSeek V3, хоча Maverick має вдвічі менше активних параметрів. Експериментальна чат-версія цієї моделі вже досягла рейтингу ELO 1417 на платформі LMArena.

Llama 4 Behemoth

Також компанія анонсувала Behemoth — це найпотужніша модель у лінійці, яка створена для навчання інших моделей. Вона має 288 мільярдів активних параметрів, 16 експертів і майже 2 трильйони загальних параметрів.

За словами Meta, Behemoth випереджає GPT-4.5, Claude Sonnet 3.7 та Gemini 2.0 Pro у завданнях, пов’язаних із наукою, математикою та логікою. Щоправда, модель ще не завершила тренування і поки що не доступна для публічного використання.

По ціні нові моделі теж дуже привабливі: всього лише від $0.19 до $0.49 за 1M токенів проти $4.38 у GPT-4o.

Архітектура Mixture of Experts (MoE)

Також варто зазначити, що нові моделі використовують зовсім нову архітектуру — Mixture of Experts, завдяки чому для обробки кожного токена активується лише частина параметрів моделі, що суттєво підвищує ефективність як навчання, так і інференсу.

Моделі Llama 4 Scout і Llama 4 Maverick вже доступні для завантаження на llama.com та Hugging Face. Вони також використовуються в Meta AI для таких сервісів, як WhatsApp, Messenger, Instagram Direct та на вебсайті Meta AI.

Яке з нововведень має найбільшу користь?

38%
12%
12%
38%
0%
👍ПодобаєтьсяСподобалось2
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Тільки я розпробував Gemma 3 і тут маєш...

Гонка ШІ, що ж поробиш. Всі хочуть бути першими

Підписатись на коментарі