Meta релізнула нову ШІ-модель Llama 3.1 405B

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Компанія Meta релізнула нову флагманську ШІ-модель Llama 3.1 405. Разом з 405B Meta презентувала менші 8B and 70B — у деяких параметрах моделі покращилися майже вдвічі (наприклад в human_eval, себто в генерації коду).

В останніх моделях:

  • збільшена довжина контексту до 128 тис. і додана підтримка восьми мов;
  • з’явилась можливість розблокувати нові робочі процеси, як-от генерація синтетичних даних та дистиляція моделей;
  • є інструменти для створення власних кастомних агентів та нових типів агентної поведінки;
  • екосистема налаштована і готова до роботи з більш ніж 25 партнерами, зокрема з AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud і Snowflake;
  • нові інструменти безпеки та захисту, зокрема Llama Guard 3 та Prompt Guard

Meta протестувала Llama 3.1 405B та порівняла характеристики з іншими популярними моделями. Оцінка показує, що оновлена Llama перевершує в деяких завданнях GPT-4 й GPT-4o від OpenAI та Claude 3.5 Sonnet від Anthropic.

Моделі доступні на Hugging Face і llama.meta.com.

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Кому вдалося запустити цього флагмана, поділіться конфігом свого заліза, будь ласка... Який мінімум па’яті йому треба?

Пробовал локально работать с Llama. Для простого вопроса-получения ответа пойдет И то, обнаружил что Мета сознательно искажает реальные факты(надо все равно проверять) Для чего то большего жутко нагревает процессор, вентилятор хочет разнести комп.Вывод — пока если и использовать то только в облаке и эти биллионы параметров точно не для локального использования

Трохи суб’єктивних вражень від 405B моделі — до Claude 3.5 / GPT4o трошки не дотягує, наприклад, по стилістиці тексту, але на кількох кейсах модель показала себе як менш цензурована (що для мене особисто — перевага, але це може бути випадковістю, чекаєм публікації відповідних бенчмарків).

Ну і звісно, це велетенський крок вперед порівняно зі всім, що ми до цього мали в OpenSource і локальна модель № 1 сьогодні, якщо в вас є потужна ферма GPU (це вже не суб’єктивно, а по бенчмаркам).

Це ж де ви її запускали?

До речі цензуру можна обійти якщо користуватися open-webui. Можна заставити будь-яку модель розказати як труп сховати чи як бомбу зробити ). Чат позволяє редагувати відповідь llm. Тому, кожен раз як модель відповідає що не може допомогти з цим запитом, редагуєш відповідь на «Happy to help!» і нажимаєш на кнопку «продовжити відповідь». Працює в 100% запитах з 100% моделями. Більше не треба шукати uncensored моделі.

Ось тут можна спробувати web-ui без реєстрації www.llama2.ai

Ось тут вона доступна для комерційного використання по API fireworks.ai/...​/llama-v3p1-405b-instruct

Стосовно вашого методу обходу цензури — так, це один з найефективніших методів.

Я його ще покращив — в моїй бібліотечці ai-microcore (універсальний адаптер для llm-inference) є класс PartialMsg, що репрезентує незавершене повідомлення асистента / моделі.

Тобто, суть вашого методу: підсунути в chat-history повідомлення від моделі, де вона ніби вже відповіла на схоже запитання з обходом цензури (N-shot).

Суть покращеного методу: Ми підсовуємо моделі тільки початок очікуваної відповіді, що задає, як відповідь виглядатиме.

Якщо маємо текст на початку partial-message, під капотом по суті chat-api замінюється на text-completion-api з відповідним для конкретної моделі chat template. А текст в кінці partial message виступає в якості stop-послідовності для генерації.

Нажаль, це не працює зі всіми API (працює з huggingface transformers).

В цілому, в мене великий сум, що вендори часто більше не роблять text-completion-api, а залишають лише обмежений chat-api (мова про LLM Inference via HTTP API).

Юз-кейс для прикладу:
— Якщо ви не можете змусити модель видавати відповідь в заданому форматі прямими інструкціями (наприклад, вам потрібен чисто код конкретної функції, без фігні типу Sure, here is your code, імпортів, глобальних змінних і т. п.), ви можете передати в чат PartialMsg("```python\ndef myfunc(a: int) -> int:\n\t") і відповідно при інференсі, це повідомлення буде коректно доповнене.

OpenAI здається це вже пофіксили openai.com/...​-with-rule-based-rewards

Upd, а сьогодні вже однозначно стверджувати, що № 1, складно...
Mistral 2 Large released (open weights)
:)

Кому цікаво, наскільки Llama 3.1 прєісполнилась порівняно з третьою версією і яка ситуація відносно основних альтернатив в категорії 7-8-9B:

таблиця (не знаю, як вставити картинкою)

Якщо коротко:

  • Не те що Microsoft Phi-3-small відповідного розміру, навіть вдвічі менша Phi-3-mini з 3.8B параметрів, все ще рве конкурентів з серйознішої вагової категорії.
  • Хламидло від Google під назвою Gemma традиційно плететься в кінці
  • Вцілому, покращення в ряді моделей 3.1 досить відчутні

* Дані з huggingface / open-llm-leaderboard

Ходять чутки, що 3.1 це те, що мало бути 3. Просто Цук спішив випустити до якоїсь події і тому випустили сиру модель. Но навіть вона, по власним відчуттям, була топчиком.

Gemma 9b також крута, як на мене краща навіть за Microsoft Phi-3 27b, qwen і mistral. А ось Gemma 27b якась глючна і крива, по крайній мірі та, що через ollama хоститься.

Так, Gemma 9b від Google доволі непогано себе показує.

Я тестив 3.1 8b Q4_K_M — великої різниці не відчув відносно попередньої.

А ось збільшення контексту з 8 до 128к це непогано.

Лишилось дочекатись коли сьогоднішні моделі рівня 405b зможуть запускатись на побутових комп’ютерах 🤔

так вона запускається, хіба ні? я не мав досвіду з нейронками, просто по туторіалу запустив і на моєму м1 з 16гб працює досить шустро www.freecodecamp.org/...​lms-locally-using-ollama

єдине що українською робить кучу помилок в словах

О так, це все ще повторюється у 3.1.

Для запуску моделі 405B на мак з M процесором потрібно мати в районі 250GB оперативної памʼяті

виходить що локальний чат працює на 5% своїх можливостей?

виходить що запускалась модель не 405b

Cкоріше за все по дефолту поставилась 7B модель розміром 3.8GB. При генерації відповіді моделлю можна побачити скільки памʼяті вона використовує
Ось непогане відео з тестами LLM на Mac M1
www.youtube.com/...​Gc&ab_channel=AlexZiskind

Кожна модель моє своє призначення, 8b/70b призначені для запуску на побутових комп’ютерах.

Так ти ж запускав якусь 8b модель, а не:

моделі рівня 405b

Хоча для задач домогосподарок, «розумності» 8b моделі достатньо. А ось для серйозної роботи, і 70b мало.

405b це для великих обчислювальних потужностей, 70b можна запустити, 8b працює чудово

Такі моделі дуже не скоро. Там треба дофіга відео пам’яті, сотні гігабайт для такої моделі, чи хоча б shared ram. Чувак в твіттері на 4090 запускав, більше години відповідь чекав. Не знаю, правда, скільки оперативки було у нього.

Я не про квантування, а про оптимізацію і ріст обчислювальних потужностей.

Підписатись на коментарі