DeepSeek R1 — новий лідер в OpenSource LLM
Схоже в світі OpenSource LLM намалювався новий лідер — DeepSeek.
Відразу дісклеймер: нажаль це китайська компанія з усіма «нюансами», зокрема, на політичні питання відповідає упереджено, і якщо будете використовувати як сервіс, то трохи обережно з даними, просто пам’ятайте про це.
Відомими вони стали ще в 2023, коли випустили DeepSeek Coder — дуже непогану відкриту модель для написання коду, але самою топовою вона не була, хоча своїх прихильників знайшла.
Однак минулого місяця вони випустили чергову відкриту модель DeepSeek V3, яка обійшла в загальних тестах всі відкриті моделі і вийшла на рівень топових комерційних. Прямо зараз я заглянув рейтинг моделей на lmarena.ai, і вона там на сьомому місці в загальних задачах.
Модель цікава тим, що використовує архітектуру MoE — Mixture of Experts (така ж сама була Mixtral, про яку я писав десь рік тому). Спрощено архітектуру можна пояснити як не одну монолітну модель, а набір менших спеціалізованих моделей, які обираються для формування відповіді, і відповідно для цього треба менші потужності, ніж для «монолітних» моделей. Відповідно з загальної кількості в 671 млрд параметрів моделі для кожного токена активується лише 37 млрд.
Проте кілька днів тому вони випустили ще одну модель DeepSeek R1 («R» в назві від слова «reasoning» — «мислення»). Вона близька до V3, має MoE архітектуру і 685 млрд параметрів, але налаштована на «мислення» схожим способом як це робить o1. І це взагалі прорив у світі AI, бо ця модель на рівні з найкращими моделями о1 від Open AI та Gemini 2 Flash Thinking від Google. Але при цьому вона повністю відкрита, доступна по ліцензії MIT, її можна скачати і запустити в LM Studio наприклад.
Але це не все — є її зменшений «дистильований» варіант лише на 1.5 млрд параметрів, яка в математичних задачах переважає GPT-4o та Claude 3.5 Sonnet, але при цьому є настільки маленькою, що запускається навіть в браузері на смартфоні. Власне як вона вирішує квадратне рівняння на моєму дев’ятому складаному пікселі я вам записав. Сам файл моделі на 1.2 Гб треба спочатку загрузити, потім він береться з кешу. Стартує з 10 токенів на секунду, потім трохи сповільнюється як смартфон починає грітися. Для порівняння — на геймерському лептопі з RTX4090 видає 40 токенів на секунду — вчетверо швидше, але лептоп більший і важчий більш ніж вчетверо. На відео реальна швидкість виконання, відео без редагування.
Відео тут: https://www.youtube.com/shorts/QzDZHZwcNB0
Запускаємо звідси huggingface.co/...munity/deepseek-r1-webgpu
PS. До речі, мені цікаво як воно працює на інших апаратах, наприклад, на iPhone 14 Pro Max не йде взагалі. Закидайте свої тести в коментарі :)
Це репост з мого телеграмчика, щоб поспілкуватися можете заходити туди також t.me/programmingmentor/508
11 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів