DeepSeek R1 — новий лідер в OpenSource LLM
Схоже в світі OpenSource LLM намалювався новий лідер — DeepSeek.
Відразу дісклеймер: нажаль це китайська компанія з усіма «нюансами», зокрема, на політичні питання відповідає упереджено, і якщо будете використовувати як сервіс, то трохи обережно з даними, просто пам’ятайте про це.
Відомими вони стали ще в 2023, коли випустили DeepSeek Coder — дуже непогану відкриту модель для написання коду, але самою топовою вона не була, хоча своїх прихильників знайшла.
Однак минулого місяця вони випустили чергову відкриту модель DeepSeek V3, яка обійшла в загальних тестах всі відкриті моделі і вийшла на рівень топових комерційних. Прямо зараз я заглянув рейтинг моделей на lmarena.ai, і вона там на сьомому місці в загальних задачах.
Модель цікава тим, що використовує архітектуру MoE — Mixture of Experts (така ж сама була Mixtral, про яку я писав десь рік тому). Спрощено архітектуру можна пояснити як не одну монолітну модель, а набір менших спеціалізованих моделей, які обираються для формування відповіді, і відповідно для цього треба менші потужності, ніж для «монолітних» моделей. Відповідно з загальної кількості в 671 млрд параметрів моделі для кожного токена активується лише 37 млрд.
Проте кілька днів тому вони випустили ще одну модель DeepSeek R1 («R» в назві від слова «reasoning» — «мислення»). Вона близька до V3, має MoE архітектуру і 685 млрд параметрів, але налаштована на «мислення» схожим способом як це робить o1. І це взагалі прорив у світі AI, бо ця модель на рівні з найкращими моделями о1 від Open AI та Gemini 2 Flash Thinking від Google. Але при цьому вона повністю відкрита, доступна по ліцензії MIT, її можна скачати і запустити в LM Studio наприклад.
Але це не все — є її зменшений «дистильований» варіант лише на 1.5 млрд параметрів, яка в математичних задачах переважає GPT-4o та Claude 3.5 Sonnet, але при цьому є настільки маленькою, що запускається навіть в браузері на смартфоні. Власне як вона вирішує квадратне рівняння на моєму дев’ятому складаному пікселі я вам записав. Сам файл моделі на 1.2 Гб треба спочатку загрузити, потім він береться з кешу. Стартує з 10 токенів на секунду, потім трохи сповільнюється як смартфон починає грітися. Для порівняння — на геймерському лептопі з RTX4090 видає 40 токенів на секунду — вчетверо швидше, але лептоп більший і важчий більш ніж вчетверо. На відео реальна швидкість виконання, відео без редагування.
Відео тут: https://www.youtube.com/shorts/QzDZHZwcNB0
Запускаємо звідси huggingface.co/...munity/deepseek-r1-webgpu
PS. До речі, мені цікаво як воно працює на інших апаратах, наприклад, на iPhone 14 Pro Max не йде взагалі. Закидайте свої тести в коментарі :)
Це репост з мого телеграмчика, щоб поспілкуватися можете заходити туди також t.me/programmingmentor/508
11 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарівХлопцы, кто использовал DeepSeek-V3, можете поделиться впечатлениями, вроде он лучший для математики и программирования?
Не знаю, як так вийшло, але в багатьох випадках щодо кодування обидві мережі (ChatGPT 4o і DeepSick) видають однаковий код і навіть однакові коментарі.
Бо він (chatgpt) юзався для трейнінга. Старий DeepSick навіть відповідав що він чатгпт
Тобто все як завжди. Китай скопіював технологію і зробив її дешевше )
Не те шоб скопіював, бо це відкриті папери. І не те, шоб дешевше, бо той же Gemini 2 дешевше. Але декілька ноу-хау додав, так, я про це писав в іншому топіку
А він доступний в AWS?
На маркетплейсі AWS не знайшов, є попередня DeepSeek Coder, думаю має з’явитися.
Але вона вже багато де є, і якщо не зв’язуватися з китайським хостингом моделей, то є наприклад на Vercel, там можна користуватися без того щоб хвилюватися за витоки даних, ціни теж гуманні в порівняння з Open AI o1
Яка по тестах на рівні 4o, но в моїх задачах для моїх агентів, зливає 4o-mini. Ну ок, в деяких промтах краще за 4o-mini, а в деяких тупить.
Якщо знайдете 500+ гб vram чи хоча б unified memory. Хоча в твіттері бачив умільців які вже запускають з гарною швидкістю на кількох m4 ultra в максимальній комплектації. Слава unified memory і thunderbolt 5!
Так, щоб запустити повну модель залізо треба недешеве, але думаю вкладатися у своє власне залізо для цього має якийсь сенс лише якщо завантажувати його задачами нон-стоп, інакше краще сторонню API дьоргати. А загалом unified memory в маках — гарна штука, це факт.
Ну не факт, не факт. У мене вот простенький автономний агент, який лазить по твіттеру, аналізує твіти, збирає інформацію, зберігає ресьорч в базу. Ну вот, по моїм підрахункам, навіть з копійочним цінами на 4o mini, буде обходитись $30+ в місяць. 4o — $300+ в місяць.
Так, у мене специфічна задача, треба аналізувати твіти, багато інпут токенів, но це тільки один агент, і одне джерело інформації.
Але, думаю з кожним роком ціни будуть падати, і скоро токени будуть копійки коштувати як зараз HDD гігабайти.
Дональд Фредович, попробуйте заюзать
вместе с RAG т.к. эта модель идеально подходит для ваших задач а именно для построения систем Retrieval-Augmented Generation (RAG), которые объединяют генерацию текста с извлечением информации из внешних источников. Для лёгких задач рекомендуется использовать модель DeepSeek R1 с 1.5 ярдами параметров Так лучше использовать эту модель, которая по цене будет значительно дешевле аналогов (например, OpenAI o1). Главное она будет давать такие преимущества, которых у вас сейчас нет, а именно:
Возможности самопроверки и цепочки рассуждений (CoT).
Поддержка длинных контекстов и локального выполнения.
Использование DeepSeek R1 с RAG позволит вам создавать мощные системы для обработки сложных запросов, таких как анализ PDF-документов или технической документации, при этом оставаясь доступным и эффективным решением. Если нужна более подробная информацию по настройке могу сюдою написать.
Еще раз с победой Вас!!!!