DeepSeek R1 Гайд / FAQ
Схоже ситуація з діпсіком вийшла з під контролю і стала схожа на параною. Інформації повно — коректної не завжди, тому зробив невеликий Гайд/FAQ по темі.
1. Я все проспав, можете пояснити що відбувається?
Додатково до моделі розробники також описали її архітектуру та підходи до побудови, які виявилися достатньо інноваційними, зокрема вони використали так зване «підкріплене навчання» (Reinforcement Learning), що дозволило моделі покращуватися в автоматичному режимі.
На фоні колосального зростання популярності моделі (мобільна аплікація очолила рейтинг Apple Store), гарних показників роботи моделі, а також дешевизни її використання і тренування, американський фондовий ринок спіткав «Sputnik moment» (аналогія з запуском радянського супутника), і він колосально обвалився на суму понад 1 трлн долл, особливо постраждали high-tech компанії пов’язані з AI, такі як OpenAI та nVidia.
2. Що таке «думаюча» (thinking) модель і чи вона мені завжди потрібна?
На своїх виступах про ШІ я часто пояснюю аналогію відповідно до теорії Даніеля Канемана між мисленням швидким (інтуітивним) і повільним (розважливим) у людини та LLM. Так от, LLM як просто AI-модель не має режиму повільного розважливого мислення, яке є у людини, вона просто видає результат токен за токеном. Тим не менше, такий режим можна зімітувати за допомогою спеціальних технік, зокрема техніки запитів ланцюжок думок (chain of thought prompting), ітеративної генерації та самокорекції, використання дерева думок і т.д.
Думаюча модель добитися кращих результатів для складних задач, однак насправді не завжди потрібна, бо виходить дорожчою і повільнішою за «звичайні» моделі. І якщо з якоюсь задачею гарно справляється модель звичайна, то вона і буде найкращим вибором.
3. Чи це найрозумніша в світі модель?
Ні, не найрозумніша. Якщо прямо зараз зайти на тести на lmarena.ai, то в загальному рейтингу перед нею три моделі — дві від Google, одна від OpenAI. Також вчора вийшла модель o3 mini, ще немає її в рейтингах, але з того що я встиг перевірити, її робота мені більше подобаєтся за DeepSeek. Особливість DeepSeek — архітектура MoE (Mixture of Experts), яка має плюси і мінуси. Плюс в тому що вона дуже швидка, бо для запиту активується лише 37 млрд параметрів з загальної кількості у 671 млрд. Мінус слідує також з цього — коли модель використовує лише 5% від загальної кількості параметрів, то і результати не завжди є стабільно високими. З мого власного досвіду використання підтверджую, що результати роботи топових моделей OpenAI та Google мені подобаються більше, вони значно стабільніші по якості.
4. Чи це справжня open source модель?
Ні, це не так. Хоча DeepSeek опублікували під ліцензією MIT, відкрили архітектуру, описали процес тренування і т.д. Вони не відкрили найважливіше — дані, на яких модель тренувалася. Але в умовах коли моделі між собою схожі по своїй будові, то найважливішою складовою, що їх розрізняють є дані. Тому без відкриття всіх даних для тренування на мій погляд не можна назвати модель повністю open source, бо по факту нам дали чорну скриньку, яка яка мінімум відповідає узгоджено з політикою китайської компартії, але що вона ще таїть в собі ніхто не знає крім її розробників. Уявіть чисто гіпотетичну ситуацію, що хтось збудував навколо цієї моделі агента, що керує розумним будинком, фінансами і т.д., але в якийсь момент з’являється користувач, що дає спеціальну команду, яка переводить його в режим бога і дає повний контроль над агентом. Інший сценарій — якщо ми генеруємо з моделлю програмний код якихось криптоалгоритмів, авторизації і т.д., то в принципі ніщо не забороняє акуратно туди заінжектити потрібні вразливості. Ми не знаємо, чи є щось подібне в DeepSeek і чи не з’явиться у майбутньому. Але точно знаємо, що видає китайську пропаганду, у тому числі й не на користь України.
5. Чи безпечно користуватися мобільною апкою та китайським сервісом DeepSeek?
Якби мені зараз бюджет десь в $40-50 млрд і попросили отримати контроль над світовою інформацією та людськими думками з перспективою світового домінування, то я би купив якусь популярну соцмережу і додав би до неї безкоштовний AI-чат. Упс, здається я тут когось впізнаю... менше з тим — якщо бюджет скромніше, то почав би саме з безкоштовного AI-чату, бо через нього я би отримав величезний потік інформації для опрацювання з однієї сторони, а також міг би контрольовано просувати потрібні мені меседжі за рахунок «підтюненої» в моїх цілях моделі.
Також я думаю всім зрозуміло, що ставити на свої мобільні пристрої будь-які аплікації, до яких немає високої довіри — то не є достатньо розумно. Як і відправляти будь-які більш менш цінні дані в будь-який сервіс за межі своїх пристроїв. Про спотворені результати видачі я писав в попередньому пункті. Тому висновки робіть самі.
6. Як безпечно користуватися DeepSeek?
Тим не менше, користуватися моделлю без ризиків втрати даних можна — це якщо запускати її локально у себе чи десь у хмарах, до яких у нас є більше довіри. Про локальний запуск поговоримо окремо, а стосовно хмарних сервісів, то вона вже є на Azure, Vercel, Together.ai, щойно анонсувала її підтримку nVidia — кількість провайдерів буде лише зростати. Зверніть увагу, що є різні варіанти моделі — є оригинальна на 671 млрд параметрів, а є так звані «дистильовані» (distilled) її варіанти, які являють собою файн-тюнинг інших моделей — Llama, Qwen за допомогою оригінальної DeepSeek, і на сервісі Groq.com наприклад, оригінальна модель поки не доступна, є лише дистильований варіант на основі Llama 3.3 на 70 млрд параметрів. Також у моделей можуть бути різні варіанти квантування (quantization), які визначають кількість бітів на один параметр, від цього буде залежати її розмір, швидкість роботи і звичайно результат. Звичайно, що найкращі результати по якості відповідей буде показувати саме оригінальна модель, всі інші — то компроміс.
7. Як запустити DeepSeek локально?
Якщо говорити про оригинальну повну модель, то тут все непросто, бо її розмір більше 700Gb. Щоб вона працювала, її треба помістити в оперативну пам’ять GPU/CPU, і ще мати певний запас вільної пам’яті (він буде залежати від того, наскільки велике контекстне вікно хочемо використовувати), тому рекомендований обсяг пам’яті — від 768 Gb.
В ідеалі було б гарно щоб модель вміщалася в пам’ять GPU, тоді вона буде працювати найшвидше, але GPU з таким обсягом RAM будуть коштувати від $100k+, що доступно далеко не всім навіть бізнес-користувачам.
Але оскільки у цієї моделі архітектура MoE і для видачі токену активуються не всі параметри, а лише 5% від них, а це означає, що для отримання результату треба менше обчислень, то вона непогано показує себе і на CPU, треба лише зібрати машину з великим обсягом RAM, що можна зробити витративши порядка $6K, що вже виглядає ніяк не захмарно. Ось є гайд, але я особисто перевірити не мав можливості, хто має — прокоментуйте. rasim.pro/...-hardware-software-guide
А от якщо говорити про «дистильовані» варіанти моделі, то тут є варіанти під різне залізо, вони, звичайно, не обіцяють такий же результат, як оригінальна, але загалом працюють непогано, бо «мислячий механізм» у них присутній. Я запускаю їх з LM Studio, є ще інші варіанти, наприклад, ollama. Особисто в мене досить швидко і якісно працює варіант на основі LLama 8B. До речі, в LM Studio є можливість вивантажувати частини моделі в пам’ять GPU та CPU одночасно, що дозволяє поекспериментувати з достатньо великими моделями. Про локальне використання моделей, у тому числі можливістю використання API у мене є відео на каналі.
Також найменша дистильована модель на основі Qwen 1.5B важить всього 1.3 Gb, то можна навіть запустити в браузері за допомогою transformers.js, працює навіть на смартфоні, ось відео з мого дев’ятого пікселя, виглядає цікаво
Отже, у якості короткого підсумку: модель цікава, але з нюансами, тому ховати американські компанії зарано, а на фоні падіння акцій nVidia я би радив прикупити, і підписку на ChatGPT теж відміняти зарано :)
Також прокоментувати можете у мене в телеграмчику t.me/programmingmentor/509
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів