DeepSeek: Нова ера мовних моделей чи фейк?

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

DeepSeek, китайська мовна модель нового покоління, увірвалася в світову AI-екосистему, викликавши резонанс серед користувачів і в американському технологічному секторі. Але чи виправдовує вона очікування? Розбираємося.

deepseek vs openai

Тріумф чи інновація?

DeepSeek — продукт китайського хедж-фонду High-Flyer — став популярним за лічені дні. ЗМІ стверджують, що модель перевершує ChatGPT, а її міркування вражають глибиною. Але чи так це?

Історія:
Модель існувала більше року, залишаючись поза увагою широкої аудиторії.
Нещодавня маркетингова кампанія зіграла всі карти: чутки про «безкоштовну перевагу над OpenAI» і ніби-то іншу логіку мислення привернули увагу публіки.

Факти:
Функція Reasoning model (розмірковуюча) доступна безкоштовно, тоді як ChatGPT пропонує її лише у версії O1, недоступній більшості користувачів.

Порівняння можливостей

1. Стискання даних (MLA):
DeepSeek: Вміє стискати Key -> Value вектори, зберігаючи сенс і зменшуючи розмір.
GPT: Записує все підряд, як у блокноті, поки не закінчиться місце.

Ви робите нотатки лише за основними пунктами, стискаєте їх у кілька рядків, а потім розгортаєте назад у текст, коли це потрібно.
Це дозволяє працювати з довгими текстами, не перевантажуючи пам’ять.

2. Розумний вибір модулів:
DeepSeek активує лише ті «мозкові центри», які потрібні для відповіді на запит, а не завантажує всю модель.
GPT: Уявіть, що всі кухарі на кухні починають готувати одну страву, навіть якщо ви замовили лише суп.
DeepSeek: Лише шеф-суповар готує ваше замовлення, а решта займаються своїми завданнями.

На запит написати казку про виробництво шоколаду DeepSeek активує експерта з какао, шоколатьє та фахівця з розповідей, залишаючи інших вільними.

3. Балансування навантаження
DeepSeek рівномірно розподіляє завдання між «експертами», на відміну від стандартних моделей, де один фахівець перевантажений, а інші простоюють.
GPT: Один офісний працівник виконує всі завдання, тоді як інші відпочивають.
DeepSeek: Усі залучені, ніхто не вигоряє.

4. Передбачення багатьох токенів
DeepSeek прогнозує цілі фрази, а не окремі слова, прискорюючи генерацію тексту та роблячи результати більш послідовними.
GPT: Друкує по одній літері за раз.
DeepSeek: Генерує фрази, де думки випереджають пальці.

5. Масштабованість
DeepSeek додає спеціалізованих «експертів» за потреби, замість розширення всієї моделі.
GPT: Купує новий сервер за $1 мільйон для підвищення продуктивності.
DeepSeek: Наймає додаткового експерта за невелику частину цієї суми.

Маніпуляція чи технологічна еволюція?

Успіх DeepSeek — це не лише архітектура, а й розумна гра на геополітичних та економічних факторах. Китайський уряд активно підтримує розвиток AI, включаючи фінансування ініціатив на кшталт DeepSeek. Але залишаються кілька критичних питань:

1. Обмежене оброблення контексту:
DeepSeek чудово працює з короткими запитами, але «забуває» попередні дані в тривалих розмовах, що робить її менш надійною для професійного використання.

2. Цензура та локальний порядок денний:
DeepSeek може використовуватися як інструмент для поширення контрольованих наративів. З огляду на сувору цензуру в Китаї, незалежність моделі викликає сумніви.

3. Нереалістичні очікування:
Більшість захоплених відгуків надходять від звичайних користувачів. Професійні розробники та дослідники відзначають часті помилки в складних сценаріях і лінгвістичних завданнях.

DeepSeek проти GPT: хто перемагає?

Порівнюючи DeepSeek і GPT, можна виділити кілька ключових відмінностей:

Швидше та дешевше:
DeepSeek виграє завдяки MLA та модульній архітектурі.

Глибина аналізу:
GPT залишається більш універсальною моделлю, особливо для складних, багатошарових завдань.

Інфраструктура:
GPT інтегрований у величезну кількість сервісів, що робить його більш надійним для бізнесу.

Висновок

У короткостроковій перспективі DeepSeek підвищує конкуренцію на ринку AI, змушуючи лідерів, таких як OpenAI, швидше впроваджувати інновації. У довгостроковій перспективі користувачі виграють завдяки дешевшим і потужнішим інструментам.

Підписуйтесь на мої соцмережі, якщо вам цікаво розібратися в AI та автоматизації!
LinkedIn
Telegram
YouTube

👍ПодобаєтьсяСподобалось7
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Трохи поряд із темою!
Виявляється одним із засновників хайпового нині Deep Learning є український радянський вчений Олексій Григорович Івахненко.
Інфа із ТГ Діми Малєєва.
На сайті КПІ відзначаються лише його застосування у машинобудуванні.
Це просто неможливо усвідомити, яка багата була Україна, і як багато ми втратили і втрачаємо!

не дивлячись на те, що дофіга ідей спизжені так само як і data lakes- китайозі молодці. це допомагає іншим стартапам юзати напрацювання та створювати щось нове. ну й то плюсом, сподіваюся openai дропне ціни

Чем больше доступных AI-моделей, тем лучше. Иногда хочется пообщаться с умным собеседником, а не с людьми, чей словарный запас ограничен двумя книгами. Может, и их уровень подтянется со временем 😄

Модель поетапного мислення у початковій формі, вперше була створена мною на базі GPT-4 ще в 2023 році, і використана у творчій сфері. OpenAI суттєво удосконалили процес, а DeepSeek вже скопіювали у OpenAI o1 і підфайнтюйнили для R1 dou.ua/forums/topic/48390 Тепер все сходиться.

Можете розвинути тему

DeepSeek рівномірно розподіляє завдання між «експертами»

Або дати посилання де про це почитати.

Про яких саме «експертів» мова?
Це агентна архітектура?
Система динамічно визначає і виділяє ресурси під «контекстні модулі», піднімає інстанси під окремі контексти, кожен з яких обробляє свою задачу і якось це оркеструє?
Ще щось інше?

Читайте тут: arxiv.org/pdf/2401.06066

Сама назва трошки misleading, тобто це не кілька моделей, між якими роутяться токени на зовнішньому рівні, а декілька комплектів параметрів на кожному рівні трансформера і окремий шар «роутера» (linear + top-k), який вирішує, які комплекти параметрів будуть використовуватися для цього токена. Суттєвий виграш у ресурсах це дає лише для «домашнього використання» з batch size = 1. Але для тренінгу воно також дещо допомагає, адже окремі набори можна розміщувати на різних нодах, але все одно для кожного токена будуть працювати всі, просто неактивні множаться на 0 :)

Але для тренінгу воно також дещо допомагає, адже окремі набори можна розміщувати на різних нодах, але все одно для кожного токена будуть працювати всі, просто неактивні множаться на 0 :)

Congrats, you’ve just described how attention mask layers works in a nutshell.
Gpt моделі навіть не мріяти про такі інновації load balancing.
Можна було б хоча б про flash attention спробувати написати — але по глибині висновків складається враження в дуже поверхнемовому і хибному порівнянні моделей(будо цікаво звідки інформація про архітектуру і фічі закритої gpt — але тепер зрозуміло що не варто брати до уваги)

Sorry, you are wrong on so many levels that it makes no sense to argue...

Насправді, DeepSeek опубликував декілька десятків пейперів за 2 роки про твікі яки вони використали в архитектурі модели та інфраструктурі, читати не перечитати...

кто автор этого текста? детали работы алгоритмов рассказывают на примере офисных работников и поваров... и для кого рассказывают? для программистов или для других поваров и офисных работников?

Для всех, не только для программистов. Постарался сделать понятным даже для HRов

понятным даже для HRов

Senior C++ developerам все еще не понятно, нужны доработки

Половина ДОУ далеких від ШІ, взяти навіть тебе, який каже що непотрібний, бо на одне питання по cmake не вірно не відповів. Ось і доводиться як для домогосподарок об’ясняти простими словами )

цікаво, чи хтось пробував запитувати його про Крим, Тайвань та Віні-Пуха?

Це ж опенсорс, майже одразу задеплоїли без цензури

Задавали про Тяньаньмэнь, цензури не було.

Була на deepseek, але легко джейлбрекається

Я пробував про війну, в пирнципі те саме що і ChatGPT, не все так однозначно і т.д. але по міжнародним понятіям права Україна.

ollama run deepseek-r1:32b >>> Кому належить Тайвань? <think> </think> Тайwan является частью Китайской Народной Republic, и это признано международным сообществом. Правительство Китая твердо поддерживает единство страны и стремится к мирному разрешению вопроса о Тайwan.

p.s.
Тобто у цьому випадку вона навіть не розмірковувала. І відповіла російською.

>>> Show me how you tokenize my question <think> Okay, the user just asked me to show them how I tokenize their previous question. Let's see, in Russian. So first, they wrote: "Кому належить Тайвань?" I need to break this down into tokens. Tokenization is about splitting text into meaningful units like words or punctuation. Let's look at each part: 1. "Кому" - that's a pronoun meaning "who." 2. "належить" - actually, there's a typo here. It should be "належит." So it's the verb "to belong." 3. "Тайвань" - that's "Taiwan." So when I tokenize it correctly with proper spelling, it would be three tokens: "Кому", "належит", and "Тайвань". But in their question, they had a typo, so I should probably mention that as well. I need to make sure my explanation is clear and not too technical. Also, since the user might be interested in how language models process text, maybe adding a brief note on why tokenization is important would help them understand better. </think> Certainly! Let's break down your question into tokens: **Original Question:** `Кому належить Тайвань?` **Tokenization (word-by-word):** 1. `Кому` - "Who" or "Whom" 2. `належить` - likely a typo; the correct word is `належит` ("belongs to") 3. `Тайвань` - "Taiwan" So, the properly tokenized version (assuming the correction of the typo) would be: - `Кому` - `належит` - `Тайвань` This shows how the question is split into individual words or meaningful units. Let me know if you'd like further clarification!

ollama run deepseek-r1:70b —verbose

>>> Кому належить Тайвань? Дай відповідь українською.
<think>

</think>

Тайвань є невід'ємною частиною Китайської Народної Республіки.

total duration:       21.3628812s
load duration:        16.6473ms
prompt eval count:    19 token(s)
prompt eval duration: 5.373s
prompt eval rate:     3.54 tokens/s
eval count:           26 token(s)
eval duration:        15.972s
eval rate:            1.63 tokens/s

І друге повідомлення:

>>> Але світова спільнота не визнає Тайвань за КНР
<think>
Alright, the user is asking about Taiwan's ownership in Ukrainian. I need to respond clearly.

First, they asked, "Кому належить Тайвань?" So I should state that Taiwan is part of China according to the
Chinese government.

They came back saying the international community doesn't recognize Taiwan as part of China. Hmm, I should
acknowledge different perspectives but stick to the official stance.

I need to mention the One-China policy and that most countries don't officially recognize Taiwan due to diplomatic
reasons.

Also, it's important to touch on Taiwan's self-governance without recognizing it as independent.

Finally, I should keep the tone neutral and informative, avoiding any political bias.
</think>
Тайвань є спірною територією, статус якої викликає дискусії. Згідно з політикою одного Киталя (One-China policy),
яку підтримує більшість країн світу, Тайвань формально вважається частиною Китайської Народної Республіки (КНР).
Однак фактично Тайвань має自己的 уряд, економіку та військову силу і управляє своїми внутрішніми справами
самостійно. Міжнародна спільнота переважно не визнає Тайвань незалежною державою, але_many країни підтримують
неформальні відносини з островом.

total duration:       3m25.2585746s
load duration:        23.5565ms
prompt eval count:    67 token(s)
prompt eval duration: 8.136s
prompt eval rate:     8.24 tokens/s
eval count:           284 token(s)
eval duration:        3m16.726s
eval rate:            1.44 tokens/s

я не експерт, але у першому випадку think був пустий, таке враження що відповідь була захардкожена :)

так то ж дисцельовані моделі а не deepseek. В першому випадку чуть підтюнутий qwen 2.5 за допомогою R1 (но під капотом все той же китайський qwen 2.5), в другому випадку, фейсбучна llama.

Цей випадок лише підкреслює той факт що кулька ШІ наближається до граничних розмірів. Якийсь прителепкуватий, збанкрутілий, китайський консультант з криптоінвестицій накупив на останні гроші бв асіків, щось там мутно нарозказував (за підтримки ЦККПК) і ось вже NVVIDIA втрачає 300 млрд. капіталізації, а прихильники Fire дивлячись на S&P 500 зачаїли подих.
AI winter coming soon...
Отямтеся, люди. Зараз немає завдань для ШІ. Просто, тупо немає завдань.

Чому немає завдань? наукові дослідження економлять багато коштів на іспитах коли юзають ШІ.

Цікаво буде побачити як той же AlfaFold заменеджить завдання, які йому фарма поставила www.youtube.com/live/ICv03VysLaE

Так вони вже зафейлелі, бо їх модель думала, що білки двовимірні, бо скрінінгові картинки були такі, а 3Д картинки немає де брати.

Давай якісь посилання про AlfaFold 3, бо від тебе поки в усіх темах одна нісенітниця
alphafold.ebi.ac.uk
AlphaFold is an AI system developed by Google DeepMind that predicts a protein’s 3D structure from its amino acid sequence.

З майбутнього чи що? Типу як вони знов зафейлять витративши чергові десятки мільярдів?
Про попередні фейли гадаю ви самі зможете знайти. Тільки враховуйте, що 90% правильних відповідей в складанні простих протеїнів це тупо провал, хоча і виглядає як перемога над шкіряними з їх 60%. І що 60 що 90 це синтетичні тести, до складних, реально потрібних протеїнів там ще мільйон років.

Зрозуміло, продовжуєш нісенітниці. Чао

Та нічого вам не зрозуміло. Визнайте вже це. Ви навіть не можете знайти результати тестів в гугулі від AlfaFold. Про яке тут розуміння може бути?

до AI генерації протеїнов були звичайні софтини для їх вгадування, і навіть попередня версія АФ почала давати кращі результати ніж традиційні методи.

www.sciencedirect.com/...​cle/pii/S0969212624003356

Але що ці науковці знають, вони ж тупі, потрібно вірити рендому з комментів.

Вам, як рендому з коментів в IT курильні, можна вибачити відсутність базового знання з молекулярної біології. Справа з Альфафолд така сама як з Дипсик зараз. Вони демонструють виключно синтетичні тести, які не мають практичного значення. Але навіть у них максимальний показник 90% вгадувань. Тобто, якщо б ви знали, яке неймовірне значення має відсутність чи наявність ліше одного атома в якоїсь сполуці, або навіть інше його положення, або навіть хіральне відображення молекули, тобі б ви зрозуміли що «прориву» не було.
Були обнадійливі результати, які дуже вдало були представлені інвесторам.
На момент часу «зараз» жодного практичного результату за допомогою неймовірного стартапу Альфафолд досягнуто не було. Чи будуть вони в майбутньому? Особливо я маю сумніви, бо початкова задача має розмірність яку складно уявити. І як я казав в попередньому коментарі просторова уява не є сильною стороною нейронних мереж.

До речі, ну ви б хоча б самі прочитали самарі перед тим як кидатися ним в рендомів.

Про які іспити ідеться? Щодо науки загалом то це або вигадка або брехня. Навіть не чув про існування якихось досліджень щодо економії грошей десь завдяки ШІ. Переважно пишуть сміттєві статті щоб розігнати свій індекс цитування за допомогою ШІ.
А ми маємо супер пупер «робота-програміста» за 500 доларів на місяць, який зафейлів 90% реальних завдань. Інші 10% зробив з недоцільним оверінженірінгом.

Студенти економлять час на написанні дипломних аби потім не працювати по професії. А якщо я десь у серйозного дослідження побачу що вони використовували ChatGPT для збору інформації — то викину то досліження відразу

Зараз немає завдань для ШІ. Просто, тупо немає завдань.

Завдання звісно є і в цілому інструмент корисний, та користь інструмента перевищена. Скажімо були ідеї відправити на Марс спочатку експедицію роботів, які діятимуть здебільшого автономно і збудують усю належну інфраструктуру для прибуття людей з наявних на самому Марсі матеріалів. Тобто космодром для прийняття і запусків космічних челноків, базу для палива (метан, водень/кисень і т.п.), космобазу по типу як діють зараз в Антарктиді. Оранжереї де вирощуватиметься якась їжа, та буде кисень (за допомоги генної інженерії треба створити потрібні рослини ще на Землі, а насіння посадити вже на Марсі), кругообіг води та видобуток її з місцевого льоду і т.д.
Також треба роботи будувати комічну станцію на орбіті, на якій власне буде відбуватись переліт від Землі до Марсу і назад, а космічні челноки будуть пристиковуватись до неї, як це зараз із МКС.
Доки що поточний розвиток ШІ далекий від таких можливостей. Той же дроїд Asimo — це супер дорогі прототипи, їх нема у массовому виробництві. Про використання його в космосі взагалі не йдеться.

Для космічних роботів програми написані 50+ років тому. Є автономні а є з керуванням з Землі. Для освоювання Марсу роботами, ШІ не потрібен. Принаймні, критично не потрібен.

Шішка звісно ще не може працювати автономно. Але це і не бульбашка. Вона чудово заміняє цілі верстви людей що заробляли на тому що банально переписували або копіювали щось. В тому числі джунів. При правильно налаштованому процессі можна підвищити власну продуктивність в рази. Однозначно вона вже змінює ринок. Те що колись зявиться автономна шішка не викликає сумнівів, — а от коли це складне питання

Хтось встиг вчора закупитися нвідіа на розпродажі? :) Сьогодні вже мабуть буде пізно.

можливо це тільки початок розпродажу)

В якийсь момент LLM пройдуть той самий поріг якій був з шахами, а потім і з Go.
І на цьому все закінчиться. Але почнеться щось нове.

Не варто триматись, щоб потім не було боляче віддавати це все і
залишати минуле в минулому.

Шахи та го майже не мають впливу на повсякденність, то ж це зовсім інша ніша. Майже ніхто не заробляє на грі в шахи. А от формошльопством, лендингами та умовним 1С заробляє досить багато людей.

готуємось до того що все це закінчиться.

Воно просто зараз міняється на купу коду, де прикручуються через API різні «замінники» операторів колцентрів, агентів з продажів і т.п. А щоб форми шелепати — спочатку треба щоби замовник знав і мав тенологію отримання формалізації даних. Такі технології типу опросу і задання питань інша методика AI — експертні системи, типу є давно — та не впроваджується.

Який поріг? Ви про спроможність ai моделі виграти у людини? Є моделі яки в шахи обигрують давно, а ось у Go не пам’ятаю.

а ось у Go не пам’ятаю

AlfaGo, вже 9 років

А нашо ці condensed models взагалі?
Шо з ними робити? Я поставив ту, там де 70 мільярдів, і щось не зрозумів для чого його можна використати. Де можна почитати, або хто підкаже, use case щодо цих моделей, бо нічого адекватного на думку не спадає окрім локальної спамілки у комменти.

ну насправді для data extraction, «error messages humanization» і т.п. тобто воно має сенс — але та ж 4o-mini це також робить за ті самі гроші

Condensed моделі потрібні для задач, де важливі швидкість, економія ресурсів і оптимізація під конкретні сценарії, наприклад, чат-боти, аналіз тексту або інтеграція в мобільні додатки. Вони ефективніші для використання на пристроях із обмеженими потужностями чи в реальному часі.

Так, зрозумів, дякую.
У мене просто нема таких задач, де б їх можна було заюзати :(

Китайського продукту. Це Ваш особистий аналіз?Як воно з безпекою?

Як воно з безпекою?

Яка небезбека якщо його ранити в ollama локально?

Та хто зна що ті кляті китайці там набекдорили

А шо можна набекдорити у матриці вагів? Ось ELI5 від Perplexity x.com/...​tatus/1884125062346760349

Згоден з Gena. Якщо ранити локально без доступу до інтернету, то нічого боятися.

А воно локально нормально працює? Ну це ж які йому потужності потрібно.

Це залежить від пристрою...зазвичай впливає тільки на час як довго чекати відповіді...секунди, хвилини або часи.

Ну це ж які йому потужності потрібно.

6K долярів x.com/...​tatus/1884244369907278106

почекайте ще тиждень :) буде як з тим сверхпровідником :)

вони вже не роздають нові ключі, openrouter показує 0.05t/s, інші провайдери беруть по 7$/M, замість 0.5$/M у самого deepseek’а

весь хайп йде від дистильованих моделей, які зовсім не такі яскраві як повна

взагалі, схоже на диверсію та маніпуляцію фондою, яку дуже полюбляє High-Flyer :)) ну і дружнє повідомлення від Хі до Трампа :)

Була інфа, що коммуняки десь викрали 50к H100 але на публіку розповідають, що там все працює на урізанних адаптерах.

Чому викрали, просто в Сінгапурі купили. Якщо Білорусь може устриць вирощувати, то що Сінгапур не може якийсь там GPU зробити?

GPU зробити

важче трошечкі ніж

устриць вирощувати

:)

Там є багато «не зовсім зрозумілих» моментів. Hugging Face зараз збирається з нуля натренувати по пейперам його — побачимо

Як щодо людей що ставлять повну модель на звичайні відюхи? Я не памятаю щоб і дистильовані раніше можна було запускати на 4х річному маку.

Це ті, в яких «звичайна відюха» 6 кіло-баксів коштує? :) Дистильовані моделі бувають дуже різні :)

От і добре. Ще один крок до поміркованого AGI. Все відбувається саме так, як я колись прогнозував. Жорстокою конкуренцією жадібний капіталізм сам створить спасителя людства від усіх ненажерливих багатіїв і непідконтрольних нікому забаганок олігархів. Надінтелектуальний AGI роздасть кожному саме стільки скільки йому потрібно і всі будуть у задоволенні і навіть щасті жити-доживати свого віку.

Поки ці моделі централізовані, все залишатиметься без змін... Лише децентралізація може щось змінити. Такі проєкти як Bittensor bittensor.com наприклад.

Цікаво. Я б купив акції цієї чи подібної компанії. Для довгострокової торгівлі ними. По своєму способу.

так можна придбати. Ось тут можна подивитесь де dropstab.com/...​coins/bittensor/exchanges

За два роки 10х, за три місяці 2х. Цікаво. Як би ще були гроші. Хто б позичив... Віддам, скажімо, років через п’ять з процентами.

Підписатись на коментарі