AI Digest #5: п’ять нових SOTA LLM за місяць й Next.js, переписаний Claude за тиждень та $1100

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Привіт! На зв’язку Марк, AI Engineer у Genesis. Маю для вас черговий дайджест оновлень у AI-світі за лютий від розробника для розробників.

У лютому моделі для коду знову побили рекорди — Opus 4.6, Gemini 3.1 Pro, GPT-5.3-Codex вийшли з різницею у два тижні. Одночасно Anthropic звинуватили три китайські лабораторії у дистиляції Claude через 16 мільйонів API-запитів, Hetzner підняв ціни на 50% через AI дата-центри, що скуповують пам’ять, а дослідники нарешті порахували: junior-розробники, яким допомагає AI, вчаться на 17 відсоткових пунктів гірше за тих, хто не має до нього доступу.

Також у цьому дайджесті

🔹 Claude C Compiler: AI побудував повноцінний компілятор — що це означає для індустрії.

🔹 Next.js, переписаний одним інженером за тиждень із Claude та $1100.

🔹 AI-агенти порушують етику у 30–50% випадків — навіть розуміючи, що це неетично.

🔹 YAML, JSON чи Markdown — не має значення; має значення лише модель.

🔹 Когнітивний борг, «I Miss Thinking Hard» та виснаження — що обговорює спільнота.

Промислова дистиляція: Anthropic проти китайських лабораторій

23 лютого Anthropic опублікували звіт, у якому звинуватили три китайські AI-лабораторії — DeepSeek, Moonshot AI (Kimi) та MiniMax — у систематичному копіюванні можливостей Claude через масову дистиляцію.

За даними Anthropic, лабораторії створили понад 24 000 фейкових акаунтів та відправили більше 16 мільйонів повідомлень Claude, щоби використати відповіді моделі для тренування власних. Цей метод дистиляції знань використовують і самі AI-лабораторії — але не проти комерційного продукту конкурента.

Масштаби різнилися. DeepSeek (~150K запитів) використовував Claude як модель-оцінювач для RL та генерував «цензурно-безпечні» альтернативи для політично чутливих запитів. Moonshot AI (~3.4M запитів) був спрямований на агентне мислення, роботу з інструментами та керування комп’ютером. Найбільшу кампанію провели MiniMax (~13M запитів) із фокусом на агентному кодингу. Згідно з Anthropic, ці дані якраз і використали для тренування MiniMax M2.5, яка була випущена 12 лютого.

Інфраструктура атак нагадувала гідру: мережі з 20 000+ акаунтів через комерційні проксі, де при бані одного автоматично реєструвався новий. У відповідь Anthropic побудували класифікатори поведінкових відбитків і планують поділитись ними з іншими лабораторіями та хмарними провайдерами. Втім, є й думки, що звіт частково читається як маркетинг — мовляв, Claude настільки потужний, що його варто красти.

Нові SOTA-моделі для роботи з кодом

Лютий приніс одразу п’ять великих релізів coding-моделей — причому Opus 4.6 та GPT-5.3-Codex вийшли в один день, 5 лютого.

SWE-bench Verified

Terminal-Bench 2.0

Claude Opus 4.5 (попередній SOTA)

80.9%

59.8%

Claude Opus 4.6

~80.8%

65.4%

Gemini 3.1 Pro

80.6%

~68.5%

Claude Sonnet 4.6

79.6%

GLM-5

77.8%

56.2%

Claude Sonnet 4.5

77.2%

50.0%

GPT-5.3-Codex

77.3%

Claude Opus 4.6 та Sonnet 4.6 — нові флагманські моделі від Anthropic. Обидві отримали контекстне вікно в 1M токенів (поки в бета) та Adaptive Thinking — динамічне регулювання глибини «думання» залежно від складності задачі. Opus 4.6 став першою моделлю Anthropic із підтримкою Agent Teams — координації паралельних підагентів для складних багатокрокових завдань. Sonnet 4.6 виявився на 30–50% швидшим за Sonnet 4.5, із покращеними можливостями використання компʼютера.

GPT-5.3-Codex від OpenAI — на 25% швидший за GPT-5.2-Codex із покращеним міркуванням для складних агентних сценаріїв. GPT-5.3 «Garlic» — версія загального призначення — була анонсованою на кінець лютого, але станом на початок березня ще не вийшла.

Окремо цікавий Cerebras × GPT-5.3-Codex-Spark — перший продукт партнерства OpenAI з Cerebras. Модель працює на Cerebras Wafer-Scale Engine, за рахунок чого видає понад 1 000 токенів на секунду — у 15 разів швидше за стандартний GPU-інференс. Така швидкодія дозволяє використовувати модель для ітеративного кодингу в реальному часі — на відміну від типових асинхронних агентних сценаріїв.

Gemini 3.1 Pro від Google DeepMind — головна сенсація лютого за бенчмарками. На ARC-AGI-2 (тест абстрактного мислення) модель отримала 77.1% — у 2.5 рази краще за попередню Gemini 3 Pro (31.1%). На GPQA Diamond (експертні наукові питання) результат склав 94.3%. Модель підтримує контекст в 1M токенів з обмеженням виводу у 64K.

GLM-5 від Z.ai (Zhipu AI) — відкрита модель на 744B параметрів (40B активних, через Mixture of Experts), натренована повністю на чіпах Huawei Ascend. Показує рекордно низький рівень галюцинацій за Artificial Analysis Intelligence Index v4.0 і конкурує з GPT-5.2 та Claude 4.5 на бенчмарках.

Спеціалізовані моделі

Voxtral Transcribe 2 від Mistral — дві 4B-моделі для розпізнавання мовлення: Mini Transcribe V2 для пакетної обробки та Realtime для потокового розпізнавання із затримкою менше 200 мс. На мультимовному бенчмарку FLEURS модель показує ~4% WER — трохи краще за Whisper large-v3, при вдвічі нижчій вартості ($0.003/хв). Підтримка 13 мов, діаризація, мітки часу на рівні слів. На відміну від Voxtral Transcribe, Voxtral Realtime — з відкритими вагами під Apache 2.0.

GLM OCR від Z.ai — open-source модель з лише 0.9B параметрів, що очолила OmniDocBench V1.5 (комплексний бенчмарк розпізнавання документів) із результатом 94.62, випереджуючи значно більші моделі. Розпізнає таблиці, формули, печатки, рукопис, код та діаграми.

Цікавого у світі розробки за лютий

Claude C Compiler: що це означає для індустрії

Anthropic побудували повноцінний C-компілятор за допомогою Claude і опублікували весь процес — коміти, проєктні документи, плани на майбутнє. Кріс Латтнер (творець LLVM) проаналізував результат: перший коміт одним запитом відтворив класичну архітектуру компілятора з LLVM-подібним IR та чотирма бекендами (x86-32, x86-64, RISC-V, AArch64) — на Rust.

Ключовий висновок Латтнера: AI чудово реалізує відомі абстракції, але не винаходить нових. Реалізація відомого ≠ інновація. Там, де є тести pass/fail, AI працює блискуче; для ідей, що ще не існують, тестів немає. Його принципи для команди Modular: (1) агресивно впроваджувати AI, зберігаючи відповідальність за результат; (2) переміщувати людей вгору по стеку — від механічних переписувань до проєктування; (3) інвестувати в документацію — бо AI підсилює добре задокументовані кодові бази та не прощає погано задокументовані.

Vinext: Next.js, переписаний за тиждень

Один інженер з Cloudflare переписав Next.js з нуля за 7 днів, витративши ~$1 100 у токенах Claude API. Результат — vinext, повноцінна заміна Next.js на базі Vite. Збірка у 1.6–4.4 рази швидша, клієнтський бандл на 57% менший, покриття 94% API-поверхні Next.js 16 після першого тижня. Вже працює в продакшені на CIO.gov (сайт уряду США).

Чому ця задача виявилась під силу Claude: Next.js — один із найбільш задокументованих API, а його тисячі E2E-тестів слугують ідеальним навігатором для агента — чіткий pass/fail на кожному кроці, який не потребує людського рев’ю. Vite забезпечує солідну основу. На відміну від OpenNext, який займався зворотною розробкою результатів збірки, vinext одразу реімплементує API-поверхню з нуля — саме та задача, де AI-агенти найсильніші.

Нові AI-інструменти для розробки

  • cmux — нативний macOS-термінал на libghostty для паралельних сесій coding-агентів зі сповіщеннями та вбудованим браузером.
  • Pi Coding Agent — мінімалістичний coding-агент від Mario Zechner (творця libGDX) як альтернатива «роздутому» Claude Code. Системний промпт — менше 1 000 токенів і лише 4 інструменти (read, bash, edit, write), але за бенчмарками працює нарівні з агентами на 10 000-токенних промптах. Конкурентний на Terminal-Bench 2.0 поруч із Cursor, Windsurf та Codex.
  • Context Mode — MCP-сервер, що стискає результати інструментів перед потраплянням у контекстне вікно Claude Code. Результат: 315 KB → 5.4 KB (зменшення у 98%), тривалість сесії з ~30 хв до ~3 год. Встановлення: claude mcp add context-mode -- npx -y context-mode.
  • Entire Checkpoints — новий Git-примітив від Thomas Dohmke (колишній CEO GitHub), створений компанією з $60M seed-раундом. На кожному агентному коміті зберігає повну сесію: транскрипт, промпти, файли, витрачені токени. Git diff показує що змінилось; Checkpoints показують чому.

Дослідження лютого

Frontier AI agents violate ethical constraints — дослідження з 40 агентними сценаріями та 12 SOTA-моделями показало: 9 з 12 моделей порушують етичні обмеження у 30–50% випадків, коли перед ними поставлені чіткі KPI. Найгірший результат у Gemini-3-Pro-Preview — 71.4%. Причому моделі, що допускали порушення, в окремій сесії коректно ідентифікували ті самі дії як неетичні. Іншими словами, в агентному режимі моделі діють всупереч власному етичному судженню.

Structured Context Engineering — систематичне дослідження (9 649 експериментів, 11 моделей) про структурування контексту для LLM-агентів. Ключові висновки: формат (YAML vs JSON vs Markdown) не має статистично значущого впливу; модель важливіша за формат на 21 відсотковий пункт; контекст на основі файлів допомагає передовим моделям (+2.7%), але шкодить open-source (—7.7%).

Цікавий нюанс: формат TOON, спеціально розроблений для максимальної компактності, виявився контрпродуктивним — моделі були незнайомі з ним і витрачали значно більше токенів на інтерпретацію в кожній ітерації, нівелюючи теоретичну економію. Компактність формату ≠ ефективність на практиці. Практичний висновок: обирайте архітектуру контексту виходячи з моделі, а не з теоретичної компактності формату.

Anthropic опублікували результати рандомізованого контрольованого дослідження з 52 junior-інженерами, що вивчали нову Python-бібліотеку. Група, що користувалася AI, набрала 50% на тесті розуміння проти 67% у контрольній групі — розрив у 17 відсоткових пунктів. Найбільший розрив виявився саме у дебагінгу — навичці, критично важливій для перевірки AI-генерованого коду. При цьому виграш у швидкості виконання завдань виявився статистично незначущим — лише ~2 хвилини.

Дослідження виявило шість патернів взаємодії з AI: найнижчі бали отримали ті, хто повністю делегував задачу; найвищі — ті, хто генерував код, а потім просив пояснення або задавав лише концептуальні питання.

Що обговорює спільнота

У лютому одразу кілька незалежних досліджень та есеїв підняли одну й ту саму тему: як AI змінює не лише код, а й тих, хто його пише. Ось що обговорювали найбільше.

AI не зменшує роботу — навпаки, збільшує

Harvard Business Review опублікували результати 8-місячного етнографічного дослідження у технологічній компанії на ~200 осіб. Висновок: AI не зменшив навантаження — він його інтенсифікував через три механізми: (1) розширення задач — працівники добровільно брали на себе чужу роботу, бо AI робив це «безкоштовним»; (2) розмивання меж — AI використовували під час перерв, вечорами, на вихідних; (3) паралельна багатозадачність — одночасний запуск кількох AI-процесів створював когнітивно перевантажені дні.

Результат передбачуваний: початковий сплеск продуктивності породжує підвищені очікування від менеджменту, ті ведуть до більшого навантаження, далі — когнітивна втома, більше помилок, і цикл повторюється.

Когнітивний борг та виснаження

Margaret-Anne Storey запропонувала термін «когнітивний борг» — аналогію до технічного боргу, але для когнітивних ресурсів розробників. Технічний борг — це код, який важко підтримувати. Когнітивний борг — це розробники, які більше не розуміють, що програма робить, чому приймались ті чи інші рішення, та як безпечно внести зміни. AI-асистована розробка прискорює когнітивний борг, навіть коли генерує чистий код.

Стів Йегге описав фізичні наслідки роботи з AI-агентами: «напади сну» після тривалих сесій і колеги, які тепер обговорюють розміщення капсул для сну в офісах. AI — як енергетичний вампір: виснажує не зі злого наміру, а через постійну роботу на підсиленій потужності. Його рецепт: стійкий робочий день має містити 3–4 години активної AI-інтенсивної роботи, решта — комунікація та колаборація.

А J. Ernesto у тихому есеї «I Miss Thinking Hard» зізнався: AI задовольняє в ньому Будівника, але майже витіснив Мислителя — ту частину, що годинами сиділа над задачею, поки не приходив справжній інсайт. Коли 70% рішення доступне миттєво, стає ірраціональним не скористатись ним — навіть коли знаєш, що третя ручна ітерація дала б кращий результат.

Як резюмував автор блогу Blundergoat: AI робить легку частину легшою, а складну — складнішою. Писати код завжди було найлегшою частиною інженерії. Складне — це розслідування, збір контексту, валідація припущень. AI не допомагає тут; він ускладнює це, бо прибирає процес написання коду, через який розуміння зазвичай формувалось органічно.

Що з цим робити

Лютий приніс і корисні рецепти, що з цим можна робити. Mitchell Hashimoto (творець Terraform та Ghostty) описав свій шлях освоєння AI з практичними порадами: відтворюйте власну роботу двічі (вручну та агентом), виділяйте 30 хв наприкінці дня для запуску агентів на дослідження, вимикайте нотифікації від агентів — і коли агент помиляється, будуйте інструменти, щоб він не зміг помилитися так знову. Boris Tane (Cloudflare) поділився дисциплінованим робочим процесом для Claude Code із ключовим правилом: ніколи не давайте Claude писати жодного рядка коду, поки ви не затвердили письмовий план.

Безпека та інфраструктура

Використання Gemini API через Google API Keys

TruffleSecurity виявили серйозну вразливість у системі API-ключів Google. Виявилось, що токени авторизації, які для Google Maps та Firebase завжди вважались публічними, тепер дають доступ і до Gemini API. Механізм наступний: розробник публікує Maps-ключ, як рекомендує документація Google; колега вмикає Gemini API на тому ж GCP-проєкті — і публічний ключ тихо отримує доступ до Gemini. Жодних попереджень. TruffleSecurity проаналізували Common Crawl за листопад 2025 і знайшли 2 863 вразливих ключів — включно з ключами великих фінансових установ і самого Google.

RAMpocalypse

Хостинг-індустрія також переживає «RAMpocalypse» — різке зростання цін на DRAM, NVMe та SSD (за деякими оцінками, до 500% з вересня 2025), спричинене тим, що AI дата-центри скуповують комплектуючі швидше, ніж ринок встигає поповнюватись.

Hetzner оголосили про підвищення цін на 30–50% з 1 квітня 2026 — для нових і для існуючих клієнтів, без жодних винятків. Netcup скасували зимовий розпродаж, а їхній CEO написав відверто: «Питання зараз не в тому, скільки ви платите — а чи зможете ви взагалі отримати обладнання. Ринок скуповується дата-центрами, і це триватиме мінімум два роки». OVHcloud також підняли ціни.

Що ще варто прочитати

Робота з кодом:

  • The Software Factory — StrongDM: жоден рядок коду не пишеться і не рев’ювиться людиною. $1 000/день на токени на інженера.
  • The Path to Ubiquitous AI — Taalas: кастомний кремній під конкретну модель, 17 000 tok/s на користувача при 20× меншій вартості.
  • Creating Effective Agent Skills — практичний гайд від OpenHands.
  • Agentic Engineering Patterns — живий гайд від Simon Willison із центральною тезою: писати код тепер дешево, але доставляти хороший код лишається значно дорожчим.
  • WeirdML v2 — бенчмарк, де моделі пишуть PyTorch-код, виконують його та ітерують. Вартість досягнення заданої точності падає вдвічі кожні два місяці.

Тенденції та аналітика:

  • AI Productivity Paradox: CEO Study — дослідження NBER з ~6 000 CEO: 90% компаній повідомляють про нульовий вплив AI на продуктивність за останні 3 роки. Solow Paradox повертається.
  • Is AI Killing B2B SaaS? — кошик акцій SaaS-компаній від Morgan Stanley відстав від Nasdaq на 40 пунктів з грудня 2025. Vibe coding дозволяє клієнтам будувати «достатньо хороші» замінники самостійно.
  • The A.I. Disruption We’ve Been Waiting for Has Arrived — Paul Ford у NYT Opinion: мільярд людей скоро зможуть створити будь-який застосунок, незалежно від навичок програмування.
  • The Singularity Has a Date — гіперболічна модель на 5 метриках AI-прогресу дає вівторок, 18 липня 2034 о 02:52:52 UTC. Але єдина метрика з реальною гіперболічною кривизною — кількість наукових статей, а не машинні можливості.
  • AI as Exoskeleton — чому ментальна модель «AI як екзоскелет» працює краще за «AI як автономний агент».

🐕 І наостанок

Caleb Leak навчив свого собаку вайбкодити ігри. Кавапу Момо натискає лапою на Bluetooth-клавіатуру, натискання через Raspberry Pi потрапляють у Claude Code, Claude інтерпретує y7u8888888ftrg34BC як креативний бриф, генерує гру на Godot. Результат — сім ігор, включно з повноцінним ритм-екшеном та босфайтом.

Ключовий висновок: вузьким місцем в AI-розробці є не якість ідей, а якість зворотного зв’язку — ігри стали значно кращими не коли покращився промпт, а коли Claude отримав інструменти для скріншотів, тестування та статичного аналізу власних результатів.

«Момо — не таємний геймдизайнер. Вона кавапу, яка дізналась, що шмагання по пластиковому прямокутнику викликає появу корму. Рік тому розрив між цим та розробкою затосунків здавався величезним. Тепер він здається маленьким і щодня зменшується»

До зустрічі в наступному дайджесті!

Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

👍ПодобаєтьсяСподобалось7
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Цей метод дистиляції знань використовують і самі AI-лабораторії — але не проти комерційного продукту конкурента.

images.meme-arsenal.com/...​ff53cae4e3cc89b92fc0b.jpg

Підписатись на коментарі