AI Digest #4: GPT-5.2, Gemini 3 Flash, Agentic AI Foundation
Привіт! На звʼязку знову Марк, розробник AI-систем у Genesis, із черговим дайджестом про найголовніші оновлення у світі AI.

Грудень приніс менше несподіваних анонсів, але більше стратегічних ходів. OpenAI оголосили внутрішній «code red» у відповідь на конкурентний тиск Google і за 10 днів випустили GPT-5.2. Індустрія об’єдналася навколо відкритих стандартів для AI-агентів через новостворену Agentic AI Foundation. А дослідники представили нові архітектури для довготривалої пам’яті, що можуть змінити підходи до побудови агентів у 2026 році.
У цьому дайджесті
🔹 GPT-5.2, Gemini 3 Flash, GLM 4.7 та інші
🔹 Devstral 2 та Mistral Vibe CLI — конкурент Claude Code від французького стартапу.
🔹 Agentic AI Foundation — крок від Anthropic, OpenAI та Block до стандартизації екосистеми агентів.
🔹 Дослідження грудня: Titans/MIRAS для довготривалої пам’яті, Recursive Language Models.
🔹 Звіт OpenRouter: State of AI 2025.
Оновлення передових моделей
GPT-5.2: відповідь OpenAI на конкуренцію Google
За інформацією ЗМІ, 1 грудня OpenAI оголосили внутрішній «code red» — призупинення всіх неосновних проєктів для концентрації ресурсів на ChatGPT. Причиною став конкурентний тиск: Gemini 3 почала випереджати моделі OpenAI за більшістю ключових бенчмарків.
За 10 днів, 11 грудня, вийшов GPT-5.2 — окрім покращення показників за багатьма бенчмарками, модель отримала оновлену межу знань — 31 серпня 2025 року (у GPT-5.1 це був вересень 2024). Проте за приріст продуктивності доведеться платити: вартість використання базової моделі через API зросла на 40% — із $1.25/$10 до $1.75/$14 за мільйон вхідних/вихідних токенів, але вартість «одиниці інтелекту» зросла значно більше через непропорційний приріст якості.
Порівняння ефективності та вартості GPT-5.2 з попередніми версіями та конкурентами:
|
Intelligence Index |
Вартість обрахунку ($) | |
|
GPT 5.1 (non-reasoning) |
27.2 |
93 |
|
GPT 5.2 (non-reasoning) |
33.1 (+22%) |
222 (+139%) |
|
GPT 5 (medium) |
41.9 |
640 |
|
GPT 5.2 (medium) |
45.4 (+8.4%) |
668 (+4.3%) |
|
GPT 5.1 (high) |
47 |
927 |
|
GPT 5.2 (xhigh) |
50.1 (+6.6%) |
2530 (+173%) |
|
Gemini 3 Pro (high) |
47.9 |
988 |
|
Opus 4.5 (reasoning) |
49.1 |
1590 |
Джерело: Artificial Analysis
Загалом GPT-5.2 показує помітне покращення якості, але здебільшого коштом вищої вартості. Виняток — режим «думання» medium, який покращив якість на 8.4% у порівнянні з GPT-5, при цьому ставши лише на 4.3% дорожчим. На найвищому рівні «думання» (xhigh), який OpenAI запровадили в цьому релізі, модель перевершує Gemini 3 Pro, але коштує у 2.6 рази дорожче.
Цікаво, що згідно з SemiAnalysis, OpenAI не мали успішного повномасштабного претренування від травня 2024 — часів виходу GPT-4o. Це може пояснювати, чому покращення не є суттєвими, якщо брати до уваги збільшення вартості.
Також OpenAI випустили GPT-5.2-Codex — варіант GPT-5.2 для роботи з кодом. Ключова інновація цієї версії — технологія «context compaction», коли модель автоматично стискає контекст, зберігаючи критичну інформацію, що дозволяє підтримувати пам’ять під час масштабних завдань без втрати фокуса. Технічно це реалізовано через окремий API-ендпоінт, який стискає історію розмови з агентом у спеціальні токени, що нагадують моделі про попередній контекст. Цікаво бачити, коли саму модель адаптують до роботи з довгим контекстом на рівні архітектури, а не просто збільшуючи контекстне вікно.
OpenAI заявляє про нові рекорди на SWE-Bench Pro та Terminal-Bench 2.0, але модель поки недоступна через API, тому незалежних бенчмарків ще немає.
GPT-Image-1.5
16 грудня OpenAI оновили й генерацію зображень. Нова модель GPT-Image-1.5 генерує зображення швидше в
На трьох основних лідербордах — Text-to-Image Arena від LmArena, Text to Image та Image Editing від Artificial Analysis — GPT-Image-1.5 посіла перше місце, випередивши Nano Banana Pro від Google.
Gemini 3 Flash
На GPT-5.2 Google відповіли релізом Gemini 3 Flash, яка 17 грудня стала моделлю за замовчуванням для всіх безкоштовних користувачів Gemini App та Google Search AI overviews. Модель оптимізована під швидкість та вартість, з покращеною підтримкою відео та аудіо. Модель досягає якості близької до Gemini 3 Pro, пропонуючи при цьому в 3.5 разів меншу вартість.
|
Intelligence Index |
Вартість обрахунку ($) | |
|
Gemini 2.5 Pro |
34.1 |
754 |
|
Gemini 2.5 Flash |
30.8 |
143 |
|
Gemini 3 Pro (reasoning low) |
40.6 |
349 |
|
Gemini 3 Pro (reasoning high) |
47.9 |
988 |
|
Gemini 3 Flash |
46.1 |
282 |
Джерело: Artificial Analysis
Серед інших релізів:
- AWS Nova 2 (re:Invent,
1-3 грудня) — оновлена лінійка зі стандартизованим контекстом 1M токенів: Lite (reasoning), Pro (агентні задачі з налаштовуваним «extended thinking»), Sonic (speech-to-speech для 7 мов), Omni (мультимодальна). Також Nova Forge — сервіс за $100k/рік для створення власних моделей на базі Nova. - Nemotron 3 Nano (NVIDIA, 15 грудня) — 31.6B параметрів (3.6B активних) на гібридній архітектурі Mamba-Transformer MoE. Контекст 1M токенів, до 110 tok/s локально, 4х швидше за попередню версію.
- Molmo 2 (Ai2, 16 грудня) — відкрита мультимодальна модель (варіанти 8B, 4B, 7B), що випереджає Gemini 3 Pro та GPT-5 на бенчмарках відеотрекінгу. Підтримує spatiotemporal grounding — може відповісти на питання «Коли впала чашка?» з точними координатами та часовими мітками.
- SAM Audio (Meta, 16 грудня) — перенесення можливостей Segment Anything у світ аудіо: автоматична ідентифікація та сегментація окремих звуків.
- FunctionGemma (Google, 18 грудня) — 270M модель на базі Gemma 3 для кращої генерації структурованих викликів функцій, оптимізована під edge-пристрої. На бенчмарку Mobile Actions файнтюнінг базової Gemma підвищив надійність виклику функцій з 58% до 85%.
- GLM 4.7 (Z.ai, 22 грудня) — покращення над GLM 4.6, з фокусом на стабільність у тривалих робочих циклах. Модель отримала «Interleaved Thinking» та «Preserved Thinking» — підходи для послідовної роботи над багатокроковими задачами. На HLE показала 42.8% (+12.4% порівняно з GLM-4.6), на SWE-bench Verified — 73.8%.
«This smells like Claude» Джерело
Оновлення у світі вайбкодингу
Окрім виходу GPT-5.2 Codex, на початку грудня Mistral випустили Devstral 2 — coding-модель на 123B параметрів із контекстом 256K токенів. За заявами компанії, модель досягає 72.2% на SWE-bench Verified та є до 7 разів економнішою за Claude Sonnet на реальних задачах. На момент анонсу модель була доступна безкоштовно через API, із запланованою ціною $0.40/$2.00 за мільйон токенів.
Разом із моделлю вийшов Mistral Vibe CLI — open-source CLI агент, що позиціонується як альтернатива Claude Code. Підтримує сканування структури проєкту, Git-статус, посилання на файли через @, виконання shell-команд через ! та інтеграцію з IDE через Agent Communication Protocol (наразі доступна як розширення для Zed).
Для легших задач випущена Devstral Small 2 (24B) під ліцензією Apache 2.0,
що досягає 68.0% на SWE-bench Verified.
Claude Code
Серед оновлень Claude Code цього місяця:
- агенти та bash-команди тепер виконуються асинхронно у фоновому режимі (Ctrl+B), не блокуючи основну сесію. Також додано іменовані сесії (/rename, /resume <name>).
- новий LSP-інструмент для code intelligence: go-to-definition, find references, hover documentation.
Що почитати про AI-кодинг за грудень
- Using LLMs at Oxide — детальний RFD від Oxide Computer про їхній підхід до використання LLM у розробці.
- Your job is to deliver code you have proven to work — Simon Willison про відповідальність розробника при роботі з AI-генерованим кодом.
- The Bet On Juniors Just Got Better — Kent Beck про те, як AI змінює економіку найму junior-розробників.
- AI will make formal verification go mainstream — Martin Kleppmann про потенціал LLM для формальної верифікації.
- The highest quality codebase — роздуми про якість коду в епоху AI.
- You Don’t Need to Spend $100/mo on Claude Code — гайд по локальних coding-моделях як альтернативі платним сервісам.
- The Future of Software Development is Software Developers — контраргумент до наративу про «заміну розробників».
Інструменти та інфраструктура
Agentic AI Foundation
8 грудня під егідою Linux Foundation офіційно запустилась Agentic AI Foundation — ініціатива для розвитку відкритих стандартів для AI-агентів.
Засновники — Block, Anthropic та OpenAI — задонатили фундації ключові проєкти:
- Anthropic: Model Context Protocol (MCP) для стандартизації доступу моделей до даних та інструментів.
- OpenAI: AGENTS.md — специфікація метаданих (на кшталт robots.txt), що визначає правила взаємодії агентів з кодовими базами.
- Block: Goose — їхній open-source агентний фреймворк для локальних задач.
Це перший випадок, коли три головні конкуренти — Anthropic, OpenAI та Block — об’єдналися для створення спільних стандартів. До фундації вже приєдналися Google, Microsoft, AWS, Bloomberg та Cloudflare. Мета — запобігти фрагментації екосистеми через пропрієтарні рішення.
Agent Skills
18 грудня Anthropic опублікували Agent Skills як відкритий стандарт. Skills — це директорії з файлом SKILL.md (де зберігається опис навички), інструкціями та скриптами, які агенти можуть динамічно завантажувати залежно від поставленої задачі.
Стандарт швидко отримав підтримку: OpenAI інтегрували його в Codex, Microsoft та GitHub додали підтримку у свої інструменти, Cursor також приєднався. Один skill тепер працює в Claude Code, Codex та інших середовищах без модифікацій.
Transformers v5
Близько 1 грудня вийшов Transformers v5 з суттєвими архітектурними змінами:
- Модульна архітектура — зменшує дублювання коду та спрощує додавання нових моделей.
- Тільки PyTorch — підтримку Flax та TensorFlow прибрано.
- Покращення інференсу — оптимізовані ядра, continuous batching, paged attention.
- transformers serve — OpenAI-сумісний HTTP-сервер для деплою моделей.
Breaking changes: видалено encode_plus та legacy feature extractors, квантизація тепер через єдиний quantization_config.
Stirrup
Artificial Analysis випустили Stirrup — легкий open-source фреймворк для побудови та бенчмаркінгу агентів. На відміну від складних оркестраційних бібліотек, Stirrup дозволяє моделі керувати шляхом виконання, беручи на себе лише виконання інструментів та управління контекстом.
З коробки є пошук по вебу, виконання коду (локально або в Docker) та MCP-клієнт. Цікаво, що на бенчмарках GDPval-AA моделі в Stirrup часто випереджували свої нативні чат-застосунки завдяки кращому доступу до інструментів.
Дослідження грудня
Titans та MIRAS: довготривала пам’ять для AI
Google представили Titans — нову архітектуру, де для довготривалої пам’яті використовується глибокий MPL (Multi-Layer Perceptron) замість фіксованих векторів традиційних RNN. Модель вирішує, що зберігати, на основі «метрики здивування» — наскільки новий вхід відрізняється від очікувань. Адаптивний weight decay дозволяє «забувати» нерелевантну інформацію.
Паралельно запропоновано фреймворк MIRAS (Memorization, Initialization, Retrieval, Association), що об’єднує Transformers та linear RNN під єдиною теоретичною базою для continuous learning. Це може стати однією з ключових ідей для архітектури агентів у 2026 році.
З інших цікавих досліджень:
- Memory in the Age of AI Agents — дослідження пропонує нову таксономію пам’яті агентів «Forms-Functions-Dynamics», розрізняючи форми (token-level, parametric, latent) та функції (factual, experiential, working). Головний аргумент: пам’ять має бути «first-class primitive» у дизайні агентів, а не надбудовою типу базового RAG.
- Recursive Language Models — дослідники з MIT запропонували підхід, де довгі промпти трактуються не як прямий вхід, а як зовнішнє середовище. Замість обробки всього контексту одразу модель пише код для програмного доступу до його фрагментів, що дозволяє працювати з контекстами до 10M+ токенів без деградації якості.
- GPT-5 у лабораторії — Axios розкрив, що GPT-5 може успішно виконувати роботу у лабораторіях: у співпраці зі стартапом Red Queen Bio модель оптимізувала протокол молекулярного клонування, підвищивши ефективність у 79 разів через ітеративний цикл «пропозиція → експеримент → аналіз → покращення».
OpenRouter: State of AI 2025
OpenRouter опублікували річний звіт на основі аналізу 100 трильйонів токенів, що пройшли через їхню платформу у 2025 році. Це один із найбільших публічних датасетів про реальне використання LLM, і він демонструє кілька важливих трендів.
Reasoning-моделі стали мейнстримом. Моделі з можливістю «думання» (Claude Sonnet 4.5 think, GPT-5 з reasoning, Gemini Deep Think) тепер займають понад 50% всього обсягу токенів — радикальна зміна порівняно з початком року, коли вони були нішевим продуктом.
Програмування домінує в платному сегменті. Понад 50% трафіку платних моделей припадає на coding-задачі. Водночас у сегменті open-source моделей домінують roleplay та креативні сценарії використання (також >50%). Це підтверджує розділення ринку: комерційні користувачі платять за продуктивність у коді, тоді як ентузіасти експериментують із відкритими моделями для інших цілей.
Anthropic лідирує в інструментальних задачах. Частка Anthropic у запитах на tool-use та coding становить близько 60% — значний відрив від конкурентів. Це пояснює, чому компанія так активно інвестує в Claude Code та екосистему MCP.
Серед окремих моделей варто відзначити Gemini 3 Deep Think, яка досягла 45.1% на ARC-AGI-2 — бенчмарку абстрактного мислення, де людський рівень становить 85%+.
Що ще цікавого почитати за грудень
Підсумки року:
Аналітика та роздуми:
- The great AI hype correction of 2025 — MIT Technology Review про корекцію очікувань від AI.
- The Normalization of Deviance in AI — про те, як небезпечні практики стають нормою.
- Auto-grading decade-old Hacker News discussions with hindsight — Карпати оцінює старі HN-дискусії з перспективи сьогодення.
Технічне:
- How LLMs work — visual essay — Sam Rose пояснює роботу LLM візуально.
- From Code Foundation Models to Agents: A Practical Guide — повний lifecycle Code LLM від даних до деплою.
До зустрічі в наступному дайджесті!
Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.


Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів