AI Digest #4: GPT-5.2, Gemini 3 Flash, Agentic AI Foundation

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Привіт! На звʼязку знову Марк, розробник AI-систем у Genesis, із черговим дайджестом про найголовніші оновлення у світі AI.

Грудень приніс менше несподіваних анонсів, але більше стратегічних ходів. OpenAI оголосили внутрішній «code red» у відповідь на конкурентний тиск Google і за 10 днів випустили GPT-5.2. Індустрія об’єдналася навколо відкритих стандартів для AI-агентів через новостворену Agentic AI Foundation. А дослідники представили нові архітектури для довготривалої пам’яті, що можуть змінити підходи до побудови агентів у 2026 році.

У цьому дайджесті

🔹 GPT-5.2, Gemini 3 Flash, GLM 4.7 та інші LLM-релізи.

🔹 Devstral 2 та Mistral Vibe CLI — конкурент Claude Code від французького стартапу.

🔹 Agentic AI Foundation — крок від Anthropic, OpenAI та Block до стандартизації екосистеми агентів.

🔹 Дослідження грудня: Titans/MIRAS для довготривалої пам’яті, Recursive Language Models.

🔹 Звіт OpenRouter: State of AI 2025.

Оновлення передових моделей

GPT-5.2: відповідь OpenAI на конкуренцію Google

За інформацією ЗМІ, 1 грудня OpenAI оголосили внутрішній «code red» — призупинення всіх неосновних проєктів для концентрації ресурсів на ChatGPT. Причиною став конкурентний тиск: Gemini 3 почала випереджати моделі OpenAI за більшістю ключових бенчмарків.

За 10 днів, 11 грудня, вийшов GPT-5.2 — окрім покращення показників за багатьма бенчмарками, модель отримала оновлену межу знань — 31 серпня 2025 року (у GPT-5.1 це був вересень 2024). Проте за приріст продуктивності доведеться платити: вартість використання базової моделі через API зросла на 40% — із $1.25/$10 до $1.75/$14 за мільйон вхідних/вихідних токенів, але вартість «одиниці інтелекту» зросла значно більше через непропорційний приріст якості.

Порівняння ефективності та вартості GPT-5.2 з попередніми версіями та конкурентами:

Intelligence Index

Вартість обрахунку ($)

GPT 5.1 (non-reasoning)

27.2

93

GPT 5.2 (non-reasoning)

33.1 (+22%)

222 (+139%)

GPT 5 (medium)

41.9

640

GPT 5.2 (medium)

45.4 (+8.4%)

668 (+4.3%)

GPT 5.1 (high)

47

927

GPT 5.2 (xhigh)

50.1 (+6.6%)

2530 (+173%)

Gemini 3 Pro (high)

47.9

988

Opus 4.5 (reasoning)

49.1

1590

Джерело: Artificial Analysis

Загалом GPT-5.2 показує помітне покращення якості, але здебільшого коштом вищої вартості. Виняток — режим «думання» medium, який покращив якість на 8.4% у порівнянні з GPT-5, при цьому ставши лише на 4.3% дорожчим. На найвищому рівні «думання» (xhigh), який OpenAI запровадили в цьому релізі, модель перевершує Gemini 3 Pro, але коштує у 2.6 рази дорожче.

Цікаво, що згідно з SemiAnalysis, OpenAI не мали успішного повномасштабного претренування від травня 2024 — часів виходу GPT-4o. Це може пояснювати, чому покращення не є суттєвими, якщо брати до уваги збільшення вартості.

Також OpenAI випустили GPT-5.2-Codex — варіант GPT-5.2 для роботи з кодом. Ключова інновація цієї версії — технологія «context compaction», коли модель автоматично стискає контекст, зберігаючи критичну інформацію, що дозволяє підтримувати пам’ять під час масштабних завдань без втрати фокуса. Технічно це реалізовано через окремий API-ендпоінт, який стискає історію розмови з агентом у спеціальні токени, що нагадують моделі про попередній контекст. Цікаво бачити, коли саму модель адаптують до роботи з довгим контекстом на рівні архітектури, а не просто збільшуючи контекстне вікно.

OpenAI заявляє про нові рекорди на SWE-Bench Pro та Terminal-Bench 2.0, але модель поки недоступна через API, тому незалежних бенчмарків ще немає.

GPT-Image-1.5

16 грудня OpenAI оновили й генерацію зображень. Нова модель GPT-Image-1.5 генерує зображення швидше в 3-4 рази (за 8-18 секунд замість 35-55), демонструє на 60% краще дотримання промптів та коштує на 20% дешевше. Окрім генерації, значно покращилось редагування: модель краще зберігає обличчя, логотипи брендів та композицію освітлення під час змін.

На трьох основних лідербордах — Text-to-Image Arena від LmArena, Text to Image та Image Editing від Artificial Analysis — GPT-Image-1.5 посіла перше місце, випередивши Nano Banana Pro від Google.

Gemini 3 Flash

На GPT-5.2 Google відповіли релізом Gemini 3 Flash, яка 17 грудня стала моделлю за замовчуванням для всіх безкоштовних користувачів Gemini App та Google Search AI overviews. Модель оптимізована під швидкість та вартість, з покращеною підтримкою відео та аудіо. Модель досягає якості близької до Gemini 3 Pro, пропонуючи при цьому в 3.5 разів меншу вартість.

Intelligence Index

Вартість обрахунку ($)

Gemini 2.5 Pro

34.1

754

Gemini 2.5 Flash

30.8

143

Gemini 3 Pro (reasoning low)

40.6

349

Gemini 3 Pro (reasoning high)

47.9

988

Gemini 3 Flash

46.1

282

Джерело: Artificial Analysis

Серед інших релізів:

  • AWS Nova 2 (re:Invent, 1-3 грудня) — оновлена лінійка зі стандартизованим контекстом 1M токенів: Lite (reasoning), Pro (агентні задачі з налаштовуваним «extended thinking»), Sonic (speech-to-speech для 7 мов), Omni (мультимодальна). Також Nova Forge — сервіс за $100k/рік для створення власних моделей на базі Nova.
  • Nemotron 3 Nano (NVIDIA, 15 грудня) — 31.6B параметрів (3.6B активних) на гібридній архітектурі Mamba-Transformer MoE. Контекст 1M токенів, до 110 tok/s локально, 4х швидше за попередню версію.
  • Molmo 2 (Ai2, 16 грудня) — відкрита мультимодальна модель (варіанти 8B, 4B, 7B), що випереджає Gemini 3 Pro та GPT-5 на бенчмарках відеотрекінгу. Підтримує spatiotemporal grounding — може відповісти на питання «Коли впала чашка?» з точними координатами та часовими мітками.
  • SAM Audio (Meta, 16 грудня) — перенесення можливостей Segment Anything у світ аудіо: автоматична ідентифікація та сегментація окремих звуків.
  • FunctionGemma (Google, 18 грудня) — 270M модель на базі Gemma 3 для кращої генерації структурованих викликів функцій, оптимізована під edge-пристрої. На бенчмарку Mobile Actions файнтюнінг базової Gemma підвищив надійність виклику функцій з 58% до 85%.
  • GLM 4.7 (Z.ai, 22 грудня) — покращення над GLM 4.6, з фокусом на стабільність у тривалих робочих циклах. Модель отримала «Interleaved Thinking» та «Preserved Thinking» — підходи для послідовної роботи над багатокроковими задачами. На HLE показала 42.8% (+12.4% порівняно з GLM-4.6), на SWE-bench Verified — 73.8%.

«This smells like Claude» Джерело

Оновлення у світі вайбкодингу

Окрім виходу GPT-5.2 Codex, на початку грудня Mistral випустили Devstral 2 — coding-модель на 123B параметрів із контекстом 256K токенів. За заявами компанії, модель досягає 72.2% на SWE-bench Verified та є до 7 разів економнішою за Claude Sonnet на реальних задачах. На момент анонсу модель була доступна безкоштовно через API, із запланованою ціною $0.40/$2.00 за мільйон токенів.

Разом із моделлю вийшов Mistral Vibe CLI — open-source CLI агент, що позиціонується як альтернатива Claude Code. Підтримує сканування структури проєкту, Git-статус, посилання на файли через @, виконання shell-команд через ! та інтеграцію з IDE через Agent Communication Protocol (наразі доступна як розширення для Zed).

Для легших задач випущена Devstral Small 2 (24B) під ліцензією Apache 2.0,

що досягає 68.0% на SWE-bench Verified.

Claude Code

Серед оновлень Claude Code цього місяця:

  • агенти та bash-команди тепер виконуються асинхронно у фоновому режимі (Ctrl+B), не блокуючи основну сесію. Також додано іменовані сесії (/rename, /resume <name>).
  • новий LSP-інструмент для code intelligence: go-to-definition, find references, hover documentation.

Що почитати про AI-кодинг за грудень

Джерело

Інструменти та інфраструктура

Agentic AI Foundation

8 грудня під егідою Linux Foundation офіційно запустилась Agentic AI Foundation — ініціатива для розвитку відкритих стандартів для AI-агентів.

Засновники — Block, Anthropic та OpenAI — задонатили фундації ключові проєкти:

  • Anthropic: Model Context Protocol (MCP) для стандартизації доступу моделей до даних та інструментів.
  • OpenAI: AGENTS.md — специфікація метаданих (на кшталт robots.txt), що визначає правила взаємодії агентів з кодовими базами.
  • Block: Goose — їхній open-source агентний фреймворк для локальних задач.

Це перший випадок, коли три головні конкуренти — Anthropic, OpenAI та Block — об’єдналися для створення спільних стандартів. До фундації вже приєдналися Google, Microsoft, AWS, Bloomberg та Cloudflare. Мета — запобігти фрагментації екосистеми через пропрієтарні рішення.

Agent Skills

18 грудня Anthropic опублікували Agent Skills як відкритий стандарт. Skills — це директорії з файлом SKILL.md (де зберігається опис навички), інструкціями та скриптами, які агенти можуть динамічно завантажувати залежно від поставленої задачі.

Стандарт швидко отримав підтримку: OpenAI інтегрували його в Codex, Microsoft та GitHub додали підтримку у свої інструменти, Cursor також приєднався. Один skill тепер працює в Claude Code, Codex та інших середовищах без модифікацій.

Transformers v5

Близько 1 грудня вийшов Transformers v5 з суттєвими архітектурними змінами:

  • Модульна архітектура — зменшує дублювання коду та спрощує додавання нових моделей.
  • Тільки PyTorch — підтримку Flax та TensorFlow прибрано.
  • Покращення інференсу — оптимізовані ядра, continuous batching, paged attention.
  • transformers serve — OpenAI-сумісний HTTP-сервер для деплою моделей.

Breaking changes: видалено encode_plus та legacy feature extractors, квантизація тепер через єдиний quantization_config.

Stirrup

Artificial Analysis випустили Stirrup — легкий open-source фреймворк для побудови та бенчмаркінгу агентів. На відміну від складних оркестраційних бібліотек, Stirrup дозволяє моделі керувати шляхом виконання, беручи на себе лише виконання інструментів та управління контекстом.

З коробки є пошук по вебу, виконання коду (локально або в Docker) та MCP-клієнт. Цікаво, що на бенчмарках GDPval-AA моделі в Stirrup часто випереджували свої нативні чат-застосунки завдяки кращому доступу до інструментів.

Дослідження грудня

Titans та MIRAS: довготривала пам’ять для AI

Google представили Titans — нову архітектуру, де для довготривалої пам’яті використовується глибокий MPL (Multi-Layer Perceptron) замість фіксованих векторів традиційних RNN. Модель вирішує, що зберігати, на основі «метрики здивування» — наскільки новий вхід відрізняється від очікувань. Адаптивний weight decay дозволяє «забувати» нерелевантну інформацію.

Паралельно запропоновано фреймворк MIRAS (Memorization, Initialization, Retrieval, Association), що об’єднує Transformers та linear RNN під єдиною теоретичною базою для continuous learning. Це може стати однією з ключових ідей для архітектури агентів у 2026 році.

З інших цікавих досліджень:

  • Memory in the Age of AI Agents — дослідження пропонує нову таксономію пам’яті агентів «Forms-Functions-Dynamics», розрізняючи форми (token-level, parametric, latent) та функції (factual, experiential, working). Головний аргумент: пам’ять має бути «first-class primitive» у дизайні агентів, а не надбудовою типу базового RAG.
  • Recursive Language Models — дослідники з MIT запропонували підхід, де довгі промпти трактуються не як прямий вхід, а як зовнішнє середовище. Замість обробки всього контексту одразу модель пише код для програмного доступу до його фрагментів, що дозволяє працювати з контекстами до 10M+ токенів без деградації якості.
  • GPT-5 у лабораторії — Axios розкрив, що GPT-5 може успішно виконувати роботу у лабораторіях: у співпраці зі стартапом Red Queen Bio модель оптимізувала протокол молекулярного клонування, підвищивши ефективність у 79 разів через ітеративний цикл «пропозиція → експеримент → аналіз → покращення».

OpenRouter: State of AI 2025

OpenRouter опублікували річний звіт на основі аналізу 100 трильйонів токенів, що пройшли через їхню платформу у 2025 році. Це один із найбільших публічних датасетів про реальне використання LLM, і він демонструє кілька важливих трендів.

Reasoning-моделі стали мейнстримом. Моделі з можливістю «думання» (Claude Sonnet 4.5 think, GPT-5 з reasoning, Gemini Deep Think) тепер займають понад 50% всього обсягу токенів — радикальна зміна порівняно з початком року, коли вони були нішевим продуктом.

Програмування домінує в платному сегменті. Понад 50% трафіку платних моделей припадає на coding-задачі. Водночас у сегменті open-source моделей домінують roleplay та креативні сценарії використання (також >50%). Це підтверджує розділення ринку: комерційні користувачі платять за продуктивність у коді, тоді як ентузіасти експериментують із відкритими моделями для інших цілей.

Anthropic лідирує в інструментальних задачах. Частка Anthropic у запитах на tool-use та coding становить близько 60% — значний відрив від конкурентів. Це пояснює, чому компанія так активно інвестує в Claude Code та екосистему MCP.

Серед окремих моделей варто відзначити Gemini 3 Deep Think, яка досягла 45.1% на ARC-AGI-2 — бенчмарку абстрактного мислення, де людський рівень становить 85%+.

Що ще цікавого почитати за грудень

Підсумки року:

Аналітика та роздуми:

Технічне:

До зустрічі в наступному дайджесті!

Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

👍ПодобаєтьсяСподобалось10
До обраногоВ обраному6
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі