AI Digest #1: GPT-5 Codex vs Claude Sonnet 4.5, Lethal Trifecta та інші новини вересня

Усім привіт! Мене звати Марк, я AI Engineer у компанії Genesis.
Пропоную вашій увазі перший дайджест з новинами та корисними матеріалами про світ штучного інтелекту від розробників для розробників. У цьому випуску зібрано найважливіші події вересня — чергового місяця, коли в AI-індустрії відбулося стільки змін, що встежити за всім стало справжнім викликом.
У цьому дайджесті
🔹 Чотири нові SOTA-моделі для роботи з кодом: GPT-5 Codex, Claude Sonnet 4.5, Grok Code Fast 1 та Kimi K2.
🔹 Нові моделі від Alibaba, Mistral, Google, OpenAI та інших.
🔹 Нові бенчмарки SWE-Bench Pro та GDPVal для кращої оцінки продуктивності моделей.
🔹 LangChain 1.0 та Apple Foundation Models Framework.
🔹 Дослідження про reasoning states та research agents.
🔹 Нові безпекові виклики AI-агентів.
Оновлення у світі LLM-моделей
Вересень виявився надзвичайно багатим на релізи нових моделей. Великі гравці продовжують свою гонку, але й менші компанії не відстають, пропонуючи цікаві спеціалізовані рішення. Розглянемо найважливіші з них.
Почнемо з Qwen від Alibaba. Лінійка моделей Qwen2.5, яка побачила світ майже рік тому, отримала значене оновлення у вигляді 4 нових моделей Qwen3.
Перш ніж заглибитися в цифри, важливо розуміти, що бенчмарки — це корисний, але далеко не ідеальний інструмент для порівняння моделей. Вони показують загальну картину, але не завжди відображають реальну продуктивність конкретних інструментів у конкретних завданнях. Наприклад, Claude Code від Anthropic найкраще оптимізований саме під моделі Claude, тож працює з ними значно краще, ніж могли б передбачити загальні бенчмарки. Тому при виборі моделі варто орієнтуватися не лише на цифри в таблицях, а насамперед випробовувати різні моделі самостійно й спиратися на особистий досвід.
Для порівняння моделей я використовую Artificial Analysis Intelligence Index — комплексний показник, що оцінює загальну «розумність» моделі, а також Cost per Intelligence, який показує, скільки коштує одиниця цієї розумності. Ось що ми маємо для нових моделей Qwen3:
|
Intelligence Index |
Cost per intelligence |
Реліз | |
|
Qwen3-Next-80B-A3B |
44.8% |
$1.65 |
11 Вер., 2025 |
|
Qwen3-Next-80B-A3B think |
54.3% |
$11.54 |
11 Вер., 2025 |
|
Qwen3-Omni-30B-A3B |
30.2% |
$1.8 |
22 Вер., 2025 |
|
Qwen3-VL-235B-A22B |
45.3% * |
$2.4 * |
23 Вер., 2025 |
|
Qwen3-Max |
55.1% |
$3.6 |
22 Вер., 2025 |
|
GPT-5 low, для порівняння |
61.8% |
$3.9 |
07 Серп., 2025 |
* Для VL моделі бенчмарку ще немає, тож взятий бенчмарк моделі, з якої вона походить (Qwen3 235B 2507).
Серія Qwen3 включає моделі під різні потреби: Qwen3-Next працює лише з текстом, Qwen3-VL додає можливість обробки зображень, а Qwen3-Omni-30B підтримує всі основні види контенту — вміє отримувати на вході текст, зображення, аудіо та відео, і відповідати як текстом, так і голосом. Нові моделі Qwen3 (за виключенням Qwen3-Max) опубліковані під ліцензією Apache 2.0, із вагами доступними на Hugging Face, а також доступні через різні провайдери на OpenRouter.
Цього місяця також вийшли оновлення Magistral від Mistral AI, компанії, яка спеціалізується на невеликих, але ефективних моделях. Magistral 1.2 отримав підтримку reasoning (можливість «думати» перед відповіддю) та обробку зображень. Ось їхні показники:
|
Intelligence Index |
Cost per intelligence |
Дата випуску | |
|
Magistral Small 1.2 think |
43% |
$2.9 |
18 Вер., 2025 |
|
Magistral Medium 1.2 think |
52% |
$9.6 |
18 Вер., 2025 |
|
GPT-5-nano medium |
49.3% |
$0.48 |
07 Серп., 2025 |
Особливо цікава тут Magistral Small 1.2 — повністю відкрита модель під ліцензією Apache 2.0, на відміну від Medium-версії. При розмірі всього 24B параметрів, її квантизовану версію можна розгорнути локально на RTX 4090 або на Маці з 32 Гб ОЗУ.
Серед оновлень інших
- Gemini 2.5 Flash and Flash-Lite стали розумнішими та швидшими
- На заміну GLM-4.5 вийшла GLM-4.6, зі збільшеним контекстним вікном та покращеною продуктивністю
- VaultGemma від Google стала першою великою мовною моделлю, повністю навченою з використанням диференційної приватності, що унеможливлює витік тренувальних даних
- Pleias 1.0 — перша лінійка LLM, повністю натренованих на відкритих даних
Оновлення моделей для роботи з кодом
Але найбільше прогресу було в моделях для роботи з кодом. За вересень на ринку з’явилося одразу чотири нові SOTA (State of the Art) моделі — Grok Code Fast 1, Kimi K2 0905, GPT-5 Codex та Claude Sonnet 4.5. Така концентрація сильних релізів за такий короткий проміжок часу показує, наскільки гаряча зараз конкуренція в сегменті coding-моделей.
За Coding Index від Artificial Analysis, картина виглядає так::
|
Coding Index |
Cost per intelligence |
Дата випуску | |
|
Claude 3.7 Sonnet think |
35.81% |
$0.6 |
25 Лют., 2025 |
|
Gemini 2.5 Pro |
49.25% |
$4.9 |
17 Черв., 2025 |
|
Grok Code Fast 1 |
39.42% |
$0.48 |
28 Серп., 2025. |
|
Kimi K2‑0905 |
38.11% |
$1 |
4 Вер., 2025 |
|
GPT-5 Codex (high) |
53.45% |
$3 |
15 Вер., 2025 |
|
Claude Sonnet 4.5 think |
49.81% |
$3 |
29 Вер., 2025 |
Особливо цікаво спостерігати, як xAI наздоганяє лідерів — Grok Code Fast 1 вже випередив Claude 3.7 Sonnet (think), який тримав високі позиції на початку року. Разом із цим, Grok Code Fast 1 є дуже швидкою моделлю — видаючи в середньому 80 токенів на секунду за даними OpenRouter. Для порівняння, Claude Sonnet 4.5 видає 60 токенів на секунду, а GPT-5 Codex — лише 36. Із ціною лише в $0.48 за одиницю інтелекту, стає зрозуміло, що ця модель це спроба xAI увірватися на ринок моделей для роботи з кодом.
Що стосується Kimi K2-0905 від китайського Moonshot AI — це повністю відкрита модель під модифікованою MIT-ліцензією. Ваги доступні на Hugging Face, і її можна розгорнути локально через vLLM, SGLang або TensorRT-LLM. Але для цього потрібно мати значну інфраструктуру, адже модель має 1 трильйон параметрів, із яких 32 мільярди активуються для передбачення кожного наступного токена.
Погляньмо на інший бенчмарк — CompileBench від Quesma, який перевіряє, наскільки добре моделі справляються з реальними інженерними завданнями: компіляцією старого коду, вирішенням проблем із залежностями та застарілими інструментами збірки.
|
pass@1 score |
Вартість |
Час | |
|
Gemini 2.5 Pro |
53% |
$11.30 |
131 хв. |
|
Grok Code Fast 1 |
64% |
$0.71 |
158 хв. |
|
Kimi K2‑0905 |
58% |
$26.42 |
113 хв. |
|
GPT-5 Codex (high) |
91% |
$10.19 |
182 хв. |
|
Claude Sonnet 4.5 |
87% |
$20.66 |
128 хв. |
Тут уже картина дещо інша. GPT-5 Codex бере верх з 91% успішністю, хоча й працює повільніше за інших. Claude Sonnet 4.5 йде другим із солідними 87%. А ось Grok Code Fast 1, попри свою швидкість, показує лише 64%, але з вартістю в $0.71 це найдешевший варіант для таких завдань. Gemini 2.5 Pro, який в інших бенчмарках тримається непогано, тут показує лише 53% успішності.
Проте ходять чутки, що зовсім скоро стане доступною Gemini 3.0 Pro, яка знову поверне Google у топи бенчмарків.
Бенчмарки все ще відображають лише середню успішність моделей, не репрезентуючи випадки, де вони завдають більше шкоди, ніж користі.
Також стрімко розвивається й інфраструктура, що побудована навколо цих моделей:
- Вийшло оновлення Claude Code v2, з різними покращеннями та нативним плагіном для VS Code
- Claude Code SDK став Claude Agents SDK, з розширеним функціоналом для створення production-ready агентів, автоматичним управлінням контекстом, інтеграцією MCP та вбудованою обробкою помилок
- Anthropics оновили Claude Code Action до v1, значно покращивши якість інтеграції Claude Code з GitHub
- OpenAI Codex отримав низку оновлень
- GitHub Copilot CLI в публічному превʼю
Спеціалізовані моделі
Паралельно з гонкою великих мовних моделей вересень і приніс низку спеціалізованих рішень — інструментів, які вирішують конкретні задачі оптимальніше за будь-яку велику мультимодальну модель. Розглянемо найцікавіші з них.
Аудіо та голосові інтерфейси
- Realtime API від OpenAI — speech-to-speech через GPT-4o, що зберігає емоційний контекст та інтонації. Підтримує WebRTC, WebSocket, SIP інтеграції та function calling під час розмови.
Відео та зображення
- Sora v2 від OpenAI — генерація відео з синхронізованим звуком (мовлення, музика, Foley-ефекти) прямо з текстового опису. Покращена симуляція фізики та стабільність об’єктів до 20 секунд в 1080p. Доступ поки що лише через invite-only iOS-застосунок та Sora.com.
- Qwen-Image-Edit-2509 від Alibaba — відкрита модель для редагування зображень під Apache 2.0. Може працювати одночасно з кількома вхідними зображеннями для композитних сцен, краще зберігає деталі облич та текстур порівняно з GPT-4o
Обробка документів та RAG-системи
- EmbeddingGemma від Google — компактна модель для багатомовного on-device пошуку (100+ мов).
- Jina Code Embeddings — модель, спеціалізована для code retrieval із контекстом до 32K токенів.
- Granite Docling від IBM — парсинг PDF із збереженням структури через формат DocTags.
- MinerU 2.5 — покращене розпізнавання таблиць та формул із PDF-файлів.
Оновлення інфраструктури
Паралельно з моделями розвивається й інфраструктура навколо них. Два оновлення заслуговують на особливу увагу:
LangChain 1.0 alpha — реліз v1, хоч і apha, популярного фреймворку. Головні зміни:
- LangGraph тепер є фундаментом всього фреймворку (раніше був опціональним).
- Прості агенти отримують «з коробки»: durability, short-term memory, human-in-the-loop та streaming.
- Єдиний API
create_agentзамість різноманіття типів (ConversationalAgent,ZeroShotAgentтощо). - Legacy chains перенесені в
langchain-legacy— старий код працюватиме, але міграція рекомендована.
Apple Foundation Models Framework — вперше сторонні розробники отримали доступ до моделі з 3 мільярдами параметрів Apple Intelligence. Ключові можливості:
- Повністю локальна обробка — дані не покидають пристрій.
- Type-safe генерація через
@Generable— гарантовано валідні структури даних без парсингу JSON. - Tool calling — модель може викликати функції під час генерації.
- Працює на iOS 26+, iPadOS 26+, macOS 26+, visionOS (потрібна Apple Intelligence).
Дослідження вересня
Серед академічних досліджень вересня три заслуговують на увагу через практичну цінність для розробників:
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization — у дослідженні пропонують рішення проблеми переповнення контексту у багатокрокових агентів. Замість збереження всієї історії (підхід ReAct), агент періодично стискає її в «стани розмірковування» (reasoning states), що дозволяє отримати покращення на
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research — описана нова архітектура для deep research агентів. Підхід полягає в роботі двох агентів: «планувальника», який будує outline та збирає факти, і «письменника», який пише безпосередньо розділи. Запропонований підхід краще працює з памʼяттю, дозволяючи досягати вищих результатів.
Із цікавого — DeepSeek-R1 стала першою великою мовною моделлю, опублікованою в Nature, топовому науковому журналі після повноцінного peer review.
Цього місяця вийшло також три нових великих бенчмарки для кращого порівняння
SWE-Bench Pro від Scale AI — радикально складніша версія оригінального SWE-Bench, ключові характеристики:
- 1865 завдань з 41 реального репозиторію (GPL-ліцензії та комерційні проєкти).
- Неструктуровані вимоги, як у реальному житті — в середньому 107 рядків коду у 4 файлах.
- Результати на публічному датасеті: GPT-5 ~23%, Claude Opus 4.1 ~23%, старші моделі <5%.
- Успішність варіюється від 10% до 50% залежно від специфіки репозиторію.
GDPVal від OpenAI — оцінка моделей на реальних професійних завданнях через симуляцію 44 професій. Особливості:
- 1320 завдань від фахівців з 14+ роками досвіду.
- Реальні deliverables: юридичні брифи, інженерні креслення, медичні плани.
- Frontier-моделі (GPT-5, Claude Opus 4.1) досягають або перевищують якість експертів у ~50% завдань.
CompileBench від Quesma — бенчмарк для оцінки здатності моделей генерувати застарілий код, що компілюється та виконується без помилок. Особливості:
- Фокус на практичній компіляції коду в реальних умовах.
- Тестування на різних мовах програмування (Python, JavaScript, TypeScript, Go, Java).
- Frontier-моделі показують значні розбіжності у здатності генерувати код, що компілюється: від 60% до 85% залежно від мови та складності завдання.
Нові безпекові виклики AI-агентів
Вересень виявився насиченим на події у галузі безпеки AI-агентів. Три інциденти демонструють критичні виклики при побудові надійних систем:
Anthropic Postmortem — аналіз інфраструктурних багів, що вплинули на погіршення якості Claude-моделей протягом серпня-вересня.
Концепція «летальної тріади» — небезпечна комбінація трьох можливостей AI-агента (доступ до приватних даних + обробка недовіреного контенту + зовнішня комунікація), що створює новий вектор атаки, від яких фільтри та guardrails малоефективні.
Вразливості «летальної тріади» вже були знайдені в:
Рішення — архітектурне: уникати поєднання всіх трьох можливостей або чітко обмежувати зовнішню комунікацію агента.
Що ще цікавого почитати за вересень
- Памʼять Claude: інша філософія
- Дизайн циклів роботи AI-агентів
- Міжагентна ескалація привілеїв: коли агенти звільняють один одного
- Використання Claude Code для модернізації коду
25-річного драйвера - Пастка кодингу з ШІ
- Перша спроба точно не вдасться:
6-тижнева подорож інженера з Claude Code - Як змусити ШІ працювати у складних кодових базах
- GitHub SpecKit
- Я шкодую, що збудував цей ШІ-кластер на Raspberry Pi за $3000
- Подолання недетермінізму в
LLM-інференсі



Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів