AI News Digest #3: Google атакує Nvidia, GPT 5.1 закриває 53% PR-ів, 1 млн TPU для Anthropic та кращі AI-агенти для кодингу
Всім привіт! На звʼязку Сергій Лелеко, Senior Machine Learning & Artificial Intelligence Engineer в SPD Technology, і це наш третій АІ-дайджест. Листопад видався насиченим на релізи. Таке враження, що всі гіганти вирішили представити свої головні фічі під кінець року або просто поспішають виконати KPI та отримати річні бонуси. Тож приємного читання!
🔹OpenAI GPT-5.1 — емоції, гнучкий reasoning та 53% закритих PR-ів
OpenAI представила оновлення лінійки — GPT-5.1. Тепер маємо дві версії: Instant (миттєва) та Thinking (для складних роздумів). Головна фішка Instant — модель стала значно «теплішою» і більш conversational, менше нагадуючи робота. А от Thinking-версія отримала серйозний буст. По-перше, параметр reasoning тепер може бути None для простих задач. Це геймчейнджер: модель не витрачає ресурси та час на зайві «роздуми», що суттєво економить токени.
Але справжній прорив стався на складних технічних задачах. На новому хардкорному бенчмарку OpenAI-Proof Q&A (це 20 реальних інженерних проблем, які свого часу стопорили релізи продуктів OpenAI) GPT-5.1-Codex-Max стрибнула з

І цифра, яка змушує задуматись: на внутрішньому бенчмарку OpenAI PRs модель тепер успішно імплементує 53% пулл-реквестів автономно. Для порівняння: GPT-4o в травні 2024 витягувала лише 6%. Ми офіційно перетнули екватор — половину типових задач розробки AI вже тягне самостійно.
🔹Google відповідає з Gemini 3
Google не відстає і представив Gemini 3 — свою «найрозумнішу» модель на сьогодні. Обіцяють state-of-the-art reasoning і ще крутішу мультимодальність. Але найцікавіше — це Gemini Agent, який почали розгортати для підписників Ultra. Ця штука вміє оркеструвати складні, багатоетапні завдання (наприклад, повністю організувати вашу поїздку чи розгребти inbox), а не просто відповідати на питання. Google явно цілиться у нішу повноцінних персональних асистентів, і виглядає це перспективно.
🔹Claude Opus 4.5
Anthropic нарешті представила Claude Opus 4.5, і це саме той хеві-ліфтер, якого ми чекали. У релізі кажуть, що це найкраща модель у світі для кодингу, складних агентів та computer use. З приємного — прайсінг зробили адекватним: $5/$25 за мільйон токенів. Це робить Opus-рівень доступним не тільки для ентерпрайзу.
Також у публічну бету вийшов Programmatic Tool Calling — тепер Claude може викликати інструменти прямо з коду, що зменшує затримки та економить токени. Якщо ви будуєте складні мультиагентні системи — це must have.
🔹GLM 4.6 — як мігрувати з Claude й отримати 1000 токенів/сек
Cerebras преставили гайд по міграції на GLM 4.6. І якщо ви досі сидите на дорогих пропрієтарних API, саме час задуматись. GLM 4.6 — це потужна open-source MoE-модель (355B параметрів, але лише 32B активних), яка на залізі Cerebras видає шалені 1000+ токенів за секунду. Це у 20 разів швидше за Sonnet 4.5!
Але є нюанси. Модель має свої «приколи», тому просто скопіювати промпти з Claude не вийде. Ось ключові хаки для міграції:
- Front-load instructions. У моделі сильний «beginning bias». Всі критичні інструкції (особливо для агентів) переносимо на самий початок промпта, інакше вона їх ігнорує, коли контекст розростається.
- Ніякої ввічливості. GLM 4.6 любить армійську дисципліну. Замість «Please read...» пишемо «You MUST strictly follow...». М’які формулювання вона сприймає як опціональні.
- Контроль мови. Модель може раптово почати видавати reasoning traces китайською. Тому в системному промпті жорстко фіксуємо «Always respond in English».
- Лінійне мислення. На відміну від Sonnet, тут немає «interleaved thinking» (коли модель думає-робить-думає). Тому складні таски треба розбивати на чіткі підзадачі (Sub-steps) вручну.
- Гібридний підхід. Найкращий патерн використання — брати Sonnet або GPT-5 для планування (High-level reasoning), а виконання віддавати GLM 4.6. Виходить дешево, сердито і дуже швидко.
Якщо ви будуєте агентні системи або кодінг-асистентів — це зараз найкращий варіант за співвідношення price/performance. Інференс на Cerebras літає, а якість коду (71% на 𝜏²-Bench) дозволяє закривати більшість рутинних тікетів.
🔹Microsoft Research та мультиагентні системи
Microsoft Research показала MMCTAgent. Це мультиагентна система, яка може аналізувати години відео та гігабайти картинок, використовуючи архітектуру Planner-Critic. Чому це круто? Бо звичайні моделі «захлинаються» на таких об’ємах контексту. MMCTAgent ж розбиває задачу між спеціалізованими агентами (ImageAgent, VideoAgent). Для тих, хто створює рішення для відеоаналітики чи модерації контенту — обов’язково до ознайомлення.
🔹Meta бустить рекламу та 3D
Meta представили GEM — нову AI-модель для рекламної платформи, яка обіцяє буст конверсій на 5%. Виглядає як небагато, але на масштабах Meta — це шалені гроші, і загалом такий буст для рекомендацій реклами це справжній успіх.
Також оновили лінійку SAM (Segment Anything Model) — вийшли SAM 3D Objects та SAM 3D Body. Якщо ви працюєте з computer vision, то знаєте, що SAM — це топ. Нові моделі дозволяють реконструювати об’єкти та людські тіла у 3D з неймовірною точністю.
🔹World Labs представила Marble — генерацію 3D-світів
Це новина з розряду «вау». World Labs викотили Marble — модель, яка генерує повноцінні 3D-світи з тексту або картинок. Це не просто 3D-об’єкт, а ціле середовище, яке можна редагувати та по якому можна «ходити». Для геймдеву та VR/AR це може стати гейм чейнджером. Експорт у Gaussian splats або меші працює «з коробки». Уявіть, як інді-розробники будуть створювати рівні для ігор за лічені хвилини.
🔹Google презентує DS-STAR — агента-аналітика
6 листопада Google DeepMind випустив paper і демо по DS-STAR. Це не просто LLM, це спеціалізований агент для Data Science задач. Він вміє брати сирий датасет, чистити його, будувати гіпотези, писати код (Python/Pandas) і навіть генерувати звіт з інсайтами. На внутрішніх бенчмарках Kaggle він вже б’є рівень мідл-аналітика. Це вже дзвіночок: рутинна робота з EDA (Exploratory Data Analysis) скоро повністю перейде до агентів.
Gurobi 13.0: оптимізація на стероїдах
21 листопада тихо, але важливо для індустрії, вийшов Gurobi 13.0. Для тих, хто займається Operations Research та складною оптимізацією (логістика, розклад, supply chain) — це справжнє свято. Нова версія отримала кращу підтримку нелінійних задач і пряму інтеграцію з
Тепер можна вбудовувати предиктивні моделі (наприклад, прогноз попиту) прямо в solver як constraints. Це закриває величезний геп між Data Science (прогнозом) та Prescriptive Analytics (рішенням).
🔹SemanticVLA: роботи стають розумнішими
Ще одна новина з середини листопада (12.11) — реліз SemanticVLA. Це Vision-Language-Action модель для робототехніки. Вона дозволяє роботам розуміти семантику середовища (наприклад, «візьми червону чашку, але обережно, вона гаряча»). Модель показала приріст ефективності виконання задач на 21%. Для тих, хто працює з Edge AI та роботами — це цікавий вектор розвитку.
🔹Google TPUv7 Ironwood — удар по імперії Nvidia
Google змінює правила гри й починає фізично продавати свої чіпи як merchant silicon. Перший мега-діл вже є: Anthropic законтрактував 1 мільйон (!!!) чіпів TPUv7. Це не просто оренда в хмарі, це побудова власної інфраструктури, яка за TCO (Total Cost of Ownership) виходить на 30% дешевшою, ніж на Nvidia Blackwell GB200.
Головні кілер-фічі: реальна утилізація (MFU) часто вища за GPU, а замість звичайних свитчів — Optical Circuit Switches (OCS), які дозволяють динамічно змінювати топологію кластера світлом.
Схоже, «CUDA moat» починає давати тріщини, бо черга за TPU вже шикується з Meta, OpenAI та xAI. Багато хто був шокований новиною, що Gemini 3 була навчена на власних чіпах Google. Вони просто не знали, що Gemini 1 та 2 теж були навчені на власних TPU.
На сьогодні це все. Дякую усім за увагу до дайджесту. Побачимось у наступному випуску вже за місяць — чекаємо на новини грудня.
Дізнатися більше про культуру і роботу в SPD Technology ви можете, підписуючись на наші акаунти в соцмережах: LinkedIn, Instagram, Facebook. А якщо ви в пошуках нових карʼєрних можливостей, запрошую переглянути наші відкриті ролі.
Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів