AI News Digest #3: Google атакує Nvidia, GPT 5.1 закриває 53% PR-ів, 1 млн TPU для Anthropic та кращі AI-агенти для кодингу

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Всім привіт! На звʼязку Сергій Лелеко, Senior Machine Learning & Artificial Intelligence Engineer в SPD Technology, і це наш третій АІ-дайджест. Листопад видався насиченим на релізи. Таке враження, що всі гіганти вирішили представити свої головні фічі під кінець року або просто поспішають виконати KPI та отримати річні бонуси. Тож приємного читання!

🔹OpenAI GPT-5.1 — емоції, гнучкий reasoning та 53% закритих PR-ів

OpenAI представила оновлення лінійки — GPT-5.1. Тепер маємо дві версії: Instant (миттєва) та Thinking (для складних роздумів). Головна фішка Instant — модель стала значно «теплішою» і більш conversational, менше нагадуючи робота. А от Thinking-версія отримала серйозний буст. По-перше, параметр reasoning тепер може бути None для простих задач. Це геймчейнджер: модель не витрачає ресурси та час на зайві «роздуми», що суттєво економить токени.

Але справжній прорив стався на складних технічних задачах. На новому хардкорному бенчмарку OpenAI-Proof Q&A (це 20 реальних інженерних проблем, які свого часу стопорили релізи продуктів OpenAI) GPT-5.1-Codex-Max стрибнула з 0-2% до 8%. Цездається невеликою цифрою, але це той самий найважчий крок «від нуля до одиниці» — модель навчиался бачити структуру проблеми і діяти як інженер там, де раніше просто галюцинувала.

І цифра, яка змушує задуматись: на внутрішньому бенчмарку OpenAI PRs модель тепер успішно імплементує 53% пулл-реквестів автономно. Для порівняння: GPT-4o в травні 2024 витягувала лише 6%. Ми офіційно перетнули екватор — половину типових задач розробки AI вже тягне самостійно.

🔹Google відповідає з Gemini 3

Google не відстає і представив Gemini 3 — свою «найрозумнішу» модель на сьогодні. Обіцяють state-of-the-art reasoning і ще крутішу мультимодальність. Але найцікавіше — це Gemini Agent, який почали розгортати для підписників Ultra. Ця штука вміє оркеструвати складні, багатоетапні завдання (наприклад, повністю організувати вашу поїздку чи розгребти inbox), а не просто відповідати на питання. Google явно цілиться у нішу повноцінних персональних асистентів, і виглядає це перспективно.

🔹Claude Opus 4.5

Anthropic нарешті представила Claude Opus 4.5, і це саме той хеві-ліфтер, якого ми чекали. У релізі кажуть, що це найкраща модель у світі для кодингу, складних агентів та computer use. З приємного — прайсінг зробили адекватним: $5/$25 за мільйон токенів. Це робить Opus-рівень доступним не тільки для ентерпрайзу.

Також у публічну бету вийшов Programmatic Tool Calling — тепер Claude може викликати інструменти прямо з коду, що зменшує затримки та економить токени. Якщо ви будуєте складні мультиагентні системи — це must have.

🔹GLM 4.6 — як мігрувати з Claude й отримати 1000 токенів/сек

Cerebras преставили гайд по міграції на GLM 4.6. І якщо ви досі сидите на дорогих пропрієтарних API, саме час задуматись. GLM 4.6 — це потужна open-source MoE-модель (355B параметрів, але лише 32B активних), яка на залізі Cerebras видає шалені 1000+ токенів за секунду. Це у 20 разів швидше за Sonnet 4.5!

Але є нюанси. Модель має свої «приколи», тому просто скопіювати промпти з Claude не вийде. Ось ключові хаки для міграції:

  • Front-load instructions. У моделі сильний «beginning bias». Всі критичні інструкції (особливо для агентів) переносимо на самий початок промпта, інакше вона їх ігнорує, коли контекст розростається.
  • Ніякої ввічливості. GLM 4.6 любить армійську дисципліну. Замість «Please read...» пишемо «You MUST strictly follow...». М’які формулювання вона сприймає як опціональні.
  • Контроль мови. Модель може раптово почати видавати reasoning traces китайською. Тому в системному промпті жорстко фіксуємо «Always respond in English».
  • Лінійне мислення. На відміну від Sonnet, тут немає «interleaved thinking» (коли модель думає-робить-думає). Тому складні таски треба розбивати на чіткі підзадачі (Sub-steps) вручну.
  • Гібридний підхід. Найкращий патерн використання — брати Sonnet або GPT-5 для планування (High-level reasoning), а виконання віддавати GLM 4.6. Виходить дешево, сердито і дуже швидко.

Якщо ви будуєте агентні системи або кодінг-асистентів — це зараз найкращий варіант за співвідношення price/performance. Інференс на Cerebras літає, а якість коду (71% на 𝜏²-Bench) дозволяє закривати більшість рутинних тікетів.

🔹Microsoft Research та мультиагентні системи

Microsoft Research показала MMCTAgent. Це мультиагентна система, яка може аналізувати години відео та гігабайти картинок, використовуючи архітектуру Planner-Critic. Чому це круто? Бо звичайні моделі «захлинаються» на таких об’ємах контексту. MMCTAgent ж розбиває задачу між спеціалізованими агентами (ImageAgent, VideoAgent). Для тих, хто створює рішення для відеоаналітики чи модерації контенту — обов’язково до ознайомлення.

🔹Meta бустить рекламу та 3D

Meta представили GEM — нову AI-модель для рекламної платформи, яка обіцяє буст конверсій на 5%. Виглядає як небагато, але на масштабах Meta — це шалені гроші, і загалом такий буст для рекомендацій реклами це справжній успіх.

Також оновили лінійку SAM (Segment Anything Model) — вийшли SAM 3D Objects та SAM 3D Body. Якщо ви працюєте з computer vision, то знаєте, що SAM — це топ. Нові моделі дозволяють реконструювати об’єкти та людські тіла у 3D з неймовірною точністю.

🔹World Labs представила Marble — генерацію 3D-світів

Це новина з розряду «вау». World Labs викотили Marble — модель, яка генерує повноцінні 3D-світи з тексту або картинок. Це не просто 3D-об’єкт, а ціле середовище, яке можна редагувати та по якому можна «ходити». Для геймдеву та VR/AR це може стати гейм чейнджером. Експорт у Gaussian splats або меші працює «з коробки». Уявіть, як інді-розробники будуть створювати рівні для ігор за лічені хвилини.

🔹Google презентує DS-STAR — агента-аналітика

6 листопада Google DeepMind випустив paper і демо по DS-STAR. Це не просто LLM, це спеціалізований агент для Data Science задач. Він вміє брати сирий датасет, чистити його, будувати гіпотези, писати код (Python/Pandas) і навіть генерувати звіт з інсайтами. На внутрішніх бенчмарках Kaggle він вже б’є рівень мідл-аналітика. Це вже дзвіночок: рутинна робота з EDA (Exploratory Data Analysis) скоро повністю перейде до агентів.

Gurobi 13.0: оптимізація на стероїдах

21 листопада тихо, але важливо для індустрії, вийшов Gurobi 13.0. Для тих, хто займається Operations Research та складною оптимізацією (логістика, розклад, supply chain) — це справжнє свято. Нова версія отримала кращу підтримку нелінійних задач і пряму інтеграцію з ML-моделями.

Тепер можна вбудовувати предиктивні моделі (наприклад, прогноз попиту) прямо в solver як constraints. Це закриває величезний геп між Data Science (прогнозом) та Prescriptive Analytics (рішенням).

🔹SemanticVLA: роботи стають розумнішими

Ще одна новина з середини листопада (12.11) — реліз SemanticVLA. Це Vision-Language-Action модель для робототехніки. Вона дозволяє роботам розуміти семантику середовища (наприклад, «візьми червону чашку, але обережно, вона гаряча»). Модель показала приріст ефективності виконання задач на 21%. Для тих, хто працює з Edge AI та роботами — це цікавий вектор розвитку.

🔹Google TPUv7 Ironwood — удар по імперії Nvidia

Google змінює правила гри й починає фізично продавати свої чіпи як merchant silicon. Перший мега-діл вже є: Anthropic законтрактував 1 мільйон (!!!) чіпів TPUv7. Це не просто оренда в хмарі, це побудова власної інфраструктури, яка за TCO (Total Cost of Ownership) виходить на 30% дешевшою, ніж на Nvidia Blackwell GB200.

Головні кілер-фічі: реальна утилізація (MFU) часто вища за GPU, а замість звичайних свитчів — Optical Circuit Switches (OCS), які дозволяють динамічно змінювати топологію кластера світлом.

Схоже, «CUDA moat» починає давати тріщини, бо черга за TPU вже шикується з Meta, OpenAI та xAI. Багато хто був шокований новиною, що Gemini 3 була навчена на власних чіпах Google. Вони просто не знали, що Gemini 1 та 2 теж були навчені на власних TPU.


На сьогодні це все. Дякую усім за увагу до дайджесту. Побачимось у наступному випуску вже за місяць — чекаємо на новини грудня.

Дізнатися більше про культуру і роботу в SPD Technology ви можете, підписуючись на наші акаунти в соцмережах: LinkedIn, Instagram, Facebook. А якщо ви в пошуках нових карʼєрних можливостей, запрошую переглянути наші відкриті ролі.

Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

👍ПодобаєтьсяСподобалось12
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі