AI News Digest #4: великі моделі дорослішають, а роботи вчаться з відео

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Всім привіт! На звʼязку Сергій Лелеко, Senior Machine Learning & Artificial Intelligence Engineer в SPD Technology, і це наш АІ-дайджест, присвячений останнім світовим АІ-новинам з року, що минув. Яким видався грудень — далі у дайджесті.

🔹 GPT-5.2

OpenAI офіційно випустила GPT-5.2 — нову флагманську LLM у трьох варіантах: Instant, Thinking та Pro.

Модель отримала суттєво прокачане reasoning, підтримку довших контекстів, сильніший інтелект для коду, планінгу та scientific/workflow-тасок, а також чіткий фокус на агентні сценарії й складні пайплайни.

GPT-5.2 ще більше закріплює OpenAI як default-choice для агентів, RAG-систем і autocoding: якщо ви вже будуєте AI-інфраструктуру навколо OpenAI API, це виглядає як логічний апгрейд без сюрпризів у перформансі.

🔹 Mistral Large 3 + Ministral 3 (open-source)

Mistral зарелізили нову лінійку моделей: великий sparse MoE та компактні dense-моделі під Apache-ліцензією.

Ключові апдейти — Mistral Large 3 із 41B активних і 675B загальних параметрів на sparse MoE-архітектурі, а також Ministral 3 у конфігураціях 14B, 8B і 3B з варіантами base, instruct та reasoning і підтримкою мультимодальності та vision.

Це один з найсильніших open-weight LLM на ринку. Реальна альтернатива closed-source моделям для enterprise-агентів, RAG, on-prem деплою та роботи з чутливими даними. Mастхев для команд, які хочуть контроль, кастомізацію і відсутність vendor lock-in.

🔹 Amazon Nova 2 (Lite, Pro, Sonic, Omni) + Nova Forge

AWS представила нове покоління foundation-моделей Nova 2 плюс сервіс кастомізації Nova Forge.

Що змінилось?

  • Nova 2 Lite: швидкий і дешевий reasoning-мод, контекст до 1M токенів.
  • Nova 2 Pro: під складні enterprise-навантаження, аналіз, агенти, складні workflow.
  • Nova 2 Sonic: speech-to-speech foundation-модель, natural voice, low-latency, multilingual.
  • Nova 2 Omni (preview): unified multimodal модель, text, image, video, speech input, text + image output.
  • Nova Forge: створення кастомних frontier-моделей на AWS.

AWS фактично дає компаніям інструментарій для побудови власного AI-стеку: від голосових агентів до кастомних мультимодальних моделей. Для бізнесів, які хочуть масштаб і контроль — дуже сильна пропозиція.

🔹 Gemini 3 Flash (Google DeepMind)

Google зробила Gemini 3 Flash дефолтною моделлю в Gemini-екосистемі. Це швидка й дешевша модель, одразу multimodal-ready для роботи з текстом і зображеннями (з потенціалом відео) та оптимізована під масові сценарії використання.

Flash фактично стає стандартом для мільйонів користувачів, а для продуктів із великим трафіком, frontend-інтеграцією та real-time UX це дуже вдалий баланс між якістю, швидкістю та вартістю.

R&D & trends

🔶 VideoVLA: як відеогенератори стають універсальними роботизованими маніпуляторами

Microsoft Research Asia разом з академічними партнерами представили VideoVLA — підхід, що фактично перетворює відеогенератори на «мозок» роботизованих маніпуляторів.

Рішення базується на мультимодальному Diffusion Transformer, який поєднує video, language та action forecasting і дозволяє одночасно прогнозувати послідовність дій та майбутні візуальні стани середовища, використовуючи visual imagination для більш надійного планування. Дослідження показує, що передбачення майбутнього образу тісно корелює з успіхом виконання завдання, що є суттєвою інновацією в робототехніці та відкриває шлях до більш generalizable роботів, здатних планувати через відео.

🔶 Vision-Language-Action модель із навчанням за одним відеоприкладом

Нове VLA-рішення, яке навчається з одного демонстраційного відео.

Підхід базується на one-shot learning, поєднує обробку демонстраційного відео з камерою робота та використовує масштабовану генерацію expert—agent даних (близько 892K пар), що дає приріст приблизно +30% продуктивності на unseen задачах у бенчмарках для маніпуляцій. Зменшує потребу у великих датасетах для тренування маніпуляцій. Важливий крок для generalist роботів, здатних швидко вчитися з прикладу.

🔶 Large Video Planner: керування роботами на основі відео

У роботі Large Video Planner Enables Generalizable Robot Control запропоновано video-first фундаментальну модель планування як альтернативу класичним VLA-підходам.

Метод трактує відео як основну модальність для керування роботом, тренується на інтернет-масштабних відео людських дій і в zero-shot режимі генерує executable action-плани для нових задач шляхом прямого витягу планів із відеопослідовностей.

Ключова інновація — демонстрація end-to-end конвеєра, де згенеровані відео-плани інтерпретуються у низькорівневі дії робота. Може стати базою для generalizable, video-conditioned robotic planning у реальних середовищах.

Тренд: Vision-Language-Action (VLA) вийшов у центр уваги R&D

У грудні 2025 увага дослідників чітко змістилась у бік VLA та video-centric роботів як основного напряму розвитку. Ключовими темами стали multimodal reasoning і planning через відео, активна робота з 3D-LLM/VLA-підходами, few-shot навчанням і здатністю до узагальнення, а також формування video + language + action як де-факто стандартної репрезентації для роботизованих систем.

Прогрес у цьому напрямі відкриває шлях до більш автономних generalist-роботів, здатних виконувати нові завдання без необхідності донавчання на великих спеціалізованих датасетах, що є критичним кроком для масштабування роботів у реальних середовищах.


На сьогодні це все. Дякую усім за увагу до дайджесту. Побачимось у наступному випуску вже за місяць — чекаємо на новини січня.

Дізнатися більше про культуру і роботу в SPD Technology ви можете, підписуючись на наші акаунти в соцмережах: LinkedIn, Instagram, Facebook. А якщо ви в пошуках нових карʼєрних можливостей, запрошую переглянути наші відкриті ролі.

Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

👍ПодобаєтьсяСподобалось5
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі