AI News Digest #4: великі моделі дорослішають, а роботи вчаться з відео
Всім привіт! На звʼязку Сергій Лелеко, Senior Machine Learning & Artificial Intelligence Engineer в SPD Technology, і це наш АІ-дайджест, присвячений останнім світовим АІ-новинам з року, що минув. Яким видався грудень — далі у дайджесті.
🔹 GPT-5.2
OpenAI офіційно випустила GPT-5.2 — нову флагманську LLM у трьох варіантах: Instant, Thinking та Pro.
Модель отримала суттєво прокачане reasoning, підтримку довших контекстів, сильніший інтелект для коду, планінгу та scientific/workflow-тасок, а також чіткий фокус на агентні сценарії й складні пайплайни.
GPT-5.2 ще більше закріплює OpenAI як default-choice для агентів, RAG-систем і autocoding: якщо ви вже будуєте AI-інфраструктуру навколо OpenAI API, це виглядає як логічний апгрейд без сюрпризів у перформансі.
🔹 Mistral Large 3 + Ministral 3 (open-source)
Mistral зарелізили нову лінійку моделей: великий sparse MoE та компактні dense-моделі під Apache-ліцензією.
Ключові апдейти — Mistral Large 3 із 41B активних і 675B загальних параметрів на sparse MoE-архітектурі, а також Ministral 3 у конфігураціях 14B, 8B і 3B з варіантами base, instruct та reasoning і підтримкою мультимодальності та vision.
Це один з найсильніших open-weight LLM на ринку. Реальна альтернатива closed-source моделям для enterprise-агентів, RAG, on-prem деплою та роботи з чутливими даними. Mастхев для команд, які хочуть контроль, кастомізацію і відсутність vendor lock-in.
🔹 Amazon Nova 2 (Lite, Pro, Sonic, Omni) + Nova Forge
AWS представила нове покоління foundation-моделей Nova 2 плюс сервіс кастомізації Nova Forge.
Що змінилось?
- Nova 2 Lite: швидкий і дешевий reasoning-мод, контекст до 1M токенів.
- Nova 2 Pro: під складні enterprise-навантаження, аналіз, агенти, складні workflow.
- Nova 2 Sonic: speech-to-speech foundation-модель, natural voice, low-latency, multilingual.
- Nova 2 Omni (preview): unified multimodal модель, text, image, video, speech input, text + image output.
- Nova Forge: створення кастомних frontier-моделей на AWS.
AWS фактично дає компаніям інструментарій для побудови власного AI-стеку: від голосових агентів до кастомних мультимодальних моделей. Для бізнесів, які хочуть масштаб і контроль — дуже сильна пропозиція.
🔹 Gemini 3 Flash (Google DeepMind)
Google зробила Gemini 3 Flash дефолтною моделлю в Gemini-екосистемі. Це швидка й дешевша модель, одразу multimodal-ready для роботи з текстом і зображеннями (з потенціалом відео) та оптимізована під масові сценарії використання.
Flash фактично стає стандартом для мільйонів користувачів, а для продуктів із великим трафіком, frontend-інтеграцією та real-time UX це дуже вдалий баланс між якістю, швидкістю та вартістю.
R&D & trends
🔶 VideoVLA: як відеогенератори стають універсальними роботизованими маніпуляторами
Microsoft Research Asia разом з академічними партнерами представили VideoVLA — підхід, що фактично перетворює відеогенератори на «мозок» роботизованих маніпуляторів.
Рішення базується на мультимодальному Diffusion Transformer, який поєднує video, language та action forecasting і дозволяє одночасно прогнозувати послідовність дій та майбутні візуальні стани середовища, використовуючи visual imagination для більш надійного планування. Дослідження показує, що передбачення майбутнього образу тісно корелює з успіхом виконання завдання, що є суттєвою інновацією в робототехніці та відкриває шлях до більш generalizable роботів, здатних планувати через відео.
🔶 Vision-Language-Action модель із навчанням за одним відеоприкладом
Нове VLA-рішення, яке навчається з одного демонстраційного відео.
Підхід базується на one-shot learning, поєднує обробку демонстраційного відео з камерою робота та використовує масштабовану генерацію expert—agent даних (близько 892K пар), що дає приріст приблизно +30% продуктивності на unseen задачах у бенчмарках для маніпуляцій. Зменшує потребу у великих датасетах для тренування маніпуляцій. Важливий крок для generalist роботів, здатних швидко вчитися з прикладу.
🔶 Large Video Planner: керування роботами на основі відео
У роботі Large Video Planner Enables Generalizable Robot Control запропоновано video-first фундаментальну модель планування як альтернативу класичним VLA-підходам.
Метод трактує відео як основну модальність для керування роботом, тренується на інтернет-масштабних відео людських дій і в zero-shot режимі генерує executable action-плани для нових задач шляхом прямого витягу планів із відеопослідовностей.
Ключова інновація — демонстрація end-to-end конвеєра, де згенеровані відео-плани інтерпретуються у низькорівневі дії робота. Може стати базою для generalizable, video-conditioned robotic planning у реальних середовищах.
Тренд: Vision-Language-Action (VLA) вийшов у центр уваги R&D
У грудні 2025 увага дослідників чітко змістилась у бік VLA та video-centric роботів як основного напряму розвитку. Ключовими темами стали multimodal reasoning і planning через відео, активна робота з 3D-LLM/VLA-підходами, few-shot навчанням і здатністю до узагальнення, а також формування video + language + action як де-факто стандартної репрезентації для роботизованих систем.
Прогрес у цьому напрямі відкриває шлях до більш автономних generalist-роботів, здатних виконувати нові завдання без необхідності донавчання на великих спеціалізованих датасетах, що є критичним кроком для масштабування роботів у реальних середовищах.
На сьогодні це все. Дякую усім за увагу до дайджесту. Побачимось у наступному випуску вже за місяць — чекаємо на новини січня.
Дізнатися більше про культуру і роботу в SPD Technology ви можете, підписуючись на наші акаунти в соцмережах: LinkedIn, Instagram, Facebook. А якщо ви в пошуках нових карʼєрних можливостей, запрошую переглянути наші відкриті ролі.
Подобається дайджест? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів