AI News Digest #4: великі моделі дорослішають, а роботи вчаться з відео
Всім привіт! На звʼязку Сергій Лелеко, Senior Machine Learning & Artificial Intelligence Engineer в SPD Technology, і це наш АІ-дайджест, присвячений останнім світовим АІ-новинам з року, що минув. Яким видався грудень — далі у дайджесті.
🔹 GPT-5.2
OpenAI офіційно випустила GPT-5.2 — нову флагманську LLM у трьох варіантах: Instant, Thinking та Pro.
Модель отримала суттєво прокачане reasoning, підтримку довших контекстів, сильніший інтелект для коду, планінгу та scientific/workflow-тасок, а також чіткий фокус на агентні сценарії й складні пайплайни.
GPT-5.2 ще більше закріплює OpenAI як default-choice для агентів, RAG-систем і autocoding: якщо ви вже будуєте AI-інфраструктуру навколо OpenAI API, це виглядає як логічний апгрейд без сюрпризів у перформансі.
🔹 Mistral Large 3 + Ministral 3 (open-source)
Mistral зарелізили нову лінійку моделей: великий sparse MoE та компактні dense-моделі під Apache-ліцензією.
Ключові апдейти — Mistral Large 3 із 41B активних і 675B загальних параметрів на sparse MoE-архітектурі, а також Ministral 3 у конфігураціях 14B, 8B і 3B з варіантами base, instruct та reasoning і підтримкою мультимодальності та vision.
Це один з найсильніших open-weight LLM на ринку. Реальна альтернатива closed-source моделям для enterprise-агентів, RAG, on-prem деплою та роботи з чутливими даними. Mастхев для команд, які хочуть контроль, кастомізацію і відсутність vendor lock-in.
🔹 Amazon Nova 2 (Lite, Pro, Sonic, Omni) + Nova Forge
AWS представила нове покоління foundation-моделей Nova 2 плюс сервіс кастомізації Nova Forge.
Що змінилось?
- Nova 2 Lite: швидкий і дешевий reasoning-мод, контекст до 1M токенів.
- Nova 2 Pro: під складні enterprise-навантаження, аналіз, агенти, складні workflow.
- Nova 2 Sonic: speech-to-speech foundation-модель, natural voice, low-latency, multilingual.
- Nova 2 Omni (preview): unified multimodal модель, text, image, video, speech input, text + image output.
- Nova Forge: створення кастомних frontier-моделей на AWS.
AWS фактично дає компаніям інструментарій для побудови власного AI-стеку: від голосових агентів до кастомних мультимодальних моделей. Для бізнесів, які хочуть масштаб і контроль — дуже сильна пропозиція.
🔹 Gemini 3 Flash (Google DeepMind)
Google зробила Gemini 3 Flash дефолтною моделлю в Gemini-екосистемі. Це швидка й дешевша модель, одразу multimodal-ready для роботи з текстом і зображеннями (з потенціалом відео) та оптимізована під масові сценарії використання.
Flash фактично стає стандартом для мільйонів користувачів, а для продуктів із великим трафіком, frontend-інтеграцією та real-time UX це дуже вдалий баланс між якістю, швидкістю та вартістю.
R&D & trends
🔶 VideoVLA: як відеогенератори стають універсальними роботизованими маніпуляторами
Microsoft Research Asia разом з академічними партнерами представили VideoVLA — підхід, що фактично перетворює відеогенератори на «мозок» роботизованих маніпуляторів.
Рішення базується на мультимодальному Diffusion Transformer, який поєднує video, language та action forecasting і дозволяє одночасно прогнозувати послідовність дій та майбутні візуальні стани середовища, використовуючи visual imagination для більш надійного планування. Дослідження показує, що передбачення майбутнього образу тісно корелює з успіхом виконання завдання, що є суттєвою інновацією в робототехніці та відкриває шлях до більш generalizable роботів, здатних планувати через відео.
🔶 Vision-Language-Action модель із навчанням за одним відеоприкладом
Нове VLA-рішення, яке навчається з одного демонстраційного відео.
Підхід базується на one-shot learning, поєднує обробку демонстраційного відео з камерою робота та використовує масштабовану генерацію expert—agent даних (близько 892K пар), що дає приріст приблизно +30% продуктивності на unseen задачах у бенчмарках для маніпуляцій. Зменшує потребу у великих датасетах для тренування маніпуляцій. Важливий крок для generalist роботів, здатних швидко вчитися з прикладу.
🔶 Large Video Planner: керування роботами на основі відео
У роботі Large Video Planner Enables Generalizable Robot Control запропоновано video-first фундаментальну модель планування як альтернативу класичним VLA-підходам.
Метод трактує відео як основну модальність для керування роботом, тренується на інтернет-масштабних відео людських дій і в zero-shot режимі генерує executable action-плани для нових задач шляхом прямого витягу планів із відеопослідовностей.
Ключова інновація — демонстрація end-to-end конвеєра, де згенеровані відео-плани інтерпретуються у низькорівневі дії робота. Може стати базою для generalizable, video-conditioned robotic planning у реальних середовищах.
Тренд: Vision-Language-Action (VLA) вийшов у центр уваги R&D
У грудні 2025 увага дослідників чітко змістилась у бік VLA та video-centric роботів як основного напряму розвитку. Ключовими темами стали multimodal reasoning і planning через відео, активна робота з 3D-LLM/VLA-підходами, few-shot навчанням і здатністю до узагальнення, а також формування video + language + action як де-факто стандартної репрезентації для роботизованих систем.
Прогрес у цьому напрямі відкриває шлях до більш автономних generalist-роботів, здатних виконувати нові завдання без необхідності донавчання на великих спеціалізованих датасетах, що є критичним кроком для масштабування роботів у реальних середовищах.
На сьогодні це все. Дякую усім за увагу до дайджесту. Побачимось у наступному випуску вже за місяць — чекаємо на новини січня.
Дізнатися більше про культуру і роботу в SPD Technology ви можете, підписуючись на наші акаунти в соцмережах: LinkedIn, Instagram, Facebook. А якщо ви в пошуках нових карʼєрних можливостей, запрошую переглянути наші відкриті ролі.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів