AI Digest #2: Nanochat, Remote Labor Index, Cursor 2.0, NVIDIA DGX Spark та інші новини жовтня

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Усім привіт! Мене звуть Марк, я AI Engineer у компанії Genesis.

Жовтень вже добіг кінця, тому пропоную розглянути найважливіші новини, які відбулися у світі штучного інтелекту за останній місяць.

У цьому дайджесті:

🔹 Nanochat від Андрія Карпати — повнофункціональна LLM система за $100.

🔹 Lapa LLM v0.1.2 — перша великомасштабна модель, оптимізована для української мови.

🔹 Cursor 2.0, SWE-grep та Claude Haiku 4.5 — нові інструменти для програмування з AI.

🔹 Спеціалізовані моделі для OCR, аудіо та генерації відео.

🔹 NVIDIA DGX Spark — AI-суперкомп’ютер на робочому столі за $4000.

🔹 Remote Labor Index — перший бенчмарк для вимірювання реальної автоматизації роботи.

Nanochat: ChatGPT за $100 від Андрія Карпати

12 жовтня Андрій Карпати випустив nanochat — повнофункціональну реалізацію ChatGPT-подібної системи, яку можна натренувати та запустити всього за $100 і 4 години тренування. На відміну від його попереднього проєкту nanoGPT, який охоплював лише претренування, nanochat є комплексним рішенням, що включає весь цикл створення власної LLM: токенізація, претренування, файнтюнінг, оцінка перформансу, інференс та навіть простий вебінтерфейс.

Увесь код (~8,000 рядків або ~83K токенів) написаний для максимальної читабельності та з можливістю вставити його в LLM для детального аналізу та питань, що робить проєкт ідеальним освітнім ресурсом.

Оновлення у світі LLM-моделей

Найважливішою подією для українського AI-ком’юніті став реліз Lapa LLM v0.1.2 — великої мовної моделі, оптимізованої для української мови. Модель базується на архітектурі Gemma-3-12B від Google, але отримала революційні покращення для роботи з українською завдяки повністю переписаному токенізатору. Розробники замінили 80 тисяч із 250 тисяч токенів, що зробило обробку україномовного тексту у півтора раза ефективнішою — для тих самих завдань тепер потрібно на 33% менше токенів та обчислень.

Подавай заявку на премію DOU!

За швидкістю роботи з українською Lapa LLM обходить оригінальну Gemma та більшість закритих моделей аналогічного класу. Модель повністю відкрита під комерційною ліцензією, а команда з УКУ, КПІ та Львівської політехніки обіцяє випустити reasoning-версію та розширити можливості для аналізу зображень.

На глобальній арені жовтень також приніс важливі досягнення. GPT-5 Pro досягла 70.2% на ARC-AGI-1 та 18.3% на ARC-AGI-2 — це найвищі результати серед frontier LLM на цих бенчмарках. ARC-AGI вважається одним із найскладніших тестів для AI, оскільки перевіряє здатність до абстрактного мислення та узагальнення без попереднього навчання на подібних задачах. Для порівняння, людський рівень становить щонайменше 85%, тож розрив все ще значний, але постійне зростання результатів показує, що SOTA-моделі наближаються до справжнього reasoning.

IBM представили Granite 4.0 — перші open-source моделі, що отримали ISO 42001 сертифікацію для систем управління AI. Лінійка включає моделі розміром від 3B до 32B параметрів на гібридній Mamba/Transformer архітектурі з Mixture-of-Experts підходом. Завдяки цьому Granite 4.0 демонструє на 70% менші вимоги до пам’яті та 2x швидший інференс порівняно з аналогічними моделями.

Оновлення моделей для роботи з кодом

Жовтень приніс багато змін і в інструментах для програмування з AI.

29 жовтня вийшов Cursor 2.0 з оновленим інтерфейсом та власною моделлю Composer. Головна інновація нового UI — можливість запускати до восьми агентів паралельно з одного промпту, кожен в ізольованій копії кодової бази через git worktrees. Це дозволяє порівнювати результат різних моделей, обираючи найкращу опцію. Оновлення Cursor 2.0 також включає вбудований браузер із доступом до DOM для UI-завдань та агрегований перегляд змін у всіх файлах одночасно. Згідно з внутрішніми бенчмарками Cursor, модель Composer майже не поступається SOTA-моделям для роботи з кодом, проте працює в 4 рази швидше.

Компанія Cognition (творці агента Devin) у жовтні випустила цілу родину моделей для Windsurf IDE. 16 жовтня представили SWE-grep та SWE-grep-mini — спеціалізовані моделі для швидкого пошуку по кодовій базі з продуктивністю понад 2800 токенів на секунду. Ці моделі знаходять потрібні файли приблизно у 20 разів швидше за Claude Haiku 4.5.

28 жовтня Cognition випустили SWE-1.5 — передову модель, що досягає майже SOTA-результатів за бенчмарками та працює зі швидкістю до 950 токенів на секунду завдяки партнерству з Cerebras. Це у 13 разів швидше за Claude Sonnet 4.5 та у 6 разів швидше за Haiku 4.5.

15 жовтня Anthropic випустили Claude Haiku 4.5 — компактну модель, що досягає продуктивності Claude Sonnet 4 у кодуванні, але втричі дешевше та вдвічі швидше. Найцікавіше оновлення — контекстна обізнаність: модель навчили точно відстежувати заповнення контекстного вікна та відповідно адаптувати поведінку (як-от думати швидше, коли вікно майже вичерпане).

Паралельно Anthropic розширили екосистему інструментів. 16 жовтня було анонсовано Claude Skills — механізм для навчання моделі спеціалізованим завданням через структуровані інструкції, що працюють у всіх продуктах Claude. Skills відрізняються від Claude Code Plugins (також випущених у жовтні), які є специфічними для Claude Code та включають слеш-команди, субагентів, MCP-сервери та хуки. Режим планування в Claude Code тепер використовує окремого субагента для кращої ефективності контекстного вікна.

27 жовтня китайський стартап MiniMax випустив M2 — модель, що посіла п’яте місце у рейтингу Artificial Analysis та перше серед повністю відкритих моделей. З архітектурою Mixture-of-Experts (230B загальних параметрів, 10B активних) та ліцензією MIT, M2 пропонує 92% економії порівняно з Claude Sonnet при подвійній швидкості інференсу.

Google DeepMind 5 жовтня представили CodeMender — AI-агента для автоматичного виявлення та виправлення вразливостей у коді. На базі моделей Gemini DeepThink, CodeMender використовує статичний та динамічний аналіз, fuzzying та SMT-солвери для пошуку вразливостей та створення патчів. Станом на жовтень агент уже додав 72 високоякісні патчі до великих open-source проєктів.

Але навіщо взагалі використовувати coding-агентів, коли можна генерувати застосунки «на льоту»? Саме цю ідею реалізовує nokode — експериментальний інструмент, що використовує LLM для генерації коду в відповідь на кожен запит, спираючись лише на HTTP-запит та загальний промпт. Таким чином застосунок будується повністю автоматично із верхньорівневого промпту. З недоліків — довгий час відповіді та відсутність послідовності інтерфейсу та логіки.

Більше про використання LLM-агентів для роботи з кодом за жовтень:

Спеціалізовані моделі

Паралельно з розвитком універсальних LLM жовтень приніс низку спеціалізованих рішень, що вирішують конкретні задачі ефективніше за великі мультимодальні системи.

Розпізнавання тексту та обробка документів

DeepSeek-OCR стала значним проривом в обробці документів. Компактна модель лише в 3 мільярди параметрів (з яких лише 570M активних завдяки MoE) замість перетворення сторінки на текстові токени зберігає інформацію у вигляді стислих візуальних токенів. Це дозволяє зменшити використання токенів у 10 разів, зберігаючи при цьому ~97% точності декодування. Навіть при агресивнішій компресії у 20 разів точність залишається на рівні 60%.

NVIDIA Nemotron Nano 2 VL — компактна 9B модель на гібридній Transformer-Mamba архітектурі з до 6x вищою пропускною здатністю порівняно з аналогами. Показує високі результати на OCRBench v2, обходячи Gemini-2.5-Pro.

З нашого досвіду, хоч це і загальна LLM, Claude 3.5 Sonnet найякісніше справляється із завданням перетворення складних PDF-файлів у простий markdown. Але з огляду на ці оновлення плануємо додатково випробувати DeepSeek-OCR та Nemotron Nano 2 VL.

Аудіо та голосові інтерфейси

OpenAI випустили gpt-realtime-mini — компактну модель для real-time діалогів, що обробляє аудіо та відповідає в аудіо безпосередньо без проміжних етапів. Підтримує WebRTC, WebSocket та вміє використовувати зовнішні інструменти. Також цього місяця OpenAI випустили gpt-audio-mini та gpt-4o-transcribe-diarize для транскрибації.

Cartesia Sonic-3 встановила новий стандарт швидкості із затримкою менше 100 мілісекунд перед відповіддю. Побудована на State Space Models замість трансформерів, підтримує 42 мови та здатна передавати емоції й природно сміятися.

Gemini 2.5 Native Audio Thinking досягла 92% на Big Bench Audio benchmark, що є найвищим показником серед speech-to-speech систем. Проте час до першого аудіотокену становить 3.87 секунди проти 0.98 у GPT Realtime через ось цей reasoning-компонент.

Генерація зображень

GPT Image 1 Mini від OpenAI — компактна альтернатива флагманській моделі GPT Image 1, яка на 80% дешевша.

Tencent HunyuanImage 3.0 — найбільша відкрита модель для генерації зображень у 80 мільярдів параметрів. Демонструє унікальні можливості для створення навчальних схем, візуалізацій алгоритмів та пояснень складних концепцій. У жовтні HunyuanImage 3.0 зайняла перше місце в LMArena text-to-image leaderboard, випередивши навіть Gemini 2.5 Flash Image Preview від Google.

Генерація відео

Kling 2.5 Turbo очолила Artificial Analysis Video Arena, перевершуючи Sora 2 Pro та Veo 3, пропонуючи конкурентну ціну $4.20/хв — на 30% дешевше попередньої версії. Демонструє вражаючу плавність руху та реалістичну фізику.

Google Veo 3.1 та Veo 3.1 Fast отримали багатше нативне аудіо, кращий контроль наративу та підтримку до 3 референсів для кращої консистентності персонажів. Генерують відео 4-8 секунд у 720p або 1080p.

Обчислювальні потужності для тренування ML-моделей

15 жовтня NVIDIA запустила продаж DGX Spark — компактного настільного AI-суперкомп’ютера у форм-факторі Mac mini за ціною в $4000. Це перший відносно доступний повноцінний компʼютер від NVIDIA, що приносить потужності дата-центру на робочий стіл розробника, пропонуючи 1000 TFLOP перформансу, 128GB LPDDR5x памʼяті та 273 GB/s пропускної здатності пам’яті. Для порівняння, RTX 5090 вартує $2000, та пропонує лише 100 TFLOP та 32GB памʼяті, проте, має значно більшу пропускну здатність у 1800 GB/s, через що має вищу TPS при LLM-інференсі.

Проте незалежні тести поки що показують гірші результати: Джон Кармак та Авні Ханнун виявили, що реальна продуктивність складає лише ~480 TFLOPS. Також спостерігалися проблеми з перегріванням та перезавантаженням системи при тривалому використанні.

З інших оновлень:

  • Thinking Machines (засновником якого є Mira Murati, ex-CTO OpenAI) анонсували Tinker для файнтюнінгу AI-моделей.
  • CoreWeave Serverless RL — serverless-платформа для reinforcement learning, що обіцяє зменшити вартість RL на 40%.
  • Згідно з новим бенчмарком InferenceMAX, що порівнює швидкість інференсу на різних відеокартах, AMD’s MI355X наздоганяє Nvidia’s B200 — зокрема завдяки значним покращенням ROCm.

Дослідження жовтня

Найважливіше дослідження місяця — Remote Labor Index (RLI) від команди дослідників Scale AI та Centre for AI Safety. Це перший стандартизований бенчмарк, що вимірює здатність AI автоматизувати реальну віддалену роботу в різних доменах.​ RLI складається з 240 реальних проєктів з фриланс-платформ, що охоплюють 23 домени — від розробки до архітектури та відеомонтажу. Загальна вартість проєктів перевищує $140,000, а середній проєкт вимагає 11.5 годин роботи. За результатами тестування найкраща AI-система (Manus) змогла автоматизувати лише 2.5% завдань, що демонструє величезний розрив між успіхами AI на академічних бенчмарках та здатністю виконувати реальні проєкти «під ключ».

Інше, не менш цікаве дослідження — Anthropic виявили перші докази інтроспективних здібностей у LLM. Дослідники розробили метод «концептної ін’єкції» — штучно активували певні патерни нейронної активності та перевіряли, чи може модель розпізнати ці імплантовані "думки".​ У приблизно 20% випадків Claude Opus 4.1 коректно ідентифікував імплантовану концепцію — причому розпізнавав аномалію до того, як почав згадувати відповідне слово в тексті. Це вказує на справжню внутрішню обробку, а не просто патерн-метчинг. Проте дослідники підкреслюють, що ця здатність залишається дуже ненадійною та обмеженою.

З інших цікавих досліджень:

Що почитати за жовтень

Подобається дайджест? Підписуйтесь акаунт автора вгорі сторінки, щоб отримувати сповіщення про нові випуски на пошту.

👍ПодобаєтьсяСподобалось7
До обраногоВ обраному4
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі