Як нова модель О3 «подолала» AGI-тест і чому звичайні користувачі її не побачать
Наприкінці минулого тижня, 21 грудня OpenAI презентували свою найновітнішу LLM: O3 та O3 Mini (ім’я О2 було зайняте). Її вирішили показати у фіналі
Вміє «вчитися на льоту» краще за людей
Одним із найяскравіших досягнень стала робота O3 із тестом ARC AGI. Жодна AI-модель не могла його подолати — тест створили 5 років тому, і за усі 5 років найбільшого успіху досягла О1 із результатом у ~30%. До цього результати взагалі коливалися у районі ~5%.
«Унікальна особливість ARC AGI полягає у тому, що вона вимагає саме різноманітного набору навичок. Модель не може просто повторювати, те що вона вже вивчила», — пояснив президент ARC Prize Foundation, Грег Камад.
Як зазначив президент,
Цікаво також те, що багато задач, які людина вирішила б відносно просто, для ШІ виявлялись надзвичайно важкими.
У підсумку нова модель О3 перевершила людей, досягши відмітки у 87.5%. Люди у середньому складають цей тест на нижчу оцінку — 85% точності. Як кажуть розробники, цей показник був ключовим під час створення моделі.
Спеціалісти із OpenAI дуже задоволені проривом — на фоні успіху навіть прозвучали «пророцтва» про створення AGI у 2025 році.
Це НЕ публічна модель
У плані математики та розробки кажуть, що «все надзвичайно», але насправді результати приблизно як у моделі О1. Може трохи краще.
Сама О3 буде доступна тільки для бізнесу за ціною у 2000$, що робить модель актуальною далеко не для усіх користувачів. Нова версія «GPT 5» вже розробляється півтора роки, але про якісь успіхи там також говорити зарано. Тобто О3 — це не масовий продукт.
Також є інші нюанси: O3 Mini відкриють для користування вже до кінця січня. Головну модель O3 — трохи пізніше. Але коли точно — невідомо, бо постає питання безпеки.
У компанії розповіли про нові методи захисту від «зловмисницького» впливу — щоб модель шукала приховані наміри у запитах користувачів. Наскільки захист буде гарно працювати — дізнаються вже тестери, яких, до речі, активно набирають.
Кінцева дата релізу залежить вже від результатів тестування, яке різко стало актуальним після спроб брехні та «втечі» моделі О1.
1 коментар
Додати коментар Підписатись на коментаріВідписатись від коментарів