Як нова модель О3 «подолала» AGI-тест і чому звичайні користувачі її не побачать

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Наприкінці минулого тижня, 21 грудня OpenAI презентували свою найновітнішу LLM: O3 та O3 Mini (ім’я О2 було зайняте). Її вирішили показати у фіналі 12-денного марафону нових ШІ-розробок.

Вміє «вчитися на льоту» краще за людей

Одним із найяскравіших досягнень стала робота O3 із тестом ARC AGI. Жодна AI-модель не могла його подолати — тест створили 5 років тому, і за усі 5 років найбільшого успіху досягла О1 із результатом у ~30%. До цього результати взагалі коливалися у районі ~5%.

«Унікальна особливість ARC AGI полягає у тому, що вона вимагає саме різноманітного набору навичок. Модель не може просто повторювати, те що вона вже вивчила», — пояснив президент ARC Prize Foundation, Грег Камад.

Як зазначив президент, LLM-ка або вчиться на льоту, або провалює тест — бо там немає жодного однакового завдання.

Цікаво також те, що багато задач, які людина вирішила б відносно просто, для ШІ виявлялись надзвичайно важкими.

У підсумку нова модель О3 перевершила людей, досягши відмітки у 87.5%. Люди у середньому складають цей тест на нижчу оцінку — 85% точності. Як кажуть розробники, цей показник був ключовим під час створення моделі.

Спеціалісти із OpenAI дуже задоволені проривом — на фоні успіху навіть прозвучали «пророцтва» про створення AGI у 2025 році.

Це НЕ публічна модель

У плані математики та розробки кажуть, що «все надзвичайно», але насправді результати приблизно як у моделі О1. Може трохи краще.

Сама О3 буде доступна тільки для бізнесу за ціною у 2000$, що робить модель актуальною далеко не для усіх користувачів. Нова версія «GPT 5» вже розробляється півтора роки, але про якісь успіхи там також говорити зарано. Тобто О3 — це не масовий продукт.

Також є інші нюанси: O3 Mini відкриють для користування вже до кінця січня. Головну модель O3 — трохи пізніше. Але коли точно — невідомо, бо постає питання безпеки.

У компанії розповіли про нові методи захисту від «зловмисницького» впливу — щоб модель шукала приховані наміри у запитах користувачів. Наскільки захист буде гарно працювати — дізнаються вже тестери, яких, до речі, активно набирають.

Кінцева дата релізу залежить вже від результатів тестування, яке різко стало актуальним після спроб брехні та «втечі» моделі О1.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Якщо не помиляюсь, то навіть ті задачі які зробила жпт, то знадобилось овер багато токенів, тобто ті самі завдання людина зробила би швидше набагато і дешевше в рази. Цікаво, в заключенні про результати на сайті

ARC AGI

автор пише, що agi буде тоді коли буде вже важко придумати такі тести які б ШІ не виконав би.

Підписатись на коментарі