Claude Opus 4.8 поставила новий рекорд у тесті на інтелект, але до людини їй далеко

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Claude Opus 4.8 від Anthropic показала найкращий результат серед базових моделей на ARC-AGI-3 — одному з найскладніших тестів для AI-агентів, де треба не відповідати на запитання, а взаємодіяти з незнайомими середовищами та самостійно розбиратися в їхніх правилах.

Модель набрала близько 1,5%. Для порівняння, минулого місяця попередня версія мала 0,18%, а GPT-5.5 — 0,43%. Водночас люди проходять ці задачі на 100%, тож часто результати бенчмарку сприймають як показник близькості до людського інтелекту.

Що це за тест

ARC-AGI-3 складається зі 135 інтерактивних мініігор та відрізняється від звичних тестів тим, що модель не отримує інструкцій, мети чи опису правил. Вона має досліджувати інтерфейс, формувати гіпотези, перевіряти їх, виправляти помилки та переносити знайдені закономірності на наступні рівні.

Компанія описує цей тест як перевірку здатності агентів адаптуватися до нових інтерактивних середовищ. А ще це досить дорогий експеримент — наприклад, цього разу один прогін Claude коштував приблизно $10 тисяч.

Чим відзначилась Claude Opus 4.8

Нова модель почала краще читати середовище та сприймати його не просто як набір картинок, а як об’єкти та системи. Наприклад, в одній грі вона швидко вивела правило дзеркального руху та пройшла перший рівень за 24 дії, тоді як Opus 4.7 витратила 136 дій на перебір, але так і не сформулювала правило. Нова версія також частіше будує гіпотезу про механіку гри, а не просто бездумно клікає інтерфейс.

Проблем вистачає також. Opus 4.8 могла добре проходити ранні рівні, а потім застрягала на хибній цілі. В одному з прикладів вона впоралася з першими трьома рівнями, а на четвертому витратила близько 490 дій, перебираючи суперечливі версії правил та повторюючи однакові кроки. Тобто модель стала краще знаходити закономірності, але все ще може довго та впевнено рухатися в неправильному напрямку.

Тим не менш, нова версія покращила результати у понад 8 разів. За умови такого темпу, наступна модель могла б взяти 12%, хоча прогрес навряд чи буде лінійним.

Робимо прогнози — коли моделі наблизяться до результатів людей у цьому тесті? І хто це буде — знову Claude?
👍ПодобаєтьсяСподобалось2
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Якщо люди проходять цей тест на 100%, то чого ми вважаємо, що цей тест показує близкість до людського інтелекту, якщо ми не знаємо, де потолок людського інтелекту в цьому тесті? Може люди б змогли проходити його і на 200%? Це як вимірювати радіацію дозіметром з маленьким діапазоном. Покаже максимум, але..

Робимо прогнози — коли моделі наблизяться до результатів людей у цьому тесті? І хто це буде — знову Claude?

Якщо є тест, то будь яку модель можна на нього спеціально натренувати.

натренуй і отримай 700к баксів))

Для сучасних нейромереж $700k на тренування це ні про що.

Можливо, але суть цього теста якраз в тому, щоб з’ясувати, як поводяться ненатреновані моделі

До цього яке ще пояснювальне речення можна додати?

Такі реалії сьогодення, коли люди беруться писати без реального розуміння про що пишуть. Авторка навіть не зрозуміла, що в коментарі я акцентую увагу на явищі, яке називається «забрудненням бенчмарків», коли розв’язок тесту використовують як навчальні дані заради маркетингу. Це як оцінювати якість моделі на самому тренувальному наборі, цифри ні про що, банальне перенавчання яке продають як прогрес.

Підписатись на коментарі