Масштабний реліз від OpenAI: моделі GPT-5.4 Thinking та Pro
Два тижні тому Google показали нам Gemini 3.1 Pro і було дуже цікаво, коли ж чекати відповідь від OpenAI. Крім того, що 3 березня викотили GPT-5.3 Instant, сьогодні анонсували дуже масштабне оновлення лінійки моделей та випустили GPT-5.4 Thinking та Pro. Як і в кожному релізі, кажуть, що це їхня найпотужніша та найефективніша модель.
У ChatGPT режим GPT-5.4 Thinking тепер може показувати попередній план розв’язання задачі ще перед фінальною відповіддю, який можна по ходу корегувати. Також модель стала значно сильнішою в роботі з реальними задачами, документами та таблицями.
Але головна фіча цього релізу — це Computer Use у Codex та API. Це дозволяє працювати з інтерфейсами через скріншоти, натискати елементи UI, вводити текст і виконувати багатокрокові сценарії в різних додатках. Контекст підтримує до 1 мільйона токенів, а ще кажуть, що модель стала більш ефективно витрачати токени на вирішення задач, що має компенсувати зростання тарифів.
На бенчмарку OSWorld-Verified, який оцінює роботу моделі з десктопним інтерфейсом, GPT-5.4 показала 75% успішності, що навіть трохи вище за людський baseline (72,4%).

Також додали кілька цікавих штук суто для розробників
У Codex з’явилася експериментальна фіча Playwright (Interactive) — тепер модель може візуально дебажити веб-додатки прямо під час їх написання (у демці вона сама написала гру і сама в неї пограла, щоб перевірити кнопки та логіку).
В API завезли оптимізацію Tool Search. Замість того щоб передавати описи всіх інструментів агента в промпті, модель отримує лише їх короткий список і підтягує деталі вже в процесі. Це зменшило використання токенів на 47% у тестах із великою кількістю інструментів.
Цікаво, що в тесті ARC-AGI-2 (яким так хвалився Google зі своїми 77,1% для Gemini) GPT-5.4 Pro вибила аж 83.3%. Схоже, гонка продовжується.

По цінах: GPT-5.4 стала дорожчою за токен, ніж GPT-5.2 (вхідний $2.50 замість $1.75 за мільйон), але стверджують, що через те, що вона розумніше і економніше їх використовує, загальна вартість виконання задач має знизитися.

Що думаєте про оновлення, уже тестили?
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарівв arc-agi гугл все ще переганяє
res.cloudinary.com/.../qe7fqklw0etnrfig8ou9.png
Цікаво, бо коли тільки викотили Gemini 3.1 Pro, вони показали такі показники
res.cloudinary.com/.../ynz3dteellw6befhcmdn.png