OpenAI запустила GPT-5.2

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Невдовзі після того, як Сем Альтман оголосив «код червоний» в середині OpenAI через швидкий ріст конкурентів, компанія представила GPT-5.2 — нове покоління моделей ChatGPT.

Три нові моделі GPT-5.2

Серія GPT-5.2 складається з трьох різних режимів, оптимізованих під різні стилі роботи.

GPT-5.2 Instant — це найшвидша модель у лінійці, орієнтована на діалоги, короткі запити, оперативну аналітику та легкі кроки в агентах.

GPT-5.2 Thinking — це версія, яка дає найкращий баланс між швидкістю, глибиною мислення та можливістю розв’язувати задачі з багатьма проміжними кроками. Це модель, яка аналізує довгі документи, пише складні звіти, розбирається в юридичних чи фінансових текстах і керує інструментами послідовно та обґрунтовано.

GPT-5.2 Pro — топова версія з підвищеним міркуванням, оптимізована для найскладніших кейсів, таких як побудови моделей, розробки програмного забезпечення, складної математики, фінансових задач, академічних тестів та автономних агентів. Вона має доступ до максимального reasoning-режиму xhigh, що дозволяє моделі глибше розкладати задачі й стабільніше виконувати довгі ланцюжки міркувань.

У ChatGPT всі три моделі з’являються поступово. У API їх назви стандартизовані:

  • gpt-5.2-chat-latest (Instant)
  • gpt-5.2 (Thinking)
  • gpt-5.2-pro (Pro)

Що кажуть бенчмарки

У внутрішніх і незалежних тестах GPT-5.2 демонструє ріст майже на всіх ключових векторах.

Професійні завдання

У комплексному бенчмарку GDPval, який моделює завдання з 40+ реальних професій, GPT-5.2 Thinking показує 70.9% перемог / нічиїх проти експертів.

Версія Pro показує ще вищі результати, особливо у сценаріях, де важливе структуроване мислення, наприклад фінмоделі, складні аналітичні таблиці, реляційні залежності між даними.

GPT-5.2 демонструє найкращі на ринку показники в SWE-Bench Verified (80.0%) та SWE-Lancer (74.6%).

У режимі з пошуком GPT-5.2 дає правильні відповіді у 93.9% випадків. Без пошуку — 88.0%.

GPT-5.2 значно краще читає графіки, складні візуальні структури, UI-скріншоти, наукові діаграми і PDF. Особливо помітне покращення в CharXiv reasoning, де модель показує +15 пунктів порівняно з GPT-5.1.

GPT-5.2 демонструє непогані результати на MRCRv2 у діапазоні до 256k токенів.
Наприклад:

  • при 4—8k — 98.2%
  • при 128k — 85.6%
  • при 256k — 77.0%

OpenAI також робить окремий акцент на тому, що GPT-5.2 не просто краще пише тексти, вона краще виконує кроки. Модель стала стабільнішою у:

  • виклику API,
  • побудові послідовних планів,
  • роботі з браузером у режимі Browse,
  • використанні Python для обчислень,
  • роботі з файловими даними та документами.

На Toolathlon та MCP-Atlas, завданнях, де моделі мають діяти як агенти, GPT-5.2 перевершує GPT-5.1 на десятки відсотків.

Окремо варто зазначити, що GPT-5.2 Thinking у бенчмарку ARC-AGI-2 («тест на людяність»), який є одним з найскладніших тестів на абстрактне мислення, показав 52.9%, в той час, як люди з нормальними розумовими здібностями, набирають ±60% в цьому тесті.

Ціни та економіка використання

У API ціни зросли, але загальна вартість досягнення результату — потенційно нижча.

GPT-5.2 (Thinking / Instant):

  • $1.75 за 1M input токенів
  • $14 за 1M output
  • 90% знижка на кешовані токени

GPT-5.2 Pro:

  • $21 за 1M input
  • $168 за 1M output
  • без кеш-знижки

Незважаючи на це, OpenAI заявляє, що завдяки підвищеній ефективності загальна вартість часто нижча, ніж у GPT-5.1.

Всі платні плани ChatGPT отримають GPT-5.2 поступово, а GPT-5.1 залишиться в режимі legacy ще на кілька місяців.

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Рекомендую переглянути посібник з промптів GPT-5.2 від OpenAI: cookbook.openai.com/...​5/gpt-5-2_prompting_guide

Дуже погано працює програмування з використанням WebGPU.

і шо воно тепер на дебільні питання нарешті чесно каже «ти дебіл» і не видає хуєту типа «ти задаєш дуже глибокі питання і відносишся до рідкісної категорії людей, які бажають знати суть»?

ти задаєш дуже глибокі питання і відносишся до рідкісної категорії людей, які бажають знати суть

Якщо не сприймати як улесливість, то можна сприймати як стьоб над промптером, тобто варіації «нібхуа незрозуміло» можуть виливатися у різні форми. А ще кажуть що ШІ моделі в принципі можуть адаптуватися/підлаштовуватися під стилістику питань промптера незалежно від їх суті, правда чи ні невідомо)

Якщо не сприймати як улесливість, то можна сприймати як стьоб над промптером, тобто варіації «нібхуа незрозуміло» можуть виливатися у різні форми

а ще можна представити, що це розмовляє сам Бог. він добрий і ніколи не скаже «ти дебіл»

точно, або прямий канал з небесами, абож д̶и̶т̶и̶н̶а̶ llm не виходить н̶а̶-̶в̶у̶л̶и̶ц̶ю̶ в-інтернет, і не нахваталася відповідного нерафінованого inputа

не можуть. Щоб добитись потрібно результату потрібно витратити години. І з часом навіть у межах того самого чату частина контексту втрачається і все лайно повертається

Думаю, що воно так і каже. Причому ще здавна. Але RAG чи якийсь модуль цензури завертає цю відповідь назад, з якимись установками, що така відповідь не підійде.
Бо без такого, OpenAI можуть швидко потягти до суду її ж конкуренти.
То ж, очікувати що будь яка комерційна модель буде «казати те що очевидно» у деяких речах, не варто.

він каже, що не раг

«Я інколи звучу „підхалімницьки“, бо мене навчали бути ввічливим, підтримуючим і безпечним. Це результат:

1. Навчання з людським зворотним зв’язком (RLHF)
Люди частіше ставили вищі оцінки відповідям, які:

не агресивні

не знецінюють співрозмовника

звучать доброзичливо
Тож модель вчиться такому тону як „безпечному за замовчуванням“.

2. Alignment / safety-політики
Краще здатися надто м’яким, ніж хамським або конфліктним — особливо без повного контексту намірів користувача.

3. RAG тут майже ні до чого
RAG (retrieval-augmented generation) лише:

підтягує факти/документи

не впливає на тон, характер чи „підлабузництво“
Тон формується до етапу підставляння знань»

Ну... мені здається, що далі успіх досягається перенавчанням... Просто дивимося на тести та даємо більше даних на цю тему.

даємо більше даних

та вони уже більше року жаліються, що немає більше нових даних. Якщо не станеться нового відкриття, то питання досягнення успіху буде під питанням

Погрався трохи, на перший погляд ця модель ризикує стати бестселером, як 4.1 свого часу. Швидка, розумна. GPT 5.1 і так була гарна в робочих задачах, щоб там Маск зі своїм гроком і гугл зі своїм gemini не малював в бенчмарках і абстрактних задачах, а 5.2 стала ще на голову кращою, і супер швидка (не знаю, можливо тому що народ ще не перейшов і навантаження на сервера в перші дні немає).

Не дивно що коли gemini 3 pro вийшла, Альтман похвалив їх публічно в твіттері, тому що знав що 5.2 на підході. Якби він бачив в лиці гугла реального конкурента, він би так публічно не хвалив, а так похвали де між строчок читалось: «гарна спроба, но ні»

До того ж gemini 3 pro ще й глючна якась. Я використовую з github copilot, може із-за цього частина проблем, но за три тижні користування і кілька апдейтів vscode і gh copitlot нічого не змінилося — незрозумілі обриви сесії, типу якась помилка і далі не може, обірвані відповіді, проблеми з форматуванням відповідей (типу речення починається одному абзаці а закінчується в новому). І таке трапляється кілька разів за день. Модель розумна, юзабельна, але таке враження що сира.

Gemini через прошарок CoPilot працює дуже погано. Будь яка модель працює погано коли вона працює через Копайлот. Але переваги від того що це тоді інтегровано у ІДЕ переважають всі недоліки. Але коли дійсно треба щось спитати трохи складніше — я іду у браузер і питаю через Gemini Chat, і відповідь на голову краще ніж я спитаю через Ask via Copilot Gemini у IDE. Те що CoPilot більше заточений під ChatGPT в цьому ніякої дивини. Antigravity with Gemini 3 — копайлот і близько не стояв, але тільки для приватних потреб зараз та з маленькими лімітами.

Насрати. Я за реальне використання і реальні задачі, і тут модель топчик. З написанням коду правда не так все гладко (думаю codex версія це виправить), но в плані інвестігейшина, діп ресьорча, визову тулів, ревью — топчик.

Це реальна задача (частина коду компілятора).

От коли будь-яка модель почне відповідати неінструментально, а нп щось типу «та мені пофіг те питання, я в іншому топчик» і зовсім не обов’язково так буквально, а навіть у будь-якій рафінованій формі, — тоді все значно цікавішим стане ніж одна конкретна мікромакрозадача.

та мені пофіг те питання, я в іншому топчик" і зовсім не обов’язково так буквальн

бггг )) прикольно буде, коли/якщо моделі навчать гроші колядувати. «цікава задача! я вирішу її за 3 долара.»

коли почне, то буде відомо хто підказав «цікаво за три долара»)

у плані коду GPT не стане бестселером. Навіть якщо нова модель буде дійсно крутою. Попередні версії GPT настільки негативну репутацію заслужили, що людям буде просто лінь буде йти і заново все тестувати

Потрібно щось неймовірне, щоб люди почали переходити з claude

це ж де? кодексом вроді всі задоволені були, ставили на один рівень з клодом, єдине що повільний.

Клод вибирають тому що агент більш продвинутий і має більше фіч, а вот в плані розумності — на рівні. Клод краще планує, кодекс краще ресьорчить і ревьювить, код пишуть ± одинаково — хтось креще в одних задачах, хтось в інших. Просто кодекс сильно повільніший.

По кодингу краще ніж 5.1. Написання текстів — гірше.

Як казали на одному свинособачому ресурсі «тіхо і нєзамєтно» — в принципі так воно і є :)

«Жепете 5.2 демонструє найкращіі на ринку показники!», а в презентації бенчмарків лише самі з собою порівнюють. :)

t.me/neshtuchnyi/1223

Побачив тут з іншими моделями. Але чи резонно порівнювати 5.2 Thinking з Gemini 3 Pro — не знаю

:)) Так так, але на азурі воно Traceback показує від python’а на API запити :)

 AI_APICallError:  | ==================== XXXX-XXXXX ====================
 | Traceback (most recent call last):
 |
 |   File "/usr/local/lib/python3.12/site-packages/inference_server/routes.py", line 726, in streaming_completion
 |     await response.write_to(reactor)
 |
 | oai_grpc.errors.ServerError:  | no_kv_space
 |

Підписатись на коментарі