GPT-4.1: OpenAI випустила три нові моделі

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

OpenAI випустила три нові моделі: GPT-4.1, GPT-4.1 mini та GPT-4.1 nano.

Усі три значно розумніші й швидші за GPT-4o та GPT-4o mini. Вони легко працюють з гігантськими обсягами тексту: до мільйона токенів у контексті. Але головне — вони справді «вникають» у цей контекст і краще розуміють довгі, заплутані запити. Ще один приємний бонус: нові моделі мають оновлений поріг знань — до червня 2024 року.

І при цьому — дешевші. GPT‑4.1 mini коштує втричі менше, ніж GPT‑4o, а nano — взагалі найдоступніша і найшвидша модель, яку коли-небудь випускала OpenAI.

Щоправда, GPT‑4.1 можна буде використовувати лише через API. А в ChatGPT поступово інтегрують її нові можливості: кращу точність, логіку, вміння програмувати й виконувати інструкції. Все це в майбутніх оновленнях.

Що кажуть тести

GPT‑4.1 значно краще справляється з програмуванням. Вона точніше виконує завдання, пише фронтенд, генерує код без зайвих правок і краще «розуміє», що ви маєте на увазі. У тесті SWE-bench Verified вона виконала 54,6% задач проти 33,2% у GPT‑4o.

Розробникам, які працюють з великими файлами через API, ця модель також сподобається. Вона добре створює зміни в коді (diff), навіть у складних форматах. І показала результат, вдвічі кращий за GPT‑4o, та ще й обійшла GPT‑4.5 на 8%.

У фронтенд-розробці GPT‑4.1 теж став краще: вебдодатки виходять не тільки функціональні, а ще й красиві.

GPT‑4.1 також значно краще виконує інструкції — особливо складні, з кількома кроками.

А ще OpenAI створила новий бенчмарк — Multi-Round Coreference (MRCR), який перевіряє, наскільки добре модель орієнтується в довгих текстах. GPT‑4.1 пройшла його добре: не тільки втримала якість на довжині до 128 000 токенів, але й не загубилася навіть на мільйоні.

GPT‑4.1 в середньому на 26% дешевша за GPT‑4o. А якщо часто надсилаєте однакові запити, отримаєте ще й кеш-знижку до 75%. Модель стартує швидко: з контекстом у 128К токенів перший токен прилітає за 15 секунд. А якщо контекст на мільйон, то трохи більше хвилини.

Також моделі GPT‑4.1 не просто читають — вони ще й добре «бачать». Mini показав себе краще за GPT‑4o на багатьох зображеннях, а в аналізі відео (без субтитрів, ролики по 30-60 хвилин) GPT‑4.1 став найкращим серед усіх попередніх моделей.

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Графіки топові :) . На першому взагалі немає величин на обох шкалах, я так розумію на ньому зображено що 4.1 «розумніша» модель за 4.0 на 2 сантиметри, або на 50 пікселів? Чи як їх розуміти? На інших суто якісь абстрактні відсотки. Зато як звучить — «перевірена точність», солідно і науковоподібно. «Наша перевірена точність в цьому поколінні зросла на стопіцот відсотків», (пройшов рік), «наша перевірена точність в цьому поколінні зросла ще на стосорокшість відсотків», goto01. Окремо доставляє «перевірена точність» gpt-4o mini в 4%-9%. А які заяви були минулого року :) .

Казали, що хочуть спростити номенклатуру, а самі лише ускладнюють її.

Це ж базові дарк патерни маркетологів. Треба максимально ускладнити номенклатуру, щоб не було прямого порівняння подібних моделей, бо не ясно які ж подібні і де межа поколінь.

вони справді «вникають» у цей контекст

Мабуть краще за калькування московицької буде «вони справді як наче прозирають думкою контекст».

Цікаві новини! Якщо GPT-4.1 і справді краще працює з великими обсягами контенту, то це може суттєво змінити підхід до обробки складних запитів. Особливо круто, що модель «вникає» в контекст глибше — для роботи з технічною документацією або довгими ланцюгами логіки це прям знахідка. Цікаво буде протестити її в реальних задачах.

Підписатись на коментарі