«Найкраща візуальна модель»: OpenAI представила ChatGPT Images 2.0

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Компанія OpenAI представила оновлений ChatGPT Images 2.0. Головною зміною стало те, що тепер нейронка здатна аналізувати контекст запиту через пошук в інтернеті, відтворювати текст на картинках різними мовами та генерувати серії пов’язаних кадрів.

Основне технічне нововведення також стосується взаємодії генератора з thinking моделями. Тепер, замість негайної видачі результату, ШІ спершу обробляє запит, шукає актуальні дані (станом на кінець 2025 року), планує композицію та перевіряє власні результати.

Завдяки цьому в оноленій моделі вийшло реалізувати пакетну генерацію. Тепер користувачі можуть запросити до восьми зображень одночасно, і при цьому нейронка здатна зберігати єдину стилістику, деталі об’єктів та зовнішність персонажів на всіх згенерованих кадрах.

Покращена робота з текстом та форматами

Думаю, ви не раз бачили, що попередні моделі часто генерували нечитабельний набір символів замість слів. В Images 2.0 цю проблему вирішили, зробивши рендеринг тексту чіткішим, зокрема мовами зі складною писемністю: японською, корейською, китайською та гінді. Також нейронка навчилася органічно вписувати літери в елементи дизайну.

Фото взято з інтернету

Окрім цього розробники розширили налаштування форматів. Користувачі можуть задавати нестандартне співвідношення сторін у діапазоні від 1:3 (вертикальне) до 3:1 (ультрашироке панорамне) безпосередньо в текстовому запиті. Також можна згенерувати фото навіть на 360 градусів.

Технічні недоліки моделі

В OpenAI зазначають, що оновлена архітектура не вирішила всіх проблем з генерацією. Модель досі не має повноцінного розуміння законів фізики та геометрії і робить помилки у просторових задачах. Крім того, ШІ складно дається відтворення дрібних щільних текстур (наприклад, піску), а також точних технічних схем, де важливий правильний напрямок кожної стрілки.

Доступність

Базова версія ChatGPT Images 2.0 вже відкрита для всіх користувачів платформи безкоштовно. Модель також додали в Codex та в API (під назвою gpt-image-2), де з’явилася підтримка генерації у роздільній здатності до 2K.

Проте такі розширені функції, як попередній аналіз запиту, пошук в інтернеті та пакетна генерація пов’язаних зображень доступні лише власникам платних підписок ChatGPT Plus, Pro та Business.

Повну презентацію моделі можете переглянути в офіційному відео.

А тепер показуйте, що цікавого нагенерували з новою моделлю?

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Фон з фоток прибирає гарно і зберігає в PNG з прозорістю. Але перемальовує зображення і на дрібних трохи розмитих текстах чи другорядних графічних елементах починає вигадувати. Вказівку не змінювати контент проігнорував. Але треба буде ще погратись з промптом і спробувати через API.

О, можливо, навіть вийде адекватні інфографіки з коректними підписами генерувати!)

Підписатись на коментарі