Нова модель GPT-4o від OpenAI: огляд основних фіч

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Дорогі пасажири, я не знаю, як у вас, але Капітан простояв на вахті майже всю ніч без сну, просто намагаючись усвідомити, що ж сталося вчора і як із цим жити. Презентації Apple — це подія року? Старина Сем просто каже на це: «Потримай моє пиво».

А вчора відбулася чергова революція, навіть якщо хтось ще цього не усвідомлює. Давайте в деталях 👇

➖ OpenAI представила свою нову модель — GPT-4o (жарти про «чо?»). Модель вміє працювати з голосом, будучи мультимодальною з коробки та розуміючи, яку модальність потрібно використовувати тут і зараз.

➖ За голими цифрами: модель удвічі швидша за GPT-4 Turbo, а коштує вдвічі дешевше (Apple, будь ласка, скажіть про вашу співпрацю в iPhone і «make the Siri great again»). Контекстне вікно збільшили до 128К токенів (кілька томів «Війни та миру» на секундочку, не «вау», але й на тому спасибі (UPD: так як пост писався вночі, автор помилився в кількості слів у творі. Коментар від читача: «„Війна та мир“ — це ~560K слів, а 128K токенів — це ~96K слів», тобто так, може бути розмір в кілька книжок, але значно менших).

➖ Усі отримують безкоштовний доступ до GPT-4o, плюс десктопний застосунок на macOS (ДЯКУЮ!!!).

➖ Chatbot Arena перебуває в хаосі, тому що модель рве в хвіст і гриву все, що там представлено.

➖ Поговорити з ChatGPT для передплатників Plus можна буде вже в найближчі кілька тижнів (стережися опенспейс, тепер я буду розмовляти зі своїм ноутбуком). Це просто відвал башки, судячи з відео. Підвезли жарти, емоції, майже миттєву реакцію і це саме той асистент, на якого всі чекали.

➖ У десктопному застосунку можна буде показати екран і попросити поправити код або дати відповідь на лист. БУМ!

➖ А як вам сумаризація годинних відео? Хто там скаржиться, як я, що годин у добі не вистачає?

➖ OpenAI перевинайшли перекладач, усі хто вчився купу років на перекладачів вивчаючи мови — шукайте терміново іншу роботу, завтра поточної у вас уже не буде. І це все доступно 50 мовами.

На каналі OpenAI вийшло кілька відео з прикладами використання моделі:

#️⃣ Фантастика, яка стає реальністю на наших очах! Пасажири, тримайтеся за крісла. Світ, у якому ми живемо, не буде колишнім вже ніколи.

❓ З питань, що залишилися: якщо нова модель доступна безкоштовно, то що отримають платні передплатники крім голосового асистента? Поки не знайшов відповіді, але я копаюся для пасажирів і обов’язково напишу.

❗️ Найкраще сказав про все це Сем Альтман кілька тижнів тому: «Дивно, як багато чого, показаного у фільмі, виявилося близьким до реальності — хоч на той момент це не було очевидним». Це він про фільм «Her» 2013 року.

Вангую — сьогодні акції Google після їх презентації впадуть, бо я не уявляю, чим можна це перебити.


До речі, якщо вам цікаво читати подібні новини, огляди та просто корисну інформацію зі світу IT та High-Tech щодня, то приєднуйся до телеграм-каналу автора під назвою «Затишна Галера», там лампово і багато цікавого.


А якщо ви хочете написати огляд, блог або техстаттю на якусь з фіч, пишіть на [email protected]

👍ПодобаєтьсяСподобалось11
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

цікаво коли вони голосову підтримку не в епловські продукти завезуть

Дивлячись скільки епл за ексклюзив забашляє

Цікаво, коли ці моделі інтегрують з RPG іграми для динамічних квестів і голосових розмов з NPC?

Питання цікаве сам про це думав, але поки що ці моделі не дуже вміють виключати протиріччя тому якщо такі квести робити то вони можуть або неможливими до виконання, або виконуватись від випадкових умов і це хз як перевіряти бо квести ж динамічні.

— Здравствуй странник, мог бы ты мне помочь — сходи налево направо прямо направо убей 10 кабанов и принеси клыки.
— Там за углом стена
— Прошу прощения, направо направо прямо направо
— Там не кабаны а драконы, и меня там съели
— Прошу прощения действительно, но у меня еще много интересных вариантов.

З нетерпінням очікую цю функцію на android і windows. Уявляєте на скільки великі можливості відкриваються у ШІ GPT-4o від взаємодії в реальному часі? На скільки це буде потужно! Я вже стільки сценаріїв побачив використання

так з еплом запартнерились, тому самий сок буде на айфонах, інакше який смисл такого партнерства

а надписи кирилицєю на відкритках робити як не вмів, так і не вміє

відкритку він сам може згенерувати по опису, і написати на неї що ви вкажете. але лише латинськими літерами. кирилицею що не кажи, буде виглядати як надпис на паркані

то ось хто в 90-х писав усі ці безглузді написи на заборах типу «цой жыв» і «доллар по 2.5» — ШІ

Дякую за корисний огляд!
Голосовий асистент в реальності не настільки вражає (може вони ще не викатили все на продакшн).
А де більше подивитись про video summarization що ви написали?

А ось тут більше прикладів openai.com/index/hello-gpt-4o . Секція — Explorations of capabilities (там треба вибрати пункт Lecture Summarization). Ще багато цікавих :)

Контекстне вікно збільшили до 128К

Нічого не збільшували, попередні версії GPT4-Turbo мали такий же розмір max tokens size

Роботи з голосом в моделі, що публічно доступна по API немає, там все ще тільки текст і зображення.

На відео презентації вони дійсно продемонстрували чудову швидкість реакції на голос, але нічого революційного тут немає, це все давно вже доступно в тому чи іншому вигляді. Просто в OpenAI це все тепер очевидно якісніше і краще ніж мультимодальні альтернативи від Google, що недавно демонструвались.

Якість відповідей в моделі дійсно схоже що краще, думаю, твердження, що це найрозумніша на сьогодні мовна модель — дійсно коректне.

Швидкість генерації тексту — приблизно в 2 рази швидше, теж приємно.

Ну як вам сказати, 4 колеса це теж у якомусь сенсі автомобіль і може якесь audi чи друга крута автомобільна компанія і не зробили тоді революцій... Але, на мою персональну думку, якісно новий рівень сервісу чи функціональності, навіть якщо він існував раніше, але у дуже хибному стані і їм ніхто не користувався, то це революція у якомусь сенсі. Але то на мою думку :)

Телефони з тач інтерфейсом також були до айфона, но є нюанс

У мене так знайомий колись стартап для архітекторів хотів робити, який би будував 3д модель приміщення по 2д фотографіях. Пару місяців погрався і закинув, нічого не вийшло, нічого не працювало, все робив ввручну без всяких AI. Зате коли всякі айфони це з лідаром роблять і воно працює, коли AI може по фоткам це робити, він зараз ходить, б’є себе в груди і всім розказує що придумав раніше за них.

Телефони з тач інтерфейсом також були до айфона, но є нюанс

Вони називались кпк і були тупі шо капець. Залізо дуже відставало від того щоб це зробити практичним девайсом.

він зараз ходить, б’є себе в груди і всім розказує що придумав раніше за них.

Але ж він правду каже, хіба що не зміг це монетизувати і довести до продукту.

Ну тоді польоти на Марс я раніше за Маска придумав, і Маск тепер має мені роялті відстьогувати

Вони називались кпк і були тупі шо капець. Залізо дуже відставало від того щоб це зробити практичним девайсом.

Саме так, задача не в технології як такій, задача зробити цю технологію юзабельною, вирішити 100500 дрібних проблем і зробити реальний продукт яким було б приємно користуватися.

ніфіга. Вони були норм для свого часу. У мене були напевно всі популярні моделі на Win і PalmOS починаючи з самих перших і десь аж до виходу Iphone3, коли я свічнувся з Windows Mobile на Android.
Навіть після виходу айфонів, пристрої на WinMobile були кращі і продуктивніші в своїй ніші.
Мені наприклад не вистачало тільки ємкістного тачскріну який зʼявився на iphone, коли у всіх інших був резистивний (треба було не тачати, а саме давити). А коли вийшов перший Галаксі Ноут, я вже не втримався.
Так от Айфони просто мали кращу рекламу. Це були смартфони для не-нердів. А справжнім нердам було насрати на айфони.

Навіть після виходу айфонів, пристрої на WinMobile були кращі і продуктивніші в своїй ніші.

Функціональніші — так. Кращі — ну нахєр. Вони були дно порівнянно з айфоном в плані UX. А це головне.

Так от Айфони просто мали кращу рекламу. Це були смартфони для не-нердів. А справжнім нердам було насрати на айфони.

Мереседеси просто мають кращу рекламу. Це машини для не-нердів. А справжнім нердам насрати на Мерседеси, їм би в гаражі поколопатися, двигун розібрати, ходову замінити.

Нормальний там був UX. Просто заточений під стилус. А айфон перший зробив оптимізацію саме під пальці і гігантські значки.

Мереседеси просто мають кращу рекламу. Це машини для не-нердів. А справжнім нердам насрати на Мерседеси,

Можливо, які проблеми з цією тезою?

Ні, не нормальний. Стілус — ненормально. Резистивний екран — ненормальний. Інтерфейс який через раз реагував — ненормально. Інтерфейс який лагав — це ненормально. Дрібні елементи інтерфейсу по яким навіть стілусом важко попасти — це ненормально. Про вісдсутність жестів і анімацій при банальному скролінгу я взагалі мовчу.

Вони здавалися нормальними, поки айфон не появився, поки Джобс не показав що може бути принципово краще. А до того, народ думав що краще бути вже не може і були задоволенні, особливо враховуючи що по іншу сторону був ще більш убогий і менш функціональний сімбіан.

Так що, в плані UI і UX, тодішні телефони були дном порівняно з айфоном. Саме тому айфон взлетів. І не треба розказувати про понти, жертв маркетингу, яблукодрочерів та інші сучасні аргументи — репутація епла тоді була на нулі і компанія ледве дихала.

резистивний екран не норм для пальців, а для стілусу норм.
Але я зразу сказав що єміксний екран це таки перемога айфона.
І не було ніяких дрібних елементів по яким важко попасти стілусом, якщо ти не старий дід з паркінсоном.
Анімація при скролінгу була, жестів не було бо це не для пальців, лол.
Айфон злетів через маркетинг. Нічого в ньому такого не було.
І яблодрочери вже тоді були з айподами. По суті перший айфон був як айпод з якого можна було звонити — WOW!
У мене в той час одночасно було десь 20-30 пристроїв усіх фірм і систем, включаючи айфон. І я їх порівнював на момент їх виходу, а не потім через 10 років на основі сучасних знань. Тоді серед снобів взагалі саме модно було Блекбері. Хз де він тепер зараз.

ніфіга. Вони були норм для свого часу.

Хтось і wap з edge інтернетом називав, але ну реально це ж триндець був тотальний. Останній ще якось працював іноді і зараз в дуже обмеженних випадках може працювати в режимі краще так ніж нічого, але споживча якість цього ще і скільки це тоді коштувало не витримує жодної критики.

Навіть після виходу айфонів, пристрої на WinMobile були кращі і продуктивніші в своїй ніші.

Я не можу сказати що вони були фігнею самі по собі, але те що на він мобайл не можна було встановити навіть їх же скайп це вже дуже серйозний дзвіночок. Який виявився поминальним дзвоном. Я власне не про них говорив, а про часи PalmOS ось це було жалюгідно як на мене, ні воно круто звичайно було таку іграшку мати, але за свої грошів кпк не давав майже нічого.

Так от Айфони просто мали кращу рекламу. Це були смартфони для не-нердів. А справжнім нердам було насрати на айфони.

ЮИ/ЮХ там був на той момент кращий. Справа не в рекламі. Я пам’ятаю що викатила у відповідь нокіа і яким одороблом часто були андроіди. Десь після 4 версії вже стало не так очевидно, але сегмент ринку вже був надійно зайнятий, а дичини щоб його втратити вони поки що не робили.

Знову ж таки wap і edge на свій час був норм. Який сенс порівнювати тогочасні технології і сучасні. WinMobile і Iphone одного року виробництва мали одинакові протоколи звязку.
А щодо Скайп, його Мікрософт купив аж в 2011 році, це вже після ери популярності ВінМобайл. Ну і скайп прекрасно працював, не знаю що там за проблеми були.

але за свої грошів кпк не давав майже нічого.

лол. Я в 2005 з HTC на WinMobile міг робити те, що більшість моїх знайомих з звичайними смартфонами навіть не знали, що таке можливо.
А на PalmOS були найкращі читалки, я носив всю свою лібу з собою, коли про таке ще ніхто не чув.

Я пам’ятаю що викатила у відповідь нокіа

От це правда. Нокіа зі своїм сімбіаном всралась повністю. Андроід перші версії теж був шлак, але тоді був розквіт моддінгу. Ти купував каку, йшов на Xda чи 4pda і ставив рутовані кастоми на любий смак, які вже працювали як треба.

Пишуть доступна всім і безкоштовна. Але і в Андроїд додатку і в браузері бачу тільки можливість вибрати платну версію.

Тільки вчора кінчилася підписка. Думав о круто можна більше не платити. Але фіг там, пришлось заплатити. )) але працює воно дійсно дуже швидко.

Саме час знову запостити свою книжечку яку я пишу. Кожного разу коли OpenAI щось релізить я думаю , що вгадав як воно буде.

Перша частина arkush.net/book/19303/1
Друга частина arkush.net/book/19303/2
Третю я ще дописую (спойлер, там буде фігурувати атомна зброя)

Акції Duolingo −25% за тиждень, а так да, AI це хайп, бульбашка, галюцинує, нікому непотрібна хрінь

Grammarly оцінювалися в 13 млрд. в 2021, зараз естімейтять в 9 млрд.

www.upmarket.co/...​arkets/pre-ipo/grammarly

Тут в іншому справа: коли такі анонси роблять навіть гугли і майкрософти, то це пук в воду. Не кажучи уже про інші АІ рішення від кожної підзаборної собаки.

А ось речі від OpenAI і справді варті уваги. Тут основний сентимент у незаслуженному хайпі на ШІ, хоча прорив вдалося зробити поки тільки ChatGPT.

хоча прорив вдалося зробити поки тільки ChatGPT.

Якось їх порівнював і от не можу сказати що саме чат чимось кращий за варіант від гугл чи мелкософт. Іноді вони навіть кращі відповіді давали ніж чат.

Не дуже розумію як це може бути пов’язане.

Що саме? Що з чатгпт можна зробити репетитора по іноземним мовам, а тепер ще й з голосом який буде натаскувати тебе в розмовній мові? Що мови в довгостроковій перспективі взагалі стануть непотрібними і ти зможеш своєю рідною спілкуватися в любій країні?

Щось я дуже сумніваюся що це цілком замінить знання іноземної мови. Умовно от прийшли ви до лікаря і кажете йому щось, а паралельно ще щось з динаміка телефону лунає. Це буде шум який не допоможе вас зрозуміти і потім так само він буде робити. Якщо треба буде оформлювати пмж то теж доведеться вчити мову країни. Якщо ж турист то по правді і гугл непогано справлявся. Цілком ви не приберете проблему контексту бо коли ви хочете щось сказати то у вас вже є і контекст і розуміння, а будь який алгоритм цього не має, а отже йому треба на ходу здогадуватися. Просто мені не зрозуміло як аплікуха для вивчення мови може будут конкурентом боту хай який він там крутий.

OpenAI перевинайшли перекладач, усі хто вчився купу років на перекладачів вивчаючи мови — шукайте терміново іншу роботу, завтра поточної у вас уже не буде.

— побачимо. можливо ви просто не вірно розумієте роль перекладача. голосовий input в google translate був вже багато років. перекладачі все ще з нами.

Ага, в ручному режимі і з latency немалою. А тут на ходу природньо.

Вангую через рік-два можна буде налаштувати рідну мову і в наушники всі голоса які ти чуєш навкруги будуть програватися в рідній мові. Як hear though режим тільки з перекладом.

Як в Cyberpunk 2077, люди говорять до тебе іншою мовою, а ти бачиш субтитри в реальному реальному часі.

Був, але це ніяк не real-time переклад на такому рівні. Як на мене, якщо буде працювати як показали, то це сильно інший рівень, а ніж Google Translate

Я не володію іспанською, проте після прочитаного очікував побачити, що він починає переклад ще до того, як фраза закінчена, тому що в чому революційність тоді? Interpreter Mode від Google працює плюс-мінус так само, а йому вже багато років.

Контекстне меню збільшили до 128К токенів (кілька томів «Війни та миру» на секундочку, не «вау», але й на тому спасибі).

«Контекстне меню»? «Війна та мир» — це ~560K слів, а 128K токенів — це ~96K слів

OpenAI перевинайшли перекладач, усі хто вчився купу років на перекладачів вивчаючи мови — шукайте терміново іншу роботу, завтра поточної у вас уже не буде. І це все доступно 50 мовами.

А як же мова???

Так, не вірну кількість слів в творі знайшов. Зроблю апдейт топіку, дякую за корекцію

У мене в платнiй версiï через веб вже доступна нова модель, тестую.

Поки тільки текстова генерація, якщо що. Голос завезуть пізніше

будучи мультимодальною з коробки

Не подскажите, чем мультимодальность из коробки, отличается от иной?

Якщо подивитися оригінал презентації, то там краще пояснюється youtu.be/DQacCB9tDaw?t=253

Якщо дуже коротко: раніше модель перекладала ваш запит у текст, навіть якщо ви питали голосом щось. Після вам генерувалася відповідь теж текстом, а вже далі цей текст озвучувався голосом, якщо вам потрібна була відповідь голосом. На кожному кроці це робилося окремими моделями та втрачалися усі емоції. А тепер GPT 4o може (ще не може, але зможе через пару тижнів) вас слухати і одразу генерувати відповідь, минаючи ці кроки перетворення аудіо в текст і навпаки.

Да это многое обьясняет. Интересно как звук будет к токенам соотноситься тогда.

Якщо це вже безкоштовно то чи є зміст платити за ChatGPT Plus?
Я підписався через доступ до Della. Щоб можна було генерувати зображення. ВОно все ще лише в платній версії?

В безкоштовній версії будуть ліміти на кількість запитів. Так що, якщо буде усе як на вчорашній презентації, то це точно варто грошей. Я, як мінімум, попрощаюсь зі своєю викладачкою англійської і буду спілкуватись лише з ГПТ.

На презентації показували до десятка різних голосів. Цікаво чи можна задавати для спілкування певні регіональні акценти? За таке я готовий оплатити навіть додаткові підписки.

Тільки моделі використовують дані які вєе є в інтернеті, і не факт, що вони правильні, а викладачка всетаки вчилась і знає нюанси використання слів в певних ситуацій. Чи не вийде так як із готовими домашніми завданнями? Відповідь буде, але як воно працює глибинно люди вже не будуть вникати. Отупіємо?

Я, як мінімум, попрощаюсь зі своєю викладачкою англійської і буду спілкуватись лише з ГПТ

Щось я кринжанув з цього

Ок. Трохи перебільшив для драматичного ефекту ))

Звісно, що не тільки з ГПТ. Просто мені катигорично невистачає годин на тиждень за які я плачу, а виходити зразу у Tandem та подібні сервіси не вистачає сміливості. Це буде ніби проміжна ланка перед нетівами — наче безлімітний викладач, що завжди з тобою поруч і нагадуватиме усі кондішени та яким словам заборонені герундії в контініусі.

Підписатись на коментарі