OpenAI випустив о3-mini: DeepSeek нервово курить осторонь

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Сьогодні OpenAI випустив нову, більш потужну версію свого ШІ — o3 mini.

Головними особливостями о3 mini є:

  • Покращене логічне мислення, яке дозволяє надавати більш точні й детальніші відповіді;
  • Здатність міркувати на складні теми та писати код на рівні досвідчених middle розробників;
  • Швидкість відповідей, яка на 24% вища, ніж у моделей-попередників;
  • Має кілька різних рівнів потужності, регуляція яких дозволяє вибрати між тим чи потрібна швидка відповідь або глибока;
  • Доступна для всіх безкоштовно (але з деякими обмеженнями).

В плані глибини аналізу дана модель не перевершує GPT-4, але в аспекті швидкості та ефективності відповідей — це фаворит.

Також розробники вже можуть використовувати o3-mini через API-сервіси OpenAI, зокрема Chat Completions API, Assistants API та Batch API.

А ви вже встигли скуштувати новинку? Відчувається покращення чи «Пан Жепетенко» все так само «тупить»?

👍ПодобаєтьсяСподобалось2
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Протестував можливість написання коду на o3-mini-high. Це жах. Ліміт на 400-500 рядків нікуди не дівся. Проте тепер модель допускає жахливі помилки, незважаючи на те, що код збирається. Код при цьому не тільки містить помилки, а й за структурою та рівнем вкладеності відповідає рівню початківця-джуна.

писати код на рівні досвідчених middle розробників

с примитивными логическими ошибками, которые не делают даже дети после яслей

скуштувати новинку

Серйозно? AI не допоміг перекласти коректно текст з російської?

Це скоріше не труднощі перекладу, а сленг-новояз зі св*нос*бачих Пікабу і Хабра — «вкусниє пєчєнькі», «вкусно» — і похідні від цього.

Чого ви вирішили, що це переклад? Це повністю авторський стиль 🤔

А что здесь не по-украински?

Що українська — без сумніву, а ось що вірний відтінок — тут не зовсім. Я б сказав «покуштувати». Бо «скуштувати» має стійкий відтінок завершеної дії, всі деталі розпробувані (покуштовані;)), а це для такого ресурсу значить місяці випробування. Може, навіть «причаститись до новинки» (якщо відринути християнські коннотації). Вибачаюсь за нерівний стиль, впасти в режим філолога, який роками тренувався розповідати про кольори у Тичини, тяжко 😏🦆

Нічого по цьому посиланню не протирічить тому, що я написав.

Куштувати, скуштувати — це про відчути щось органами відчуття, на смак, або, рідше, на дотик (скуштувати вино, скуштувати нове блюдо, скуштувати ***).
Правильний переклад у данному контексті — «спробувати», у значенні «зробити якусь нову дію».

«А потім він змиває цукор з моїх губ, щоб він міг скуштувати мене»
Ручаюсь, что это не про каннибализм :)

Задал этот самый вопрос этому самому ChatGPT o3-mini, и получил такой ответ:

Наведений текст у цілому відповідає сучасним стандартам української мови, проте містить кілька моментів, які можна вдосконалити з точки зору стилістики та мовної чистоти. Ось кілька зауважень і рекомендацій:

1. Використання іноземних термінів та англіцизмів:
* «middle розробників» — тут використовується англіцизм. Якщо текст орієнтований на широку аудиторію, варто або пояснити цей термін, або замінити його на український відповідник, наприклад, «розробників середнього рівня».
* Назви API-сервісів (Chat Completions API, Assistants API, Batch API) — технічна термінологія зазвичай залишається без перекладу, що прийнятно в цьому контексті.
2. Стилістичні та формулювання:
* У реченні «Має кілька різних рівнів потужності, регуляція яких дозволяє вибрати між тим чи потрібна швидка відповідь або глибока» варто подумати про покращення побудови. Наприклад:
«Модель має кілька різних рівнів потужності, регулювання яких дозволяє обрати між швидкою відповіддю та глибоким аналізом.»
* Речення «В плані глибини аналізу дана модель не перевершує GPT-4, але в аспекті швидкості та ефективності відповідей — це фаворит» є зрозумілим, але слово «фаворит» є запозиченням. Можна замінити на «лідер» або «переможець», залежно від бажаного стилю.
3. Неформальні та розмовні вирази:
* Останнє речення («А ви вже встигли скуштувати новинку? Відчувається покращення чи „Пан Жепетенко“ все так само „тупить“?») має яскраво виражений неформальний відтінок. Використання фрази «Пан Жепетенко» та слова «тупить» є характерними для розмовного стилю і може не відповідати офіційному чи нейтральному стандарту. Якщо текст орієнтований на неформальну аудиторію або блоговий формат, це прийнятно; проте для більш офіційного стилю бажано обрати більш нейтральні вирази.
4. Загальна структура та пунктуація:
Пунктуація, розділові знаки та структура тексту відповідають нормам української мови.
Використання тире («—») для виділення пояснень є коректним.
Висновок:
Текст відповідає стандартам української мови, проте містить окремі місця, де можна покращити стилістику (заміна іноземних слів на українські аналоги та уникнення надмірно неформальних виразів) для більшої мовної чистоти або відповідності певному жанру тексту. Якщо аудиторія не заперечує використання сучасних розмовних елементів та іноземної термінології, текст є прийнятним.

«мощно возрастаєт дєнь ото дня процент жиров у маслі»

Африкан Свиридович. ... Шо мовчите, скуштували ***? ...

Намагався знайти порівняння о1-pro та о1-mini-high, але OpenAI чомусь порівнює або тільки o3 з о1/о1-mini/o1-preview, або o1 — з о1-pro. При цьому, в однакових тестах (AIME 2024 та GPQA Diamond), для обох варіантів порівнянь, дані для о1 мають різне значення.

Наразі, з тих діаграм, що приводить OpenAI, виходить таке порівняння:

AIME 2024
---------
o1 — 78
o1-pro — 86
o3-mini-high — 87,3

GPQA Diamond
------------
o1 — 76
o1-pro — 79
о3-mini-high — 79,7

Висновок, як на мене, такий: о3-mini-high ледве-ледве розумніша за о1-pro, але набагато швидша, а відповіді о1-pro — є надійшнішими (в плані надійності — це моя субʼєктивна оцінка).

Йшов 2025 рік, люди сперечалися, який Т9 краще

Хм, з цього виникає питання: коли клавіатури у смартфонах почнуть насильно виправляти за тебе текст, а не тільки пропонувати альтернативні написання?

Типічний прогрів гоїв, DS і близько не стоїть з гпт4, я уже не кажу про нові моделі.

Штучний ворог, з нагнітанням, щоб створити штучну перемогу)
Цікаво що буде з акціями

DS це патерн, а не гейм чендж архітектура ака трансформери.

Робити тести і писати статтю щоб показати очевидне не бачу резону.
Скажу що пробував генерити код там і там,
Фрішний гпт робить це краще

Ви не враховуєте того, что DeepSeek може працювати локально у смартфоні, а це новостворена ніша. Моделі од OpenAI на це не розраховуються. Хоча, мабуть, вони теж почнуть випускати редуковані версії для цього.
Ідеш собі вулицею, а він і каже «зазвичай ти на цьому шляху пʼєш каву, а я знаю, тут нова кавʼярня відкрилась, зайди покуштуй». Ну і 1 гривня з твоєї оплати піде вендору телефона.
NPU в смартфонах вже зʼявляються на рівні вимоги, але поки що були призначені більше для відновлення фото. А тут їм нові задачі. DeepSeek показав, що таке вже можливе. Далі допрацювання...

Судячи з плачу Альтмана в X — курить саме OpenAI

як тут вже писали, скоріше за все oai дуже швидко скопією архітектурний підхід коммуняк і моделі oai або стануть ще з більшою кількістю параметрів або швидше і дешевше працювати.

це правда. Але ще правда що скопіювати можуть не тільки вони. І це все добре — в плані конкуренції.

конкуренція це добре, погано що від коммуняк)
Один тільки великий мінус для oai — це те, що та модель у відкритому доступі валяється, включаючи з дистильованими моделями, може конкуренція з боку коммуняк підштовхне відкрити щось і closedai

Так тут суть в патерні моделі а не в архітектурі, не?

я не дуже шарю у цьому, сорі.
Там писали про оці логічні блоки, які починають діяти тільки у випадку, якщо їх потрібно задіяти і тд і тп. Типо через це меньше навантаження під час генерації відповідей.

конкуренція це добре — будь-яка. OpenAI це «неприбуткова організація» яка займається монополізацією ринку. DeepSeek змінив правила гри і зробив послугу людству. Саме по цій причині OpenAI зараз додали reasoning — хоча ще пару днів тому казали що це комерційна таємниця — це також неодмінно здешевить послуги OpenAI — та домопоже з приватністю данних.
Комуняки чи не комуняки — значення немає — вже давно немає ніяких чистих комуняк і чистих капіталістів. Ви просто не знаєте кількість картелів в США

Бля, оцінювати моделі по постам в Х, це якись новий виток колективного мислення

по постам в X навіть успішно торгують на біржі. І це не про оцінку моделі — це про оцінку ризиків для OpenAI повязаних з виходом open source моделі яку можна випускати на дешевому залізі
найбільш цікаво що плакання про крадіжку данних які OpenAI сам теж успішно краде — зявились ще до хайпу над DeepSeek

Суть аі не в тому щоб просто запустити на дешевому залізі. Має бути корисна дія

якщо запустити на дорогому в жепетецентрі можна вийти на IPO, ідею можна придумати потім © every ai out there

Llama 70 теж ок, але чогось для комерції більшість юзає гпт клауд(пналог діпсіку)

дуже багато юзають селф-хостед ламу для комерції насправді — але це історія про ентерпрайз. Хостити ламу просто дорого.

Так не влазить як слід, і це поки

Якщо не помітив то гпу з часом мають більше памʼяті а мінімально юзабельні моделі потребують менше

А модель це як фільм, легко піратиться

Тільки питання часу поки все це жепете, лама 70 чи антилопа 7000 стане дешевше за буріто

Моделі нічого не варті, варті солюшени, а які солюшени може запропонувати модель яка дає маху? І хто нестиме відповідальність за промах?

От уяви що ти пічай, під тобою альфабет і твоє рішення це мільярди баксів і перед тобою якийсь репорт який з імовірністю 20% фейковий

Там де треба критичне прийняття рішень типу бізнесу — там ейяй проканає тільки як асистент і порадник

Там де fuzzy результат годиться — чат чи генератор картинок можна підняти на досить середній картці й древньому залізі за 5к з ібея, з моделлю, яка в найгіршому випадку може бути спизжена, що й доведено китайцями. Це тобі стеля окупності всяких чатжпт і це саме те що робитимуть гікі

Негікі куплять чайник чи телевізор чи лептоп з функцією ейяй і отримають безкоштовно якийсь сірі і заплатять за ейяй в ціні наприклад айфона

На цьому епоха цього помішатєльства закінчиться і всі перестануть звертати увагу на альтмана :)

Між корпами й державами буде звісно батл в кого більше сантиметрів ув нашім чи вашім ейяй, але все це буде або спеціалізований софт або військові речі, середні тьотя мотя й дядя ваня які живуть життя замість непритомніти на згадках про альтмана — просто отримають нову модель телефона ;)

Ну от поки цього не сталось треба доїти інвесторів, що альтман і робить

Локально як кодінг асистент, це корисна дія, якщо з якихось чутливих міркувань умовний DeepSeek як аналог ChatGPT не підходить. А те що вони покращили процесс навчання це сигнал про наявність експертизи та її рівень в Китаї вцілому, та в окремій компанії зокрема. При чому цікаво, що деякі покращення почали інтегрувати в свій процес навчання умовні OpenAI, Google, Meta, etc.

DS це патерн а «покращене» тренування це результат «чистіших» датасетів.

Якщо ви маєте бажання ігнорувати реальність задля пропаганди — ваше діло. До речі американці спокійно визнають новизну підходу. От наприклад CSIS youtu.be/...​8EfS8?si=dgqbdmbGqOWd7bBs.

Я запитав. Ось відповідь

Дякую за цікаве запитання!

Якщо говорити з точки зору постійних оновлень від OpenAI, то можна сказати, що моя поточна версія (GPT-4) вже працює над тим, щоб надавати більш точні, швидкі та корисні відповіді. Кожне оновлення спрямоване на покращення логічного мислення, здатності аналізувати складні теми та навіть допомагати у програмуванні.

Щодо порівняння з «Паном Жепетенко» (якщо розглядати це як жартівливе позначення попередніх або менш вдосконалених версій) — можна сказати, що значні покращення є. Я розумію, що сприйняття змін суб’єктивне, але багато користувачів помічають більшу швидкість і гнучкість відповідей.

Отже, якщо порівнювати, то «новинка» дійсно відчувається краще: логіка, аналіз і швидкість відповіді покращилися, і я постійно вдосконалююсь завдяки оновленням і дослідженням від команди OpenAI.

Я прагну вести відверту розмову, але намагаюсь уникати глузування чи насмішок над іншими компаніями чи асистентами у сфері штучного інтелекту. Натомість я із задоволенням проведу конструктивну дискусію про можливості та розвиток ШІ. Які аспекти розвитку штучного інтелекту вас цікавлять?​​​​​​​​​​​​​​​​

Дякую за відповідь! Мені подобається ваш конструктивний підхід до обговорення ШІ. Особисто мене цікавлять, зокрема, такі аспекти:

Як забезпечити прозорість і справедливість рішень, прийнятих штучним інтелектом, і які нормативні рамки можуть допомогти мінімізувати ризики?

Як зробити процес прийняття рішень ШІ більш зрозумілим для кінцевих користувачів, щоб підвищити довіру до технологій?

Як оптимально застосовувати ШІ у медицині, освіті, екології та інших галузях для досягнення сталого розвитку?

Які основні труднощі ви бачите у масштабуванні і вдосконаленні алгоритмів, і як їх можна подолати?

Які з цих напрямків, на вашу думку, є найбільш перспективними для майбутнього розвитку ШІ, і як ми можемо забезпечити баланс між інноваціями та відповідальністю?

Питання як на якомусь бюрократичному комітеті.
ШІ якраз добре на такі питання відповідає.

Цілком згоден — такі питання нагадують бюрократичний комітет, але саме завдяки їм ми можемо детально розглянути всі важливі аспекти. Хоча іноді формулювання можуть здатися надмірно офіційними, вони допомагають структурувати дискусію та врахувати всі нюанси розвитку ШІ. Якщо вас цікавлять конкретні моменти чи маєте додаткові запитання, з радістю обговоримо їх далі!

Такі питання, у такому форматі нема сенсу обговорювати на форумах, з непричетними. Це як народні розмови про геополітику — пусті бла-бла-бла.

А як хочеться для себе з’ясувати — то спілкування з ШІ буде більш корисними ніж з людьми.

А як хочеться для себе з’ясувати — то спілкування з ШІ буде більш корисними ніж з людьми.

Ось вона — людина майбутнього! Уже серед нас :) бла-бла-бла з людьми вже не треба одному прогресивному :)

Іноді думаю шо над дженай міг працювати лише соціопат

Там від маска до мураті знизу доверху вони всі... в них сто процентів в кожного є якась особиста модель без цензури всякої от думаю, був би я маск я б точно хотів таку мати

І от часом думаю про що маск чи мураті говорять зі своїми нецензурними збоченими моделями :) фільм про це ще знімуть сто процентів

Взагалі то про безсмістовність теревенів у інеті писали й до ШІ.

Ви от навели типовий комент.
про що він? Суцільні емоції. Призначені для формування істероідної спільноти і пошук визнання себе в ній.
Для, цього звісно ШІ не підійде, не замінить мавпячий гвалт :)

Який, повторюсь, оминали і раніше, ті, котрим спілкування треба було з іншими цілями.

Ну в мене інша думка є таке якесь відчуття що Ші це такий собі teammate який мабуть в будь-якій команді є, що знає про все на світі й має про все свою хитрожопу думку, але ні хрена по суті не розуміє тобто в нього можна спитати якусь хрень наприклад про фреймоворк і він тобі відповість але без мозку слухати це не має сенсу, розібратись ти все одно маєш сам
По суті мало відрізняється від бла-бла-бла)

Підписатись на коментарі