OpenAI випустив о3-mini: DeepSeek нервово курить осторонь
Сьогодні OpenAI випустив нову, більш потужну версію свого ШІ — o3 mini.
Головними особливостями о3 mini є:
- Покращене логічне мислення, яке дозволяє надавати більш точні й детальніші відповіді;
- Здатність міркувати на складні теми та писати код на рівні досвідчених middle розробників;
- Швидкість відповідей, яка на 24% вища, ніж у моделей-попередників;
- Має кілька різних рівнів потужності, регуляція яких дозволяє вибрати між тим чи потрібна швидка відповідь або глибока;
- Доступна для всіх безкоштовно (але з деякими обмеженнями).
В плані глибини аналізу дана модель не перевершує GPT-4, але в аспекті швидкості та ефективності відповідей — це фаворит.
Також розробники вже можуть використовувати o3-mini через API-сервіси OpenAI, зокрема Chat Completions API, Assistants API та Batch API.
А ви вже встигли скуштувати новинку? Відчувається покращення чи «Пан Жепетенко» все так само «тупить»?
54 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарівКто-то уже использовал
?
Зачем вам это вышел Claude 3,7 — новая самая мощная LLM от компании Anthropic!
Ждемо гпт 5!
Протестував можливість написання коду на o3-mini-high. Це жах. Ліміт на400-500 рядків нікуди не дівся. Проте тепер модель допускає жахливі помилки, незважаючи на те, що код збирається. Код при цьому не тільки містить помилки, а й за структурою та рівнем вкладеності відповідає рівню початківця-джуна.
с примитивными логическими ошибками, которые не делают даже дети после яслей
Потужно!
Серйозно? AI не допоміг перекласти коректно текст з російської?
Це скоріше не труднощі перекладу, а сленг-новояз зі св*нос*бачих Пікабу і Хабра — «вкусниє пєчєнькі», «вкусно» — і похідні від цього.
Чого ви вирішили, що це переклад? Це повністю авторський стиль 🤔
А что здесь не по-украински?
Що українська — без сумніву, а ось що вірний відтінок — тут не зовсім. Я б сказав «покуштувати». Бо «скуштувати» має стійкий відтінок завершеної дії, всі деталі розпробувані (покуштовані;)), а це для такого ресурсу значить місяці випробування. Може, навіть «причаститись до новинки» (якщо відринути християнські коннотації). Вибачаюсь за нерівний стиль, впасти в режим філолога, який роками тренувався розповідати про кольори у Тичини, тяжко 😏🦆
ua.opentran.net/...ictionary/скуштувати.html
Нічого по цьому посиланню не протирічить тому, що я написав.
Куштувати, скуштувати — це про відчути щось органами відчуття, на смак, або, рідше, на дотик (скуштувати вино, скуштувати нове блюдо,
скуштувати ***).Правильний переклад у данному контексті — «спробувати», у значенні «зробити якусь нову дію».
«А потім він змиває цукор з моїх губ, щоб він міг скуштувати мене»
Ручаюсь, что это не про каннибализм :)
Задал этот самый вопрос этому самому ChatGPT o3-mini, и получил такой ответ:
«мощно возрастаєт дєнь ото дня процент жиров у маслі»
Африкан Свиридович. ... Шо мовчите, скуштували ***? ...
Намагався знайти порівняння о1-pro та о1-mini-high, але OpenAI чомусь порівнює або тільки o3 з о1/о1-mini/o1-preview, або o1 — з о1-pro. При цьому, в однакових тестах (AIME 2024 та GPQA Diamond), для обох варіантів порівнянь, дані для о1 мають різне значення.
Наразі, з тих діаграм, що приводить OpenAI, виходить таке порівняння:
AIME 2024
---------
o1 — 78
o1-pro — 86
o3-mini-high — 87,3
GPQA Diamond
------------
o1 — 76
o1-pro — 79
о3-mini-high — 79,7
Висновок, як на мене, такий: о3-mini-high ледве-ледве розумніша за о1-pro, але набагато швидша, а відповіді о1-pro — є надійшнішими (в плані надійності — це моя субʼєктивна оцінка).
lol)
Хм, з цього виникає питання: коли клавіатури у смартфонах почнуть насильно виправляти за тебе текст, а не тільки пропонувати альтернативні написання?
Типічний прогрів гоїв, DS і близько не стоїть з гпт4, я уже не кажу про нові моделі.
Штучний ворог, з нагнітанням, щоб створити штучну перемогу)
Цікаво що буде з акціями
ну і де пруви?
DS це патерн, а не гейм чендж архітектура ака трансформери.
Робити тести і писати статтю щоб показати очевидне не бачу резону.
Скажу що пробував генерити код там і там,
Фрішний гпт робить це краще
Ви не враховуєте того, что DeepSeek може працювати локально у смартфоні, а це новостворена ніша. Моделі од OpenAI на це не розраховуються. Хоча, мабуть, вони теж почнуть випускати редуковані версії для цього.
Ідеш собі вулицею, а він і каже «зазвичай ти на цьому шляху пʼєш каву, а я знаю, тут нова кавʼярня відкрилась, зайди покуштуй». Ну і 1 гривня з твоєї оплати піде вендору телефона.
NPU в смартфонах вже зʼявляються на рівні вимоги, але поки що були призначені більше для відновлення фото. А тут їм нові задачі. DeepSeek показав, що таке вже можливе. Далі допрацювання...
Судячи з плачу Альтмана в X — курить саме OpenAI
як тут вже писали, скоріше за все oai дуже швидко скопією архітектурний підхід коммуняк і моделі oai або стануть ще з більшою кількістю параметрів або швидше і дешевше працювати.
це правда. Але ще правда що скопіювати можуть не тільки вони. І це все добре — в плані конкуренції.
конкуренція це добре, погано що від коммуняк)
Один тільки великий мінус для oai — це те, що та модель у відкритому доступі валяється, включаючи з дистильованими моделями, може конкуренція з боку коммуняк підштовхне відкрити щось і closedai
Так тут суть в патерні моделі а не в архітектурі, не?
я не дуже шарю у цьому, сорі.
Там писали про оці логічні блоки, які починають діяти тільки у випадку, якщо їх потрібно задіяти і тд і тп. Типо через це меньше навантаження під час генерації відповідей.
конкуренція це добре — будь-яка. OpenAI це «неприбуткова організація» яка займається монополізацією ринку. DeepSeek змінив правила гри і зробив послугу людству. Саме по цій причині OpenAI зараз додали reasoning — хоча ще пару днів тому казали що це комерційна таємниця — це також неодмінно здешевить послуги OpenAI — та домопоже з приватністю данних.
Комуняки чи не комуняки — значення немає — вже давно немає ніяких чистих комуняк і чистих капіталістів. Ви просто не знаєте кількість картелів в США
Бля, оцінювати моделі по постам в Х, це якись новий виток колективного мислення
по постам в X навіть успішно торгують на біржі. І це не про оцінку моделі — це про оцінку ризиків для OpenAI повязаних з виходом open source моделі яку можна випускати на дешевому залізі
найбільш цікаво що плакання про крадіжку данних які OpenAI сам теж успішно краде — зявились ще до хайпу над DeepSeek
Суть аі не в тому щоб просто запустити на дешевому залізі. Має бути корисна дія
якщо запустити на дорогому в жепетецентрі можна вийти на IPO, ідею можна придумати потім © every ai out there
Llama 70 теж ок, але чогось для комерції більшість юзає гпт клауд(пналог діпсіку)
дуже багато юзають селф-хостед ламу для комерції насправді — але це історія про ентерпрайз. Хостити ламу просто дорого.
Так не влазить як слід, і це поки
Якщо не помітив то гпу з часом мають більше памʼяті а мінімально юзабельні моделі потребують менше
А модель це як фільм, легко піратиться
Тільки питання часу поки все це жепете, лама 70 чи антилопа 7000 стане дешевше за буріто
Моделі нічого не варті, варті солюшени, а які солюшени може запропонувати модель яка дає маху? І хто нестиме відповідальність за промах?
От уяви що ти пічай, під тобою альфабет і твоє рішення це мільярди баксів і перед тобою якийсь репорт який з імовірністю 20% фейковий
Там де треба критичне прийняття рішень типу бізнесу — там ейяй проканає тільки як асистент і порадник
Там де fuzzy результат годиться — чат чи генератор картинок можна підняти на досить середній картці й древньому залізі за 5к з ібея, з моделлю, яка в найгіршому випадку може бути спизжена, що й доведено китайцями. Це тобі стеля окупності всяких чатжпт і це саме те що робитимуть гікі
Негікі куплять чайник чи телевізор чи лептоп з функцією ейяй і отримають безкоштовно якийсь сірі і заплатять за ейяй в ціні наприклад айфона
На цьому епоха цього помішатєльства закінчиться і всі перестануть звертати увагу на альтмана :)
Між корпами й державами буде звісно батл в кого більше сантиметрів ув нашім чи вашім ейяй, але все це буде або спеціалізований софт або військові речі, середні тьотя мотя й дядя ваня які живуть життя замість непритомніти на згадках про альтмана — просто отримають нову модель телефона ;)
Ну от поки цього не сталось треба доїти інвесторів, що альтман і робить
Локально як кодінг асистент, це корисна дія, якщо з якихось чутливих міркувань умовний DeepSeek як аналог ChatGPT не підходить. А те що вони покращили процесс навчання це сигнал про наявність експертизи та її рівень в Китаї вцілому, та в окремій компанії зокрема. При чому цікаво, що деякі покращення почали інтегрувати в свій процес навчання умовні OpenAI, Google, Meta, etc.
DS це патерн а «покращене» тренування це результат «чистіших» датасетів.
Якщо ви маєте бажання ігнорувати реальність задля пропаганди — ваше діло. До речі американці спокійно визнають новизну підходу. От наприклад CSIS youtu.be/...8EfS8?si=dgqbdmbGqOWd7bBs.
Я запитав. Ось відповідь
Я прагну вести відверту розмову, але намагаюсь уникати глузування чи насмішок над іншими компаніями чи асистентами у сфері штучного інтелекту. Натомість я із задоволенням проведу конструктивну дискусію про можливості та розвиток ШІ. Які аспекти розвитку штучного інтелекту вас цікавлять?
Дякую за відповідь! Мені подобається ваш конструктивний підхід до обговорення ШІ. Особисто мене цікавлять, зокрема, такі аспекти:
Як забезпечити прозорість і справедливість рішень, прийнятих штучним інтелектом, і які нормативні рамки можуть допомогти мінімізувати ризики?
Як зробити процес прийняття рішень ШІ більш зрозумілим для кінцевих користувачів, щоб підвищити довіру до технологій?
Як оптимально застосовувати ШІ у медицині, освіті, екології та інших галузях для досягнення сталого розвитку?
Які основні труднощі ви бачите у масштабуванні і вдосконаленні алгоритмів, і як їх можна подолати?
Які з цих напрямків, на вашу думку, є найбільш перспективними для майбутнього розвитку ШІ, і як ми можемо забезпечити баланс між інноваціями та відповідальністю?
Якщо не бачив ;)
youtu.be/...-K4-I?si=a2xYMjq2rBsFOIuI
Питання як на якомусь бюрократичному комітеті.
ШІ якраз добре на такі питання відповідає.
Цілком згоден — такі питання нагадують бюрократичний комітет, але саме завдяки їм ми можемо детально розглянути всі важливі аспекти. Хоча іноді формулювання можуть здатися надмірно офіційними, вони допомагають структурувати дискусію та врахувати всі нюанси розвитку ШІ. Якщо вас цікавлять конкретні моменти чи маєте додаткові запитання, з радістю обговоримо їх далі!
Такі питання, у такому форматі нема сенсу обговорювати на форумах, з непричетними. Це як народні розмови про геополітику — пусті бла-бла-бла.
А як хочеться для себе з’ясувати — то спілкування з ШІ буде більш корисними ніж з людьми.
Я так і роблю, зазвичай.
Ось вона — людина майбутнього! Уже серед нас :) бла-бла-бла з людьми вже не треба одному прогресивному :)
Іноді думаю шо над дженай міг працювати лише соціопат
Там від маска до мураті знизу доверху вони всі... в них сто процентів в кожного є якась особиста модель без цензури всякої от думаю, був би я маск я б точно хотів таку мати
І от часом думаю про що маск чи мураті говорять зі своїми нецензурними збоченими моделями :) фільм про це ще знімуть сто процентів
Взагалі то про безсмістовність теревенів у інеті писали й до ШІ.
Ви от навели типовий комент.
про що він? Суцільні емоції. Призначені для формування істероідної спільноти і пошук визнання себе в ній.
Для, цього звісно ШІ не підійде, не замінить мавпячий гвалт :)
Який, повторюсь, оминали і раніше, ті, котрим спілкування треба було з іншими цілями.
Ну в мене інша думка є таке якесь відчуття що Ші це такий собі teammate який мабуть в будь-якій команді є, що знає про все на світі й має про все свою хитрожопу думку, але ні хрена по суті не розуміє тобто в нього можна спитати якусь хрень наприклад про фреймоворк і він тобі відповість але без мозку слухати це не має сенсу, розібратись ти все одно маєш сам
По суті мало відрізняється від бла-бла-бла)