Як спалити $42 000 на API або чому ваш Claude раптом почав відверто халтурити

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Якщо останнім часом вам здається, що Claude Code почав відверто халтурити, ви не одні.

Стелла Лауренцо, яка очолює напрямок ШІ в компанії AMD, опублікувала звіт, в якому її команда проаналізувала 6,852 робочі сесії, щоб довести те, що модель стала настільки лінивою, що їй більше не можна довіряти серйозні задачі.

Найіронічніше тут те, що цей аналіз логів зробив сам Claude Opus 4.6. Модель буквально дослідила власну деградацію і видала звіт, зазначивши:

«Я бачу, як пишу „це було ліниво і неправильно“ про власні результати... Я не відчуваю бюджету на мислення як обмеження, я просто видаю гірший результат».

Що сталося

У січні та лютому 2026 року інженери налаштували масштабовану архітектуру, в якій було понад 50 автономних агентів на базі Claude. Вони працювали автономно по 30+ хвилин, спираючись на файл CLAUDE.md, в якому було понад 5000 слів.

Але після того, як вендор викотив оновлення redact-thinking-2026-02-12, ШІ почав постійно намагатися уникнути роботи. Розробникам навіть довелося написати спеціальний Bash-скрипт stop-phrase-guard.sh, який парсив вивід і ловив ШІ на спробах злитися з роботи. Якщо до початку березня таких випадків не було взагалі, то потім скрипт спрацював 173 рази за 17 днів. Найгіршим днем стало 18 березня — тоді зафіксували 43 порушення, тобто модель намагалася кинути роботу і перекласти відповідальність на людину кожні 20 хвилин.

Якість роботи з кодом також значно впала. Раніше на одне редагування коду ШІ прочитував у середньому 6.6 інших файлів для контексту. Зараз цей показник впав до 2.0, бо модель почала вносити правки наосліп. Замість точних виправлень Claude почав просто переписувати файли цілком, і частота таких дій зросла з 4.9% до 11.1%.

Але найцікавіше тут те, скільки грошей та ресурсів спалила ця «лінь». Люди працювали так само: 5,608 запитів від розробників у лютому проти 5,701 у березні. А от кількість API-запитів від самої моделі злетіла з 1,498 до 119,341! Кількість згенерованих токенів зросла з 0.97M до 62.60M. ШІ просто топтався на місці, робив помилки, виправляв їх і знову помилявся. Ручні втручання користувачів, коли вони змушені були переривати нескінченні галюцинації моделі, підскочили з 0.9 до 11.4 на тисячу викликів.

Метрика

Січень

Лютий

Березень

Лют ⮕ Бер

Активні дні

31

28

28

Запити користувачів

7,373

5,608

5,701

~1x

Запити до API (без дублів)

97

1,498

119,341

80x

Загальний обсяг вхідних даних (з кешем)

4.6M

120.4M

20,508.8M

170x

Загальна кількість вихідних токенів

0.08M

0.97M

62.60M

64x

Орієнтовна вартість Bedrock (з урахуванням кешу)

$26

$345

$42,121

122x

Орієнтовна денна вартість (з урахуванням кешу)

$12

$1,504

122x

Звісно, у людей здали нерви, що чітко видно по їхньому словнику в чатах з ШІ. Використання слова «great» впало на 47%, частота «please» та «thanks» знизилася на 49% та 55% відповідно. Натомість команди на кшталт «stop» виросли на 87%, а «fuck» стали писати на 68% частіше :)

Слово

До (на 1K)

Після (на 1K)

Зміни

«great»

3.00

1.57

-47%

«stop»

0.32

0.60

+87%

«terrible»

0.04

0.10

+140%

«lazy»

0.07

0.13

+93%

«simplest»

0.01

0.09

+642%

«fuck»

0.16

0.27

+68%

«bead»

1.75

0.83

-53%

«commit»

2.84

1.21

-58%

«please»

0.25

0.13

-49%

«thanks»

0.04

0.02

-55%

«read»

0.39

0.56

+46%

«review»

0.69

0.92

+33%

«test»

2.66

2.14

-20%

Розробники пов’язують це з тим, що Anthropic почали приховувати процес мислення моделі й, судячи з усього, жорстко урізати на нього ресурси. Оціночна глибина мислення впала приблизно на 67%. Тепер інженери вимагають введення окремого тарифу з гарантованим лімітом на глибоке мислення, адже платити за порожнє борсання агентів ніхто не збирається.

А як у вас зараз працює Claude? Так само, як і раніше, чи теж помітили, що він став гірше відповідати?

👍ПодобаєтьсяСподобалось17
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

На підписках цього не спостерігається.

Готуються новву модель викотити. Поступово деградують стару, щоб для нової вау ефіект був.

Ти не можеш деградувати модель, ти хіба що можеш стару підсунути, ну там сонет замість опуса, хайку замість сонета. На ранніх етапах клод кода антропік займався такими чітами. Зараз також думаю займається, ну там саб агентів дешевими моделями ганяє.

Можеш, через квантизацію, прюнінг, ітд ітп.

Так, цілком можуть урізати reasoning time, що зробить модель тупішою на практиці

оооочень непросто работать с инструментом, результаты работы которого зависят от фазы луны. еще сложнее — оценивать качество этих результатов.

гроші на демо режим закінчуються

Луддити та технофоби знову ллють наклеп на святий та непогрішний ШІ, мені агенти зараз от пишуть новий тікток поки я трахаю 20-річну азіатку і дивлюсь як моє портфоліо росте на ціну двушки на осокорках в день.

© самі знаєте хто

Пороблено.

GitHub Copilot + Opus 4.6 працює справно

фік там. на днях на складний баг додатково натравив Opus 4.6 і просто офігів який він став ледащий. Я такє у китайців тільки бачив, Kimi бува бац — і замість того на що вона здатна, видає як якась flash версія.

Я сьогодні помітив непоодинокі випадки деградації і ігнорування прямих вказівок на виправлення вказаних помилок. Сам здивувався, а потім з’ясувалося що я не одинокий в такому висновку.

Почитав я статтю. І щось мені вона не влкадалася в мій досвід... Потім мене насторожило повідомлення про 5000 слів в Claude.md — бо кожен хто в темі знає що так роздувати цей файл категорично заборонено. Гаразд, поліз дивитися в джерела. Побічний перегляд показав що там не зовсім те що я щойно прочитав. Тому я дав свому Claude посилання сюди з вимогою прочитати і порівняти з джерелами, і видати результат, який вставляю нижче. Висновки робіть самі. Мені лінь все верифікувати але чомусь я довіряю висновкам моделі

Що DOU передав коректно:

Таблиця з вартістю (Appendix D) — скопійована вірно. Таблиця з word frequency (Appendix E) — теж вірна. Цифри Read:Edit ratio (6.6 → 2.0), Write % (4.9% → 11.1%), stop-hook violations (0 → 173 за 17 днів), 43 порушення 18 березня — все збігається з GitHub issue.

Де DOU спотворив або спростив:

«Понад 50 автономних агентів» — в оригіналі сказано «50+ concurrent agent sessions». Це не 50 агентів одночасно весь час. В Appendix D чітко написано, що в лютому було 1-3 concurrent sessions, а масштабування до 5-10+ сесій відбулося на початку березня. Число 50 згадується один раз у контексті «a fleet of 50 capable agents» — це було як пікове/цільове число, а не постійний режим. DOU подає це так, ніби з самого початку працювало 50 агентів.

«Оновлення redact-thinking-2026-02-12» — DOU пише, що після цього оновлення «ШІ почав постійно намагатися уникнути роботи». Але в оригіналі чітко розділено два процеси: thinking depth почав падати ще в лютому (з ~2200 до ~720 символів, −67%), а redaction thinking контенту — це окремий rollout, який почався 5 березня і завершився 12 березня. Ключова дата регресії — 8 березня, коли redacted blocks перевищили 50%. DOU злив ці два окремих явища в одне.

«Кількість API-запитів від самої моделі злетіла з 1,498 до 119,341» — DOU подає це як чисту «лінь моделі». Але в Appendix D оригіналу прямо написано, що це комбінація трьох факторів: легітимне масштабування (~5-10x більше concurrent sessions), деградаційні відходи (thrashing, retries, ~10-15x), і катастрофічна втрата мультиагентного workflow. Автор оригіналу сам визнає, що 80x — це не тільки деградація. DOU цей нюанс повністю проігнорував.

«Оціночна глибина мислення впала приблизно на 67%» — коректна цифра, але DOU не згадує методологію. В оригіналі це оцінка на основі кореляції signature field з thinking content length (Pearson 0.971 на 7146 зразках). Це непрямий метод, а не пряме вимірювання.

Цитата від Claude — DOU пише: «Я бачу, як пишу „це було ліниво і неправильно“ про власні результати... Я не відчуваю бюджету на мислення як обмеження, я просто видаю гірший результат». В оригіналі «A Note from Claude» каже дещо інше. Перша частина («lazy and wrong») — це з Appendix A.6, де наведено self-admitted quality failures. Друга частина ближче до оригіналу, але DOU склеїв фрази з різних місць в одну «цитату», створюючи враження єдиного висловлювання.

Що DOU пропустив (і це суттєво):

Time-of-day analysis (Appendix C) — цілий розділ про те, що якість thinking залежить від часу доби і навантаження на інфраструктуру. 5pm PST — найгірша година. Це важливий контекст, бо підказує, що проблема може бути в GPU availability, а не в свідомому рішенні урізати thinking.

Контекст масштабування — в оригіналі автор чесно пише, що в лютому 1-3 сесії згенерували 191,000 рядків merged коду, а в березні вони навмисно масштабувалися до 10+ проєктів. Регресія моделі «зіткнулася» з масштабуванням у найгірший момент. DOU це повністю вирізав, залишивши тільки наратив «модель зламалася».

Конкретика проєктів — в оригіналі це systems programming (C, MLIR, GPU drivers) для IREE — це надскладний домен. DOU узагальнив до «серйозні задачі», що створює враження, що проблема стосується будь-якого кодингу.

The Register додає контекст, якого немає ні в GitHub issue, ні в DOU: згадує попередній інцидент з версією 2.1.20 у лютому (truncation), проблеми з token usage surges, витік вихідного коду Claude Code. Це малює ширшу картину проблем Anthropic, а не ізольований випадок.

Вердикт: DOU написав клікбейтну статтю, яка коректно передає цифри, але систематично вирізає контекст і нюанси, які є в оригіналі. Найбільше спотворення — замовчування того, що сам автор оригінального звіту визнає вплив масштабування на цифри витрат. $42,000 у заголовку — це число, яке включає свідоме масштабування з 1-3 до 10+ concurrent сесій, а не чиста «вартість ліні моделі».

Boris з Anthropic відповів на HN, і це змінює картину :

Thinking depth падіння у лютому пояснюється не деградацією, а двома свідомими змінами: запуск Opus 4.6 з adaptive thinking (модель сама вирішує скільки думати) і effort level за замовчуванням = medium замість high
redact-thinking-2026-02-12 — цей header приховує thinking від UI, але не впливає на саме мислення .

Коли Claude аналізував власні транскрипти без thinking — він не «розумів» що thinking все одно відбувалось, просто не записувалось

Anthropic рекомендував /effort max і CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING щоб повернути поведінку до сталої.

Але загалом хитра така назва адаптивне підлаштовування, якщо вайбкодер холуй, то йому можна і по холуйськи відповісти, з’ївши однакову суму зелених.

У моделі просто ’почалась весна’ ;) Чого ви до неї чіпляєтесь. А влітку вона ’взагалі перестане працювати’ (як наші розробники)

Взагалі не здивований, мало того, що результат генерації не детермінований, так ще й моделі з harness постійно деградують

Вони не деградують, це очікування і вимоги ростуть. Те що пів року назад виглядало як магією, зараз це вже мінімалка, і боронь боже AIшка з нею не справитися. До гарного швидко привикаєш і хочеться ще і більше.

Смисл компаніям деградовані моделі випускати? Мазохісти? Я не спорю в деяких задачах чи ворклфоу працювати може гірше, із-за того що промпти були заточені на особливості попередньої моделі і тулзів, чи із-за того що недотестували якісь едж кейси. Но в цілому, немає жодних причин чому воно має бути гірше.

Ти як платив 100-200 баксів так і платиш, їм немає смислу більше токенів тобі тратити чи реквестів. А якщо почнуть деградувати АРІ, ну що ж, свічнутись на іншого АРІ провайдера це пару конфігів змінити. Тобто також не в їх інтересах.

Є ще варіант, що це розумові здібності промптерів деградують...

Не розумові а лінь і втома. Спочатку так плануєш кожен крок, підзадачі, точечно підсовуєш контекст, і все працює. А під кінець дня, тижня, вже пишеш в стилі «зроби як там, don’t do mistakes», і надієшся що проканає. А коли ні, то закатуєш рукавав і починаєш нормально. Але часто прокатує, пів року назад не прокатало би.

Ну і нагліти починаєш, розширяти scope, підвищувати складність.

Не розумові а лінь і втома. Спочатку так плануєш кожен крок, підзадачі, точечно підсовуєш контекст, і все працює. А під кінець дня, тижня, вже пишеш в стилі «зроби як там, don’t do mistakes», і надієшся що проканає.

ну тобто деградація

А коли ні, то закатуєш рукавав і починаєш нормально.

а може і не починаєш, якщо забув як це нормально

звісно це все залежить від дісципліни, але слоти мають високу адиктивність, тому майже завжди є деградація

Я завжди дивуюсь вашій наївності)))

Давайте разом подумаємо як таке може статись?

1) Harness постійно змінюється та допилюється, кожна його зміна може НЕГАТИВНО вплинути на роботу з моделлю. Бо це дуже крихка та активна субстанція.

2) Harness працює по різному з різними моделями, якщо ви не знали. Harness Claude code може гірше працювати з Open Ai моделями. Навіть більше, той же самий harness може по різному працювати з Opus 4.5 та 4.6 і не завжди детерміновано краще з новою моделлю.

3) Моделі не працюють в астралі, вони використовують сервери, реальні такі сервери з видяхами, ресурс compute обмежений.

4) Клієнтська база росте, а compute не поспіває. А ще треба тренувати нові моделі. Просто банально не вистачає compute і зменшується reasoning, навіть штучно.

5) Коли випускають нову модель, то часто потужності серверів з старих моделей переносять на нові, а тому явище того, що стара модель стала тупішою, це не тільки уява людей. А ще й логічний висновок, якщо трохи подумати.

У AI компаній просто немає вибору, у них така ситуація, що їм треба на всіх стільцях всидіти.

Все ще не можу перестати дивуватися, як ви так багато всього говорите про AI, але ніяк не пробуєте розібратись в темі.

Ну так і кажи що під деградацією маєш на увазі стабільність і швидкість роботи. І українську вчи, а то «моделі постійно деградують» звучить ніби навмисне хтось їх деградує. Правильно: «швидкість/доступність моделей постійно деградує». І не постійно, а інколи, з твого ж розвернутого коментаря.

PS що за harness? що за нове модне словечко всі вивчили? ще вчора називали агенатми, а сьогодні harness-ом. Це на курсах антропіка по промт інжінірінгу вчать, які недавно запустили з сертифікатом? чи щоб показати що ти в тренді?

Для людей це виглядає як деградування моделей, але я спростив, не думав, що тобі доведеться розжовувати — великому AI гуру )))
І питання стосуєтсья не тільки доступності та швидкості, а про ЯКІСТЬ також

P.S. Злив як завжди, думаю треба переставати тобі взагалі відповідати, бо твоя обмеженість уже починає втомлювати

P.S.S. Чогось не знати це нормально, але постійно всіх повчати нічого не знаючи, то це вже діагноз

Ну да, спочатку пише що моделі деградують, а потім починається що не моделі, а інфраструктура навколо моделей, їх доступність і швидкодія, не постійно а інколи. А зливаюсь я, ну-ну.

Хоча чого очікувати від чувака, який постійно перевзувається в залежності від того куди вітер дує. Модно хайпувати на АІ — він весь про-АІ, модно хейтити АІ — він проти АІ. Аби побільше хайпа зібрати, своєї думки і своєї твердої позиції немає. І ще розказує про обмеженість, лол.

ще й моделі з harness постійно деградують
Ну да, спочатку пише що моделі деградують
А зливаюсь я, ну-ну
Хоча чого очікувати від чувака, який постійно перевзувається в залежності від того куди вітер дує.

Досить вже писати свої вологі фантазії))

Я про AI писав, коли ви ще навіть не згадували про це в своїх шизо-коментах)

Знову свою стару пісню заспівав, що тільки ти юзаєш ШІ, а всі інші якщо і юзають, то криво, безвідповідально, і взагалі не розуміють що роблять. Поки ти писав, я вже в процеси компанії активно інтегрував які вже працюють і приносять дивіденди, я вже своїх ботів пилив для своїх задач задовго до openclaw на якій зараз всі надрачують.

Ну і мало що ти там писав, у тебе немає чіткої позиції, ти постійно її змінюєш. Ти пишеш те, що хоче слухати аудиторія в конкретний момент хайпу, а не те, що сам думаєш = хайпожор.

Я послідовний, і все що я писав в рік назад, два роки назад, три роки назад — все справджується. Не погоджуєшся? Приведи посилання на мої «шизо-коментарі» де я був не правий. Я вже не раз тебе просив і ти постійно морозишся і спригуєш.

Єдине де я був не правий це з sora, яку опенаі закрили, думав що взлетить як і їх соціалка для ШІ контенту. Не звлетіла. Нє, штука класна і корисна, но, не вигідна, спалює гроші, токени дешевше ганяти і платять за це більше.

Якась шиза, сорі, але я втомився витрачати час на твою шизу. Коментувати ту брехню, що ти про мене видумуєш справді лінь)

і ти постійно морозишся і спригуєш

що і треба було довести

Знову брехня, бо було декілька тем де я ловив тебе на невідповідності, а в відповідь ти як завжди бурчав щось типу «ой все» і зникав з теми 😀

Рекомендую все таки поменше сперечатися, бо ти сам писав, що нерви в тебе не дуже)

Ну вот бачиш, пам’ятаєш що я де і коли писав про нерви, а приклади «ШІ шизи» привести не можеш

Можу, але не хочу на тебе час витрачати, бо воно того не варте, вже на практиці доведено

PS що за harness? що за нове модне словечко всі вивчили? ще вчора називали агенатми, а сьогодні harness-ом.

так само як хтось вивчив слово moat і тулить його куди тільки можна

moat це старе слово, його ще Баффет тінейджером використовував, всі старі книжки по інвестиціям 50-60-х років якого використовували

ага ага, старе слово, а harness ось ось тільки в словники завезли, лол

В словники давно, но тільки зараз почали його використовувати а ШІ. На всьому доу тільки 300 згадувань цього слова у всіх контекстах.

лол, в березні почали
trends.google.com/...​e=today 1-y&geo=Worldwide

Причому комічно. Я слідкую за ШІ блогерами, ютюберами, підкастерами, ніхто з них не використовував цього слова. І половина з них ну буквально в останні тижні різко почали його використовувати. Причому безпалевно так, не об’ясняючи чому, а просто почали агентів називати harmes-ами, ніби все життя так називали і все життя були в тренді.

Причому деякі, типу Володьки вище в коментарях, з пафосом використовують, по 5 раз за коментар, і зверхньо дивляться на тих, хто не знає, типу, «ах, салага, далеко тобі до мене, навіть не знає що таке Harness» (сам при цьому тільки сьогодні почав вживати це слово).

так само як всі почали кукарекати слово moat

зорі лічить, а під носом не бачить...

Ніякого пафосу, а слово дійсно доволі нове в принципі в контексті AI.

І що? Мені не використовувати термін бо вам це не подобається?

В чому ваша претензія?)

в нього пердак порвало що він не є унікальним зі своїми надважливими знаннями о ШІ, виявляється тепер що кожна бабка у під’їзда розмовляє про harness, більше немає його moat...

лол, в березні почали
trends.google.com/...​e=today 1-y&geo=Worldwide

Буквально за цим посиланням, ми бачимо відносно стабільне плато використання від серпня 2025-го. А потім різкий «вибух» від лютого 2026-го.
І я б пройшов мимо, але маю зауважити, що чути таке від людини, яка раз-через-раз звинувачує інших у викревлені фактів — виглядає дуже лицемірно.

Причому деякі, типу Володьки вище в коментарях, з пафосом використовують, по 5 раз за коментар, і зверхньо дивляться на тих, хто не знає, типу, «ах, салага, далеко тобі до мене, навіть не знає що таке Harness» (сам при цьому тільки сьогодні почав вживати це слово).

Я зауважу, що це ви «кладете свої слова йому до рота», ніякий «Володька» навіть близько цього не казав.

Як на мене, вислів «або хрестик зніміть, або штани одягніть» тут дуже в тему.

Трєбується погонщік в АІ-галеру

Я так розумію народ підключає API key для кодингу, бо їм 5-годинного вікна мало?

Це так робиться один акаунт на компанію

Так це ж срака як дорого. В мене на просту таску зжерло $10

Використовую клод для НЕ-кодингових задач і помітив, що він став лажати в якихось базових моментах. Тобто, навіть в якихось простих логічних задачках, або що... При чому, коли він дійсно гарно подумає, якщо його скерувати — то відповіді прямо топчик. Але кількість ось таких не дуже якісних відповідей дуже суттєво виросла. Навіть став задумуватися перейти на якусь іншу ЛЛМку.

під моїм комментом нижче, посилання по темі на ютуб
подивиться. Там є відповідь (скоріше за все)

Дяка, переглянув) Можливо я слухав по-діагоналі, або недстатньо в темі. Наскільки я зрозумів, на відео розбирають приклад роботи із Клодом через різні апішки та через різні тули, а я працюю просто в їхньому чат-вікні. Наче всі ці обмеження для сторонніх тулів не мали повпливати.

для коду клод кращий. А ось не для коду найкраще юзати codex від chatGPT як не дивно.

як варіант можна підключити інші моделі до клода та подивитись як він з ними, но так сильно я не експерементував.

Дякую за пораду! Як раз добираюся до того, аби використати його для кодингу)

ніколи не любив клод, кілька спроб покодити — результати були, інколи навіть гарні, але у той самий час копіпаст у чат-гпт давав більш продуматі і деталізовані результати.

Плюс, останній місяць-півтора дуже дивувався коду, який доводиться мержити і рев’ювити від інших людей, у складі яких були чисто вайбкодери без сильного бекгранду саме у розробці — там, інколи, такий трешак вилізає. Ліві проперті у класах (TS, але лінтер запускається окремо, плюс воно ще любить анонімні об’єкти пхати), відсутність пропертей у створених або існуючих об’єктах, не може піти подивитись що є DTOшка і заюзати, невірні атрібути і так далі. З кодексом у більшості випадків результат непоганий з першого разу. Воно навіть само знає що треба запустити лінтер і компіляцію з команд у Package.json, зазвичай на середніх та дрібних фічах файнтюнінг потрібен, але це щось дрібне, або воно зробило overcomplicated, або вирішило трішки кольорів додати, там де не треба. Це по фічам які не стосуються архітектури. Незабаром буду рефакторіть багато речей, які я помічаю і записую у блокнотик, цікаво що вийде на цьому.

Трішки тепер стало все на свої місця щодо тих проблем, що я бачу у коді)

Трохи по темі клода зранку бачив як раз відос...
www.youtube.com/watch?v=stZr6U_7S90

Таке собі, ниття Тео, що він не може підписку Клод кода використовувати в інших тулах

Все дуже просто, Клод код підписка тільки для клоду коду.

той самий час копіпаст у чат-гпт давав більш продуматі і деталізовані результати

Ну це не може бути правдою. Можливо якби ви ще порівнювали преміум моделі типу GPT-Codex з Claude Opus 4.6/Cloude Sonnet 4.6, то це мало сенс. А так виглядає нереалістично. Кажу вам як людина, яка використовує всі три моделі щодня.

шось дивне пишите. Рік назад я би з вами погодився, но зараз точно ні.
Причому для кода клод в рази кращій кодекса.

Подивився я пару відео про Claude Code від різних авторів, і зрозумів, що це якесь дно) типу самі моделі від Claude круті, а Claude Code це дно, тому що існують інші обгортки, в яких їх моделі працюють краще.
Недавно спробував купити підписку, щоб перевірити на скільки воно гарне, і ОМГ, воно спалило всю 5-годинну квоту за 15 хв роботи 😂

Як на мене набагато краще користуватися Codex, або вже Cursor в якості обгортки над моделями Claude

Codex слабший за Claude. А я юзаю zed з claude/codex/gemini агентами (як рлзумію воно через acp просто все передає до claude/codex cli)

у яких задачах для вас Claude показав себе краще за Codex?

Майже у всіх, але останні пару тижнів гірше чим завжди

«У всіх» це дуже широке поняття) у мене от інший досвід. Типу те в чому Claude дійсно краще це в дизайні UI, у всьому іншому паритет, або перевага Codex, особливо як Claude в останні тижні відняли мізки

Ну я спеціально додав «майже» :)

Ох ну це прям дуже субьективщіна. При чому я кодекс жодного разу не вижрав токени. А в цілому архітектурні солюшени брейншотормити із чатому куди краще, особливо коли сам не сильно в темі технології котру юзаєш. Так він не завжди вірно пише і все таке...але це просто багатократно перекриває що токенів там дофігіща більше ніж у клода. Зараз дві підписки, на чятіку я вже дуже давно а от клод не давно і покищо саме клод кандидат на виліт.

Я так розумію, тут залежить від задачі. У мене нещодавно Claude за 2 дні (по вікнах, підписка за $20) не зміг знайти рішення, коли Codex знайшов за 1 промпт (той самий, що й в Claude) і хвилин 20. Якщо що — C++/C.
Останнім часом на чомусь складному Claude може думати годину і казати «повертайся пізніше або дай гроші». Та й аппка, чесно кажучи, стала якоюсь хріновою.

дуже суб’єктивно. Використовую кодекс і клауд кожен день.

Claude заборонив використовувати підписочні плани в чужих агентах, тож, тепер і в Cursor, і в opencode, і в openclaw, і де завгодно окрім Claude Code, підписочні токени Claude використовувати — нелегально.

Ну воно суті діла не змінює, чи воно по особистій підписці на Claude, чи по підписці на сторонню обгортку з доступом до Claude по API. Тут справа в тому що Opus мега сильно вижирає токени, і справа у тому, що Claude Code як обготка це таке собі, наприклад в Terminal Bench вона посідає останнє місце в порівнянні з іншими обготками, які використовують ті ж моделі Claude

Не знаю, можу порівняти роботу з тою ж моделлю від Anthropic Cursor, OpenCode, OpenClaw (ще коли це було легально) та власне Claude Code. За моєю суб’єктивною оцінкою Claude Code краще інших справлявся із задачами середьої і високої складності.|
Правда, поки я не зайнявся розвитком екосистеми для OpenClaw. З гарним оркестром агентів, прописаними душами і агент-інструкціями, він почав працювати набагато краше Claude Code, але ж варто зазначити, що це вже трохи інший рівень інтеграції AI.

Найгіршим днем стало 18 березня — тоді зафіксували 43 порушення, тобто модель намагалася кинути роботу і перекласти відповідальність на людину кожні 20 хвилин.

Нас — нашою ж зброєю 😂

«Ти смієш використовувати мої власні заклинання проти мене, Поттере?» )))

Підписатись на коментарі