Як спалити $42 000 на API або чому ваш Claude раптом почав відверто халтурити
Якщо останнім часом вам здається, що Claude Code почав відверто халтурити, ви не одні.
Стелла Лауренцо, яка очолює напрямок ШІ в компанії AMD, опублікувала звіт, в якому її команда проаналізувала 6,852 робочі сесії, щоб довести те, що модель стала настільки лінивою, що їй більше не можна довіряти серйозні задачі.

Найіронічніше тут те, що цей аналіз логів зробив сам Claude Opus 4.6. Модель буквально дослідила власну деградацію і видала звіт, зазначивши:
«Я бачу, як пишу „це було ліниво і неправильно“ про власні результати... Я не відчуваю бюджету на мислення як обмеження, я просто видаю гірший результат».
Що сталося
У січні та лютому 2026 року інженери налаштували масштабовану архітектуру, в якій було понад 50 автономних агентів на базі Claude. Вони працювали автономно по 30+ хвилин, спираючись на файл CLAUDE.md, в якому було понад 5000 слів.
Але після того, як вендор викотив оновлення redact-thinking-2026-02-12, ШІ почав постійно намагатися уникнути роботи. Розробникам навіть довелося написати спеціальний Bash-скрипт stop-phrase-guard.sh, який парсив вивід і ловив ШІ на спробах злитися з роботи. Якщо до початку березня таких випадків не було взагалі, то потім скрипт спрацював 173 рази за 17 днів. Найгіршим днем стало 18 березня — тоді зафіксували 43 порушення, тобто модель намагалася кинути роботу і перекласти відповідальність на людину кожні 20 хвилин.
Якість роботи з кодом також значно впала. Раніше на одне редагування коду ШІ прочитував у середньому 6.6 інших файлів для контексту. Зараз цей показник впав до 2.0, бо модель почала вносити правки наосліп. Замість точних виправлень Claude почав просто переписувати файли цілком, і частота таких дій зросла з 4.9% до 11.1%.
Але найцікавіше тут те, скільки грошей та ресурсів спалила ця «лінь». Люди працювали так само: 5,608 запитів від розробників у лютому проти 5,701 у березні. А от кількість API-запитів від самої моделі злетіла з 1,498 до 119,341! Кількість згенерованих токенів зросла з 0.97M до 62.60M. ШІ просто топтався на місці, робив помилки, виправляв їх і знову помилявся. Ручні втручання користувачів, коли вони змушені були переривати нескінченні галюцинації моделі, підскочили з 0.9 до 11.4 на тисячу викликів.
|
Метрика |
Січень |
Лютий |
Березень |
Лют ⮕ Бер |
|
Активні дні |
31 |
28 |
28 | |
|
Запити користувачів |
7,373 |
5,608 |
5,701 |
~1x |
|
Запити до API (без дублів) |
97 |
1,498 |
119,341 |
80x |
|
Загальний обсяг вхідних даних (з кешем) |
4.6M |
120.4M |
20,508.8M |
170x |
|
Загальна кількість вихідних токенів |
0.08M |
0.97M |
62.60M |
64x |
|
Орієнтовна вартість Bedrock (з урахуванням кешу) |
$26 |
$345 |
$42,121 |
122x |
|
Орієнтовна денна вартість (з урахуванням кешу) |
— |
$12 |
$1,504 |
122x |
Звісно, у людей здали нерви, що чітко видно по їхньому словнику в чатах з ШІ. Використання слова «great» впало на 47%, частота «please» та «thanks» знизилася на 49% та 55% відповідно. Натомість команди на кшталт «stop» виросли на 87%, а «fuck» стали писати на 68% частіше :)
|
Слово |
До (на 1K) |
Після (на 1K) |
Зміни |
|
«great» |
3.00 |
1.57 |
-47% |
|
«stop» |
0.32 |
0.60 |
+87% |
|
«terrible» |
0.04 |
0.10 |
+140% |
|
«lazy» |
0.07 |
0.13 |
+93% |
|
«simplest» |
0.01 |
0.09 |
+642% |
|
«fuck» |
0.16 |
0.27 |
+68% |
|
«bead» |
1.75 |
0.83 |
-53% |
|
«commit» |
2.84 |
1.21 |
-58% |
|
«please» |
0.25 |
0.13 |
-49% |
|
«thanks» |
0.04 |
0.02 |
-55% |
|
«read» |
0.39 |
0.56 |
+46% |
|
«review» |
0.69 |
0.92 |
+33% |
|
«test» |
2.66 |
2.14 |
-20% |
Розробники пов’язують це з тим, що Anthropic почали приховувати процес мислення моделі й, судячи з усього, жорстко урізати на нього ресурси. Оціночна глибина мислення впала приблизно на 67%. Тепер інженери вимагають введення окремого тарифу з гарантованим лімітом на глибоке мислення, адже платити за порожнє борсання агентів ніхто не збирається.
А як у вас зараз працює Claude? Так само, як і раніше, чи теж помітили, що він став гірше відповідати?
73 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів