Claude Code протестували 600 разів, щоб виявити на яких мовах він кодить швидше (та дешевше)

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Окрім того, що халтурить Claude Code ще й має улюбленців серед мов програмування. Розробник провів серію тестів, щоб з’ясувати, як модель працює із різними мовами. У межах експерименту він 600 разів запускав Opus 4.6 на однаковому завданні в 13 мовах програмування.

Результати показали, що динамічні мови виявилися для AI швидшими та дешевшими в роботі. У свою чергу статично типізовані потребували більше часу, а також більшої кількості токенів, відповідно, коштували дорожче.

Наприклад, Ruby у середньому потребувала 73,1 секунди та коштувала 0,36 долара за запуск, Python — 74,6 секунди та 0,38 долара, JavaScript — 81,1 секунди та 0,39 долара. Усі три мови успішно проходили тести в усіх 40 запусках.

Водночас статично типізовані мови модель обробляла повільніше, тож витрати зростали майже в півтори рази, а інколи вдвічі. Найбільше часу та грошей Claude Code витрачав на C (155,8 секунд, 0,74 долара), Haskell (174 секунди, 0,74 долара) та Ruby/Steep (186,6 секунд, 0,84 долара).

Графік: Yusuke Endoh / DEV

Втім, розробник прямо зазначає, що його бенчмарк має свої недоліки. Так, всі програми були невеликими, приблизно на 200 рядків коду, тому результати скоріше показують сценарій швидкого прототипування, а не роботу з великими кодовими базами. Крім того, тести не оцінювали якість коду, його підтримуваність або продуктивність виконання.

Ну що, тепер чекаємо, коли будуть тести, у яких мовах Claude Code робить найменше помилок)

До речі, розкажіть, для яких мов програмування ви використовуєте AI-інструменти?

👍ПодобаєтьсяСподобалось10
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

А чого не можна на малюночку клікнути на кульку і щоб показало тільки кульки цього кольору?

Go, go, moved!

Дивний тест — 200 рядків коду. Основні проблеми і нюанси мов та моделей починаються, коли є середня чи велика кодова база

Жаль lisp нема, динамічний, але сам спосіб написання відрізняється.

Колись починав з паскаля (якщо не рахувати басік з гото) — і вайбкодити почав з Lazarus:) а так-то частіше пітон, звісно. Але до паскалятини ще повертався, коли треба було розібрати формат даних лише за сорсом на дельфі.

Також раз розмовляв з чатегом про асемблер і по ходу виправив баг у демо-прикладі на вікіпедії)

Економія на токенах для анотації типів? Довгі коментарі?

Особливо я використовував для C, C++, Python плюс експериментально для Haskell, Coq, Lean, Zig, Agda плюс трохи для ідей власної мови програмування також.

с++ проігнорували щоб не псувати статитиску

Отакої, а де PHP?! Чи це вже не мова?

Заздрю людям котрi так гарно можуть розрiзняти кольори, що для них цей графiк мав сенс

треба було все одним коліром)

Ось наочний графік. На жаль, я не можу його поставити в топік, щоб не дублювати інфу, але хоча б тут)

дивно що нема html
я вже давно документи прошу клода в чаті одразу як html віддавати і він дуже гарно і швидко все робить. і головне правильно.
саме html+css а не js

Html мова розмітки, не програмування, його з маркдауном бенчить треба, можна проти реакту й флатера ще

CSS повноцінна мова і в html можна намалювати те, що навіть обсідіан обмазаний плагінами не зможе відтворити (хоча там також html+css)

html мова розмітки, а не програмування, його би з маркдауном бенчить. Можна ще з react і flutter, цей бенчмарк саме для мов

Не знаю чи минулу відповідь зберегло, тому переписав

У мене дещо інші спостереження та результати — go & rust з скілами й чітко прописаними паттернами зідають меньше токеній й генерують значно швидший код . тут ше можу бути поправка на обєми датасетів — скрипта точно більше ніж расту

PHP навіть не заслужив уваги? Шкода :(

php дуже дивно працює с кодовими агентами. нещодавно потрібно було пофіксити старий легасі якому більше 15 років. Із цікавості спочатку на тест запустив класичне «зроби добре, погане не роби» і там почалося додавання компоусеру і прочого лайна з переписом половини проекту хоча задача по факту була в тому шоб додати новий хендлер для бази і прокинути його в одному конкретному файлі.
з тим же Го такої проблеми би не було, максимум би токени поїло якшо архітектур погана

Ну казати «зроби добре і не роби погано» для LLM це не інструкція. Людина тоже могла б захтіти переписати все під 8.4-8.5, а як то старий лєгасі на старому PHP, там роботи було б більше, ніж поряд заново написати ))) Просто інструкції треба більш точні, як на мене.

так але зараз навіть «мінімальної» інструкції агентам вистачає
прописувати конкретно потрібно для контролю або складних речей

там же спочатку разом с агентом досліджував проект поки він не зрозумів конкретно з чим працювати, а потім конкретно прописував в яких файлах та місцях що ми додаємо

для Го агенти були на такому рівні рік тому, зараз вже як за джуном не потрібно слідкувати і контролювати розжовування
скоріш за все агентів тюнять під конкретні мови, а не під програмування в цілому

Це проблема з легасі більше.

У мене на роботі е цар-легасі — репа на 60Гб і голанду там більша частина
криве, заплутане, але робоче і підтримуване
агенти просто токенів жруть як не в себе на старті шоб розібратись. іноді можуть сказати що у вас там взагалі проблема не в тому, але ніякої самодіяльності

До речі, розкажіть, для яких мов програмування ви використовуєте AI-інструменти?

В основному лише для Python та Bash, але останнім часом хочу спробувати в сторону Ruby подивитися

Ruby прекрасний особливо як DSL

Підписатись на коментарі