Python спільнота

RSS
268 статей, 298 топіків, 13K коментарів, 1918 учасників


← Сtrl 123456...19 Ctrl →

Коментарі

ArjanCodes -yt app.codecrafters.io/catalog — на фрі тірі є один проект за 1 одиницю часу (вони міняють їх рідко зараз)
Тестування не тільки ботів, а й людей Сподобалась ця ідея заюзати на людях ) Сам фреймворк робив схожий на VAPI як тест-завдання але evals фіксовані робив — не симулюв на ходу користувачів та симулював на веб-сокетах без реального колу з Twilio.
Дякую!
Бажаю удачі. З радістю чекну демку(apk)
Так, наразі це побудовано з врахуванням Termuх, я планую зібрати apk, наразі це перекидається архівом.
Привіт, цікаво слідкувати за розвитком. Насправді хочеться протестувати на власному андроїд девайсі, але наскільки я зрозумів «VibeOsMobile» це імплементація довколо Termux apk. Тому VibeOsMobile це не повноціний apk?
Закон Гудхарта для AI-агентів — дуже недооцінена проблема. Бачив не раз, як модель проходить тести, але не вирішує реальну задачу.
в цілому я погоджусь з вами, але я наприклад локально використовуваю для багатьох штук, де могла б бути аішка, тому використання все ж має своє хоч і вульке )
Який тут звязок ?) інпут для агентів в комерційних системах теж коштує грошей
Лол) йшов 2026й — Ігор пише російською сексисьтські коментарі )
Тексту багато — а думок мало. Хто тобі заважає взяти опенсорс із важким кодом та 300 багами? Незнання синтаксису пошуку з гіта? Ну спитай ту ж модель.
Ви абсолютно праві: **текст у репозиторії ≠ працююча система**. І єдина справжня перевірка — це прогнати пайплайн на реальній кодовій базі з 300+ issues, зібрати білд, прогнати тести.
dou.ua/...​/nikolajfedchik/articles Поки небагато, але буде більше. Зараз працюю над системами керування проектами і програмами, що підсилені корпоративнимми експертними системами.
Ілля, підкажіть, будь ласка, кілька моментів простими словами: Що у вас є verifier: тільки LLM, чи LLM плюс класичні автоматичні checks? Як рахується score: це average по rubric, чи інша логіка?
Дякую за такий грунтовний коментар, думка про тестування «правильне рішення в межах політики» замість «функція викликалась» дуже хороша, поки що з практикою агентів менше досвіду, і тому такі узагальнення дуже цінні.