Тестування не тільки ботів, а й людей
Сподобалась ця ідея заюзати на людях ) Сам фреймворк робив схожий на VAPI як тест-завдання але evals фіксовані робив — не симулюв на ходу користувачів та симулював на веб-сокетах без реального колу з Twilio.
Привіт, цікаво слідкувати за розвитком. Насправді хочеться протестувати на власному андроїд девайсі, але наскільки я зрозумів «VibeOsMobile» це імплементація довколо Termux apk. Тому VibeOsMobile це не повноціний apk?
в цілому я погоджусь з вами, але я наприклад локально використовуваю для багатьох штук, де могла б бути аішка, тому використання все ж має своє хоч і вульке )
Ви абсолютно праві: **текст у репозиторії ≠ працююча система**. І єдина справжня перевірка — це прогнати пайплайн на реальній кодовій базі з 300+ issues, зібрати білд, прогнати тести.
dou.ua/.../nikolajfedchik/articles Поки небагато, але буде більше. Зараз працюю над системами керування проектами і програмами, що підсилені корпоративнимми експертними системами.
Ілля, підкажіть, будь ласка, кілька моментів простими словами:
Що у вас є verifier: тільки LLM, чи LLM плюс класичні автоматичні checks?
Як рахується score: це average по rubric, чи інша логіка?
Дякую за такий грунтовний коментар, думка про тестування «правильне рішення в межах політики» замість «функція викликалась» дуже хороша, поки що з практикою агентів менше досвіду, і тому такі узагальнення дуже цінні.
Коментарі