Іллю, дякую за відповідь, особливо за пункти 4 і 5, де ви самі показуєте слабкі місця.
Цікаво що worker рубрику не бачить, але verifier її бачить. Чи не виходить, що тиск «підіграти оцінці» просто переїхав на шар верифікації?
Саме так. І проблема не в моделях — вони роблять те, для чого їх оптимізували. Проблема в архітектурі: коли агент бачить тести, він оптимізує під тести, а не під задачу.
Дякую за глибокі питання — саме такі розбори роблять проєкт кращим. Відповідаю по черзі, максимально чесно:
## 1. Verifier: тільки LLM, чи LLM + автоматичні checks?
**Зараз: тільки LLM** (Qwen-Turbo через OpenRouter).
Сьогодні у таких DefTech вакансій найбільші зарплати:
Lead Robotics / System Architect, від $5000 (BTRY.ENERGY) jobs.dou.ua/...-energy/vacancies/348478
Head of Program Delivery (Defense Tech), $4500–7000 (Sherlock, recruitment agency) jobs.dou.ua/...-agency/vacancies/358508...
Коментарі