Найкращий бенчмарк: Школяр змусив змагатися ШІ у будівництві в Minecraft
Аді Сінгх, учень
Кожна із моделей отримує однаковий запит і за допомогою коду вони відтворюють його. Користувач у цій ситуації служить арбітром, і обирає найкращий результат.
Після «голосування» арбітр дізнається, яка модель створювала яку будівлю.
Над проєктом працюють вісім волонтерів. Anthropic, Google, OpenAI та Alibaba не мають іншої офіційної співпраці з проєктом, але субсидували роботу із їх моделями.
«Minecraft дозволяє людям набагато легше бачити прогрес у розвитку ШІ», — сказав Сінгх у коментарі для TechCrunch. «Люди звикли до Minecraft, до його вигляду і атмосфери.»
Технічно,
Це не перший проєкт, коли ШІ намагалися тестувати на іграх. Бот AlphaStar змагався із реальними гравцями у Starcraft 2 і вийшов у топ 0.2%. Втім справжніх професіоналів бот подолати таки не зміг.
«Поточний рейтинг моделей досить точно відображає мій власний досвід їх використання, що не завжди справедливо для звичайних текстових тестів», — зазначив він. «Можливо,
[MC-Bench] допоможе компаніям зрозуміти, чи вони рухаються в правильному напрямку.»
Такого типу бенчмарки мають сенс, оскільки ШІ оцінювати насправді важко, і будь-який тест не є ідеальним. Наприклад, через специфіку роботи моделей, вони можуть справлятися із надскладним кодом, але помилятися при підрахунку крапок у реченні.
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів