Творців Devin, який мав замінити розробників, звинувачують у брехні. Розбираємося у деталях
Місяць тому компанія Cognition представила Devin, «першого ШІ-інженера», який нібито може не лише розв’язувати інженерні задачі, а й успішно виконувати завдання на фриланс-сайтах. Творці продемонстрували його можливості на реальному кейсі з Upwork.
Однак Cognition звинуватили в брехні щодо результатів роботи у своїх промо-роликах, зокрема й у цьому конкретному завданні. На ютуб-каналі Internet of Bugs вийшло відео-розбір під лаконічною назвою Debunking Devin: «First AI Software Engineer» Upwork lie exposed:
Пізніше автор самого завдання з Upwork також вийшов у ютуб, аби розповісти, що ШІ зробив не так і на що варто звернути увагу. На базі його (та інших дослідників) спостережень можна зробити такі висновки:
- Devin не впорався з найважливішою частиною завдання — розумінням проблеми. Справа в тому, що Cognition згодував ШІ лише першу частину речення завдання, хоча самий запит на вирішення питання був у другій.
- Саме завдання було підібране так, аби виставити Devin у найкращому світлі: у пошуковому рядку можна побачити road-пошкодженя. Це означає, що це не просто якась випадкова проблема, яку мав вирішити ШІ.
- Ще одна фантастична здатність ШІ-інженера — знаходити помилки, які не помічає людина. І він знайшов помилку в одному з файлів. Проблема в тому, що цього файлу не було в репозиторії, і він був створений самим Devin, тож він виправив власну помилку.
Отже, Devin вирішує якусь задачу, але не ту, яку мав би вирішувати. Дослідники також помітили, що все рішення зайняло в ШІ багато годин. Для порівняння: вже згаданий ютубер Internet of Bugs зміг відповісти на реальне питання приблизно за 30 хвилин.
2 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів