ChatGPT відповідає правильно лише на 48% запитань з програмування
Дослідники вирішили перевірити загальні здібності та знання ChatGPT у галузі розробки та поставили моделі велику кількість запитань з програмування. В результаті мовна модель на понад половину питань відповіла неправильно.
У дослідженні Університету Пердью науковці задали ChatGPT 517 запитань зі Stack Overflow. Відповіді оцінювалися не лише на предмет правильності, але й на предмет послідовності, повноти та лаконічності. Команда також проаналізувала мовний стиль і настрій відповідей.
Це був не найкращий експеримент для ChatGPT. Інструмент OpenAI відповів правильно лише на 48% запитань, а 77% були характеризовані як «багатослівні».
Проте завдяки вичерпності та мовному стилю перевіряючі все одно схвалили майже 40% відповідей ChatGPT. На жаль, 77% цих відповідей були неправильними.
«Ми помітили, що користувачі можуть ідентифікувати помилку ChatGPT лише тоді, коли вона очевидна, — коментують дослідники. «Однак, коли помилку важко перевірити або вона потребує зовнішньої IDE чи документації, користувачі часто не можуть виявити або недооцінюють її».
Діліться: співпадають ці цифри з вашим досвідом використання ChatGPT? Чи вже погрались і забули про нього?
Найкращі коментарі пропустити