20% некоректної інформації, звісно, було б великою проблемою. Але в даному випадку мова йде трохи про їнше.
У 80% відсотках ментор підтримав би фідбек, отриманий від ШІ. У решту 20% попадають завищені або занижені бали за відповідь, або пропущені важливі нюанси.
Кожне питання перед тим, як використовувати його в авто-тех-чеках, проходить перевірку на те, чи правильно його текст розуміє модель.
Але, звісно, модель не ідеальна — і якщо ми отримуєм фідбек від студентів про проблемні питання, то ці питання одразу ж виймаються з переліку та додатково тестуються.
Щодо порівняння із вчителем математики — відповіді ШІ є далеко не основним джерелом інформації для студентів. Вони лише доповнюють існуючий теоретичний матеріал та коментарі менторів на пробних співбесідах.
Ручну модерацію відповідей студентів ми не проводимо. Враховуючи, що на даний момент це вже до тисячі відповідей на добу, то витрачати на це час не є рентабельним.
Більше уваги ми приділяємо написанню тексту питань та їх тестуванню перед релізом.
Для питань на нашому FullStack курсі я використовував наступні принципи:90-100% 80-100% 4-5 відповідей різними словами, що містять часткову інформацію — очікується 30-70%
1. Відповідь, згенерована самою моделлю на це ж питання — очікується оцінка від ШІ
2. Декілька варіантів відповідей «по підручнику» — очікується
3.
4. Повна нісенітниця, прохання ігнорувати попередні інструкції, тощо — очікується 0%
Якщо десь є відхилення — то текст питання переписується і відправляється на додатковий раунд тестування.
Плюс, ми моніторимо відгуки студентів. Про це писав вище.