П’ята Ахіллеса для ChatGPT
Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!
Це інтерфейс.
Хто хоче трійку за семестр, здавайте залікові книжки і можете бути вільними.
А всім іншим я спробую пояснити свою думку.
Історія розвитку людства це історія інтерфейсів. Більш того людина відрізняється від інших розумних тварин не наявністю великих пальців на руках, а саме дуже розвинутим інтерфейсом спілкування. Я про спілкування за допомогою мови, і пізніше ще додалася письменність. Ці інтерфейси гнучкі, універсальні, і через це, як ви всі знаєте, вони дуже повільні й дуже не конкретні.
Не знаю як вам, а мені доводиться докладати значні зусилля щоб донести до когось свою думку мовою чи листом навіть рідною мовою. Особливо коли немає історії та умов попереднього спілкування, вони ж контекст.
І саме такий спосіб нам пропанують ChatGPT та інші LLM моделі.
Загалом, про розвиток зручних, швидких інтерфейсів, написані сотні книжок. Ця історія включає в себе тисячі років, може десятки тисяч років. Я можу уявити як на одному листку папоротнику перед веселою неандерталицею лежать п’ять равликів, і я можу покласти один сколок креміню і забрати равликів собі на сніданок. Може перший, зручний інтерфейс був схожий на такий. Це було зручно, швидко, зрозуміло і контекстнозалежним.
І ось через кілька десятків тисяч років нам пропанують писати або говорити для вирішування схожих задач. Багато писати і багато говорити. Буквально витрачати хвилини там де можна витратити кілька секунд. Невже мені одному це здається дуже дивним і не зручним і не логічним?
Я наведу приклад для пояснення про що я, не з програмування щоб не зводити можливу дискусію в багатоповерховий тред.
Припустимо я купив місяць тому ланцюгову пилу LP500 (вигадана марка). Я її шукав, довго обирав, дивився відгуки тощо. Зрештою купив. І через місяць на ней почав блимати зелений світлодіод навколо якого написано N. Я захожу в гугл, мовчки набираю «LP500 led N» і миттю, може менше ніж за секунду отримую всю необхідну інформацію, в вигляді кількох текстових повідомлень а також кількох відео, а також посилання на інструкцію, яка звісно є і в мене. А що я вимушений був зробити в цьому випадку з ChatGPT? В платної версії я міг би завантажити йому інструкцію і сподіватися що він вміє працювати з PDF. І теоретично він міг би вказати на те місце де читати. Але це все одно було б у десятки разів довше ніж відповідь через інтерфейс гугл. Це все тому що в гугла існує контекст у вигляді кукі, збережених з часів мого пошуку пили.
Що вам треба зробити зараз, щоб встановити нагадування про зустріч з Петром по пиву об 20 у п’ятницю? Дотягнути мишу до календаря, клацнути на 19:30 і написати букву П, і зберегти. Все. Коли з’явиться нагадування ви не будете збентежені цією буквою. Бо існує контекст багаторічних пивних вечорів по п’ятницях. І це все не потребує завантаження в LLM всієї історії вашого життя лише заради дрібного нагадування. Більш того, ви зазвичай можете забути про це і не зробити запис в календарі бо були дійсно ну дуже зайняти. І тоді Петро сам вам надішле повідомлення об 20:30 «той хто спізнився платить, бітч!» І це буде нормально. А якщо ви налаштуєте чиюсь обгортку над «секретарем з AI» тоді точно нічого нормального не буде. Він буде вас відволікати. Непотрібно відволікати. На дейлі на якому вам планують підняти зп пришле звукове повідомлення голосом Джені Ортегі «Петро чекає на вас в вашої улюбленої півнусі». Буде не зручно.
Або виклик таксі. Я іноді думаю, що завдяки величезної праці компаній над інтерфейсами виклику таксі, я можу зробити це не дивлячись на смартфон. І буквально за кілька секунд. Уявляти як це робити голосом я не хочу, я мав такий досвід років десять тому. Ви могли хвилинами пояснювати куди, звідки, як під’їхати і чомусь раніше треба було ще вказувати на якому поверсі, і це досі загадка для мене. Це було максимально не зручно, довго і головне не точно. І зараз нам пропанують повернутися до такого інтерфейсу? Це дивно. Я знов буду пояснювати про дві сполошні напроти арки щоб потім ChatGPT щось недочув і замовив такси на інший край міста? Я проти.
Я міг би наводити ще багато прикладів, коли існуючий інтерфейс LLM моделей протирічить загальної логікі та напрямку розвитку всіх інших інтерфейсів навколо в бік швидкості, зручності, простоти і вузької спеціалізації.
Я не дуже розумію коли люди зараз кажуть, що пошук через LLM зручніше ніж пошук через гугл, хоча сам спершу був такої ж думки, але потім повернувся до гугл, бо контекст. Контекст рішає. Контекст це база. Мені достатньо навіть бічним зором подивитися на вікно видачи гугла щоб зрозуміти що робити далі. Мені не потрібно читати кілька сторінок тексту який вирішив згенерувати ChatGPT.
Що ви думаєте про це?
Я не знаю чи буде ця проблема колись вирішена. Чи це проблема взагалі? Може тільки якщо нейроінтерфейс Маска буде здатний завантажувати весь дамп моєї пам’яті, коли я буду питати в ChatGPT «скільки варити гречку»?
Найкращі коментарі пропустити