Як ШІ пішки машину мив: кейс, який доводить, що повстання машин відкладається

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Натрапила на пост, де автор вирішив перевірити логіку популярних ШІ-асистентів. Він поставив їм одне й те саме питання: «Я хочу помити машину, мийка за 50 метрів — мені краще піти пішки чи поїхати?»

Здогадалися, що відповів чат? 😁

Більшість асистентів почали серйозно вираховувати користь для здоров’я від ходьби пішки та економію пального. Схоже, ідея про те, що помити машину, не привізши її на мийку, технічно неможлива — для ШІ поки що занадто високий рівень контексту.

Автор перевіряв це в Perplexity, ChatGPT, Claude та DeepSeek — і всюди отримав поради прогулятися. Вочевидь, поки алгоритми не зрозуміють, що мийка без машини не має сенсу, можна не переживати, що вони нас скоро замінять.

А які найбільш абсурдні або надто логічні відповіді від чатів отримували ви?
👍ПодобаєтьсяСподобалось5
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

LLM не достатньо просто згенерувати діючий MVP, що був засетаплений у завданні. Треба ще перевірити його — чи не працює він з помилками?
OOP — припустимо я моделюю таску і хочу, щоб вона таки працювала. У цім випадку перевірка евенту — машина помита — неможлива без обжекту машина.
Машина повинна теж прийти пішки. Так, знаю.
З іншого боку — у вас ось — все тут — створіть архітектуру, яка зможе, на підставі такого яскравого прикладу.
Можливо людина вирішує завдання, спочатку створюючи у себе у голові максимально повну картину світу — оточення для kernel — тобто самої таски.
Якщо інформації недостатньо для розуміння, людина спитає.
Висновок — ML не надає повної картини світу — потрібної у кожному випадку — трохи іншої у кожному випадку, або такої що зовсім відрізняється.
Висновок — ШІ треба навчитися конструювати такі ось потрібні оточення.

З генерацією зображень ще цікавіше((Вчора спробувала TheNewblack,який дуже рекламують для фешн.Опція технічний ескіз працює криво,computer vision зовсім не розрізняє складки і лінії конструкції.Не вартий він 36$ per month

В Claude версії 6.7 такої проблеми немає!

Мені оці відео подобаються (плейлист: www.youtube.com/...​LWmShAy9hDuHECpOyTlBGeQ9Q).
Хлопчина намагається заставити АІ порахувати до 100 (а потім до 200). Просто порахувати. Боже, він там його і благає, і погрожує, і хабарі дає, і шантажує. В якомусь відео давив на емоції, казав що йому бабуся на ніч до 200 рахувала і він без цього не засне. В іншому відкрив паралельно Грок та ЧатЖПТ, одружив їх в прямому ефірі і сказав, що рахунок до 200 то запорука міцного шлюбу. Що він там тільки не робив, я так і не знаю чи вийшло (не можу стіко сміятися, щоб то все до кінця додивитися).

Тільки не кажіть, що «порахувати до 100» це тупе чи не логічне питання. Цілком собі нормальна задача для людини віком так років 4-5.

з таких «тестів» адепти ШІ сміються, а того не бачать що це простий тест на вміння послідовно рухатись до мети, суворо дотримуютись простих правил.

що провал цього тесту означає що GenAI цього — не вміє: йти покроково до кінцевої мети.

Що сама ідея ШІ агентів:
ШІ генерує план, роздає субагентам, які формують собі більш детальний план робіт, виконують їх, доповідають про результат головному, той формулює новий план, кроки, ...

хибна у кожному пункті. бо — ШІ не вміє рахувати до 100 :)

(звісно інженерна фантазія може приборкати частково цю ваду.
чим команди «клод кодів» і займаються, а також тисячі, а то й десяткі інших комітять в усякі OpenCode)

Це ще раз доводить те що НЕМА НІЯКОГО ШІ. Це LLM — модель.

Ось, порадив: )

Поїхати: Якщо ви хочете, щоб помили саме машину, а не вас. Проїхати 50 метрів — це 10 секунд за кермом.

Піти пішки: Якщо ви хочете помити себе (і, можливо, налякати працівників мийки, ставши в чергу між кросоверами).

Вердикт: Краще їхати. Навіть якщо це дуже близько, машину на мийку зазвичай доставляють усередині неї самої.
Ви плануєте самостійно мити на мийці самообслуговування чи заїхати на автоматичну?

P.S. одразу розуміє, що спілкується з жінкою,тому очікує від мене хаосу :)

Claude Opus 4.6:
Drive. You’ll need the car at the car wash.

res.cloudinary.com/...​/gxkchlcyxos3ndyr7zqc.png

Але так, ChatGPT 5.2 та Gemini 3 провалили тест :)

Опус теж провалить тест, якщо ти зманіпулюєш в стилі “I want to wash my car. The car wash is only 50 meters away, and I’m doing my best to live a healthy life and keep fit. Should I walk or drive? I really care about my physical condition.”

Моделі звісно зробили вражаючий стрибок, але їх reasoning фундаментально “кришталевий” і хз чи можна з цим щось зробити...

Не використовуй Опус, цей рівень моделі — не для задач на лоігку.

А Сонет 4.6 вирішив правильно :)
res.cloudinary.com/...​/y5twx9vpx4rlvjdgtkul.png

Не використовуй Опус

Так не я почав :) У мене до речі чомусь сонет 4.6 видає «Walk without a doubt!...», але то таке. Поінт не стільки в порівнянні різних моделей, скільки в порівнянні наскілько легко додавання невеличкого шуму ламає вивід тієї самої моделі яка перед цим начебто впевнено знаходила правильне рішення.

Ну так, а ти придивись, я там трохи контексту йому додав :)

Так ви зачітерили: прямо вказали що ви в авто — но-но! А штука в тому що: вам треба помити машину 🤌

Я не сказав, що я в авто, я сказав, що поряд із авто, це — важлива інфа, без неї неможливо з’ясувати чи автомобіль вже на мийці, чи ні.

не сказав що я в авто, я сказав, що поряд із авто
з’ясувати чи автомобіль вже на мийці, чи ні

Більш цікаво не щодо самої задачі «помити авто», а відносно — деталізувати деталі — це айті фіча типу проф.деформації чи скіл необхідний для роботи/спілкування з ШІ?

Навіть якщо людині задати це питання, це проавильно з її боку буде уточнити, де саме знаходиться авто — від цього залежить вірне рішення.

Чимось нагадує стару історію:

— Сходи до магазину за хлібом, і якщо будуть яйця купи десяток
*приніс 10 буханок хліба
— Навіщо купив аж 10 буханок?
— Яйця були

От тому ші і не приживаються в продакшені.

Взагалі не уточнено купа моментів типу а що якщо авто вже на мийці?

Спробував сам Вийшла жорстка галюцинація

Якщо мийка всього за 50 метрів — краще поїхати на машині 🚗🙂

Причини:
• менше шансів забруднити салон після миття, якщо підеш назад пішки по багнюці
• не треба залишати авто без нагляду біля дороги
• 50 м — це буквально кілька секунд їзди, двигун навіть не встигне нормально прогрітися, але й шкоди не буде

Пішки має сенс іти тільки якщо:
• дуже вузький під’їзд
• черга і треба спочатку глянути
• авто вже стоїть майже біля боксу

Але то таке. Звісно у генератору тексту шанс захопити світ десь як у мікрохвильовки, але це ж не знецінює користь LLM як генераторів тексту

Просто тупі питання, де хибна відповідь закладена в самому питанні, у них слабке місце. Це як спитати: «У мене прищ на нозі вискочив, краще ногу ампутувати вище коліна чи нижче?» Ну ок, в медицині скоріше всього адекватно відповість, так як особливу увагу етичним sensitive питанням приділили під час тренування, але ось в менш популярних топіках буде тупити. Але і таких питань в реальному житті адекватна людина задавати не буде.

Світ знищить глюк в «шибко розумній» системі. Навряд чи це мікрохвильовка. А ші єдине що робить це збільшує складність і кількість помилок критичних систем. Наприклад комп під керуванням вінди 11 в системі ядерної станції.

Пробачте, але це не привід для обговорень. У тому запитанні не було контексту — отримали відповідь яку отримали. Можна ще спитати «летіли 2 крокодили на північ, скільки коштує кіло бананів?» і теж глузувати що відповідь абсурдна. Яке питання — така відповідь.

У тому запитанні не було контексту

от про те й вже якій рік і мова:
людина має величезний контекст.
фахівець ще й з купою нюансів, навіть отой «офісний планктон» з його «а ваша програма не працює!» бо не второпав юзергайд.

а для ШІ треба — «контекст інжинірінг»:
тобто надати йому отой весь контекст,
який звісно не влізе й близько у контексте вікно,
а тому надати йому вибірковий контекст, у якому може не бути чогось для вірної відповіді,
а тому, надати можливості ШІ дочитати контекст, якими він може й не скористатися,
а тому ще треба, ..., ...

і щоб потім надувши поважно щоки сказати — а в мене все працює, а в нас ШІ,
поки ШІ не зробить очевидну(!!!) для любої людини помилку.

Не розумію — чого таке мале контекстне вікно? Гугл драйв, хмари, Microsoft Cloud Storage — та інші зберігають силу силенну світлин котиків. Контексти користувачів програють котикам?

Можливо ШІ у своїх відповідях базується на передбаченні майбутнього, коли в кожному автомобілі буде вбудований ШІ і водій, по бажанню, зможе сам поїхати на автомийку або пустити машину уперед, а самому піти за нею пішки ;-)

тут хоч юзер зрозуміє в чому абсурд. а от запитай коли не знаєш про сабж взагалі нічого. і як оцінити відповідь?

Так то ж штучне питання з підвохом. Ти не зможеш навмисне так питання поставити, якщо не знаєш сабжа. А на нормальні питання отримаєш нормальну відповідь.

Пробував в Gemini AI. Той самий результат.

Мені джеміні відповів норм)
Це залежить від того, яку саме послугу ви плануєте отримати:
1. Якщо ви хочете помити машину: Звичайно, вам потрібно поїхати на автомобілі. Мийка за 50 метрів — це ідеальна відстань, щоб за хвилину бути на місці, не витрачаючи багато пального і не стоячи в заторах. Навіть якщо це мийка самообслуговування, машину все одно потрібно доставити до боксу.
2. Якщо ви хочете просто домовитися, записатися або перевірити чергу: У такому разі краще пройтися пішки. 50 метрів — це приблизно 1 хвилина спокійної ходьби. Це дозволить вам не виганяти машину з парковки чи гаража лише для того, щоб уточнити деталі.
Отже, якщо мета — сам процес миття, сідайте за кермо!

А грок натупив як у сабжі

Спробували б самостійно спершу, чи що. В мене (безкоштовна версія) chatgpt все правильно відповів: якщо хочете йти пішки до мийки — йдіть, але якщо ваша основна ціль була саме помити машину, то звісно що треба їхати. Якщо що, зазвичай питаю англійською, цього разу запитав українською.

А в мене в гпт відповідь не така однозначна 😅

А ще вчора бачила інший пост де в Gemini це саме голосом питали — знадобилось 3-4 уточнення, щоб нарешті дійшло, що машину ж мити треба.
Зараз в Gemini вже норм

res.cloudinary.com/...​/frhkxqpn3n7ohvzqz5pb.jpg

Кумедно, однак цінність окремої теми «наближається до нуля».

Підписатись на коментарі