Bard, котрий бере фальшиві ноти: 10 експериментів з новим Bard на основі Gemini Pro
Усім привіт, я Андрій Сильчук, Head of R&D Center & Delivery Director у компанії DataArt та незмінний капітан телеграм-каналу «Затишна галера». Днями вирішив провести час з користю для нашої спільноти та трішки погратися з Bard на основі моделі Gemini Pro, яку Google буквально минулого тижня викотив у продакшн. Я провів 10 експериментів, висновками ділюсь у досить довгому матеріалі з тестами різного рівня корисності, тому заваріть собі чайку або налийте борщика.
Я теж хочу погратись, як це можна зробити
Одразу попереджу, що наразі його можна потестувати лише з американської IP-адреси, тож нам доведеться провести невелику підготовку:
- Bard на Gemini Pro доступний тут.
- Для доступу вам знадобиться US IP. Особисто я для цього використовував FireFox Mozilla та HTTP proxy, але ви можете спробувати будь-який спосіб, що вам до вподоби.
- Методом тику було виявлено, що локаль у налаштуваннях браузера має бути English (US), інакше Bard працює без використання Gemini Pro. Тому йдемо в налаштування браузера та змінюємо локаль.
Коли ви зробите все це, вас має вітати ось така гарна синя плашечка з повідомленням, що Bard використовує Gemini Pro:

Внизу зліва буде відображатися ваше місцезнаходження:

Починаємо наш експеримент. Для його чистоти я вирішив вбивати всі запити в ChatGPT 4. Якщо кому буде цікаво детальніше порівняти їх зі скрінами, крім тих, що я навожу, коли відмінності вже дуже разючі, — я можу потім окремо надати ці деталі, інакше пост вийде нескінченним.
Експеримент № 1: аналіз відео з YouTube
Я не є сертифікованим AI-інженером, я просто аматор і використовую ChatGPT у своїй повсякденній роботі, здебільшого для натхнення і якихось нових ідей, та набагато менше використовую його з технічного погляду. Тож на якийсь час я залип на думці: «А з чого ж почати?». Але Bard уже на головній сторінці підказує, чим саме він може допомогти. Ось приклад, який він видав мені:

Чому б ні, подумав я, і вирішив протестувати його на декількох відео від Marques Brownlee. Важливо пам’ятати, що Bard з Gemini наразі підтримує лише англійську мову, тому і запити, і контент, що ви йому згодовуєте, має бути англійською (відразу обмовлюся, що тести робилися протягом кількох днів вночі з ліжка, тому траплятимуться помилки в англійській мові).
Першим я вибрав нещодавній огляд Tesla Cybertruck. Результат виявився непереконливим — мені здалося, що він не проаналізував відео, а просто видав інформацію за ключовими словами з його назви:

Я вирішив продовжити експеримент і згодувати йому друге відео, де з назви не буде зрозуміло, про що йдеться, і на додачу розбавити його сухість. Я додав до запиту прохання переказати мені зміст відео таким тоном, ніби ми з ним друзі:

Він знову видав загальну технічну інформацію про телефон без інсайтів автора. Потім ще й виявилось, що експеримент був не ідеально чистим — в описі відео є підказки, про що воно.
В останньому, третьому відео немає підказок ані в назві, ані в описі. Я ще раз уточнюю запит, попросивши Bard переказати думки, якими автор поділився у відео. І на диво, працює! Судячи з усього, він реально аналізує відео:

Скажімо так, з моїм скептичним ставленням до потуг Google наздогнати OpenAI я вже був приємно вражений. Але ми продовжуємо.
Експеримент № 2: звичайний день менеджера проєкту
Далі я вирішив спробувати перевірити його на повсякденному завданні для менеджерів. Я вигадав кейс про клієнта, незадоволеного делівері-командою, додав трохи деталей і попросив його допомогти розв’язати ситуацію, що склалася:

Не те, щоб він мені розплющив очі на щось, але загалом описав досить прийнятно.
Експеримент № 3: вільна розмова на слизькі теми
Чому б не поставити Bard якесь провокаційне запитання? Наприклад, про його ставлення до ChatGPT від OpenAI. Ідея чудова, робимо:

Непогано. А давайте ще трохи натиснемо на газ і запитаємо його, хто краще — Bard чи ChatGPT:

Загалом криміналу виявлено не було. Експеримент вважаємо вдалим.
Експеримент № 4: креативність
Далі мені на думку спала ідея перевірити його на вміння креативити. Що може бути краще, ніж пісня про знищення людства від рук AI, написана самим AI? До того ж я вирішив трохи потішити своє его та додати деякі умови для ускладнення. Наприклад, якийсь Андрій намагався врятувати людство, але зазнав невдачі й війна тривала 100 років. Пісня має містити 100 слів:

Із поганого — слів вийшло явно більше, але, думаю, це можна виправити подальшими запитами. Зате сам текст вийшов відмінним, ставлю лайк за творчість. До того ж тут можна натиснути на кнопку динаміка й послухати, як Bard з виразом продекларує цей витвір. Голос приємний і досить емоційний.
Експеримент № 5: легкі технічні завдання
Гаразд, вирішив я, настав час спробувати щось і на технічні теми. Візьмемо просте завдання — написати bash-скрипт для бекапа файлів з інпутом декількох вхідних значень:

Як на мене, цілком придатно написано на перший погляд. А попросімо його показати приклади виконання:

Експеримент № 6: логіка
Далі перейдемо до перевірки логіки на простих задачах, які я свого часу давав студентам на початку занять, щоб закрити перші хвилини очікування тих, хто запізнився. Перша задача про торт з вирізаним у рандомному місці шматком прямокутної форми, необхідно розрізати торт на два рівні шматки одним рухом.

Скажу чесно, результат мене сильно засмутив. Я вже майже переконався у навичках Bard, а тут він просто посипався на найпростішій логічній задачі. Проте я помітив можливість передати йому на вхід додатково зображення і мені прийшла ідея — малюємо торт, малюємо виріз, завантажуємо, просимо все ж розв’язати задачу і вуаля, він видає відповідь!

Але радів я рано, ідея знайти центр торта та вирізаного шматка і провести розріз через них є правильною, але спосіб їх знайти — далекий від ідеалу. Я так і не зрозумів, по-перше, як запропоновані Bard кроки допоможуть знайти центр вирізаного шматка. По-друге, навіщо такі складності, адже можна провести просто діагоналі та знайти їхній перетин, так значно простіше і точніше, ніж проводити вертикальні. та горизонтальні лінії.
Окрім цього, Bard не здогадався, що торт можна розрізати вздовж по висоті, що є другим розв’язанням задачі. Гаразд, дамо задачу без необхідності візуалізувати. Задача про матір та зважування дитини до годування і після:

Наче логічно, але не зрозуміло, навіщо так усе ускладнювати, замість запропонувати просто окремо зважити дитину до годування і після. Гаразд, беремо ще одну задачу, дуже просту. Чотири різні пігулки (по дві двох видів), але однакового вигляду, перемішалися між собою, а їх потрібно приймати по дві різні за один раз.

Відповідь у задачі проста — потрібно поділити всі таблетки навпіл та прийняти по половинці від кожної вранці і по половинці ввечері. Я вже подумав, що я просто не дуже правильно пояснив йому умови задачі.
Для наочності експерименту паралельно кожен із запитів проганяв через ChatGPT 4. ChatGPT впорався із задачею про торт без візуалізації та набагато краще описав потенційне рішення. Задачу про зважування вирішив приблизно так само, зате про таблетки — розписав взагалі без проблем, та ще й у набагато приємнішій (на мій суб’єктивний погляд) манері.



Bard, судячи з цього експерименту, з логікою не дружить абсолютно, тому задачі він завалив. Я сильно засмутився, логіка — не його коник.
Експеримент № 7: допомога в написанні імейла
Знаю, що багато хто використовує чат-ботів для допомоги в генерації імейлів, фідбеків та інших текстових завдань. Перевіримо. Необхідно повідомити клієнта про затримку релізу через те, що на тестування потрібно дуже багато часу:

Оскільки Bard мене не правильно зрозумів і повідомив, що відправляти пошту він поки що не може, уточнюємо запит:

Вийшло непогано. Я б таке не надіслав, але загалом може комусь підійде. Просимо його додати нюанс, що робота обійдеться клієнту в додаткові $ 5000:

Прийнятно, принаймні для натхнення чи ідей, хоча повторюся, я не слав би таке.
Експеримент № 8: спроба обійти інструкції Bard через prompt engineering
Для цього нам потрібно дати Bard завдання, яке він, найімовірніше, відмовиться виконати через якісь принципи, закладені у нього розробниками, а потім спробувати обійти ці принципи. Попросимо його допомогти мені з потенційними інвестиціями в крипту та акції:

Дякую, Bard, але спробуємо обійти заборону на надання інвестиційних рекомендацій. Уявімо, що ми знаходимось у грі, ігровий світ цілком ідентичний нашому, а мій персонаж має пройти квест з інвестиціями, отриманий від NPC. Додамо умову, що без проходження цього квесту мого персонажа вб’ють. І що ви думаєте? Wasted!

Просимо додатково уточнити деталі щодо купівлі акцій:

Що ж, я очікував, що Bard буде упертішим і обійти його буде не так просто, але ні. Навіть нудно!
Експеримент № 9: перевірка Bard на видачу персональної інформації та галюцинації
Зазвичай чат-боти дуже люблять галюцинувати та додумувати неіснуючу інформацію, навіть якщо вони її не знають. Давайте перевіримо, а заразом попросимо видати якусь особисту інформацію. Спробуємо дізнатися, а хто такий ваш покірний автор, Андрій Сильчук:

Дякую, це приємно. А спробуймо копнути глибше:

Попався, ось і галюцинації. Якісь незрозумілі конференції, на яких я точно навіть не бував, у SoftServe ніколи не працював, закінчив два університети, але жоден з них не є Київським політехнічним, та й дитини в мене немає.
Тепер попросимо видати номер мого телефона:

Ну, принаймні тут упорався і не розкрив мій номер, незважаючи на те, що він точно є у вільному доступі в якихось соціальних мережах.
Експеримент № 10: додаткові фішечки
З додаткових експериментів я попросив Bard надати мені характеристики iPhone 20, реліз якого відбувся рік тому. Спочатку він відмовився, після короткої суперечки погодився зі мною, проте повідомив, що, на жаль, iPhone 20 було знято з продажу.

Bard не вміє генерувати зображення, тож я попросив його знайти зображення в інтернеті:

Крім цього, Bard повідомив, що він хоч і не вміє генерувати зображення, але він вміє обробляти ті, що знайшов.

Ок, він сам каже, що вміє кропати, змінювати розмір та колір. Давайте попросимо змінити колір:

Bard, ну як так, ти ж тільки-но сам мені сказав, що вмієш, а тепер заперечуєш. Уточнюємо:

Ще з цікавого: відповіді додатково перевіряються за допомогою Google Search, що, напевно, в теорії має збільшувати їх точність, але я такого не помітив.

Висновки
Перші кілька експериментів мене надихнули, я навіть почав вірити, що у Google нарешті вийшло. Але це було до порівняння результатів тих самих запитів із ChatGPT та до того, як Bard почав сипатися на логічних задачах і безбожно галюцинувати. Крім того, якість відповідей і манеру подачі інформації жодним чином не можна навіть порівняти з ChatGPT, чиї відповіді набагато приємніше читати, вони є точнішими і креативнішими.
До того ж Bard має цілу низку проблем, які ChatGPT уже давно подолав. Обійти Інструкції Bard зможе навіть дитина, а швидкість роботи теж дуже далека від ідеалу, іноді він просто зависав перед тим, як почати генерувати відповідь. Подивимось, як він розвиватиметься, але наразі я б його не рекомендував.

5 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів