Чи справді agentic AI спрощує тестування? Хто вже пробував?

💡 Усі статті, обговорення, новини про тестування — в одному місці. Приєднуйтесь до QA спільноти!

Привіт, спільното! Щось тут тихо, давайте виправляти))

З кожним днем все більше чуємо про «agentic AI» інструменти в тестуванні. «Агенти» працюють, розуміючи інструкції, сприймаючи контекст та діючи безпосередньо в системі. Вони приймають вхідні дані, визначають, що потрібно зробити і виконують завдання без додаткових вказівок. Це робить «agentic AI» цікавим інструментом для автоматизації тестування.

Що пропонують «agentic AI» інструменти зараз:

  • Самозцілюючі тести — автоматично адаптуються до змін UI без людського втручання.
  • Природні для людини команди — «click login button», «verify page title» замість складного коду.
  • Автоматична генерація тестових сценаріїв.

Звучить непогано, чи не так? Наприклад, для Playwright існують такі інструменти як Auto Playwright і ZeroStep

Цікаво почути від вас:

  • Хто вже тестував такі інструменти на реальних проєктах?
  • Чи справді вони прискорюють написання тестів і спрощують їх підтримку?
  • Які підводні камені таких рішень, на вашу думку?
👍ПодобаєтьсяСподобалось1
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Класна тема! Думаю, багато хто зараз дивиться в бік цих інструментів, але не знає, з чого почати.

Мені здається, що до повноцінних «агентів» на великих проєктах ще є певний шлях, особливо в плані стабільності та дебагінгу їхніх рішень. Але це не означає, що AI не можна використовувати в тестуванні вже сьогодні!

Я, наприклад, активно використовую «розмовний» AI для прискорення рутинних задач. Він допомагає генерувати тестові дані за 1 хвилину, писати ідеальні баг-репорти, які розуміють розробники, і навіть придумувати тест-кейси на основі вимог. Це не вимагає складних налаштувань, знання коду і доступно навіть для мануальних тестувальників.

Власне, я створив телеграм-канал QA Co-pilot, де ділюся саме такими простими, але дієвими промптами для щоденної роботи. Якщо хочете спробувати AI без болю та реєстрації в 100500 сервісах, ласкаво прошу.

Клас, дякую, піду підпишусь на канал)

Реальність набагато складніша.

«Самозцілюючі тести»

Не існує магії: якщо елемент зник, змінився флоу або бізнес-логіка, «самозцілення» часто не допоможе.
AI може підібрати інший локатор, але він не знає чи це дійсно той самий елемент, чи випадково схожий. Ризик — false positive.
«Природні команди на кшталт click login button»
Так, звучить красиво. Але на практиці це шар NLP над automation framework.
У реальних системах завжди є неоднозначності: «login button» може бути кілька, або текст змінюється залежно від локалізації. AI тут часто помиляється.
«Автоматична генерація сценаріїв»
Згенерувати «скелет» тесту можна.
Але знати, що саме критично протестувати і які edge cases важливі — може тільки команда, що розуміє продукт. AI не знає пріоритетів бізнесу.
Проблема підтримки та reproducibility
Тести повинні бути детермінованими. Якщо AI «сам підлаштовується», то важко зрозуміти, чому він учора впав, а сьогодні пройшов.
Це суперечить головному принципу автоматизації — стабільності та передбачуваності.

Інтеграція у CI/CD

У промислових пайплайнах важлива швидкість і контроль. AI-тул, який «думає» кілька секунд і приймає неоднозначне рішення, додає нестабільності.

👉 Тобто, «agentic AI» інструменти — це цікаво, можна пробувати як допоміжний шар (генерація початкового коду тестів, аналіз логів), але замінити зрілу автоматизацію вони зараз поки що не можуть.

Штуки такі як зеро степ та зеро плейрайт для малого продукту та відповідно для малої кількості тестів — підходять, можуть непогано справлятись навіть.

Але для великих продуктів зі складним UI, складною архітектурою, які не адаптовані (як і більшість систем) під автоматизацію, ба більше і під тестування не дуже адаптовують, не завжди є позитивний результат в довгій перспективі

Кожна операція відбувається через LLMки, кожен запуск, кожна дія відповідно, не має гарантії що один і той самий елемент буде клікнуто або не в той що треба інпут текст вводиться.
На кожен запит в ллм відправляється фактично увесь html, llm щось там «аналізує» для того, щоб знайти потрібний лемент та виконується дія.

І такий самий принцип в будь-якого AI agentic продукту з призначенням тестування/автоматизація — кожна дія виконується через ЛЛМ — для великих систем де подібні інструменти впроваджувались
— завжди стикались із нестабільністю,
— повільний тест ран, в порівнянні з класичною автоматизацією, або з доповненою copilot або cursor
— складністю підтримки
— складністю з підготовкою складних даних
— коли хардкодиш навіть дані — то інколи галюцінує та вводить не те що вказано

Тому на рівні логін сторінки — прекрасно справляються такі тули та підходять, якщо в вас на сторінці більше ніж 5 функціональних елементів або більше ніж 5 полів в ендпоінтах — значить вам не підійдуть такі тули

Краще працює коли всі члени команди доповнюють свій робочий процес певними ЛЛМками для того. Але в певних місцях та із добрим розумінням того, що має бути на виході від інструмента який базується на основі визначення імовірності звʼязку токенів

оце недарма топік запостила :)) дякую!

Підписатись на коментарі