Підвищуємо якість продуктових рішень за допомогою A/B тестування: покроковий приклад

💡 Усі статті, обговорення, новини про тестування — в одному місці. Приєднуйтесь до QA спільноти!

У XVIII столітті шотландський лікар Джеймс Лінд взявся розв’язати загадку: чому моряки масово вмирали від цинги? Він розділив 12 хворих матросів на групи: одні отримували морську воду, інші — оцет, а одна з груп — лимони та апельсини. Саме в останній групі пацієнти швидко пішли на поправку. Це один із перших задокументованих контрольованих експериментів в історії.

Привіт! Мене звати Ірина, я Senior Product Manager у CareerPlug — ми створюємо SaaS-продукт для найму та утримання співробітників. Наша платформа допомагає більш ніж 60 000 франчайзинговим локаціям по всій території США ефективно будувати команди та зменшувати плинність персоналу.

У продакт-менеджменті я понад сім років. Спеціалізуюсь на створенні рішень, що поєднують поведінкові інсайти, аналітику та глибоке розуміння користувача. Працюю на перетині UX-дизайну, data-driven підходу та продуктової стратегії — допомагаю командам не просто запускати нові функції, а робити це з відчутним впливом на бізнес і користувацький досвід.

Минають століття, але суть наукового методу залишається незмінною. Просто зараз його адаптували до цифрової епохи. Компанії на кшталт Microsoft та Google активно використовують експерименти в реальному середовищі, щоби перевіряти продуктові гіпотези. Люди, як-от Ронні Кохаві, який свого часу очолював A/B тестування в Microsoft, зробили революцію в індустрії — вони принесли наукову точність у галузь перевірки UI-змін, нових алгоритмів і функцій.

Суть A/B тестування проста, але потужна: це не здогадки — це спостереження. Воно працює у реальному часі з реальними користувачами та надає емпіричні докази. Якщо його реалізувати грамотно, воно дозволяє перейти від суб’єктивних припущень до вимірюваних і стабільних результатів.

Розглянемо на конкретному прикладі анатомію ефективного A/B тесту — експерименту, який дозволив нам у більш ніж втричі підвищити ключовий показник утримання користувачів.

Чому A/B тестування досі є основою product-led підходу

В основі A/B тестування — ізоляція однієї зміни та порівняння двох версій продукту: A (Контроль) — наявний досвід, B (Тест) — нова варіація. Це останній рубіж перед масштабуванням — інструмент, який дозволяє перевірити гіпотезу до того, як витрачено ресурси на повний реліз.

Звісно, A/B тестування — не панацея. Воно не пояснює, чому щось спрацювало, лише що спрацювало. Але воно дає чітку відповідь на головне питання: «Чи справді ця зміна вплинула на мій бізнес-показник?»

Хороший експеримент має бути стратегічно сформульованим, грамотно спроєктованим і виміряним з аналітичною точністю. Наш успішний тест, який дав +219% зростання цільової дії, демонструє, наскільки критично важливо виходити з бізнес-цілей.

Основні поняття, які варто узгодити перед стартом

Перед запуском експерименту важливо, щоб команда розуміла значення цих термінів:

  • A/B тест — контрольований експеримент з чітко визначеною зміною та щонайменше двома варіантами (Контроль і Тест).
  • Контрольна група (A) — користувачі, які бачать наявну версію продукту.
  • Тестова група (B) — користувачі, які бачать нову функцію або зміну.
  • Гіпотеза — тестоване припущення у форматі «Якщо..., тоді...».
  • OEC (Overall Evaluation Criterion) — головний довгостроковий показник, який визначає успіх або провал функції/продукту.

1. Почніть з OEC та працюйте у зворотному напрямку

Наш продукт допомагає компаніям у франчайзинговій індустрії наймати та утримувати працівників. Одним із ключових бізнес-метрик для нас є утримання клієнтів — це основний показник, на який орієнтуються різні продуктові команди. Кожна команда працює над певними сигналами, які, згідно з даними, корелюють із довгостроковим утриманням.

Моя команда сфокусувалась на одному конкретному сигналі: додавання другого користувача в акаунт протягом першого тижня після активації. У контексті нашого продукту це може бути, наприклад, коли менеджер із найму запрошує до акаунту адміністратора або члена команди, що бере участь у процесі рекрутингу. На цьому етапі ми мали зрозуміти: хто ця друга особа, яку потрібно залучити, і як ми можемо ефективно стимулювати це запрошення.

Найпоширеніша помилка — оптимізувати локальні максимумуми (наприклад, кількість кліків). Але справжній product-led підхід — це робота на рівні Overall Evaluation Criterion (OEC).

У нашому випадку OEC — це рівень продовження підписки на продукт. З аналізу когорт ми дізналися, що: акаунти, які додають понад одного користувача протягом перших 7 днів після активації, мають на 80% вищу ймовірність продовження підписки.

Наша задача — вплинути на поведінку: мотивувати користувачів запрошувати колег до акаунту.

2. Збирайте, формулюйте та пріоритезуйте гіпотези

Коли бажану поведінку визначено, команда генерує безліч ідей — гіпотез. Але звідки брати ці ідеї?

Найкращі гіпотези базуються на:

  • Кількісних даних (аналітика).
  • Якісних інсайтах (інтерв’ю, сапорт, спостереження).
  • Інтуїції команди (але з досвідом).

Джерело

Приклад інпуту

Гіпотеза

Аналітика

60% адмінів, які запрошують другого користувача, обирають для нього також роль адміна

Якщо ми звузимо роль за замовчуванням до «Адмін», це збільшить кількість запрошень на 15%

Клієнтський сапорт

Нові користувачі часто вважають, що додаткові місця — платні

Якщо явно зазначити, що нові місця — безкоштовні, конверсія зросте

Галузеві тренди

Багато SaaS використовують постійну кнопку «Get Started»

Якщо замінити банер на дашборді на постійну кнопку, взаємодія з фічею зросте

Ідеї з брейншторму:

  • Додати окремий крок запрошення у флоу онбордингу (Placement).
  • Додати віджет на Dashboard (Placement).
  • Підсвітити, що місця — безкоштовні (Copy).
  • Вказати роль «адмін» (Targeting).

3. Сегментуйте гіпотези за етапами (user flow)

Хороші A/B тести мають враховувати контекст. Ми зіставили кожну гіпотезу з етапом користувацького флоу:

  • Онбординг (початок). Гіпотеза: додати крок «Запросити команду» у флоу.
  • Dashboard (середина). Гіпотеза: Додати кнопку або віджет у головній зоні CTA.
  • Контекст дій (наприклад, після публікації вакансії). Гіпотеза: впровадити @mention у флоу оцінки кандидатів — і запропонувати додати користувача, якщо він ще не існує.

Рішення: об’єднувати чи тестувати окремо?

Деякі гіпотези — це просто зміна розміщення, інші — зміна копірайту. Ми могли йти повільно та тестувати окремо, але вирішили об’єднати все в один експеримент:

  • Розміщення: вбудоване в онбординг.
  • Копірайт: чітке повідомлення, що запрошення безкоштовне.
  • Роль: просимо додати «другого адміна».

Фінальна гіпотеза: якщо ми додамо крок «Запросити колегу (Add admin)» до онбордингу, уточнимо роль до «другий адмін» і вкажемо, що це безкоштовно, то кількість запрошень протягом 7 днів зросте, а отже, збільшиться рівень продовження підписки продукту.

Результат: +219% до ключового показника. Тепер ми можемо повернутись і протестувати кожен елемент окремо.

4. Забезпечте статистичну силу та захисні метрики

Щоби довіряти результатам, потрібно дотримуватись статистичної дисципліни.

Статистична сила:

Калькулятори на кшталт Evan Miller чи Optimizely допоможуть обрати:

  • Поточний рівень конверсії (Baseline).
  • Мінімально значимий ефект (MDE) — наприклад, 5% або 10%.
  • Рівень довіри — зазвичай 95%.

Guardrails — захисні метрики:

Навіть якщо основна метрика зросла, важливо переконатись, що інші не постраждали:

  • Вихід із онбордингу.
  • Відсоток прийнятих запрошень.
  • Рівень завершення основного завдання (наприклад, публікація вакансії).

Ми переконалися: підвищення не погіршило користувацький досвід.

5. Документуйте не лише результат, а й знання

Кожен експеримент — це урок. Навіть у разі провалу.

  • Якщо успішно — ми дізналися, що намір до колаборації — найвищий під час онбордингу, а сприйняття ціни — важливий бар’єр.
  • Якщо провал — можливо, повідомлення було недоречним, або онбординг перевантажений.

І ще: тест не закінчується після «виграшу».

Ми продовжили відстеження після релізу на 100% користувачів. Результат: стабільне використання — без піків і без спаду. Це свідчить про справжню зміну в поведінковій моделі.

Підсумок: A/B тест запрошення колеги

Елемент

Опис

OEC

Рівень продовження підписки. Проміжна мета — кількість запрошених колег.

Мета

Збільшити кількість запрошень у перші 7 днів користування продуктом.

Гіпотеза

Об’єднане тестування: копірайт, момент показу, роль:

«Якщо ми додамо крок „Запросити адміна (Add admin)“ до онбордингу, уточнимо роль до „адмін“ і вкажемо, що це безкоштовно, то кількість запрошень протягом 7 днів зросте, а отже, збільшиться рівень продовження підписки продукту»

Основна метрика

Кількість нових користувачів, доданих протягом 7 днів.

Guardrails

Вихід з онбордингу, прийняття запрошень.

Результат

+219% зростання. Підтверджено важливість моменту онбордингу.

Моніторинг

Стабільне використання після повного релізу.

Цей підхід перетворює експериментування на стратегічний інструмент, а не просто засіб перевірки функцій. Він забезпечує ясність, дисципліну та зв’язок між інженерною роботою і бізнес-результатами.

Сподобалась стаття? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.

👍ПодобаєтьсяСподобалось6
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Загалом, ще одна стаття про АБ-тести.

Питання 1:

З аналізу когорт ми дізналися, що: акаунти, які додають понад одного користувача протягом перших 7 днів після активації, мають на 80% вищу ймовірність продовження підписки.

Як ви це дізнались, порахували, зрозуміли, вийшли на інсайт?

Питання 2:
На старті кажете

В основі A/B тестування — ізоляція однієї зміни та порівняння двох версій продукту.

В наступному розділі

Ми могли йти повільно та тестувати окремо, але вирішили об’єднати все в один експеримент.

Тобто 3 зміни за раз. Виникає дисонанс. Результат такого тесту результат — не чистий, може 1 зміна дає значний аплфіт, 2 зміни просадку, але в тоталі все краще. Що конкретно дало ефект? Що тестувати далі? Не дізнаєтесь цього.

Дякую за коментар і за те, що прочитали статтю!

Щодо «ще одна стаття про АБ-тести» — це комплімент чи критика? :)

Якщо мова про те, що тема не нова — згодна. A/B тестування існує вже десятиліттями. Але навіть досвідчені команди або не використовують його зовсім, або роблять це без прив’язки до бізнес-метрик. Саме тому я вирішила поділитись конкретним кейсом із нашої практики, де експеримент був прив’язаний до реального результату.
--------
Щодо питання про інсайт з аналізу когорт:

Це була ініціатива нашої аналітичної команди. Вони провели когортний аналіз і виявили стійку кореляцію: акаунти, які додали другого користувача протягом перших 7 днів, мали значно вищу ймовірність продовження підписки.

Я, якщо потрібно, можу уточнити у колег деталі методології. Але якщо припустити, як саме це рахували, то, швидше за все:
• згрупували нові акаунти за періодами активації,
• поділили їх на підгрупи: хто додав ще когось, а хто — ні,
• і порівняли відсоток продовження підписки.
-------
Щодо зауваження про те, що в статті закладено суперечність (ізоляція змін vs bundled тест):

Дуже слушне зауваження. Так, ми чітко розуміли, що об’єднання кількох змін в один експеримент — це компроміс. оскільки на той момент у нас не було достатньо ресурсів, щоб запустити всі A/B тести окремо.

Це дало змогу перевірити, чи взагалі можливо зрушити метрику хоч у якомусь напрямку. І вже у разі позитивного результату — мали б підстави інвестувати більше часу та зусиль у подальші тести (копірайт, розміщення, роль).

Ще раз дякую за те, що прочитали статтю та поділилися своїми думками!

Щодо «ще одна стаття про АБ-тести» — це комплімент чи критика? :

— Це пасивна агресія ;)

Щодо питання про інсайт з аналізу когорт:

— Дякую, клас! Було б цікаво дізнатись всю методологію, хочу використатити і зробити таку вправу зі своїм продуктом. Якщо що, можемо в ТГ );

об’єднання кількох змін в один експеримент — це компроміс.

— В такому разі, був сенс зазанчати вище що з правила про «одна зміна за раз» є вийнятки, і не завжди треба робити «по методичці». Але це підходить командам з дата культурою і тд, які шарять всі ризики і наслідки такого підходу.

1. Aхах, засміялась — дякую 😄

2. Так, звісно! Перевірю у нашої аналітичної команди, як саме вони проводили цей аналіз, і з радістю поділюсь деталями.

3. Так, повністю згодна і дуже дякую за інсайт 🙌

Підписатись на коментарі