А/Б-тести: як працювати з типовими помилками на старті
Мене звуть Сергій Гудков, я Product Manager у Preply та куратор у Projector. У цій статті я хочу поділитися типовими помилками, з якими стикаються новачки, коли впроваджують А/Б-тестування в компаніях. Це допоможе вам почати використовувати тестування швидше й без шкоди для бізнесу, а також заощадити час команди.
А/Б-тести — один з основних інструментів перевірки продуктових та маркетингових гіпотез. Свій перший тест я запустив у 2011 році. Тоді ми посперечалися з моїм керівником, чия ідея краща і принесе більше грошей бізнесу. У багатьох компаніях тести є обов’язковим етапом впровадження будь-якої зміни в продукт. Це дає змогу компаніям залишати в продукті лише те, що дійсно корисне для користувачів, партнерів та бізнесу.
Небезпечні гіпопотами
А/Б-тестування завжди починається з ідеї, що тестувати. Ідея стає гіпотезою, гіпотеза — реалізацією та тестом. Якість та основа гіпотези багато в чому закладають успіх експерименту. Своєю чергою, те, як команда вирішує, що тестувати, визначає успіх усього підходу.
HiPPO — це англійська абревіатура, яка означає «думка людини з найбільшою зарплатнею» (Highest Paid Person’s Opinion). По суті, це коли приходить керівник і каже, що краще знає, що треба робити, і вся команда просто повинна виконувати що сказано.
HiPPO як метод прийняття рішення зазвичай протиставляють підходу, що базується на даних. Усі орієнтуються на керівника, старшого, лідера. Проблема в тому, що кожна людина різною мірою упереджена. Це, безперечно, заважає приймати правильні рішення в тривалій перспективі.
У реальному житті все відбувається приблизно так: приходить керівник і каже, що його сусід по дачній ділянці переглядав сайт або використовував продукт і дав кілька слушних порад. Нам обов’язково треба все запровадити, але через А/Б-тест. Для гіпотез немає реальних підстав, хоча ідеї звучать чудово. Так, ідея і гіпотеза — це не одне й те саме, але про це іншого разу. Сусід —— не представник цільової аудиторії. Експеримент програє.
Так відбувається кілька разів. Експерименти не виграють, витрачаються ресурси, час минає, нічого не працює. Під ударом сама ідея експериментів. Тести не працюють, це все казки. Компанія відмовляється від інструменту тестування і продовжує наосліп упроваджувати ідеї керівника.
Найкраще працює незалежна методика, алгоритм пріоритезації гіпотез. Одна з найпоширеніших сьогодні —— методика RICE. Гіпотезу новачка розглядають та оцінюють нарівні з гіпотезою досвідченого працівника чи гендиректора. Ніхто не знає більше, ніж свідчать фактичні дані.
Кілька років тому джуніор із сусідньої команди попросив дати йому якийсь простий А/Б-тест, щоб він спробував запустити самостійно. Я витяг для нього технічно найлегшу гіпотезу з беклогу. Керівник дізнався про це, коли розробник усе вже зробив і готовий був запускати. Гіпотеза керівнику зовсім не подобалася, але я все ж таки запустив експеримент на свій страх і ризик. Мені дуже пощастило, що через місяць тест виграв. Відтоді керівник лише пропонував свої гіпотези та просив пояснювати принципи пріоритезації, але ніколи більше не блокував наших тестів.
Копіювання кейсів інших компаній
Немає нічого поганого в запозиченні, адаптації та навіть сліпому копіюванні кейсів та ідей інших компаній. Логіка таких рішень проста: спрацювало в них —— спрацює і в нас, спрацювало один раз — імовірно, спрацює і вдруге. На жаль, це може як прискорити вас, так і сповільнити, збити з правильного шляху.
Спочатку саме HiPPO зазвичай приносять ідеї зовні. Він прочитав, почув на конференції, дізнався від колег по ринку новий кейс. Презентація кейсу дуже надихала, ідея здавалася настільки простою та витонченою, що не зрозуміло, як самі до цього не додумалися. Жодних сумнівів: спрацює і в нас.
Річ у тім, що рішення підійде, лише якщо у вас така сама проблема, а це не факт. Схоже на те, як у черзі до лікаря обговорити свої симптоми та почати приймати ліки сусіда, але до лікаря так і не зайти. Вочевидь, ліки проти того, чого у вас немає, не подіють. Так само і з упровадженням чужих рішень. А в результаті, як і з минулою проблемою, у всьому винні тести й не зрозуміло, навіщо їх робити, якщо без тестів усе було чудово.
Вирішити це допоможе наявність переліку проблем ваших клієнтів, користувачів, відвідувачів. З актуальним списком проблем ви завжди можете перевірити, чи підходить рішення для чогось зі списку. Не варто лагодити те, що не зламане.
Років чотири тому я працював у автомобільній тематиці, щось на кшталт маркетплейсу авто. До мене часом прилітали ідеї, взяті з сайтів автосалонів. Коли я не міг відбитися, ми змушені були тестувати ці ідеї. Нічого не вистрелило. Люди на інтерв’ю так і казали: «Якби мені це треба було, я пішов би в салон». Виходить, ми витрачали час та ресурси, тестуючи подібні речі.
Дострокове завершення тесту
В основі контрольованих експериментів лежить математика.
Уявіть, що ви підкидаєте монету десять разів. П’ять разів випадає герб, і п’ять —— копійка. Потім ви щось змінили — трохи підпиляли монету напилком. Далі кидаєте ще десять разів. Герб випадає шість разів. Що скажете? Чи таке трапляється? Скільки разів має випасти герб, щоб ви були впевнені, що з монетою щось не так, і герб випадає частіше?
У різних тестах та за різних умов використовують різні математичні методи. Але мета завжди однакова — зрозуміти, чи справді результати експерименту (герб випадав найчастіше) спричинені нашими змінами (ми підпиляли монетку).
Дострокове завершення тесту —— це коли ви кидаєте монетку три рази з десяти й несподівано три рази випадає герб. «Ось воно! Працює! Тепер монетка чарівна, завжди випадає герб». Відтак ви вирішуєте, що кидати ще сім разів, що залишилися, сенсу немає, і так вже все зрозуміло.
У бізнесу бажання завершити експеримент раніше дуже посилює сліпе бажання заробити чи уникнути втрат. Якщо помічають, що позитивна динаміка тримається кілька днів і що кожен день приносить +10% грошей, то навіщо продовжувати отримувати +10% тільки з половини трафіку, а не з усього? Аналогічно з втратами —— дуже боляче втрачати 10% щодня.
Погляньте на скриншот. Варіант 1 тут і зараз приносить на 20,6% більше. Імовірність перемоги —— 89%. Скільки ще ви хочете чекати та втрачати гроші?
Така поведінка є дуже небезпечною і призводить до впровадження випадкових змін. З одного боку, це просто витрата ресурсів та дорогоцінного часу на те, що не працює. З іншого боку, упроваджують зміни, що шкодять бізнесу.
Звісно, ви можете помітити, що разом із випадковими впроваджують і зміни, які покращують бізнес. Але позитивні зміни менш імовірні, ніж негативні. Уявіть перелік ліків. Яка ймовірність, що коли вибираєте ліки навмання, то ви вилікуєтесь, а не навпаки? І пам’ятайте: ефект від усіх ліків накопичувальний.
Рішення тут одне: завжди чекайте на завершення тесту. Якщо ваш інструмент не дає однозначної оцінки перемоги, попросіть допомоги аналітиків.
Одна з найповчальніших історій сталася восени 2012 року. Ми швидко почали впроваджувати А/Б-тестування й запускали кілька тестів щотижня. У всіх була ейфорія, і результати переглядали кілька разів на день. Якщо позитивний тренд тримався кілька днів, то (ура-ура!) приймали рішення залишати зміни на сайті.
До листопада, через два місяці, ми мали дуже багато нового на сайті. Але одного дня продажі просто впали. Ми майже три доби ночували на роботі, закопавшись в аналітику. Зрештою ми дійшли висновку, що кожен такий тест змінював поведінку людей не на краще, але оскільки ми не чекали завершення тесту, то дізнатися про реальний вплив на бізнес не могли.
Ми вирішили відкотити всі зміни за останні два місяці. Через дві-три доби продажі повернулися на колишній рівень, а ми навчилися чекати на завершення тестів.
Знати результат заздалегідь
В А/Б-тестуванні можливі три варіанти результату:
- Зміни приносять користь.
- Зміни шкодять.
- Результати неоднозначні.
Що означає неоднозначні? Це коли експеримент не виграв і не програв. Стверджувати, що А і Б рівні, помилково. Ви можете кинути монету лише двічі. Чи достатньо цього, щоб перевірити, як спрацювало підпилювання монети?
Коли ви збираєтеся в магазин, то хочете в той чи інший спосіб переконатися, що у вас вистачить грошей на всі покупки, які збираєтеся зробити. Аналогічно слід робити й із експериментами.
Перш ніж вирішити розпочати розробку, необхідно розрахувати мінімальний ефект, який можна виявити (MDE — Minimum Detectable Effect). Наприклад, розрахунок MDE може показати, що будь-яке зростання на менше ніж 42% не буде значним. Тут варто запитати себе, чи віримо ми, що новий колір кнопки допоможе підняти продажі на 42%?
По суті, помилка тут — це запуск тестів, які, найімовірніше, не зможуть досягти значних результатів. Це само собою витрата часу та ресурсів.
Розрахунок MDE є невіддільною частиною створення дизайну самого експерименту, де необхідно визначити, хто увійде до тесту, де відбуватиметься поділ аудиторії на групи тощо.
У моїй сьогоднішній практиці MDE відсіває приблизно третину гіпотез. Наведу приклад. Я дуже люблю соціальний доказ та все, що з ним пов’язане. Ось приклад одного тесту з нашого сайту.
Спочатку ми планували виводити кількість заброньованих уроків за останню годину. Очевидно, що загальна кількість репетиторів, у яких забронювали уроки за останню годину, набагато менша, ніж тих, у кого бронювали уроки впродовж останніх 12, 24 або 48 годин.
Порахувавши MDE для всіх випадків, стало очевидно, що 48 годин —— це ідеальний варіант: багато репетиторів, приваблива кількість заброньованих уроків, достатній трафік та конверсія. Якби ми запустили, як планували спочатку, то не мали б навіть шансу отримати якийсь результат.
Продовжувати не можна здатися
Усі описані помилки зазвичай призводять до того, що позитивного ефекту від А/Б-тестування немає. Після таких помилок компанії здаються й відмовляються від експериментів як інструменту. Це можна порівняти з походом у гори, де в певний момент вас не влаштовує, як і куди ви йдете, і ви вирішуєте викинути компас. Насправді компас ні до чого, просто треба навчитися ним користуватися.
А/Б-тести —— хороший інструмент у вмілих руках. Як і будь-який інструмент, експерименти ідеально підходять для одних задач і абсолютно не потрібні для інших. Упевнене володіння таким інструментом та його доцільне використання допоможуть бізнесу зростати швидше та отримувати нові перевірені знання.
19 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів