Дата на тата #2: Коли проблема не в даних — а в голові аналітика
У минулій публікації я систематизував деструктивні патерни в комунікаціях. Ті сцени, де аналітика робиться формально правильно, але десь між даними і рішенням щось іде не так — класика жанру. Але комунікація — це лише помітна та добре освітлена верхівка айсберга. Під нею є щось значно цікавіше — і значно небезпечніше.
Складність та краса професії в тому, що головний інструмент аналітика — це мозок. А мозок, як відомо, штука вперта, ледача і надзвичайно творча у самообмані. І ці проблеми часто підступніші за фейли в якості даних, інструментах чи експертизі. Оскільки так сильно зачіпають наше его.
Прикро, що актуальні курси з дата-аналітики прекрасно подають знання по SQL та скриптовим мовам, статистиці та візуалізаціям даних. Але майже ніколи не говорять про інше — як не дати власному мозку вас обдурити. Хоча саме ця навичка — мислити критично там, де всі впевнено кивають — відрізняє просто хорошого аналітика від виключного професіонала.
Мене звати Дмитро, я Head of Analytics в OBRIO. У другій публікації цієї рубрики хочу поговорити про ті моменти, коли ми думаємо, що аналізуємо, а насправді — раціоналізуємо. І найважливіше — як розвивати своє критичне мислення.
Два способи думати — і чому один з них небезпечний для аналітики
У 2002 році Daniel Kahneman отримав Нобелівську премію з економіки — не як економіст, а як психолог. Він провів десятиліття, доводячи одну незручну річ: люди систематично і передбачувано відхиляються від раціональних рішень.
Центральна ідея його бестселера «Thinking, Fast and Slow»: у кожного з нас два «режими» мислення:
Система 1 — швидка, автоматична, інтуїтивна. Вона розпізнає обличчя, відчуває небезпеку, будує перші враження від графіка за частки секунди.
Система 2 — повільна, аналітична, така, що потребує зусиль. Це те, що відбувається, коли ви справді обдумуєте фреймворк або перевіряєте логіку висновку.

Система 1 підштовхує нас до висновків ще до того, як Система 2 встигає включитися. Продуктовий менеджер бачить зростаючу лінію на графіку — і вже «знає», що це завдяки експерименту N. Маркетолог дивиться на дашборд 20 секунд — і «розуміє» ситуацію із «закупкою».
Система 1 вже сформувала картину. Система 2 тільки починає прокидатися. Проблема не в тому, що Система 1 погана — вона рятує нас щодня. Проблема в тому, що в аналітиці ціна її помилок — рішення, прийняті на основі ілюзій.
Поговорімо про когнітивні викривлення та пастки мислення, які доволі часто трапляються в повсякденній роботі з даними.
Ефект якоря: перше число вирішує все
Daniel Kahneman і Amos Tversky провели відомий експеримент із «колесом фортуни». Учасникам показували колесо з числами від 0 до 100, яке зупинялося на заздалегідь запрограмованому значенні — наприклад, 10 або 65.
Потім їх питали: «Який відсоток африканських країн є членами ООН?»
Хоча число з колеса не мало жодного стосунку до питання, воно суттєво впливало на відповіді: ті, хто бачив 10, давали значно нижчі оцінки, ніж ті, хто бачив 65. Дослідники показали, що люди спершу несвідомо «чіпляються» за випадковий якір, і це впливає на їх вибір.

Dan Ariely у книзі «Predictably Irrational» описує власний експеримент із цінами. Студентів просили записати останні дві цифри свого номера соціального страхування, а потім відповісти, чи купили б вони певні товари (вино, клавіатуру, шоколад) за ціну, що дорівнює цим цифрам. Після цього їх просили назвати максимальну суму, яку вони готові заплатити. Виявилося, що студенти з «високими» цифрами (наприклад,
Уявіть ситуацію: колега приносить з нетворку бенчмарк Retention для фічі на рівні 30%. Аналітична команда бере це число за базу для порівняння свого продукту, ігноруючи різницю в нішах, цільовій аудиторії, методології прорахунку метрики. Тепер Retention на рівні 20% для команди виглядає недостатнім. І ситуація була б абсолютно протилежною, якщо бенчмарк, що отримала команда, був би на рівні 10% повернення.
Критичне мислення аналітика має відчувати та нівелювати такі якорі, як і інші фреймингові ефекти. «Вирости в два рази» та «Заробити 1000 доларів» — ці фрази можуть означати абсолютно одне й те саме, але який різний мають ефект.
Фрейм задає систему координат, і ми схильні не помічати, що ця система абсолютно штучна, а інколи шкідлива.
Упередження уцілілого: ми вчимося на тих, хто вижив
Класичний приклад цієї логічної хиби — кейс часів Другої світової війни із аналізом пошкоджених бомбардувальників, що поверталися з бойових вильотів. Найбільше пробоїн було на крилах і хвості. Висновок здавався очевидним: саме ці зони треба бронювати.
Статистик Абрахам Вальд зупинив їх: «Ви дивитеся на літаки, які повернулися. А ті, що не повернулися — куди були підбиті?» Пробоїн у двигунах майже не було — бо літаки з пошкодженими двигунами просто не долітали назад. Потрібно було бронювати саме двигуни.

Ця помилка відтворюється щодня в бізнесі. Ми вивчаємо успішні кейси — і не помічаємо кладовища тих, хто зробив те саме і провалився. Ми можемо радіти високому CSAT користувачів, — і не беремо в розрахунок тих, хто навіть не дійшов до функціоналу та фідбек-форми.
Ми можемо бути в захваті від високого LTV серед активних користувачів, що залучені більше тижня назад — і не враховувати тих, хто «відвалився» в перші 7 днів через невдалий онбординг.
Упереження уцілілого в аналітиці всюди, від креативного маркетингу до продуктових A/B-тестів. Питання, які мають «стріляти» автоматично: «Яких даних у цій вибірці немає? Хто або що в неї не потрапило?».
Регресія до середнього: після злету — приземлення
Це явище вперше описав Френсіс Гальтон у 1886 році, вивчаючи зріст батьків і дітей. Він помітив закономірність: діти дуже високих батьків у середньому нижчі за своїх батьків, а діти дуже низьких — вищі.
Канеман описував власний досвід. Він аналізував результати курсантів льотної школи і помітив, що інструктори, які хвалили курсантів після вдалого польоту, наступного разу бачили гірший результат — і робили висновок, що похвала «розслабляє». Ті, хто сварив за поганий льот, бачили покращення — і вважали, що критика «допомагає». Насправді і те, і те — лише регресія до середнього.
Після екстремального значення зазвичай слідує менш екстремальне — не тому що щось змінилося, а тому, що екстреми рідко повторюються.

Аналітикам знайоме відчуття, коли команда ініціює рісьорч після дропу метрик, але проблема «йде» та не повертається самостійно. Або коли команда намагається знайти «славнозвісний інсайт», чому конкретна когорта має фантастичний перфоманс. Або коли команда панікує, «підгледівши» результати запущеного вчора A/B-тесту.
Екстремальні значення — це здебільшого шум, а не сигнал.
Метрика впала до рекордного мінімуму чи взлетіла до рекордного максимуму — перше запитання має бути не «чому це сталося?», а «чи варто це взагалі пояснювати?». Регресія до середнього відбудеться незалежно від того, скільки дзвінків ми проведемо і скільки гіпотез висунемо.
Раджу переглянути чудове відео від Veritasium на цю тему: How We’re Fooled By Statistics
Парадокс Сімпсона: розрізи надважливі
1986 рік. У медичному дослідженні порівнювали два методи видалення каменів у нирках.

Здавалося б — все ясно.
Але коли дані розбили за розміром каменів — картина перевернулася повністю.

Традиційний метод виграє в обох категоріях. Як таке можливо? Новий метод частіше застосовували для простіших випадків, і це «підтягнуло» метрику «в тоталі» вгору — не через реальну перевагу методу, а через структуру розподілу пацієнтів.
Парадокс Сімпсона — математично доведена ситуація, коли агреговані дані показують протилежну картину порівняно з даними за підгрупами.
І він трапляється в реальному бізнесі постійно. Середній чек «зростає» — але лише тому, що відчорнилися юзери із невисокою платоспроможністю. А/B-тест не дав статистично значущих результатів, але в сегментах є очевидні перемоги та поразки.
Золоте правило: ніколи не довіряйте агрегованій метриці без сегментації. Запитуйте: «Як ця цифра виглядає в ключових розрізах?»
Упередження підтвердження: ми шукаємо те, що хочемо знайти
Уявіть ситуацію: маркетингова команда X запускає колаборацію з популярним інфлюенсером. Кампанія коштує значних грошей, маркетинг натхненний, всі чекають результату. Через тиждень аналітик отримує завдання: «Подивитись на ефект від кампанії».
І він дивиться. Трафік виріс на 34% у дні виходу публікацій. Конверсія серед нових юзерів — вища за середню на 12%. Є навіть позитивна динаміка в пошукових запитах бренду. Аналіз готовий, кампанія визнана успішною.
Але кілька питань залишилися незаданими. Чи не збіглася кампанія з сезонністю, яка і без інфлюенсера дала б приріст трафіку? Як поводиться retention цих нових юзерів через 30 днів — чи не виявиться, що прийшла нецільова аудиторія з нульовим LTV?
І головне: чи не впав CSAT серед існуючих користувачів у той самий період, бо частина лояльної аудиторії має негативне ставлення до цього інфлюенсера?

Це і є confirmation bias — упередження підтвердження. Ми несвідомо шукаємо, інтерпретуємо та запам’ятовуємо інформацію так, щоб вона підтверджувала те, у що ми вже віримо.
«Покажи, що кампанія спрацювала» замість «давай розберемося, чи спрацювала кампанія». Незначна різниця в запитах, але значна різниця в підході до всього аналізу. Тож треба починати не з гіпотези, яку хочеться підтвердити, а з гіпотези, яку хочеться спростувати.
Запитати себе: «Що мало б бути в даних, якби я помилявся?» — і шукати саме це.
Помилка вартості витрат: коли минуле керує майбутнім
Команда витратила три місяці на побудову моделі прогнозування ризикових користувачів. Десятки ітерацій, feature engineering, валідація з нетворком. У підсумку з’ясовується: модель добре працює на навчальній вибірці, але на продакшн-даних precision падає до рівня, де бізнес-цінності майже немає — команда не встигає обробляти всіх користувачів, кого модель маркує як «ризикових». Простіший rule-based підхід на двох змінних дає майже той самий результат із набагато меншим операційним навантаженням.
Рішення відкладається. «Ми три місяці в це вклали», «Давайте ще раз спробуємо налаштувати threshold», «Шкода викидати всю роботу».

Це sunk cost fallacy — помилка невідшкодованих витрат. З раціональної точки зору три місяці роботи витрачені однаково — незалежно від того, задеплоїте ви модель чи ні. Питання лише одне: що принесе більше цінності, починаючи з сьогодні? Але мозок не вміє так легко відпускати вкладені ресурси. І ми продовжуємо інвестувати не тому, що це має сенс, а тому, що «вже стільки зроблено».
В аналітиці це трапляється частіше, ніж здається: з рісьорчами, які не мають кінця; з дашбордами, які ніхто не дивиться, але «ми довго їх будували»; з методологією A/B-тесту, яка зламана, але тест «вже запущений — треба довести до кінця».
Питання, яке допомагає вирватися: «Що б ми зробили, якби ми опинилися в цій точці без жодної передісторії?»
Ілюзія кластерів: ми бачимо закономірності там, де їх немає
Людський мозок — неймовірна машина для пошуку патернів. Настільки неймовірна, що знаходить їх навіть там, де їх немає: сюжети у візерунках на шпалерах, тваринок у хмарах, хибні висновки в графіках.
У
В аналітиці це проявляється так: метрика три дні поспіль зростає — і вже починається розмова: «ми бачимо тренд». У звіті два показники одночасно змінилися — і хтось вже будує причинно-наслідковий зв’язок.
Корисне правило: перш ніж оголошувати закономірність, запитайте — а яка ймовірність побачити таку саму картину при випадкових даних? Часто відповідь невтішна: досить висока. Статистична значущість — це захист від власної уяви.
Ніхто не застрахований — і це нормально
Когнітивні викривлення — не ознака некомпетентності. Це базова комплектація людського мозку, яка дісталася нам у спадок від еволюції. Критичне мислення — це не атрибут true/false. Це м’яз, який росте від надивленості, від зіткнення з різними даними, помилками і контекстами.
Абсолютно всі потрапляють в когнітивні викривлення. Аналітики мають робити це рідше за інших. Сінйорні аналітики — ще рідше.
***
У публікації я навів приклад лише декількох викривлень із кількох сотень задокументованих. Добра новина: їх можна вивчати системно, і це одна з небагатьох інвестицій в аналітиці, яка окуповується в будь-якому контексті — від ресерчів і A/B-тестів до ведення складних проєктів. Кілька ресурсів, з яких можна почати:
- The Decision Lab (thedecisionlab.com) — база знань з поведінкової економіки та когнітивних упереджень із прикладними кейсами для бізнесу.
- Cognitive Bias Lab (cognitivebiaslab.com) — каталог упереджень із поясненнями та посиланнями на дослідження
- Книга Thinking, Fast and Slow — Kahneman. Якщо читали б одну книгу про мислення — то цю. Розбирає механіку систем № 1 і № 2 на сотнях прикладів і досліджень.
- Книга Noise: A Flaw in Human Judgment — Kahneman, Sibony, Sunstein. Менш відома, ніж «Thinking, Fast and Slow», але в чомусь важливіша: про те, що навіть без систематичних упереджень наші рішення непередбачувано шумні — і що з цим робити на рівні організації.
- Книга The Scout Mindset — Julia Galef. Про те, чому ми захищаємо свої переконання замість того, щоб шукати правду — і як це змінити. Практичніша за Kahneman, коротша і з конкретними вправами.
- Книга How Minds Change — David McRaney. Про те, чому люди змінюють переконання — і чому зазвичай ні. Корисна для тих, хто хоче не просто знайти помилку в даних, а ще й донести це до команди.

- Подкаст You Are Not So Smart — кожен епізод присвячений одному викривленню, розказаному через реальні ситуації.
Outro
Знати про викривлення — це половина роботи. Аналітик в бізнесі існує для того, щоб команда приймала кращі рішення. А це означає вказувати на помилки в мисленні. Не для того, щоб бути найрозумнішим у кімнаті, а щоб відпрацьовувати свій пейчек :)
Коли продакт будує висновок на вибірці, де немає «тих, що не повернулися» — це треба сказати. Коли маркетинг просить «підтвердити, що кампанія спрацювала» — варто перепитати, чи правильно сформульоване завдання. Це незручно, це може викликати опір. Але саме в цих моментах аналітик або є цінністю для команди, або просто робочий на фабриці дашбордів.
Сподобалась стаття? Підписуйтесь на автора, щоб отримувати сповіщення про нові публікації на пошту.
3 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів