Сучасна диджитал-освіта для дітей — безоплатне заняття в GoITeens ×
Mazda CX 5
×

Чому важливо якісно візуалізувати дані та 10 принципів, як це зробити

Привіт! Мене звати Оксана і я керівниця команди аналітики в українській продуктовій компанії Jooble. Нещодавно в мене на співбесіді потенційний кандидат на питання: «Чому при підготовці до переходу з іншої спеціалізації в аналітику ви зосередитися лише на вивченні SQL і не приділили часу ні одній системи візуалізації?» відповів: тому що візуалізація — це дуже просто, побудови графіків особливої підготовки не потребують.

А чи це дійсно так?

Я пропоную спочатку взагалі поговорити про важливість візуалізації даних, а вже потім братися до основних принципів якісної візуалізації та опису різних підходів до неї.

Чому візуалізація даних це важливо

Навіщо нам взагалі це потрібно, чому людей не влаштовують довжелезні таблиці або списки? Думаю, тут відповідь дуже очевидна, адже візуалізація робить великі набори незрозумілих даних — зрозумілими й набагато легшими для сприйняття.

Одна справа, коли ви бачите таблицю:

Можна помітити, що є ріст показників 5-6 грудня, падіння 31 грудня і якісь середні коливання протягом інших періодів.

Але якщо ці ж самі дані ми поглянемо уже на самому звичайному лінійному графіку, наше сприйняття суттєво змінюється і зрозуміти дані набагато легше:

Особливо не вдивляючись, ми бачимо з початку місяця тренд на зниження, з досить яскраво вираженою тижневою сезонністю.

Гарна візуалізація навіть дуже складних даних дає змогу їх інтуїтивно зрозуміти людям, далеким від аналітики та цифр. Це спрощує комунікацію в компаніях і командах, адже показати поточний стан речей, затвердити плани й бюджети на майбутнє, відстежувати критичні моменти стає набагато простіше, тому що ви всі говорите і бачите аналітику, цифри та дані однаково.

Навіть для аналітиків візуалізація є дуже корисною в роботі. Вона допомагає швидко аналізувати різні сегменти або когорти, порівнювати між собою періоди з безліччю метрик, відстежувати аномалії та шукати потенційні вектори росту.

Особисто мені якщо потрібно покрутити якісь дані, я відразу завантажую їх в BI-систему і дивлюся через графіки та інші типи візуалізації. Це допомагає швидко зрозуміти, які дані переді мною та зробити за ними швидкі і якісні висновки.

Інколи я настільки лінуюся, що коли перевіряю, чи потрапили в аналітичне сховище потрібні мені дані, замість того, щоб написати sql-скрипт на 3 оператори, просто оновлюю потрібний дешборд в BI-системі, і на око розумію, чи довантажилися всі дані, чи є якість додаткові за ними питання.

Можливо, в такому випадку мені потрібно чекати хвилин 10-15 на оновлення BI-системи, але я в цей час можу зайнятися іншими справами й потім не витрачати час на перевірку даних через додаткові sql, тому що, скоріше за все, візуалізація дасть мені досить однозначну відповідь — чи все ок з даними, чи ні.

Наприклад, SQL покаже мені дані, як в таблиці нижче:

В цьому випадку може бути достатньо пробігтися очима і помітити аномалії з кількістю конверсій 21-24 квітня, можливо, 13-го також. Ну, і немає взагалі конверсій 26-30 квітня.

Але якщо ті ж самі дані ми відразу побачимо на графіку, то тут ще швидше можна зорієнтуватися в наявній ситуації. Бачимо, що 13 квітня — не аномальне, а ось з 20-го числа щось пішло не так.

Основні принципи якісної візуалізації

З важливістю візуалізації, здається, усе зрозуміло, але чи кожен графік або pie chart можна вважати якісною інтерпретацією даних?

Звичайно, що ні. Мені доводилося бачити досить багато різної візуалізації за свої 7 років в аналітиці, тому приведу основні принципи якісної візуалізації, на мою думку.

Принцип 1. Простота

Як не дивно, але візуалізація має бути не перенасичена. Краще відмовитися від неонових палітр, 3D-графіків, підписів всіх даних, точності до сотих або тисячних в значеннях. Не потрібно одразу намагатися показати всі дані на одному графіку, краще відштовхуватися від цілі, а не створювати вітрини даних бездумно.

Доцільніше, щоб одна візуалізація доносила одну ціль, тому часто я рекомендую розбити перенавантажену діаграму на кілька, але кожна з яких відповідатиме на одне питання.

Для прикладу розглянемо візуалізацію нижче. Тут показана динаміка трафіку на сайті в розрізі різних країн, ще і в розбивці на типи девайсів (мобайл/ декстоп). Навіть враховуючи, що є легенда, зрозуміти дані про декстоп вкрай важко.

Тому пропоную переробити на варіант нижче: згрупувати всі невеликі країни, щоб вони не навантажували візуалізацію, винести окремо відображення за девайсами.

Можна додати також фільтри по країнах або девайсах, щоб мати змогу окремо дивитися динаміку в розрізі кожної країни або мобайл/ десктоп окремо.

Принцип 2. Вірно вибраний тип візуалізації

Найчастіше зіштовхуюсь у своїй роботі з тим, що менеджери дуже люблять pie chart. Сам собою pie chart класний, але якщо в ньому не більше 10 dimensions.

Наприклад, для такої візуалізації тип графіка не дуже підходить, країн надто багато, читати графік важко.

А ось для показу сесій за типами девайсів дуже навіть ок:

Аналітики, своєю чергою, навпаки, вже трошки втомилися від стандартних типів діаграм, тому інколи дозволяють собі експерименти, які можуть бути не дуже доцільними.

Наприклад, в Tableau є дивна bubbles-візуалізація, яка для деяких дешбордів, як-от візуалізація фінансової інформації для борда компанії, може бути не дуже доцільною:

Тому важливо підбирати влучні типи відображень даних, щоб відповісти на задумане для даної візуалізації питання.

Тут можуть допомогти лише три речі:

  • Досвід. Ви уже давно в аналітиці й просто відчуваєте, яким даним пасуватиме який тип візуалізації.
  • Референси. Ви можете скористатися чужим досвідом і набити око на уже існуючих візуалізаціях. Рекомендую корисні для цього ресурси в кінці статті.
  • Ваш внутрішній дизайнер. Я працювала з аналітиками, які на підсвідомості просто «бачать» дані та мають смак до їх візуалізації навіть без якогось великого досвіду. Назвемо це «дар» :)

Принцип 3. Задавайте контекст та пояснення до вашої візуалізації

Не залишайте місць для здогадок. Важливо додавати пояснення до ваших графіків, не забувати залишати легенди разом з діаграмами, підписувати осі графіків та давати всім частинам дешбордів зрозумілі назви.

Аналітикам дуже часто здається, що і так все зрозуміло, але вітрини даних можуть дивитися люди і через рік після їх створення, тому важливо документувати контекст, додавати опис візуалізацій.

Принцип 4. Орієнтуйтеся на основного користувача вашого дешборда

Хоча більшість вітрин даних можуть бути унікальними і ними можуть користуватися всі в компанії, деякі дешборди можуть змінюватися в залежності від основного замовника.

Найбільшою різницею зазвичай є рівень деталізації у вітрині даних. Якщо ви готуєте візуалізацію для executive команди компанії, там потрібне загальне відстежування цілей, якісь основні відхилення від неї та відображення основних змін.

Але, наприклад, для роботи продуктової команди чи команди, яка працює з клієнтами, деталізація до сегментів/ клієнтів/ когорт є суперважливою. Адже якщо є просадка чи аномальний ріст в загальному, саме цим командам потрібно розбиратися з його причинами. Тут важлива глибина даних та наявна можливість копнути тут і зараз в дані без залучення аналітика.

Принцип 5. Показуйте актуальність даних в дешборді

Якщо ваші дані оновлюються раз в день, раз в тиждень, раз в місяць — напишіть про це, додайте останній час оновлення та індикатор, що дані актуальні, або ж навпаки. Лише команда аналітики знає, що всі звіти, наприклад, оновлюються з 12 до 14. Але для користувача даних ця інформація не є обов’язковою, йому не треба знати, що ваша BI-система маю чергу для оновлення чи ще щось.

В мене були випадки, коли мені тричі на день писали: чому ще немає даних в дешборді? Хоча я вранці сказала, що оновлення буде о 14-й, це просто вилітало у колеги з голови, і коли він згадував, що йому потрібні дані за вчора, заходив в систему, не знаходив їх — і писав мені.

Тепер достатньо хоча б один раз показати дату оновлення даних — і людина згадує, що потрібно на неї кинути оком перш ніж панікувати, що інформації немає і щось зламалося.

Принцип 6. Не тримайте логіку і розрахунки даних в секреті

Інколи здається, що всі розрахунки не потрібні користувачам, хай вони просто бачать симпатичні графіки та метрики. Але дуже часто виникає необхідність розібратися з тим, як і що рахується, особливо, коли підрахунок показників може бути різним.

Наприклад, навіть така метрика як дохід в одному дешборді може враховувати всі транзакції, в іншому — віднімати повернення, в третьому — використовувати інші курс валют, в четвертому — виводити дані з іншою тайм-зоною тощо.

Тому для прозорості додавати контексту обрахунків, давати посилання навіть на ваш SQL-код буде дуже корисно. Це зможе швидко прояснити ситуацію, що в які показники ви враховуєте, де й які є нюанси.

Принцип 7. Підтримуйте чистоту та актуальність у візуалізаціях

Якісь дані стали не актуальними? Видаляйте, ховайте, архівуйте. Не треба накопичувати вітрини даних зі 100 візуалізацій і пишатися, що хоча воно і вантажиться 10 хвилин, але як зручно гортати це полотно. І те, що було актуально рік назад уже може втратити актуальність, люди змінюються, і навіть новим колегам одну і ту ж інформацію може бути зручніше дивитися під якимось іншим кутом.

Тому не тримайтеся за минуле й актуалізовуйте інформацію, не накопичуйте все підряд, тому що підтримувати все це буде важко, а результатом можуть бути не бенефіти, а, навпаки, проблеми — адже дані не сходитимуться в різних репортах, або ж показуватимуть вже не актуальну комбінацію умов і так далі.

Принцип 8. Уділяйте час деталям

Перевіряйте, як виглядають у візуалізації tooltips, легенди. Звертайте увагу на назву стовпців. Якщо ви робите ad-hoc звіт, то звичайно можна не витрачати час на деталі, адже скоріше за все замовник і користувач даного дешборда знає, яка інформація в ньому і очікує відповідь на кілька конкретних питань.

Але якщо ваш репорт буде існувати довгий час і був створений, щоб ним користувалося багато людей, важливо приділяти увагу деталям. Адже візуалізація це також продукт, продукт команди аналітики або ж одного аналітика, і якісь нюанси можуть зіпсувати враження.

Наприклад, бачимо такий tooltip:

Здавалося б, все більш-менш зрозуміло, але погодьтеся, що наступний виглядає і сприймається набагато краще:

Принцип 9. Відстежуйте консистентність даних у вашій візуалізації

Якщо у вас є досить багато джерел даних і ви знаєте, що можливі проблеми з оновленням даних, намагайтеся відстежувати такі кейси.

Можна навіть налаштовувати підказки у візуалізації, що якщо якісь показники виглядають аномальними, краще звернутися до аналітика ніж починати панікувати.

Принцип 10. Робіть візуалізацію інтерактивною

Дешборди не мають бути як картини на виставці в музеї. У користувача даних має бути змога взаємодіяти з інформацією, фільтрувати, обирати потрібне, задавати власні змінні та параметри для звіту.

Це буде зручно для користувача аналітики, адже він отримає інформацію без сторонньої допомоги, коли йому зручно і в якому вигляді потрібно. І для аналітика також гнучкість дешборду зекономить час на ad-hoc запити від своїх колег.

Крім звичайний графіків на основі стандартних шаблонів є цілі напрямки, де візуалізація даних є на рівні з творчістю. Можна поглянути на різні приклади в посиланнях, які я наводжу в кінці.

Часто аналітики або навіть розробники візуалізації (так-так, інколи в компаніях є навіть такі позиції! ) підносять візуалізацію даних уже зовсім на інший рівень. Це не просто зручніший вигляд даних — це цілі історії, проєкти, картини.

Я не впевнена, чи більшості компаній потрібні такі експерименти, але це крутий рівень у візуалізації даних, є цілий безкрайній горизонт розвитку в цій сфері. Проводять круті конференції з візуалізації даних та навіть дають нагороди — майже Оскар!

Підходи до візуалізації даних

В компаніях існують різні підходи до візуалізації даних. Деякі компанії не приділяють цьому багато часу і все ще більше довіряють Excel-таблицям. Зазвичай це все-таки компанії, у яких не так багато інформації і для них можливостей Excel достатньо, кілька візуалізацій в цій системі закривають всі потреби.

Є компанії, і таких, мабуть, наразі більшість в Україні, які підходять до візуалізації даних як до інструменту, який дає відповіді на бізнес-питання. Основна ідея тут, зазвичай, — вирішити конкретні проблеми. Побудова стратегії візуалізації даних відходить на другий план, а на першому — набігами додавати нові вітрини даних під конкретні запити. В цілому у такого підходу багато плюсів:

  • Замовник може отримати якісні відповіді на свої питання, візуалізація зроблена конкретно під його потреби, тому витрати на розуміння цих даних — мінімальні. В такому випадку клієнт має точне бачення про природу даних та скоріше за все використає їх коректно без викривлення.
  • Але мінуси також присутні. Це не дуже масштабована система і аналітикам доводиться робити одні й ті ж речі постійно в різних візуалізаціях. Це також затримує замовника в отриманні даних, адже кожного разу він очікує кастомізований під його запит репорт, а отже йому потрібно дочекатися, коли в аналітика дійде черга до його запиту.

Я вважаю, найкращий підхід — це все-таки розробка базового репортингу, який підтримується аналітиками, тоді й відстежується актуальність, при потребі в чинні вітрини додаються нові дані.

Таким чином є базових 10-30 дешбордів, де можна знайти більшість інформації. В них є широка палітра фільтрів, можливість вивантажити дані в файл для подальшого аналізу. На їхній основі також можна налаштувати алерти, щоб бачити аномалії. Інколи не потрібно навіть нічого нового будувати, адже наявні вітрини уже дають таку можливість.

Розповім про мій підхід, який я уже кілька разів використовувала при побудові аналітики. І сюди ж додам також плани на майбутнє, тому що після закриття основних потреб уже зараз бачу деякі важливі речі, які також треба закрити, щоб візуалізація в компанії була актуальна, зрозуміла, масштабована та легка в підтримці.

Крок 1

Першим кроком при побудові візуалізації є вибір BI-системи або в цілому, де ви хочете свої дані візуалізувати.

Тут потрібно орієнтуватися на такі моменти:

  • ваш бюджет на BI-систему;
  • кількість даних, які у вас є для візуалізації;
  • тип сховища даних (хмарне/локальне);
  • наявні спеціалісти або можливість їх найняти;
  • кількість потенційних користувачів даними, але тут я завжди рекомендую робити так, щоб в кожного співробітника компанії була можливість бачити аналітику.

У роботі мені доводилося найчастіше працювати з Tableau. Це досить популярна система. В українських компаніях найпопулярніші — Tableau, Power BI, Data Studio. Інколи представлений вже Looker.

У Tableau, як завжди, є свої плюси та мінуси.

✅ Основні плюси:

  • багато спеціалістів на ринку, які працюють з цією системою;
  • відносно недорога система (особливо, порівнюючи з Looker);
  • швидкий старт, вам не потрібно витрачати час на безліч дзвінків з sales менеджером (мала такий сумний досвід з Looker та MicroStrategy);
  • досить гнучкий функціонал, що дозволяє зробити цікаві візуалізації;
  • відносно швидке реагування команди підтримки на проблеми (тиждень — два);
  • працює як з хмарними рішеннями, так і з локальними;
  • приємні бонуси: налаштування розсилок, алертів та інтеграція зі Slack.

❌ Ну і, звичайно, найбільші мінуси:

  • швидкість роботи, Tableau — не найшвидша система 🙁;
  • часто візуалізація по дефолту виглядає страшненько (навіть порівнюючи з Data Studio), тому треба докласти зусиль, щоб візуалізація виглядала більш звично нам. Наприклад, щоб побудувати donut chart замість звичайного pie chart доведеться дуже постаратися;
  • сама інфраструктура, як на мене, розрахована більше на маленький або середній бізнес. При великій кількості дешбордів, джерел даних, відстежувати актуальність даних та всі інтеграції, ще й підтримувати потрібні типи доступів стає не дуже легко. Тому адмінчастина могла б бути і кращою.

В цілому, всі популярні BI-системи схожі одна на одну. У великих компаніях частенько наймають окрему людину або кілька людей, які будуть робити лише візуалізацію в компанії. Це позиція BI Analyst/ BI Developer.

Така позиція відрізняється від дата-аналітика тим, що передбачає повну зайнятість із розробкою вітрин даних без участі в аналізах або інших задачах з аналітики. BI-спеціаліст має вміти показати дані зрозуміло та в зручному для бізнесу вигляді.

Крім BI-систем в продуктових компаніях дуже популярними є такі інструменти: Google Analytics, Mixpanel та Amplitude.

Думаю, Google Analytics є в цілому must have інструмент, якщо у вас website або мобільний застосунок. Сильні сторони GA: ви знаєте об’єми вашого трафіку, з досвіду бачу, що GA дуже добре відсіює будь-яку ботову активність. Часто навіть платні сервіси пропускали згенерований трафік, а GA його не враховує.

І, звичайно, інша сильна сторона — це відстежування джерел трафіку. Налаштування Google Analytics швидке, через Tag Manager аналітики та інші не технічні спеціалісти зможуть додавати відстежування різних подій на сайті. Тому рекомендую не нехтувати таким інструментом.

Amplitude і MixPanel також непогані тулзи. Але тут потрібно звичайно більше часу витратити на налаштування цих систем, подумати, як взагалі ви хочете міряти продукт і через які показники. Але після цього Amplitude і MixPanel дають широкі можливості в налаштуванні різних кастомізованих аналізів продуктовим менеджерам, що частково звільняє аналітиків від запитів.

Деякі компанії для більшої гнучкості приходять до розробки та підтримки власного інтерфейсу для аналітики. Це також непоганий підхід. Звичайно, він потребує дуже багато часу та ресурсів в порівнянні з уже готовими інструментами. Але ви нічим не обмежені.

Проте тут постійно мають бути залучені розробники й, можливо, data visualisation developer. В Україні такий підхід не дуже популярний, адже компанії навпаки націлені не долучати розробку до аналітики.

Крок 2: Навчання ваших колег користуватися обраними інструментами

Не важливо, чи обрали ви BI-систему, чи інтегрували Amplitude або MixPanel, чи побудували власну, — не ігноруйте той факт, що ваші колеги в компанії автоматично не отримали знання, як цією красою користуватися.

Тому буде не зайвим провести навчання, записати його на відео та ділитися з новими колегами. З досвіду бачу, що люди, які користуються якоюсь системою навіть кілька років, дуже часто не знають про всі можливості цього інструменту.

На поточному місці роботи маю дуже класний кейс з однією з наших команд, для яких ми провели кілька зустрічей з Tableau, показали такі додаткові можливості як створення кастомізованих view на основі існуючих дешбордів, відправку репортів на пошту або в Slack, створення алертів, використання параметрів для управління відображенням даних та інше.

І тепер учасники команди настільки класно освоїли цей інструмент, що самостійно уже проводять навчання новим колегам та звертаються до нас дуже точково, коли потрібно додати нову інформацію. Всі інші дії вони роблять самостійно.

Також не варто бути жадібними і не давати доступи іншим колегам на редагування дешбордів. Звичайно, це мають бути якісь їх власні копії основних вітрин даних, але якщо людина хоче актуальний дешборд перебудувати в зручний для себе вигляд або покрутити дані для якоїсь певної задачі — чому б і ні? Адже BI створені якраз для цього.

Крок 3: Інформування

Коли уже аналітикою користується дуже багато людей в компанії, важливо тримати всіх в курсі актуальності інформації, змін в логіках або дешбордах, затримках в даних, проблемах з BI-системою.

Наприклад, в нас зараз є загальний чат в компанії з аналітики, куди моя команда пише нотіфікейшени про великі зміни в дешбордах, проблеми з базами даних, а значить, і затримкою з оновленням даних, та інші апдейти, як оновлення BI-системи до нової версії і її недоступність протягом якогось часу чи щось схоже.

Крок 4. Уніфікація

Винесла це останнім кроком, тому що в поточній компанії в мене це зараз в роботі, але було б круто цей момент починати враховувати уже другим кроком. Що мається на увазі під уніфікацією? Я сюди відношу дотримання одного дизайну при візуалізації. Дуже круто з самого початку розробити шаблон для вашої BI-системи в корпоративному стилі й дотримуватися його.

Це допоможе користувачам аналітики в будь-якій вітрині даних відразу орієнтуватися, де знаходяться фільтри, в якій вони послідовності, де шукати опис.

Також відстежуйте всі свої метрики та не допускайте, щоб різні показники називалися однаково або ж, навпаки, один і той самий — по-різному. Тут допоможе створення metrics map, де ви будете документувати всі свої dimensions і metrics з описом, формулами розрахунку і точною назвою, як вона має виглядати в репортах.

Наприклад, зараз в мене в команді йде проєкт з уніфікації всіх показників, і ми проводимо user_id, ID_user, us_id, User ID, USER ID, id user в різних дешбордах до User ID, в карту метрик записуємо, що ще за dimension, де він зберігається в базі.

Таким чином у користувачів не буде питань про метрики у звітах, адже якщо вони однаково називаються — вони мають означати одне й теж.

Як висновок

В цілому можу сказати, що візуалізація та її якість стає важливою частиною аналітики в наш час. Ми вже шукаємо спеціалістів, які можуть розповідати історії через дані (data storiteling), а в компетенції розвитку аналітиків також включаємо вміння якісно і доступно показувати інформацію.

І важливим моментом є, що візуалізація — це не фінальна ціль, фінальна ціль — допомогти бізнесу приймати вдалі рішення на основі актуальних даних. Візуалізація тут виступає лише інструментом, тому варто його використовувати доцільно.

Буду рада вашим питанням та кейсам з власного досвіду!

Додаткові матеріали за цією темою:

Принципи візуалізації:

Data Storytelling:

Посилання для натхнення:

datavizproject.com
flowingdata.com
www.economist.com/graphic-detail
nightingaledvs.com/tag/data-visualization
public.tableau.com/...​p/discover/viz-of-the-day

👍ПодобаєтьсяСподобалось31
До обраногоВ обраному19
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Дуже дякую Вам за вашу цікаву статтю, за цікавий аналіз

Дякую за корисний та структурований матеріал! Завжди вважав вдалу візуалізацію чинником успіху в комунікації

Дякую за статтю! Сподобалося структура та доступність матеріалу. Окремо лайк за корисні посилання.

Класна стаття, дякую) Data Storytelling — це як окремий вид мистецтва аналітики

Не став японські свічки генеральному директору)

Крута стаття!
Я нещодавно думала вже самій сідати і писати таку, бо на просторах укр. інтернету не було нічого настільки інформативного і доступного, і тут як раз ваша стаття виходить 💪
Збережу в закладки :)

Підписатись на коментарі