Методи data investigation для data visualization

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Вітаю вас у статті присвяченій методам дослідження даних для побудови візуалізацій. Мене звуть Ілля Маляренко, я — BI/Data Engineer в компанії Yalantis, маю понад чотири років комерційного досвіду.

У статті я поділюсь досвідом побудови сертифікованих дашбордів, разом оглянемо використання нових технологій з ШІ у їх побудові та дізнаємось, як саме вони можуть збільшити вашу цінність як розробника на проєкті; які переваги та недоліки мають та як можуть допомогти в аналізі та розвідці даних не тільки зі сторони розробників, а й Data-спеціалістами.

Огляд та опис проблеми

Працюючи з даними, ми часто опиняємося перед завданням презентувати їх колегам, керівництву чи просто користувачам. Це вимагає не лише глибокого розуміння даних, але й вміння знайти спільну мову з нетехнічними фахівцями, особливо коли вони ставлять перед вами завдання, яке базується на нечітких або неповних даних. Такі ситуації можуть призвести до постійних змін у проєкті та затягування термінів його реалізації.

Важливо визнати, що в багатьох випадках, особливо на великих проєктах, частина команди може не мати технічного бекграунду або навичок роботи з SQL. Це вимагає від нас подавати інформацію в доступній та зрозумілій формі. Замість складних запитів і таблиць ми можемо використовувати презентації та дашборди, які висвітлюють ключові метрики у зрозумілій візуальній формі.

Це не тільки дозволить легше донести інформацію до керівництва та інших зацікавлених сторін, але й уникнути необхідності пояснювати базові концепції або відповідати на прості запитання.

Такі інструменти, як Quicksight Q, надають можливість всім членам команди, незалежно від їхнього технічного рівня, взаємодіяти з даними безпосередньо, аналізувати їх та робити висновки. Це значно спрощує процес роботи з даними та робить аналітику доступною для ширшого кола спеціалістів, включаючи тих, хто може не мати технічного бекграунду..

Почнемо огляд дашбордів як приклад представлення даних. Їх побудова складається з наступних етапів:

  • визначення предметної сфери та необхідних показників для подальшої візуалізації;
  • підготовка даних, що охоплює взаємодію декількох спеціалістів;
  • data-тестування та валідація;
  • створення моделі, розрахунок функцій;
  • створення дашборду BI спеціалістом на основі підготовлених даних, включаючи уточнення їх сутності та зміну;
  • визначення та підготовка структури даних за необхідності;
  • валідація отриманих результатів, нерідко із залученням різних спеціалістів;
  • аналіз швидкодії репорту;
  • представлення готового результату.

Під час створення дашбордів розробнику часто доводиться постійно спілкуватися з іншими фахівцями, що частіше уповільнює процес створення готового продукту.

Інколи для роботи достатньо простого табличного вигляду даних, але навіть у такому випадку потрібно розуміти, які дані та їх взаємозв’язки ми використовуємо. У великих проєктах це може означати роботу з великою кількістю таблиць або датасетів, кожен з яких створений різними людьми. Ці люди знають всі деталі про свої дані, але інформація часто зберігається лише в їхній голові.

Коли вам дають завдання показати дані кінцевому користувачу, вам зазвичай потрібно спілкуватися відразу з кількома особами, й існує ризик, що завдання може змінюватися через неповне розуміння даних. Крім того, зі зростанням проєкту з’являється занадто багато візуалізацій, їх починають рідше переглядати, що призводить до пропущених аномалій або несвоєчасного реагування на них.

Для ефективної роботи з даними потрібна людина зі знанням SQL, відповідних технологій і розумінням сфери діяльності, а також знанням метрик і основ ERD. З мого практичного досвіду, можу сказати, що близько половини компанії може взагалі не мати навичок SQL або технічного бекграунду і саме вони можуть бути кінцевим користувачем або ухвалювати рішення.

Головна мета під час роботи з даними — зменшити час, витрачений на підготовку даних та спілкування між учасниками проєкту, а також забезпечити швидку реакцію на будь-які аномалії, зменшити час на виконання завдань із невизначеними вимогами і без чіткого розуміння того, як завдання буде прийнято.

Практичний кейс, що вирішують технології з ШІ

Завдання:

  • отримання результатів аналізу активностей клієнтів/користувачів продукту компанії, без створення окремих датафлоу на рівні «результат даних-користувач» для всіх відділів;
  • покращення каналів залучення користувача даних, покращений контроль потреб;
  • спрощення роботи різних відділів, які постійно використовують дані, виявлення інсайтів та багатофакторний аналіз шляхом роботи з даними широко спектру спеціалістів компанії;
  • надання нетехнічним спеціалістам можливості самостійного аналізу даних і спрощення робочого процесу аналітикам даних;
  • Розвантаження Data-команди.

Технічне рішення:

  • підключення додаткового пакета послуг AWS Quicksight — Q;
  • за потреби вдосконалення data-процесингу через DBT/Airflow;
  • автоматизація збору/зберігання/відображення даних для нетехнічного персоналу шляхом впровадження технологій ШІ з розпізнаванням письмових запитів.

Необхідні дії:

  1. Впроваджено платформу даних у приватному кластері.
  2. Створення груп датасетів під цільову аудиторію користувачів даних на основі інформації з різних джерел даних та систем сповіщень.
  3. Розгортання системи Quicksight Q на наявних даних для подальшої автоматичної побудови візуалізацій, подальша індексація та конфігурація даних через Quicksight Q.
  4. Підтримка та вдосконалення створеної системи.

Технології для автоматизації аналізу

Для огляду можливостей допомоги від ШІ ми оглянемо QuickSight Q (AWS).

Amazon QuickSight Q — це інструмент для бізнес-аналітики від Amazon, який дозволяє користувачам легко ставити запитання про свої дані та отримувати відповіді у формі візуалізацій. Він не потребує спеціальних навичок чи детальних знань про дані. Наразі він є у бета-доступі та постійно вдосконалюється.

Основні можливості:

  • автоматичне будування візуалізацій;
  • формулювання запитів природною мовою;
  • автоматичне виявлення та аналіз трендів у даних;
  • надання зворотного звʼязку авторам даних;
  • інтеграція з багатьма технологіями;
  • шифрування та керування доступом.

Як увімкнути аддон Q для Quicksight

  1. На стартовій сторінці QuickSight виберіть своє ім’я користувача вгорі праворуч, а потім виберіть Manage QuickSight.
  2. Ліворуч виберіть Your subscriptions.
  3. На сторінці Manage Subscription, що відкриється, виберіть Get Q add-on.
  4. На сторінці Get QuickSight Q add-on, виберіть регіони AWS, для яких ви хочете отримати надбудову, а потім натисніть кнопку Continue.
  5. На наступній сторінці ознайомтеся з інформацією про ціни на Q add-on, а потім виберіть Confirm subscription.
  6. Налаштування Q може зайняти декілька хвилин. Після завершення налаштування у верхній частині сторінки Topics з’явиться рядок стану, який підтвердить, що ви підписані й що налаштування завершено.

QuickSight Q працює на основі топіків, які є набором даних, що представляють предметну сферу — продажі, медіа або маркетинг, і про які можна поставити запитання. За допомогою них, ви можете окремо відокремити кейси використання даних з детальним налаштуванням під кожну задачу.

Кожен топік може бути підключений одночасно до кількох датасетів, котрі можуть бути з різних джерел з окремою конфігурацією частоти оновлень.

Після створення нового топіку, Q проаналізує наявні дані для розуміння форматів та схеми.

Сторінка перегляду топіку надає вам доступ до такої інформації як статистика використання, відгуки кінцевих користувачів, налаштування даних та автоматично згенеровані питання, котрі можуть бути використані для детальнішого конфігурування.

Quicksight Q покладається саме на взаємодію авторів та кінцевих користувачів.

Workflow використання топіку виглядатиме так:

  1. Підготовка даних.
  2. Створення топіку та конфігурування синонімів.
  3. Конфігурування іменних сутностей та груп.
  4. Попередня підготовка заготовлених питань.
  5. Отримання зворотного звʼязку від кінцевих користувачів.
  6. Огляд, аналіз та конфігурація топіку відносно наданих відгуків користувачів.

Кожен користувач після отримання результату, може надати відгук з коментарем та оцінкою, яку бачить автор топіку. За необхідності, невірно надана відповідь може бути вручну перероблена та підлаштована під очікуваний результат. Автор може досліджувати запити до даних та детальну статистику, краще розуміючи кейси.

Перейдемо до більш детального конфігурування даних. Ви можете вибрати конкретні колонки, які слід використовувати та вказати необхідні синоніми для кожної колонки. Оскільки Q працює з природною мовою, бажано використовувати найбільш ймовірні у використанні кінцевим користувачем назви метрик та розмірностей.

Окрім цього, вам доступне детальне конфігурування агрегації, форматування та визначення типу даних.

Додатково до звичайного конфігурування колонок, вам доступне налаштування звʼязків колонок та їх групування. Ви можете визначити яка саме комбінація та в якій пріоритетності колонок буде використовуватись під певним імʼям. Це може бути корисним у випадку, коли треба визначити збірне імʼя для понять та вказати конкретні параметри групування.

Для використання Q необхідно натиснути кнопку ASK у верхньому правому кутку незалежно від відкритої сторінки Quicksight.

У відкритому вікні будуть згенеровані пропозиції — що можна запитати, кнопка збережених візуалізацій PINBOARD, можливість вибрати топік та переглянути основні дані про нього.

Зрештою користувач може писати запити та отримувати одразу декілька можливих варіантів з такими можливостями:

  • детальний огляд конкретної візуалізації;
  • побудови передбачення даних;
  • побудова дашборду на основі згенерованих візуалізацій;
  • закріплення візуалізації для повторного використання;
  • зміна формату та типу візуалізації;
  • отримання висновків на основі візуалізації та її типу за основними характеристиками.

Крім звичайних запитань, топік може бути закріплений за певним аналізом, що значно розширює та прискорює роботу авторів дашбордів.

На додачу до генерації візуалізацій, Q може відредагувати вже наявну візуалізацію.

Кінцевий користувач, використовуючи дашборд додатково до питань, може ще отримати короткий опис вибраного листа. Для увімкнення даної функції треба вказати підтримку Executive summary під час публікації аналізу в дашборд.

Практична цінність застосування цієї технології полягає в зменшенні запитів до аналітиків та інженерів від нетехнічних фахівців та можливість для них самостійно аналізувати дані для постановки ТЗ. А для авторів це може значно прискорити темпи побудови візуалізацій.

Недоліки:

  • ця технологія не може повноцінно замінити BI спеціаліста через відсутність знання предметної сфери, сутності та взаємозвʼязку даних;
  • обмежена можливостями AWS QuickSight у побудові та налаштуванні візуалізацій;
  • потребує попереднього налаштування та підгонки під кінцеві запити;
  • необхідність в регулярній перевірці та виправленні некоректних відповідей.

Окремо виділю практичні поради для побудови топіку та роботи з Quicksight Q:

  • для даних бажано використовувати невеликі обсяги даних, котрі зберігаються на Quicksight Spice для пришвидшеної обробки;
  • варто виключити колонки зі спільними іменами чи частинами імен, або перейменувати їх для запобігання хибного трактування назв;
  • під час використання топіку бажано користуватись лише одним підготовленим датасетом, через можливу дублікацію назв колонок та плутанину в інтерпретації з боку Quicksight Q;
  • найкраще для топіків підходять саме сертифіковані датасети, через великий ступінь очищення;
  • у разі обчислень складних формул, віддавайте перевагу Calculated Field від Quicksight Q на відміну від створення колонок в DBT\ETL pipeline — це зменшить проблеми з інтерпретацією результатів через прозорість перетворень та відстежування початкових полів;
  • для синонімів бажано використовувати лише одне слово;
  • синоніми — це не категорії; до прикладу, не можна вказувати MoM (percentage change month over month) чи YoY для метрик, що позначають місячний\річний процентний ріст. Натомість краще покласти ці обрахунки на Calculated Field чи Quicksight Q, а такі метрики прибрати з топіку.

Дякую за увагу. Сподіваюсь, ці поради та огляд були корисними та допоможуть оптимізувати процеси на вашому проєкті.

👍ПодобаєтьсяСподобалось3
До обраногоВ обраному2
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Важливо визнати, що в багатьох випадках, особливо на великих проєктах, частина команди може не мати технічного фону

А можете будь ласка пояснити що таке цей технічний фон? Якщо це гугло переклад technical background, то цікаво хто вичитував статтю перед публікацією

Дякую за відгук. Це не гугл переклад, старався максимально уникати англіцизмів.

Підписатись на коментарі