Тренди в аналітиці даних, які варто знати в 2024 році
Привіт! Мене звати Дмитро Іщенко, я Senior Data Scientist у Snap Inc. Маю більше ніж сім років досвіду в аналітиці, з них останні чотири роки — в американській компанії Snap Inc., яка розвиває застосунок Snapchat. У минулому — Head of Data Analytics в Jiji, онлайн-дошці оголошень, що є портфельною компанією інтернет-холдингу Genesis. Лектор благодійного курсу з Data Science в інституті Projector.
Дані все більше стають відмінною рисою між переможцями та тими, хто залишається позаду в бізнесі. Перехід до data-driven підходу, де рішення ухвалюються на основі моделей та досліджень, а не за «шостим чуттям», є ключовим для хвилі цифрової трансформації, що охоплює кожну галузь у 2023 році. Це допомагає нам реагувати з впевненістю на невизначеності — особливо, коли пандемії та війна порушують усталений порядок речей.
У цій статті я поділюсь думками про сучасні тренди в аналітиці даних, які нам варто знати в 2024 році. І тим, які висновки й поради можемо із цього виокремити.
Тренд перший. Демократизація даних
Цей тренд далеко не новий, розпочався давно і все ще продовжує набирати оберти. Здешевлення зберігання даних, спрощення їх збору та логістики, збільшення кількість компаній, які надають сервіси для обробки даних тощо. Так, наприклад, ціна за 1 ТБ дискової пам’яті впала з 45$ до 14$ за останні 10 років. При цьому відбувається масова міграція на хмарні сервіси, з 30% у 2015 році до близько 60% у 2022, що призводить до зменшення витрат на розробку та підтримку. Масове застосування GPU кардинально розширило можливість обробляти величезні об’єми шляхом паралелізму.
Те, для чого раніше треба було мати команду інженерів на фултайм, зараз може зробити один інженер за тиждень. Наявність OLAP DB та BI системи раніше було прерогативою великих компаній, а зараз це починають додавати на етапі стартапу.
Тренд другий. Складні продукти
Сім років тому юніт-економіку типового продукту можна було описати на одному слайді: «Ми беремо відсоток з продажу», «Ми продаємо підписки», «У нас прибуток з реклами». Конкуренція на ринку та спрощення розробки перетворює продукти на цілі екосистеми. Пам’ятаєте, коли Netflix продавали тільки підписки, а Amazon тільки товари? Зараз кожен з них — це структура бізнесів, де перемішані різні методи монетизації та продукти: від підписок до NFT, від вертикальних відео до чат-ботів. Цей тренд так само впливає на середній бізнес.
Зараз ти не просто маєш бути фітнес-апкою за підпискою. Щоб твоя юніт-економіка склалась, треба додавати продаж персональних занять та внутрішній магазин товарів (Better Me). Щоб користувачі краще повертались, треба додавати свій тікток на спортивну тематику (LeapFitness) та гейміфікацію з нагородами (Playfitt). Усе це вимагає й відповідних змін у роботі дата-аналітика.
Тренд третій. AI та машинне навчання
Слово AI стало словом року 2023 повністю заслужено. З’явилося просто безліч компаній, які використовують deep learning у продукті. Від мовних моделей до генерації відео. По-перше, все більше компаній інтегрують ШІ у свій продукт, або навіть використовують його як основу свого бізнесу. По-друге, ці системи драматично змінюють кількість часу, який ти витрачаєш на певні задачі. Роблять плагіни, які допомагають в написанні коду, або навіть генерують цей код за тебе. ШІ-помічники, які відповідають на запитання набагато точніше та якісніше, ніж самостійний пошук в інтернеті.
У листопаді 2022 року був реліз ChatGPT-3.5, який міг допомагати з написанням звітів, перекладом і самарізацією. Менш ніж за пів року, в березні 2023, відбулась презентація GPT-4, яка вже не допомагає — він пише величезні шматки якісного звіту з ваших нотаток. Він навчився майже досконало писати регулярні вирази та генерувати суттєві шматки робочого коду. Минув ще місяць, з’являються плагіни для візуалізації даних прямо з інтерфейсу OpenAI. У вересні 2023 року — Advanced Data Analysis mode, що повністю забирає на себе роботу з аналізу невеликих таблиць.
Зміни трапляються так стрімко, що буквально в ніч написання статті відбувся анонс Github Copilot Workspace, новий важливий крок до епохи Low-Code/No-Code дата-аналізу.
Як це впливає на роботу Data Scientist
Вісім років тому робота аналітика суттєво відрізнялась від теперішньої рутини. Як я згадував вище, незворотно триває здешевлення зберігання і використання даних (що фінансово, що й за часом). Даних більшає, і з’являються нові можливості їх швидко опрацьовувати. Більшість молодих дата аналітиків ніколи не використовували MapReduce моделі безпосередньо. Їхня роль зводиться до вибору та налаштування слушного рішення для свого продукту. Те, що раніше було зоною відповідальності інженерів, перемістилося під відповідальність аналітиків. Попри те, що фундаментально збір та обробка є критично важливою частиною роботи дата аналітика, відсоток робочого часу, який на це витрачається — падає.
На аналітика частіше переноситься ухвалення рішень з вибору готових рішень. Важливо знати ринок відповідних продуктів (та особливо хмарних сервісів) та їхні основні концепції. Розуміти їхні особливості та те, як підібрати рішення саме для свого продукту.
Останні досягнення ШІ та надто мовних моделей драматично пришвидшили ці темпи. Написання регулярних виразів, SQL-запитів та робота з GSheet уже зводяться до одного запиту в ChatGPT. Ви можете використовувати ці надбання, і мусите, бо це питання швидкості, а відповідно конкурентна перевага. Скоро ці навички не будуть перераховувати в описі вакансії, як зараз не перераховують вміння, наприклад, користуватись пошуком Google.
Важливо навчитись відстежувати ці тренди. Знаходити статті та швидко їх опрацьовувати. Відфільтровувати сміття та збирати кращі інструменти для підвищення своєї ефективності та ефективності команди.
Якщо відсоток часу на ці задачі падає, то куди й на що витрачається більше часу? Отже, продукти стають складніші. Складність продукту росте не лінійно від кількості нових функцій. Так, наприклад, додавання нового use case потребує не тільки його безпосереднього аналізу, але і його вплив на всі інші наявні елементи продукту. Для цього потрібно більше ресурсу на дослідження продукту та побудову моделей. Опис та презентація результатів дослідження може вимагати набагато більше часу, ніж додавання нових івентів та обробка даних. Парадокс, що легкість у побудові звітів повинна зменшувати навантаженість на аналітика від ad-hoc-запитів, проте їхня кількість тільки зростає.
Від аналітика очікують, що він знатиме, де саме його робота матиме найбільшу додаткову вартість, та отримуватиме безпосередньо рекомендації для продукту. Презентуватиме результати в зрозумілому вигляді для замовника та готуватиме пропозиції.
Окрім того, ускладнення продуктів та імплементація ШІ веде до викликів в аналізі нових даних. Як аналізувати діалоги віртуального асистента з користувача, щоб зрозуміти, що останній залишився задоволеним? Які коментарі під вашими постами є ботами, а що пишуть реальні люди? Нові типи даних та ШІ моделі потребують нових рішень. Відповідно до цього, роль навичок з машинного навчання зростає. Уже зараз основи машинного навчання є необхідним мінімумом. Важливо вміти знаходити та читати відповідні наукові статті, щоб застосовувати їхні здобутки для своїх нетипових задач.
Про майбутнє замість постскриптум
Також поговорімо коротко про деякі тренди, на які варто звернути увагу вже зараз, і які, на мою думку, стануть головними вже в найближчі роки.
Збільшення ролі предиктивного аналізу — класичні методи прогнозування суттєво програють за якістю новим моделям (наприклад, Prophet). Водночас зростає бажання бізнесу прогнозувати ключові показники та швидко реагувати на відхилення.
Аналіз даних для IoT продуктів — Internet of Things продовжує набирати оберти. Відповідно збільшується кількість вакансій аналітиків для цих продуктів. З’являються нові типи даних про фізичний світ навколо: рухи рук та пульс з фітнес-браслетів, показники якості повітря та температури з приладів розумного дому. Багато відеозаписів з різних камер, з яких ви можете діставати інформацію, багато інформації. Продукт хоче на основі цієї інформації будувати метрики та моделі, і для вас це нові та нові виклики.
Ця галузь ще достатньо молода та розвивається. Проте деякі спеціалісти очікують стрімкий ріст уже найближчими роками.
Безпека даних користувача та Data Governance — тренд, який міг би стояти на першому місці. Йому зараз присвячують сотні статей найкращі автори в Європі та США. Багато компаній інвестують мільйони та мільярди, щоб відповідати вимогам урядів, та захистити своїх користувачів. Події останніх років, як-от масштабні потоки персональних даних користувачів або штрафи за їхнє недобросовісне використання, нарешті призвели до пильної уваги зі сторони користувачів та держав.
На жаль (або на щастя), цей тренд усе ще не дуже актуальний для України, тому перебуває на цьому місці в списку. Проте якщо ви або ваша компанія працює в міжнародному полі та є достатньо великою, (і надто якщо використовує генеративні ШІ моделі), готуйтесь, що Data Governance стане найуживанішим словом вашого робочого дня, а юрист — найкращим другом.
Висновки
Тренд на спрощення роботи з даними залишається незмінним уже багато років, і нові здобутки ШІ дали цьому тренду новий поштовх. Усе більше робота аналітика зміщується в бік продукту, що потребує поглиблення його розуміння. Водночас також збільшуються вимоги до технічних навичок, які пов’язані з машинним навчанням.
Звісно, ми залишаємо поза увагою базові навички, які мають бути за замовчуванням: статистика, програмування та софт-скіли. Звертайте уваги на тренди, проте не забувайте, що навички критичного аналізу, досвід швидко навчатись і вміння комунікувати є і буде залишатись фундаментом вашої професії.
З поганих новин: навіть якщо ви працюєте багато років, вам скоро доведеться здобувати купу нових знань і навичок, щоб залишатися конкурентним на ринку. З добрих новин: робота аналітика стає набагато цікавішою!
10 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів