Тренди в аналітиці даних, які варто знати в 2024 році

Привіт! Мене звати Дмитро Іщенко, я Senior Data Scientist у Snap Inc. Маю більше ніж сім років досвіду в аналітиці, з них останні чотири роки — в американській компанії Snap Inc., яка розвиває застосунок Snapchat. У минулому — Head of Data Analytics в Jiji, онлайн-дошці оголошень, що є портфельною компанією інтернет-холдингу Genesis. Лектор благодійного курсу з Data Science в інституті Projector.

Дані все більше стають відмінною рисою між переможцями та тими, хто залишається позаду в бізнесі. Перехід до data-driven підходу, де рішення ухвалюються на основі моделей та досліджень, а не за «шостим чуттям», є ключовим для хвилі цифрової трансформації, що охоплює кожну галузь у 2023 році. Це допомагає нам реагувати з впевненістю на невизначеності — особливо, коли пандемії та війна порушують усталений порядок речей.

У цій статті я поділюсь думками про сучасні тренди в аналітиці даних, які нам варто знати в 2024 році. І тим, які висновки й поради можемо із цього виокремити.

Тренд перший. Демократизація даних

Цей тренд далеко не новий, розпочався давно і все ще продовжує набирати оберти. Здешевлення зберігання даних, спрощення їх збору та логістики, збільшення кількість компаній, які надають сервіси для обробки даних тощо. Так, наприклад, ціна за 1 ТБ дискової пам’яті впала з 45$ до 14$ за останні 10 років. При цьому відбувається масова міграція на хмарні сервіси, з 30% у 2015 році до близько 60% у 2022, що призводить до зменшення витрат на розробку та підтримку. Масове застосування GPU кардинально розширило можливість обробляти величезні об’єми шляхом паралелізму.

Те, для чого раніше треба було мати команду інженерів на фултайм, зараз може зробити один інженер за тиждень. Наявність OLAP DB та BI системи раніше було прерогативою великих компаній, а зараз це починають додавати на етапі стартапу.

Тренд другий. Складні продукти

Сім років тому юніт-економіку типового продукту можна було описати на одному слайді: «Ми беремо відсоток з продажу», «Ми продаємо підписки», «У нас прибуток з реклами». Конкуренція на ринку та спрощення розробки перетворює продукти на цілі екосистеми. Пам’ятаєте, коли Netflix продавали тільки підписки, а Amazon тільки товари? Зараз кожен з них — це структура бізнесів, де перемішані різні методи монетизації та продукти: від підписок до NFT, від вертикальних відео до чат-ботів. Цей тренд так само впливає на середній бізнес.

Зараз ти не просто маєш бути фітнес-апкою за підпискою. Щоб твоя юніт-економіка склалась, треба додавати продаж персональних занять та внутрішній магазин товарів (Better Me). Щоб користувачі краще повертались, треба додавати свій тікток на спортивну тематику (LeapFitness) та гейміфікацію з нагородами (Playfitt). Усе це вимагає й відповідних змін у роботі дата-аналітика.

Тренд третій. AI та машинне навчання

Слово AI стало словом року 2023 повністю заслужено. З’явилося просто безліч компаній, які використовують deep learning у продукті. Від мовних моделей до генерації відео. По-перше, все більше компаній інтегрують ШІ у свій продукт, або навіть використовують його як основу свого бізнесу. По-друге, ці системи драматично змінюють кількість часу, який ти витрачаєш на певні задачі. Роблять плагіни, які допомагають в написанні коду, або навіть генерують цей код за тебе. ШІ-помічники, які відповідають на запитання набагато точніше та якісніше, ніж самостійний пошук в інтернеті.

У листопаді 2022 року був реліз ChatGPT-3.5, який міг допомагати з написанням звітів, перекладом і самарізацією. Менш ніж за пів року, в березні 2023, відбулась презентація GPT-4, яка вже не допомагає — він пише величезні шматки якісного звіту з ваших нотаток. Він навчився майже досконало писати регулярні вирази та генерувати суттєві шматки робочого коду. Минув ще місяць, з’являються плагіни для візуалізації даних прямо з інтерфейсу OpenAI. У вересні 2023 року — Advanced Data Analysis mode, що повністю забирає на себе роботу з аналізу невеликих таблиць.

Зміни трапляються так стрімко, що буквально в ніч написання статті відбувся анонс Github Copilot Workspace, новий важливий крок до епохи Low-Code/No-Code дата-аналізу.

Як це впливає на роботу Data Scientist

Вісім років тому робота аналітика суттєво відрізнялась від теперішньої рутини. Як я згадував вище, незворотно триває здешевлення зберігання і використання даних (що фінансово, що й за часом). Даних більшає, і з’являються нові можливості їх швидко опрацьовувати. Більшість молодих дата аналітиків ніколи не використовували MapReduce моделі безпосередньо. Їхня роль зводиться до вибору та налаштування слушного рішення для свого продукту. Те, що раніше було зоною відповідальності інженерів, перемістилося під відповідальність аналітиків. Попри те, що фундаментально збір та обробка є критично важливою частиною роботи дата аналітика, відсоток робочого часу, який на це витрачається — падає.

На аналітика частіше переноситься ухвалення рішень з вибору готових рішень. Важливо знати ринок відповідних продуктів (та особливо хмарних сервісів) та їхні основні концепції. Розуміти їхні особливості та те, як підібрати рішення саме для свого продукту.

Останні досягнення ШІ та надто мовних моделей драматично пришвидшили ці темпи. Написання регулярних виразів, SQL-запитів та робота з GSheet уже зводяться до одного запиту в ChatGPT. Ви можете використовувати ці надбання, і мусите, бо це питання швидкості, а відповідно конкурентна перевага. Скоро ці навички не будуть перераховувати в описі вакансії, як зараз не перераховують вміння, наприклад, користуватись пошуком Google.

Важливо навчитись відстежувати ці тренди. Знаходити статті та швидко їх опрацьовувати. Відфільтровувати сміття та збирати кращі інструменти для підвищення своєї ефективності та ефективності команди.

Якщо відсоток часу на ці задачі падає, то куди й на що витрачається більше часу? Отже, продукти стають складніші. Складність продукту росте не лінійно від кількості нових функцій. Так, наприклад, додавання нового use case потребує не тільки його безпосереднього аналізу, але і його вплив на всі інші наявні елементи продукту. Для цього потрібно більше ресурсу на дослідження продукту та побудову моделей. Опис та презентація результатів дослідження може вимагати набагато більше часу, ніж додавання нових івентів та обробка даних. Парадокс, що легкість у побудові звітів повинна зменшувати навантаженість на аналітика від ad-hoc-запитів, проте їхня кількість тільки зростає.

Від аналітика очікують, що він знатиме, де саме його робота матиме найбільшу додаткову вартість, та отримуватиме безпосередньо рекомендації для продукту. Презентуватиме результати в зрозумілому вигляді для замовника та готуватиме пропозиції.

Окрім того, ускладнення продуктів та імплементація ШІ веде до викликів в аналізі нових даних. Як аналізувати діалоги віртуального асистента з користувача, щоб зрозуміти, що останній залишився задоволеним? Які коментарі під вашими постами є ботами, а що пишуть реальні люди? Нові типи даних та ШІ моделі потребують нових рішень. Відповідно до цього, роль навичок з машинного навчання зростає. Уже зараз основи машинного навчання є необхідним мінімумом. Важливо вміти знаходити та читати відповідні наукові статті, щоб застосовувати їхні здобутки для своїх нетипових задач.

Про майбутнє замість постскриптум

Також поговорімо коротко про деякі тренди, на які варто звернути увагу вже зараз, і які, на мою думку, стануть головними вже в найближчі роки.

Збільшення ролі предиктивного аналізу — класичні методи прогнозування суттєво програють за якістю новим моделям (наприклад, Prophet). Водночас зростає бажання бізнесу прогнозувати ключові показники та швидко реагувати на відхилення.

Аналіз даних для IoT продуктів — Internet of Things продовжує набирати оберти. Відповідно збільшується кількість вакансій аналітиків для цих продуктів. З’являються нові типи даних про фізичний світ навколо: рухи рук та пульс з фітнес-браслетів, показники якості повітря та температури з приладів розумного дому. Багато відеозаписів з різних камер, з яких ви можете діставати інформацію, багато інформації. Продукт хоче на основі цієї інформації будувати метрики та моделі, і для вас це нові та нові виклики.

Ця галузь ще достатньо молода та розвивається. Проте деякі спеціалісти очікують стрімкий ріст уже найближчими роками.

Безпека даних користувача та Data Governance — тренд, який міг би стояти на першому місці. Йому зараз присвячують сотні статей найкращі автори в Європі та США. Багато компаній інвестують мільйони та мільярди, щоб відповідати вимогам урядів, та захистити своїх користувачів. Події останніх років, як-от масштабні потоки персональних даних користувачів або штрафи за їхнє недобросовісне використання, нарешті призвели до пильної уваги зі сторони користувачів та держав.

На жаль (або на щастя), цей тренд усе ще не дуже актуальний для України, тому перебуває на цьому місці в списку. Проте якщо ви або ваша компанія працює в міжнародному полі та є достатньо великою, (і надто якщо використовує генеративні ШІ моделі), готуйтесь, що Data Governance стане найуживанішим словом вашого робочого дня, а юрист — найкращим другом.

Висновки

Тренд на спрощення роботи з даними залишається незмінним уже багато років, і нові здобутки ШІ дали цьому тренду новий поштовх. Усе більше робота аналітика зміщується в бік продукту, що потребує поглиблення його розуміння. Водночас також збільшуються вимоги до технічних навичок, які пов’язані з машинним навчанням.

Звісно, ми залишаємо поза увагою базові навички, які мають бути за замовчуванням: статистика, програмування та софт-скіли. Звертайте уваги на тренди, проте не забувайте, що навички критичного аналізу, досвід швидко навчатись і вміння комунікувати є і буде залишатись фундаментом вашої професії.

З поганих новин: навіть якщо ви працюєте багато років, вам скоро доведеться здобувати купу нових знань і навичок, щоб залишатися конкурентним на ринку. З добрих новин: робота аналітика стає набагато цікавішою!

👍ПодобаєтьсяСподобалось8
До обраногоВ обраному7
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Я сподіваюсь цю статтю написав ШІ?

ПС, мені як разрабу який недотичний до Data Scientist читати було цікаво

Крута стаття, дякую

Де бізнесові приклади ? Назвіть кількість компаній, їх відсоток на ринку, які у себе інтегрували ШІ та розуміють як його використовувати ? Де ФАКТУРА ? Тренд, тренд, тренд. Більшість трендів проходить повз бізнеси, тому що імплементація призведе до банкрутства.

Стаття базується навколо страху і залякувань, а не на прикладах, куди йти; які практичні таски вирішуються з (яким) AI, тому що коли про це розповістиииииии, то виявиться, що ой.

Я в курсах що таке AI і імплементував LSTM over SQL на MySQL-ю ще у 2019, те, що тільки зараз заходить в мейнстрім обробки стрімінгової дати ріалтайм. Тому такі статті вони ну таке, враження, «купуй, бо завтра буде дорожче» маніпуляції.

12B на пряме фінансування LLM в 2023:
www.cbinsights.com/...​del-llm-developer-market

25% відсотків компаній застосовують ШІ, для компенсації недостачу людських ресурсів:
www.forbes.com/...​r/business/ai-statistics

Тут про застосування:
turnkey-labs.com/...​ends/businesses-using-ai

Я в курсах що таке AI і імплементував LSTM over SQL на MySQL-ю ще у 2019, те, що тільки зараз заходить в мейнстрім обробки стрімінгової дати ріалтайм.

Як і сказано, цей тренд почався давно. Тим не менше з виходом gpt4 (14/03/23) і суттєвим покращенням дифузійних моделей (Листопад 2022) це стало достатньо якісним і дешевим, для створення продуктів на їх базі.

які у себе інтегрували ШІ та розуміють як його використовувати

Буквально зараз великі компанії почали інтеграцію нового копайлота (githubnext.com/...​ojects/copilot-workspace), що означає, що через два-три роки це буде стандартом для документації, створення юніт-тестів та простих скриптів.

Де це практично, ці інвестиції ? Не абстрактні інвестиції міністерства оборони США, або Гугла, до яких нам фіолетово. Уявіть себе на вулиці зараз без роботи і продайте себе, як спеціаліста по AI, рівня архітекта, продакта/овнера. Я бачив практично як це відбувається, компанії взагалі не демонструють зацікавленості якоїсь. Можливо ця стаття вона доречна десь у Німеччині чи Бельгії, але не у нас, не та ЦА.

Лінки подивився, щось типу «AI це круто, і він підвищує у компаній показники». Ви читали ці лінки, Ви ж технічна людина, там маркетінговий лікбез для тих хто зовсім не в темі.

Я був не вебінарі Crayon по ШІ у минулому році, і там були практичні приклади завершених проектів: логістика, виробництво, без цифр.

Тому я і пишу, практичні будь-ласка якісь речі, дуже практичні. Ось компанія Х, зробила аналіз дати, виявила щось і це допомогло їм дещо. Ви бачили окрім Ютуба нормальні саджести ? Давайте візьмемо ведучого рітейлера — Розетку, там цілий штат ШІ сидить. Результат ?

Щодо копілота — майбутньє — невідомо, прогнози зараз нічого не коштують, на фоні зростаючої турбулентності і війн. А ось приземленного чогось — не вистачає.

Цікаво було б прикладів із Вашого досвіда, покладених на якісь існуючі бізнеси. Ось є кейс, ось ми інвестували у ШІ, ось ROI. Окремою публікацією. У мене є пара таких систем працюючих роками, на кейсових регрессіях з LSTM-ами — аналітика «що це, і шо із цим робити», яка фактично позбавила мене роботи :) - це окрема тема, чому люди не хочуть ШІ — він позбавляє роботи відділами. Дуже доречно під час війни.

25% відсотків компаній застосовують ШІ, для компенсації недостачу людських ресурсів:
www.forbes.com/...​r/business/ai-statistics

«As labor shortages become a pressing concern, 25% of companies are turning to AI adoption to address this issue, according to an IBM report.» © — ця заява від IBM не є доконаним та точним аргументуванням, і стосується тільки ринку США, ... коректним був би бізнес-аналіз з прив’зкою до певних доменів та для конкретних професій, а також все-таки приорітетніше питання не заміни невистачаючих людських ресурсів, а наскільки ефективно дані рішення автоматизують процеси, зміни в KPI та OKR компаній та в підсумку зменшення задіяних людських ресурчів, як більш дорогих чи менш ефективних.

Якщо говорити за Leetcode, то називають 75% для простих, та 25% для середніх. cdn.openai.com/papers/gpt-4.pdf

З SQL нема окремих досліджень, проте рейт має бути вище, через однотипність задач.

По особистому досвіду, він суттєво пришвидшує написання однотипних запитів які складають 2/3 від усіх. При налаштованому промті, написання зводиться до копіювання оригінальної структури та опису виходу.

До речі, про всі ці тренди та навички, які варто здобувати, ми будемо говорити на курсі Product Analytics Begining від інституту Projector. Будемо опановувати деякі нові інструменти, які нам принесли ШІ моделі, навчатись працювати із безсервісними сховищами даних (BigQuery) та говорити про те, як приносити додаткову вартість до вашої компанії за допомогою інсайтів та рекомендацій. Цей курс є повністю благодійним, і 100% коштів підуть на потреби ССО ЗСУ.

Підписатись на коментарі