SQL, BI-системи, статистика. Що, де і як вчити в аналітиці даних, щоб підготуватися до першого оферу
Мене звати Роман Повзик. Як продуктовий аналітик співпрацюю з геймдев-компанією Bini Bambini. Нещодавно виповнився рік як я почав працювати в аналітиці даних.
На початку серпня я подумав, що мій невеликий досвід може стати корисним початківцям, які хочуть почати кар’єру в аналізі даних в ІТ. Часто у людини немає знайомих, які вже працюють в цій сфері й можуть розповісти про плюси-мінуси та допомогти з першими кроками, сформувати навчальний план. Те ж було зі мною влітку
Оскільки я за попередньою професією піарник, то підійшов до цього, як до медіапроєкту: зібрав майданчики й ініціативи, де шукають менторів, і розповідав, чим можу допомогти. Кількість людей із запитом на таку консультацію приємно вразила. Нині по
Я не проводжу відбору, а знайомлюся з усіма бажаючими. Разом проговорюємо цілі, мотивацію та сумніви, що виникають через світчинг. Інколи сфера — навіть не аналітика.
Ці люди різні: хтось студент у комп’ютерних науках, а хтось — у лінгвістиці, хтось уже працює в ІТ, але не на технічних посадах, хтось хоче світчитися з державного підприємства чи з посади університетського викладача. Станом на зараз поспілкувався з 27 охочими і маю ще 14 запланованих консультацій до середини жовтня. Одна людина вже навіть отримала офер.
Радісне повідомлення про офер від одного з початківців
На першій зустрічі даю список ресурсів, які знадобилися мені при підготовці до роботи, або які відкриваю тільки зараз і вважаю корисними новачку. Розповідь про важливість та користь кожного з них займає десь 15 хвилин з годинної сесії. Та я б хотів приділяти більше часу саме питанням менті, а не FAQ, — тому й вирішив зробити цей матеріал, в якому зібрав усі корисності разом.
Зрозуміти, який саме нині ринок для аналітика
Щоб почати рух до професії, потрібно розуміти попит та пропозицію на ринку. Якщо орієнтуватися на Україну, то тут цілком вистачає Djinni та DOU:
1. Дашборд щодо кількості кандидатів та вакансій у розрізі місяця. Зручний інструмент Djinni, що допомагає зрозуміти кількість конкурентів на ринку. Наприклад, в аналізі даних на вересень
Динаміка зростання кількості кандидатів у аналітиці даних
2. Вакансії на Djinni та DOU. Допомагають дізнатися, що пропонують компанії, які у них вимоги і технологічний стек. Користуючись фільтрами, можна побачити, що нині для аналітика з роком досвіду є 30 вакансій. У першу чергу новачок має дивитися саме на ці вакансії, оскільки пропозицій «без досвіду» майже немає. А якщо і є одиниці, то кількість подач на них сягає
3. Часто новачки не орієнтуються, яку оплату вони можуть отримувати на старті. Раджу тут покладатися на зарплатне опитування DOU. Але при цьому розуміти, що медіана — це не середнє арифметичне зарплат тих, хто заповнив анкету, а сума, менше якої можуть заробляти до 50% опитаних.
Розвинути «продуктовий mindset»
Здебільшого аналітики-початківці прагнуть працювати у продуктових компаніях. Тому серед ресурсів я розмістив і кілька таких, що стосуються продуктової аналітики:
1. «Хто такий Product Analyst в ігровій індустрії. Кар’єра в геймдеві» — спільний матеріал, до якого доклалися мій колишній тимлід, а нині продуктовий аналітик Stepicо Олександр Тунік, вся команда продуктових аналітиків Bini Bambini та представники Gameloft. Вийшло детальне пояснення не лише для геймдеву, а й для інших сфер, де може працювати Product Analyst. Основні ролі та завдання, етапи в роботі, навички, плюси-мінуси та перспективи — старалися описати все максимально відкрито та зрозуміло.
2. «LTV, ARPU та ще понад 20 понять, які має знати кожен продуктовий аналітик» — матеріал, де описав найчастіше вживані у роботі поняття, які можуть стати у пригоді новачку. Частину з них пояснював саме на додатках Bini Bambini, з якими працюю щодня. Звісно, в кожне з цих понять можна заглибитися далі. Але принаймні їх список буде під рукою.
3. «Створення та розвиток ІТ-продуктів» — базовий курс від Genesis та Мінцифри. Контенту в ньому десь на п’ять годин і він допомагає зрозуміти, як працюють продуктові команди в ІТ. Єдиний мінус — доволі складний фінальний іспит, який не зможеш пройти, якщо не відповіси правильно на всі 25 питань.
Курс про продуктове ІТ на «Дії»
Загальний підхід до вивчення технічного стеку
Майбутня компанія — лотерея, коли говорити про інструменти. Звісно, будуть обов’язкові вимоги, наприклад, знання SQL або основ статистики. Стосовно інших інструментів, тут складніше. Наприклад, чи ти використовуватимеш Power BI чи Tableau для створення дашбордів? Наскільки добре треба знати англійську? Чи використовуватимеш Python? Все залежить від компанії.
Варто придивитися, що саме актуально у вакансіях, перш ніж братися за вивчення інструментів. Якщо бачиш, що якась з них переважає у вакансіях Djinni та DOU — скеровуй погляд на неї.
Писати SQL-запити до баз даних
Це одна з ключових навичок в аналітиці. Адже щоб аналізувати дані, їх потрібно спочатку дістати з бази. Тут і знадобляться уміння роботи із запитами.
Без знань SQL не варто навіть надсилати резюме рекрутерами на аналітика. Ця вимога буде майже у всіх вакансіях.
Радив би звернути увагу на W3School і засвоїти синтаксис розділу «SQL Tutorial», а також окремо пройти віконні функції — їх люблять питати на співбесідах. Я відкривав цю мову з відео «MySQL Tutorial for Beginners [Full Course]» від Моша Хамедані.
Якщо ж є бажання додати до свого LinkedIn сертифікати курсів з SQL, найпростіший варіант — «Intro to SQL» та «Advanced SQL» на Kaggle.
Курс «Вступ до SQL» на Каggle
Один з початківців, з яким спілкувався, серед проблем відзначав різницю між запитами, які вчиш в рамках курсів, і тими, що задають під час технічної співбесіди. Щоб нівелювати її, раджу розв’язувати задачки на «CodeWars». Буває, що з нього беруть навіть задачі для тестового. Чим більше розв’яжеш — тим краще підготуєшся.
Вже почавши працювати, я проходив платний курс Udemy «The Complete SQL Bootcamp 2022: Go from Zero to Hero» від Jose Portilla. Але з цим ресурсом треба бути обережним і купувати лише, коли ціна за курс показується менше ніж $20. Бо інколи може бути у
Створювати дашборди у Power BI
Вивчення потрібної BI-системи для дашбордів — теж лотерея, адже популярних в індустрії кілька.
Проте все ж у лідерах дві: Power BI або Tableau. Вони якісні, і у компанії можуть бути різні причини, чому застосували ту чи іншу. Наприклад, історично склалося: перший аналітик працював саме з Power BI. І далі дашборди накопичували у цьому інструменті, до нього звикали як аналітики, так і менеджери. І настає момент, коли перехід на іншу ВІ-систему вже сильно ресурсозатратний.
Щодо посилань для Power BI, то пропоную орієнтуватися на офіційні ресурси від Microsoft Power BI у вигляді текстових пояснень та YouTube-курс «Introduction to Power BI», хоч останньому уже 6 років.
Також є влогери, які активно розповідають про функції цього інструменту: Leila Gharani та «Guy in a Cube». Крім того, у самому Power BI Desktop є розділ «Help» з посиланнями на курси, документацію, спільноту, блог. А вже далі, щоб бути у курсі змін програми, варто переглядати щомісячні оновлення, які публікують на Microsoft Power BI.
Розділ «Help» з допоміжними ресурсами в Power BI
Далі варто взяти датасет з цікавої тобі теми на Kaggle і спробувати зробити на його основі дашборд. По-перше, це допоможе зрозуміти, де є слабкі місця. По-друге, матимеш власний pet-проєкт, який допоможе і виділитися, і довести, що вмієш працювати з Power BI.
Вже під час роботи, стикаючись з реальними дашбордами, я підтягував базу на інших платних курсах Udemy: «Microsoft Power BI Desktop for Business Intelligence», «Power BI A-Z: Hands-On Power BI Training For Data Science!», «Microsoft Power BI — The Practical Guide [2022 EDITION]». Але це вже не обов’язковий набір для пошуку роботи.
Створювати дашборди у Tableau
Такий же підхід з Tableau. Ця програма дорожча у порівнянні з Power BI, десктопна версія якого є безкоштовною. Але купувати його для навчання початківцю недоцільно.
Натомість є сервіс Tableau Public, який дає той же функціонал, що й у платній версії, але з обмеженнями. Одне з них: створений дашборд публічно доступний за посиланням. Тому його не варто робити на чутливих приватних даних.
Офіційні навчальні ресурси по Tableau можна знайти тут. Цей інструмент теж має спільноти та влогерів, за якими варто слідкувати, щоб дізнаватися про оновлення. На жаль, порадити їх не можу, оскільки в роботі працюю з Power BI і під час переходу проходив лише ці офіційні відеокурси Tableau.
Навчальні ресурси для новачка в Tableau
Як і у випадку з Power BI, варто взяти датасет з Kaggle і зробити Tableau-дашборд на основі навичок, які вже маєш. Раджу працювати над темою, яка особисто цікава — працюється краще і розповідь про такий pet-проєкт буде яскравішою. Принаймні, очі горітимуть.
Ще не варто відкладати роботу над першими дашбордами до часу, коли добре володітимеш ВІ-системою. Навіть простий дашборд кращий за його відсутність. А у процесі вивчення нових прийомів покращиш вже ті візуалізації, що зробиш раніше.
Знати статистику і теорію ймовірності
З того, що б радив: курс з основ статистики від Стенфордського університету на Coursera. Його можна пройти безкоштовно і отримати сертифікат, якщо попрохати фінансову допомогу і почекати 15 днів. Кнопка для цього розміщена справа від запису на курс. Викладач Гюнтер Вальзер (Guenther Walther) дає базове розуміння найголовніших понять, зокрема тестування гіпотез та статистичну значущість.
Приклад контенту про p-value з курсу з основ статистики
Також на Khan Academy є якісний курс «Statistics and probability».
З книжкових рекомендацій — книжка «Practical Statistics for Data Scientists». Її я якраз дочитав за кілька днів до ключової для себе співбесіди. Довірчі інтервали, t-критерій Стюдента, АВ-тести та статзначущість — ці поняття там описані просто і доступно. Після прочитання на технічних співбесідах буде простіше відповідати.
З платних курсів Udemy, які проходив за цією темою вже після старту роботи — «Become a Probability & Statistics Master» від Math King. Після кожного розділу теорії йде кілька задач, які допоможуть потренувати те, що щойно вивчаєш.
Розуміти теорію, яка стоїть за АВ-тестами в продукті
Складність у вивченні AB-тестів якраз і полягає у доступності теорії та недоступності практики. Неможливо запустити АВ-тест, доки не працюєш з певним продуктом, у якого вже є аудиторія. Принаймні, не знайшов, як цьому можна повчитися до початку роботи.
У статті про понад 20 термінів для продуктового аналітика я радив ресурси для розуміння теорії АВ-тестів, повторю їх тут:
1. Курс «Online Experiment Design and Analysis» на Udacity від фахівчинь Google. Про нього дізнався з рекомендації CTO Preply Дмитра Волошина, який на вебінарі «A/Б тестування, або як статистика з університету допомагає будувати класні ІТ продукти» дуже позитивно відгукувався щодо курсу. До речі, його лекція теж багато пояснила мені на початку шляху в аналітиці.
2. YouTube-плейліст від колишньої дата-саєнтистки з Airbnb Емми Дінг, де зібрано відповіді на часті питання з технічних співбесід щодо АВ-тестів. І взагалі, її канал «Data Interview Pro» дуже корисний для підготовки до співбесід у сфері роботи з даними.
YouTube-плейліст з відповідями стосовно АB-тестів від Емми Дінг
Раджу навчитися користуватися цими двома калькуляторами: перший — для отримання статзначущості та другий — для необхідної мінімальної кількості аудиторії в експерименті, щоб цю статзначущість отримати.
Часто технологічні компанії мають технічні блоги, де якраз і описують підходи в АВ-тестах та роботі з даними. Варто продивитися і їх, наприклад, Netflix, Duolingo.
Крім того, на Kaggle є 52 датасети AB-тестів, на яких можна потренуватися в аналізі та подивитися, як це роблять інші.
Приклад датасетів з даними по AB-тестам
Знати Python, що «буде плюсом» для кандидата
Наскільки продуктовий аналітик використовуватиме Python залежить від стека, з яким працює компанія. Буває, що простіше написати запит в SQL, який і дасть відповідь, яку шукає аналітик.
Але Python корисно знати. З часом аналітик може вивчити машинне навчання, щоб застосувати до своїх датасетів. І, звісно ж, користуватиметься бібліотеками Python: Scikit-learn, PyTorch, TensofFlow.
Крім того, інколи ця мова допомагає у рутинний задачах. Наприклад, мені якось потрібно було перетворити 60 довжелезних json-файлів у таблиці та знайти розбіжності. З допомогою Python розпарсити все це і порівняти зайняло в кілька разів менше часу, ніж вручну.
Протягом робочого дня мало стикаюся з Python. Але планую активно впроваджувати його у задачі.
У самих же вакансіях часто можна побачити, що знання Python було б «добре мати» або «as a plus». Тобто вже тут пояснюють, що це не така ж обов’язкова вимога, як у випадку з SQL.
Радив би почати вивчення з відео «Python Tutorial — Python Full Course for Beginners» Моша Хамедані. А також з мінікурсу «Python» на Kaggle. Далі вже рухатися більше у вивчення бібліотек, які використовуються саме для аналізу даних (Pandas, NumPy) та візуалізації (Matplotlib та Seaborn).
Мош Хамедані, з відео якого почались мої знайомства з Python та SQL
Потім звичний алгоритм — знаходиш датасет на Kaggle про цікаву тобі тему і проводиш з ним аналіз на Python. Кожен набір даних тут має вкладку «Code», де можна побачити роботи інших користувачів, що допомагає знайти цікаві підходи та повчитися у колег з досвідом.
Я свого часу робив на Python начитник тексту, який і слугував pet-проєктом, про який розповідав рекрутерам. Це не релевантне портфоліо для аналітика, але краще, ніж нічого.
Отримати сертифікацію Google з аналізу даних
Минулого року на Coursera з’явилася спеціалізація «Google Data Analytics Professional Certificate». На сьогодні на неї зареєструвався майже один мільйон студентів. І влогери-аналітики, яким я довіряю, — Тіна Хуанг та Люк Бароуз — добре відгукуються про її контент.
Сертифікація з аналізу даних на Coursera
Спеціалізація складається з восьми курсів, що містять у собі SQL, Google Spreedsheet, Tableau та R. Детально описував, як проходив її і як можна пришвидшити цей процес до тижня тут.
Радив і далі раджу витратити на неї зусилля. Професійним аналітиком вона тебе не зробить і сертифікати важать набагато менше за pet-проєкти. Але ці курси і пояснення фахівців з Google допоможуть сформувати базу, щоб заглибитися у серйозніші питання.
Спробувати проєктно-орієнтоване навчання
Використати ці ресурси для навчання — пів справи. Важливіша задача — застосувати знання на практиці.
Кожному початківцю, який звертається з питаннями щодо вивчення аналітики, раджу швидше почати робити pet-проєкти. Тобто самостійно зробити щось руками, щоб довести, що дійсно знаєш технологію. Проєкт буде непрофесійним і через якийсь час про нього не захочеться згадувати. Але це — не його задача.
Найголовніше — переконати рекрутера, що на тебе варто звернути увагу через активність та цілеспрямованість. І хоч ще не маєш робочого досвіду — але робиш все можливе, щоб отримати потрібні для роботи аналітика навички.
Поки з новачків, з якими спілкувався, ніхто не показав своїх пет-проєктів з необхідних для професії технологій. Але сподіваюся, що вони з’являться і допоможуть краще показати навички рекрутерам та технічним менеджерам. Тож варто звернути увагу на цей підхід.
Освоїти англійську для спілкування
Стосовно англійської і потреби у її щоденному використанні — залежатиме від типу компанії. Якщо це українська продуктова і всі колеги з України, то англійська буде потрібна лише для навчання та прочитання документації стосовно технології (наприклад, щомісячні оновлення Power BI).
В аутсорс- та аутстаф-компаніях англійська використовується значно більше. Тому її перевірятимуть уже на етапі спілкування з рекрутером.
Звісно, варто починати з граматики та збільшення словникового запасу. Але коли він уже є, мовний бар’єр все ще лишається перепоною.
Долати його мені допомагав «Tandem». Це додаток, де можна знайти людей, які говорять англійською і хотіли б вивчити українську. Можеш написати такій людині і поспілкуватися наживо. А далі й взагалі перейти з платформи у зручніші месенджери та сервіси для відеодзвінків. Якщо співрозмовник цікавий, то через кілька зустрічей взагалі перестаєш помічати, що говориш іноземною. Так, я вже кілька місяців розмовляю з Сесилією з Мексики, яка дуже вболіває за Україну, обожнює Зеленського та меми про нашу війну.
Коли ж побутове спілкування англійською не лякатиме, варто перейти до складнішого рівня — розмови на професійну тему. Тут допоможе сервіс співбесід «Pramp». Детальніше про нього розповідав тут.
Приклад співбесіди на Pramp за спеціальністю Data Science
Ключове у «Pramp»: це можливість проведення імітаційних інтерв’ю — поведінкових або за певними спеціальностями. Спочатку інтерв’юєш співрозмовника, потім — навпаки. Таким чином, у безпечному середовищі практикуєш терміни та відповіді, які можуть допомогти на співбесіді англійською. Ще й цікаві знайомства отримуєш.
Вчити, подаватися, доучувати
Ці ресурси і поради — суб’єктивні. Частина з них допомогли мені рік тому отримати роботу в аналітиці даних. І їх раджу початківцям, які звертаються щодо навчального плану.
При цьому задача всіх цих ресурсів: дати базові знання. Більшість ресурсів, де викладають основи SQL, статистики, Power BI, Tableau, Python — хороші. Навряд чи складеться ситуація, що колись шкодуватимеш, що
Але не варто надто зосереджуватися на навчанні. Оскільки воно може стати формою прокрастинації: людина постійно проходить курси з однієї й тієї ж теми, відчуваючи внутрішню невпевненість. Початківець каже собі: я ще недостатньо знаю, тому не можу починати пошуки роботи, бо провалю співбесіду, краще пройти ще той курс.
Інколи це відбувається через небажання роботи pet-проєкти. Набагато простіше просто повторювати код за викладачем і отримувати правильні результати. Коли ж береш незнайомий датасет для власного проєкту, то відразу з’являються проблеми. І викладача з курсу поруч уже немає, як і прогрес-бару, що створює ілюзію продуктивності.
Раджу вивчити певні технології, бібліотеки та інструменти, зробити з ними невеличкі проєкти, щоб довести рекрутеру, що володієш потрібними вміннями, і подаватися на вакансії. Якщо дійсно погано щось засвоїв, то дізнаєшся це на технічному інтерв’ю або після тестового. І тоді повернешся до навчальної програми: пройдеш додатковий курс чи прочитаєш потрібну книгу.
Вивчаєш, подаєшся, доучуєш — такий підхід я використовував влітку рік тому, коли шукав першу роботу в дата аналітиці. Він ефективний для швидкого навчання на помилках і отримання результату. Це важко і боляче, але це працює.
Ще лишилися питання щодо старту в аналітиці даних?
Якщо ж починаєш шлях у дата аналітиці і ще маєш питання чи сумніви, — напиши мені, з радістю поговоримо про це.
Звісно, мій рік досвіду — це ще не так і багато. Але принаймні уже один аналітик, до якого можна звернутися за порадою, серед твоїх знайомих з’явиться. Спробую максимально допомогти, щоб українська аналітична спільнота поповнилася ще одним цінним фахівцем.
27 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів