250+ питань для підготовки до співбесіди початківцю в аналітиці даних

Усі статті, обговорення, новини для початківців — в одному місці. Підписуйтеся на телеграм-канал!

Всім привіт. Мене звати Роман Повзик. Як продуктовий аналітик майже два роки співпрацюю з геймдев-компанією Bini Games (у минулому — Bini Bambini).

З літа минулого року почав менторити початківців в аналітиці даних — оскільки сам не так давно шукав першу роботу в ІТ і набив багато гуль на шляху. Приклади таких сесій можна глянути тут.

Питання початківців допомагають зрозуміти, про що варто написати, щоб давати користь світчерам-аналітикам. Наприклад:

Матеріали на основі цих питань допомагають закривати найпопулярніші запити початківців, оскільки прошу менті прочитати їх до сесії. Натомість з’являються нові питання, які чекають публікацій на DOU.

Пишу для DOU, щоб отримувати такі повідомлення в LinkedIn

Однією з тем, якій приділяю все більше уваги, — підготовка до технічних співбесід. Початківцю-аналітику важко туди потрапити. А якщо і вдається, то передчуття лякає. Пам’ятаю свою першу технічну співбесіду: доки розповідав про себе, здавалося, серце вискочить з грудей.

У цьому матеріалі спробував зібрати понад 250 питань, які можуть чекати на аналітика-початківця. Серед них як питання, які ставили мені, так і ті, що надсилала аналітична спільнота в LinkedIn під постом про таку допомогу, за що дуже вдячний кільком десяткам людей. З питаннями у розділах Excel/Google Spreadsheets, BI-системи та Python значною мірою допоміг аналітик Дмитро Різун.

До деяких розділів додаю коментарі, які стануть у пригоді при підготовці. Питання сформовані як до кандидата чоловічого роду (як до себе на початку кар’єри). Але зазначу, що як серед моїх менті, так і серед колег, половина, якщо не більшість, — жінки. Тому сміливо перефразовуйте їх при прочитанні.

У травні в рамках проєкту публічних тестових співбесід Juniverse, я провів одну з них з трейні в аналітиці даних. Ціль — знайти слабкі місця у кандидатки, щоб вона могли їх підсилити. А також показати початківцям орієнтовні питання та перебіг розмови, який чекатиме під час технічного інтерв’ю. Тому раджу переглянути відео:

Звісно, що це не вичерпний перелік питань. Але принаймні він допоможе підготуватися на шляху до бажаного офера. Крім того, раджу питання кожного блоку використовувати як частину мегапромпту для ChatGPT, Bard чи Llama 2, щоб генерувати подібні списки з певного розділу. Ознайомитися з підходом до цього концепту можна тут.

Перелік може доповнюватися. Тому якщо хочеш і можеш додати ще кілька питань — напиши мені.

Це я, сиджу і чекаю подібних запитань для розширення списку

Я розділив питання на кілька секцій щодо напрямів і технологій, які є у більшості вакансій.

Підготовка до прескріна — поради рекрутера

Хоч головна ціль матеріалу — технічна співбесіда і питання на ній, хотілося б допомогти аналітику-початківцю краще підготуватися і до прескрін-інтерв’ю. Тому звернувся до колеги — Senior Recruitment Specialist в Bini Games Олександри Миронової.

Цей блок складається з порад людини, за плечима якої сотні подібних інтерв’ю з аналітиками. Далі — її словами.

Олександра: «Перше знайомство з компанією — штука складна. З одного боку, технічних запитань може бути небагато, з іншого — рекрутер намагається визначити, чи підходить кандидат за майндсетом.

Тому оцінювання залежатиме від багатьох факторів. Комусь потрібен командний гравець і гарний виконавець, комусь — амбітний лідер, комусь — і просто нетоксичний співробітник вже «ок».

Олександра Миронова

Я б рекомендувала зосередитися на загальних пунктах, які актуальні для багатьох компаній:

  • На першій зустрічі з компанією важливо показати відкритість, кмітливість та умовну легкість. Останньої новачкам бракує найбільше, адже перші співбесіди — величезний стрес. Не дивлячись на це, варто не закриватися, спілкуватися чесно та впевнено у собі. Якщо на якесь з технічних запитань ти не зможеш відповісти (це нормально) — на питання про себе точно треба викладатися на максимум.
  • У розмові важливо наголошувати саме на своїх успіхах, а не команди, використовувати «Я», а не «Ми»: я вивчив / я закінчив курси / я зробив / я досяг.
  • Якщо говорити про першу роботу в аналітиці даних, рекрутеру важливо побачити ентузіазм кандидата, його реальну (!) готовність вчитися, жагу. Не бійся заявити про бажання старанно працювати, обробляти значний обсяг даних, на великих проєктах, зі складними технологіями.
  • Став запитання. Гарний прояв зацікавленості до компанії та позиції — виконана заздалегідь робота. Погугли інформацію про компанію, її продукти, інші вакансії. Підготуй кілька запитань, які б хотів дізнатися (Чи є у компанії план на випробувальний термін для новачка? Склад команди? Можливості росту? Куди рухається продукт?).
  • Пам’ятай про ввічливість та люб’язність. Банально, але цей пункт багато хто недооцінює.

Якщо ж говорити про запитання від рекрутера, то варто підготувати відповіді принаймні на такі з них:

1. Чому саме цей напрямок? Чому ти обрав аналітику?
2. Що тобі найбільше і найменше подобається у твоїй професії?
3. Опиши свій ідеальний робочий день.
4. Що з цього найважливіше для тебе при співпраці з компанією: кар’єрне зростання, бенефіти та бонуси, зарплата, хороша команда, технології?
5. Що може змусити тебе звільнитися?
6. Чи зіштовхувався ти колись із конфліктами на роботі? Як вони вирішувалися?
7. Ситуація: ти працюєш у компанії перший місяць, але лід, який повинен тебе вводити у курс справи, зайнятий через проблеми на проєкті. Відповідно, у тебе немає достатньої інформації для роботи, потоку задач, фідбеку. Що будеш робити?
8. З якою найважчою зміною зіштовхнувся у кар’єрі?
9. Чи є хтось у професії, хто надихає? На кого зі спеціалістів рівняєшся?
10. Що тебе надихає? Розкажи про хобі.

Пам’ятай, що тут, на відміну від технічних запитань, правильної чи неправильної відповіді немає. Головне — відкритість, активність та готовність спілкуватися."

Хочу подякувати Олександрі за цю інформацію. Інтерв’ю з позиції рекрутера має свої особливості, і якби не вона, я б не дав стільки корисних інсайтів.

Логіка та метод Фермі

Цей тип запитань теж може бути на співбесіді, оскільки менеджеру важливо перевірити логічне мислення. Сюди варто включати питання, які мають одну правильну відповідь, а також ті, що такої не мають (тут важливо почути алгоритм роздумів). Також варто ознайомитися з методом Фермі, який допомагає зробити швидку приблизну оцінку.

Неможливо охопити всі приклади таких питань, тому наведу кілька для розуміння, чого чекати.

Деякі з цих питань (№ 4, 6) взяті з завершення трилогії Лю Цисіня «Пам’ять про минуле Землі» — «Вічне життя смерті».

1. Скільки лампочок у Харкові? (це реальне питання, яке мені ставили).
2. Скільки людей щодня народжується у світі?
3. Скільки соняшникової олії споживають домогосподарства в Україні за рік?
4. Світло у кімнаті вмикається з певною періодичністю. Спочатку раз на хвилину, далі — раз на півхвилини, далі — раз на 15 секунд, і так кожного разу за двічі менший проміжок. Скільки разів увімкнеться світло за дві хвилини?
5. Маємо нескінченну кількість двох видів мотузок: одна згорає за 30 хвилин, інша — за годину. Мотузки протягом свого горіння згорають з різною швидкістю на різних ділянках. Як з допомогою них відміряти 45 хв? (теж свого часу отримував задачу такого типу).
6. Продовж послідовність: 82, 50, 26, ... (або ж 1, 1, 2, 3, 5, ... або ж 1, 8, 27, 64, ...).

Модель Code Interpreter від Open AI — хороший партнер у підготовці до технічної співбесіди

Excel / Google Spreadsheets

1. В чому різниця між Excel та Google Spreadsheets?
2. Які агрегатні функції в Excel / Google Spreadsheets знаєш?
3. З якими фунціями в Excel / Google Spreadsheets працюєш?
4. Що таке умовне форматування та які його основні принципи використання?
5. Для чого використовується VLOOKUP (XLOOKUP) функція?
6. Що таке pivot table та як вони використовуються?
7. В чому різниця між фільтруванням та сортуванням даних?
8. Як знайти та видалити дублікати даних?
9. В яких випадках використовується функція IFERROR і чому вона важлива?
10. Як працює функція TTEST?
11. Коли і для чого використовується функція CONCAT?
12. Яким буде результат формули: =MAX(A1:A10)?
13. Яким буде результат формули: =SUMIF(A1:A10, «>50»)?
14. Яким буде результат формули: =IF(A1>10, «Yes», «No»)?
15. Яким буде результат формули: =VLOOKUP(A1, B1:C10, 2, FALSE)?
16. Яким буде результат формули: =INDEX(A1:C10, 5, 2)?
17. Яким буде результат формули: =LEFT(A1, 5)?
18. Яким буде результат формули: =TRIM(A1)?
19. Яким буде результат формули: =CONCATENATE(A1, " «, B1)?
20. Як би зробив пошук даних в Excel/Google Sheets, якщо не знаєш точного місця розташування даних?
21. Як би розрахував відсоток від загальної суми в Excel / Google Spreadsheets?
22. Наведи приклади, у яких випадках аналітику може стати у пригоді умовне форматування?
23. Чи можеш пояснити, як працює функція COUNTIF і навести приклад її використання?
24. Чи можеш пояснити, як використовувати функцію RANK в Excel / Google Spreadsheets?
25. Чи знаєш, як використовувати формули для обробки помилок в Excel / Google Spreadsheets? Наведи приклад.

SQL

Знання мови запитів SQL — одна з топ-навичок для аналітика-початківця. Не маючи її, шанси потрапити на інтерв’ю з рекрутером, не кажучи про технічну співбесіду, мізерні.

Серед можливих питань: знання певних команд, розуміння різниці між схожими командами та вміння під час розмови написати запит, щоб отримати потрібний результат.

Тут не наводяться SQL-задачки, але вони цілком можуть бути при live-кодингу на співбесіді. Набивати руку по цій частині краще на Codewars, Leetcode, Stratascratch, HackerRank.

1. Що таке SQL та для чого його використовують?
2. У якому середовищі чи тренажерах вже використовував SQL?
3. У чому твої слабкі сторони при роботі з SQL-запитами?
4. Чи може аналітик даних обійтися без використання SQL?
5. FROM, LIMIT, GROUP BY, SELECT, ORDER BY, WHERE — розмісти у потрібному для написання коду порядку.
6. FROM, LIMIT, GROUP BY, SELECT, ORDER BY, WHERE — розмісти у порядку, в якому виконуватиметься код.
7. Що виконує команда GROUP BY? Про що варто пам’ятати у блоці SELECT, використовуючи цю команду?
8. У чому різниця між командами WHERE та HAVING?
9. Що таке агрегатні функції? Які агрегатні функції ти знаєш?
10. Без чого не може працювати агрегатна функція у запиті?
11. Як ми можемо знайти стандартне відхилення у вибірці з допомогою SQL?
12. Як працює команда CASE? У яких випадках її варто використовувати?
13. Навіщо застосовувати команду BETWEEN? Наведи приклад.
14. Як можна сортувати дані результату?
15. Які види JOIN ти знаєш? У чому різниця між ними?
16. У чому різниця між JOIN та UNION? У яких випадках яку з цих команд варто використовувати?
17. Для чого використовується SELF JOIN?
18. У чому різниця між UNION та UNION ALL? Чи має значення, яку з них використовувати для об’єднання таблиць?
19. Що таке віконні функції? Для чого вони застосовуються? Наведи приклад.
20. Як можна швидко прибрати дублікати даних з таблиці, де вони є?
21. У таблиці маємо колонку, у якій цифрові дані записані у текстовому форматі. Як можна трансформувати їх у цифровий вигляд?
22. Які команди допоможуть вивести топ-10 значень у таблиці (наприклад, країни з найвищим доходом з таблиці з колонками country, revenue)?
23. Що таке NULL? Як можна позбутися цих значень у даних?
24. Для чого використовується команда LIKE?
25. У чому різниця між TABLE та VIEW?
26. Навіщо потрібні команди AND, OR та NOT?
27. Які wildcard-символи ти знаєш для використання в SQL (використовуються з LIKE)?
28. Наведи приклад використання оператора IN? У чому його перевага? Наведи приклад.
29. Навіщо потрібен AS? Наведи приклади використання.
30. Які SQL-оператори знаєш?
31. Навіщо потрібні коментарі в SQL?
32. Які види коментарів в SQL ти знаєш? Як можна їх робити?
33. Як захиститися від того, що дані в колонці, яку використовуєш у розрахунках певної колонки, будуть NULL?
34. Як захиститися від ділення на нуль у певній колонці при розрахунках в SQL?
35. Навіщо потрібна оптимізація SQL-запиту? Наведи приклад.
36. Що таке ETL-процеси та для чого використовуються? Чи маєш досвід роботи з ETL?
37. Що таке індекси в SQL?
38. Який SQL-запит виведе загальну кількість унікальних клієнтів у таблиці «Customers»:
a) SELECT COUNT(CustomerID) FROM Customers;
b) SELECT DISTINCT COUNT(CustomerID) FROM Customers;
c) SELECT COUNT(DISTINCT CustomerID) FROM Customers;
d) SELECT UNIQUE COUNT(CustomerID) FROM Customers?

BI-системи

Наявність зроблених власноруч дашбордів може допомогти на співбесіді — увага і питання будуть більше спрямовані на те, що зробив, ніж на теорію. Але не обов’язково.

1. Які BI-системи використовуєш? Для чого?
2. Чи маєш якісь зроблені власноруч дашборди? Розкажи детальніше.
3. Що таке Power Query та для чого воно використовується?
4. Чим обробка даних в Power Query відрізняється від обробки в Excel?
5. Які джерела даних підтримує Power Query?
6. Як можна очистити та обробити дані в Power Query?
7. Яким чином відбувається робота з типами даних (в файлі) в Power Query?
8. Як знайти та видалити дублікати даних в Power Query?
9. Як перейменувати стовпець в Power Query?
10. Для чого в Power Query є поле «Applied steps» і чим воно корисне?
11. Для чого використовується опція «Split Column» в Power Query?
12. Як видалити пусті значення в Power Query?
13. Як обʼєднати дані в Power Query?
14. Що таке DAX?
15. В чому різниця між worksheet та dashboard в Tableau?
16. В чому різниця між measure та dimension в Tableau?
17. Що таке calculated field та для чого його використовують в Tableau?
18. В чому різниця між discrete та continuous полями в Tableau?
19. Що таке parameters та для чого вони використовуються в Tableau?
20. Як створити calculated field з умовами в Tableau?
21. Без чого неможливо створити візуалізацію типу карта в Tableau?
22. Для чого створюють групи в Tableau?

Статистика

Не втомлюся радити книгу «Practical Statistics for Data Scientists» як ідеальну колекцію необхідних аналітику понять та концептів. До речі, друге її видання містить код на Python, яким можна перевіряти наведені у книзі ідеї.

1. Що таке середнє арифметичне? Як воно вираховується? Наведи приклад.
2. Що таке медіана? Чим вона відрізняється від середнього арифметичного? Наведи приклад.
3. У чому перевага медіани над середнім арифметичним?
4. Що таке мода? Як вона вираховується? Наведи приклад.
5. Що таке квартилі? Як вони рахуються?
6. Яким квартилем є медіана?
7. Що таке квантиль? Наведи приклад використання.
8. Що означає 99-й процентиль?
9. Що таке інтерквартильний розмах? Як він вираховується?
10. Як з допомогою інтерквартильного розмаху можна позбавитися від викидів у даних?
11. Що таке викид?
12. Ти бачиш у своїх даних викид. Що будеш робити?
13. Які п’ять параметрів набору даних нам показує whisker plot (графік з вусами)?
14. Що таке нормальний розподіл? Які властивості він має?
15. Що таке центральна гранична теорема?
16. Що таке правило трьох сигм і у чому його цінність?
17. Який вигляд має графік нормального розподілу?
18. Що таке стандартне відхилення?
19. Що таке біномінальний розподіл? Наведи приклад.
20. Всі студенти у Полтаві отримали 2500 грн. Як зміниться середнє арифметичне доходів студентів Полтави? А як зміниться медіана?
21. Всі студенти у Полтаві отримали 2500 грн. Як зміниться стандартне відхилення доходів студентів Полтави? А інтерквартильний розмах?
22. Доходи аналітиків даних в Україні зросли на 7%. Як зміниться середнє арифметичне доходів аналітиків? А медіана?
23. Доходи аналітиків даних в Україні зросли на 7%. Як зміниться стандартне відхилення доходів аналітиків? А інтерквартильний розмах?
24. Що таке популяція та вибірка? Чим вони відрізняються?
25. Що таке зміщена вибірка (sample bias)? Наведи приклад.
26. У чому полягає явище регресії до середнього?
27. У чому суть ідеї бутстрапу у роботі з даними?
28. Що таке коефіцієнт кореляції? В який межах він може бути?
29. Яка буває кореляція?
30. Що говорить про відсутність кореляції?
31. Що таке кореляційна матриця?
32. У чому різниця між кореляцією та каузальністю?
33. Наведи приклад кореляції, яка не має причинно-наслідкового зв’язку.
34. Що таке довірчий інтервал? Навіщо його використовують?
35. Що таке парадокс Сімпсона? Коли він може підвести аналітика?
36. Що показує і для чого застосовується коефіцієнт детермінації (R-квадрат)?
37. Що таке екстраполяція?
38. У чому різниця між лінійною та логістичною регресіями?
39. Які ще регресії знаєш, які можуть допомогти при прогнозах числових даних?
40. Що таке точність у контексті класифікаційних моделей?
41. Що таке матриця неточності (confusion matrix)? Наведи приклад.

Теорія ймовірності та комбінаторика

У своїй роботі не часто стикаюся з цими темами. Тому частина питань тут — поради від LinkedIn-спільноти, а ще частина — згенерована моделлю Code Interpreter від OpenAI.

1. Що таке умовна ймовірність?
2. Для чого варто використовувати теорему Байєса?
3. Порахувати ймовірність, що з 10 експериментів кидання монетки буде точно 5 орлів.
4. Чи знаєш про задачу Монті Голла? Чи можеш пояснити? (навіть якщо таке питання не поставлять, раджу прочитати про це).
5. Що таке незалежні та взаємовиключні події? Наведи приклад.
6. Як розраховується ймовірність випадання конкретного значення при киданні кубика? А двох кубиків?
7. Як розраховується кількість способів вибрати k елементів з множини з n елементів?
8. Скількома способами можна сформувати комітет з 4 членів з групи з 10 людей?
9. Скількома способами можна впорядкувати 5 книг на полиці?
10. Скількома способами можна вибрати 3 студентів з 8 для представлення проекту?
11. У вас є 7 друзів. Скільки способів вибрати 5 з них, щоб запросити на вечірку?
12. У вас є 10 м’ячів, з яких 7 — червоні, а 3 — сині. Скільки способів вибрати 2 м’ячі, щоб були обидва кольори?
13. У вас є 12 предметів, які треба впорядкувати на полиці. Скільки різних способів впорядкування існує?
14. Скільки способів сформувати команду з 11 гравців з 20 можливих кандидатів?
15. У квадраті розміром 5×5 (5 рядків та 5 стовпців) скільки різних маршрутів існує від верхнього лівого кута до нижнього правого, якщо можна рухатися тільки вниз або вправо?
16. Якими способами можна вибрати 2 голови та 3 заступники з групи з 10 членів?

АВ-тести

Початківець має знати теорію АВ-тестів, навіть якщо він ще жодного разу не запускав їх на практиці. Крім ресурсів, які по цій темі радив тут, рекомендую ще подивитися епізод подкасту «Продуктовий ринок», де якраз весь випуск і говоримо про контрольовані онлайн-експерименти:

1. Чи знайома тобі ідея AB-тестів? У чому вона полягає?
2. Чи проводив ти коли-небудь AB-тестування? Розкажи детальніше.
3. Чи є AB-тест найкращим інструментом для перевірки гіпотези? Поясни детально.
4. Які можуть бути альтернативи AB-тесту?
5. Що таке АА-тест? Що таке АAB-тест? Коли вони застосовуються?
6. Коли недоцільно використовувати AB-тести?
7. Розкажи про базовий алгоритм роботи над AB-тестуванням від першого до останнього кроку. Для простоти тут і далі розглянемо частотний метод.
8. У чому полягає нульова гіпотеза AB-тесту? Наведи приклад.
9. У чому полягає альтернативна гіпотеза AB-тесту? Наведи приклад.
10. Що таке alpha у концепції AB-тестів? Яка вона може бути?
11. Що таке MDE в контексті AB-тестів? Як це значення вираховується?
12. Що таке помилка першого роду? Наведи приклад.
13. Що таке помилка другого роду? Наведи приклад.
14. За помилку якого роду відповідає потужність (beta)?
15. Як зрозуміти, скільки приблизно триватиме AB-тест, маючи орієнтовний вплив фічі, яку потрібно протестувати?
16. Що таке статзначущість? Про що вона говорить в контексті AB-тесту? Наведи приклад.
17. Що таке p-value? Про що говорить цей показник? Наведи приклад.
18. (1 — p-value) для цільової метрики у тесті становить 0.94. Що будеш робити з ним?
19. Які є ризики, якщо підглядати за результатами AB-тесту, доки він триває?
20. Які критерії для оцінки AB-тестів ви знаєте? Які використовували, коли і чому?
21. Конверсія у продукті становить 5%. Нова фіча, за оцінками дата саєнтиста, може підняти це значення на 10% — до 5,5%. Скільки користувачів потрібно на кожен варіант тесту, щоб отримати статзначущі результати?
22. З 1000 користувачів у старому дизайні конверсії роблять 60, а у новому — 75. Що можна сказати про результати такого тесту? Чи застосуємо ми новий дизайн?
23. Ми хочемо зробити AB-тест зі збільшенням ціни на підписку на 20%. Як будеш аналізувати результати у такому випадку? Яка буде ключова метрика?
24. Якщо ти запускатимеш не два варіанти в AB-тесті, а більше, то що зміниться у твоєму алгоритмі роботи і аналізі?
25. Чи можемо ми одночасно на продукті запустити два AB-тести? А більше? Поясни детально.
26. Продуктова команда має 5 фіч для AB-тестування. Як ти визначиш, яку саме варто тестувати першою?
27. Що вважаєш найголовнішим під час проведення AB-тесту?
28. Чому аналітику при роботі з AB-тестами варто враховувати етику? Наведи приклад тесту, який міг би бути суперечливим у цьому плані.
29. Яка мінімальна тривалість AB-тесту в продукті?
30. У чому різниця між AB-тестом і лінійним тестуванням з «накочуванням» фічі на всіх користувачів? Наведи приклад.
31. Що таке peeking problem, та як на неї не натрапити?

Продуктові метрики

Коли світчився в аналітику, метрики були для мене відкриттям. Ключові з них описував тут, але раджу додатково гуглити і з різних джерел почитати про них. Хорошим плюсом стануть матеріали про продуктовий менеджмент — ця експертиза завжди принесе користь аналітику.

1. Які продуктові метрики знаєш?
2. Що таке North Star метрика?
3. Що таке DAU? Як ми розраховуємо цю методику?
4. З яких типів користувачів складається DAU?
5. Що означає active в абревіатурі DAU? Що мають зробити наші користувачі, щоб ми вважали їх активними?
6. Що таке конверсія? Наведи приклад на основі продукту, яким часто користуєшся.
7. Представник застосунку сказав про 10 мільйонів завантажень як про один з показників успіху свого продукту. Чому це може бути vanity-метрика? Наведи приклад.
8. Що таке LTV? За який період рахується це значення?
9. Як рахується LTV та що на нього впливає?
10. Що таке ARPU? Чим воно відрізняється від LTV?
11. У чому різниця між ARPU та ARPPU? Що з них буде більше? Чому?
12. Що таке CAC? Для чого воно потрібно?
13. Що ти знаєш про співвідношення LTV / CAC?
14. Про що говорить, якщо LTV / CAC менше 1? А якщо дорівнює одиниці? А якщо більше одиниці?
15. Чому компанія потребує інвестицій при тому, що має LTV / CAC = 3? Наведи приклад.
16. Чи можемо ми замість LTV використати ARPU? Чому?
17. Цього тижня ми провели рекламну кампанію для залучення користувачів. Скільки потрібно чекати, щоб порахувати їхнє LTV?
18. Що таке retention? Як він розраховується?
19. Що таке churn? Як, порахувавши retention, можна вирахувати churn?
20. Що таке rolling retention? Якщо порівнювати його з класичним retention, то що буде більшим?
21. Що таке когорта користувачів? Для чого нам потрібно брати її замість всіх юзерів у продукті?
22. Що таке коефіцієнт прилипливості? Як він розраховується?
23. В яких межах може бути показник коефіцієнта прилипливості? Про що говоритиме його крайня мінімальна і крайня максимальна величина?
24. Назви твій найулюбленіший застосунок на смартфоні. За якими метриками має у першу чергу слідкувати його продуктова команда?
25. Ти працюєш в OpenAI, який випустив застосунок ChatGPT. За якими метриками ти будеш слідувати як частина продуктової команди?
26. Ти працюєш із застосунком «Дія». Які метрики обрав би для себе, щоб розуміти успішність продукту?
27. Дашборд активацій продукту, підключений до бази даних, показує падіння конверсії за минулий тиждень. Де будеш шукати причину проблеми?
28. У нашого продукту на 20% у порівнянні з минулим місяцем зросли інстали. Чи говорить це про успіх нашого продукту?
29. У нашого продукту на 10% впало DAU? Наведи гіпотези, про що це може свідчити?
30. У нашого продукту з семиденним тріальним періодом на 10% зросла активація у підписку. Чи говорить це про збільшення прибутку?
31. Що таке воронка користувачів? Для чого її потрібно відслідковувати?
32. Як формуються гіпотези та які вони можуть бути?
33. Як пріоритезувати гіпотези для перевірки?
34. Що таке guardrail-метрики і чим вони корисні?
35. Що таке «дерево метрик» і навіщо воно потрібно?

Python

Ще рік тому вважав Python ледь не останнім серед списку пріоритетних технологій. Нині ж його роль для мене сильно зросла. Раджу розібратися у ключових бібліотеках і зробити кілька аналітичних проєктів з ним. Тоді на питання нижче буде дуже легко відповідати.

1. Що таке бібліотеки? Навіщо їх використовувати аналітику?
2. Які бібліотеки використовуєш для аналізу даних?
3. У якому середовищі використовував Python? Чому саме це?
4. Наведи приклади аналізу, які робив з допомогою Python?
5. Чи маєш приклади проєктів з використанням Python?
6. З якими бібліотеками для візуалізації даних працюєш та з якими візуалізаціями вже був досвід роботи?
7. Розкажи про EDA з Python: що робив і які команди використовував?
8. Як проводив очищення даних від викидів з допомогою Pyhton?
9. Як імпортувати csv-файл та для чого в параметрах вказується делімітер?
10. Для чого використовується метод info() з бібліотеки Pandas?
11. Як вивести перші 10 рядків з набору даних?
12. Як вивести лише другий стовпець з набору даних?
13. Як обʼєднати два набора даних?
14. Для чого використовується метод dropna() з бібліотеки Pandas?
15. Як видалити всі дублікати в наборі даних?
16. Для чого використовується метод isnull().sum() з бібліотеки Pandas?
17. Як відсортувати дані з допомогою Pandas?
18. Як змінити назву стовпця?
19. Як змінити тип даних?
20. Що можеш сказати про роботу з датами та часом?
21. Для чого використовується параметр axis в Pandas та NumPy?
22. Як видалити стовпець з набору даних?
23. Для чого використовується метод reset_index()?
24. Як експортувати датасет, з яким працював з допомогою Pandas в csv-файл?
25. Поясни код: df = pd.read_csv(’housing_data.csv’).
26. Поясни код: df[’Price’].mean().
27. Поясни код: df[’Title’] = df[’Title’].str.strip().
28. Поясни код: df[’Genres’].value_counts().
29. Поясни код: df[’Date’] = pd.to_datetime(df[’Date’]).

Поза чітким розділом

Тут питання від LinkedIn-спільноти, які хотілося б додати, але не до кінця зрозуміло, в який розділ. Відповіді на них багато в чому говорять про кандидата та його рівень.

1. З яким найбільшим об’ємом даних працював? Чим обробляв?
2. Що будеш робити, якщо з іншого відділу не дають потрібні дані?
3. Що будеш робити, якщо менеджер приймає рішення, яке повністю суперечить висновкам з твого аналізу?
4. Тобі дали код на SQL / Python на доопрацювання. Розкажи про алгоритм своїх дій під час цієї роботи.
5. Є продукт, який у софт-лончі майже рік. Аналітики немає, окрім базової. Що замовиш у першу чергу? (можливо, не зовсім питання для початківця, але варто подумати).
7. Що для тебе продуктова аналітика?
8. У чому для тебе різниця між маркетинговою та продуктовою аналітикою?
9. Задай задачу на логіку, яку інтерв’юер не зможе розв’язати? (реальне питання з одного баррейзингу).

Як це все здолати

Всі ці питання виглядають страшно. Скажу чесно, на десятки з них мені й зараз важко відповісти. Тому раджу не боятися, а розбиратися — крок за кроком.

Якщо ж ці 250+ питань не відбили мотивацію стати аналітиком даних, але турбує щось, що хотілося б обговорити особисто, — напиши мені. Вже рік кілька разів на тиждень безкоштовно зустрічаюся з початківцями, щоб допомогти їм на шляху до першого оферу. Можливо, за кілька місяців саме від тебе отримаю таке повідомлення.

Після таких повідомлень хочеться ще більше допомагати

Якщо ж ці запитання допоможуть тобі на технічній співбесіді — теж напиши. Мені буде дуже приємно почути це. Може ще й питань додаси.

👍ПодобаєтьсяСподобалось22
До обраногоВ обраному20
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Романе , виникло питання щодо 19. Яким буде результат формули: =CONCATENATE(A1, " «, B1)?. Чи вірно все написано в самій формулі? На мій погляд виникла помилка із синтаксисом написання » та " , або не вистачає ще одних " , але може я щось не вірно зрозуміла в самому посилі формули . буду дуже вдячна за відповідь )
Матеріал супер корисний , зараз по ньому перевіряю себе та намагаюсь заповнювати пробіли у знаннях.

Привіт, Ксеніє.
Дякую, приємно, що матеріал став у нагоді.

Дуже дивно, якась проблема з версткою.
На етапі редагування формула виглядає як =CONCATENATE(A1, " ", B1), тобто двоє лапок однакових. Але при публікації одна з лапок стає у вигляді ялинки.

Дякую за відповідь. І величезне дякую за все що ви робите! дивлюсь всі відео, читаю всі статті .Це просто скарб для початківця)

Вау, надзвичайно приємно це чути. Дякую вам за цікавість до мого контенту)
Якраз готую питання до тестової співбесіди, яку побачите у цьому місяці)

Романе, дякую тобі за чудову підбірку! Це дійсно цінне знання. Хочу побути трішки нудним — поговорити про те, що використовувати коректну термінологію.

Декілька прикладів, які я знайшов:
— вірогідність (правильно: ймовірність)
— перцентиль (правильно: процентиль)
— «Статзначущість зростання цільової метрики у тесті становить 94%» — не зустрічав такого формулювання. Значущість — це або так, або ні, а не про конкретну величину ефекту.
— «Які тести для оцінки АВ-тестів ви знаєте?». В українських підручниках зі статистики це критерії, а не тести, хоча я і сам використовую слово «тест» дуже часто)
— «метрика виросла» (правильно: зросла)

Є ще одне питання, яке мені здається дуже важливим уточнити:
— «Чому не варто підглядати за результатами АВ-тесту, доки він триває?». Тут я би сформулював як «Що станеться/які є ризики, якщо підглядати за результатами AB-тесту?». Останнім часом спостерігаю, що в світі відходять від консервативного принципу «в жодному разі не підглядати», і з’являються нові підходи, котрі дозволяють контролювати false positive rate при підгляданні (bit.ly/47EmsWr). Підсумовуючи, більш точно було би так: підглядувати можна, але це має бути враховано при дизайні експерименту із відповідними поправками.

Розумію, що можу викликати роздратування, бо сам не люблю такого роду критику). Але пишу це лише тому, що я прочитав статтю із великою цікавістю, і вірю в користь такого фідбеку)

Жодного роздратування, дуже вдячний за ваш коментар з таким зворотнім зв’язком.

З усім, що перелічили вгорі, згоден і відразу ж поправив (сподіваюся, ніде не зламав верстку).
Бачу, що інколи вживаю русизми, про які навіть не задумувався)

Значущість у тексті мала означати (1 — p-value), теж замінив.

Щодо підглядання, то мало бути питанням з каверзою, щоб зрозуміти думки кандидата. Але у вашому формулюванні таки краще звучить, запозичу)

Ще раз дякую за критику, дуже цінно отримувати її від колег.

Я хоч і не DA, але обов’язки можуть багато в чому перетинатися, дуже дякую за справді якісний матеріал, яких тут (імхо) стає все менше поміж беззмістовного самопіару, нескінченних срачів «уєзжуні (ухилянти) vs оставуні» та щоденного ниття, як в європуріях погано живеться.

Дякую, дуже приємно чути, що сподобалося.

Велике дякую за чудову підбірку! Відправила посилання чоловіку, який якраз планує свічнутися в ІТ і тільки почав вивчати дата аналіз на курсах. Безцінно мати цілісне уявлення про весь обсяг матеріалу, знань, умінь, навичок для майбутньої роботи.

Дякую, приємно чути. Але все ж зазначу, що це може бути не повний обсяг можливих питань і тем для підготовки. Орієнтувався на свій досвід та тих менті, які проходили співбесіди у компаніях.

dou.ua/forums/topic/40265 — чоловіку ще можу порадити зазирнути сюди, тут майже рік тому збирав ресурси, які допомагали мені у навчанні при світчингу. А коли матиме якісь питання стосовно кар’єри в аналітиці, то радий буду поговорити на онлайн-сесії.

Велике дякую за чудову підбірку! Зберегла матеріал дякую чоловіка, який вирішив свічнутися в ІТ і якраз почав вивчати дата аналіз на курсах. Дуже добре мати відразу цілісне уявлення про обсяг потрібних знань і навичок.

Хоч я в цивільному/не цивільному житті не є чистим аналітиком даних, хоча доводить опрацьовувати різноманітні масиви даних, деякі питання були досить простими і легкими, а деякі теми взагалі для мене нові, тому буду потроху читати, знайомитися, щоб мати хоч поверхневе розуміння.
Гарна стаття!

Дякую) Радий буду допомогти, якщо в подальшому з’являться якісь питання, пов’язані з цими питаннями)

На всяк випадок надіслав connect request у LinkedIn.

Провсяк випадок прийняв його)

Безмежно дякую за золотий матеріал!

В розділі питань SQL є таке повторювання:
5. FROM, LIMIT, GROUP BY, SELECT, ORDER BY, WHERE — розмісти у потрібному для написання коду порядку.
6. FROM, LIMIT, GROUP BY, SELECT, ORDER BY, WHERE — розмісти у порядку, в якому виконуватиметься код.

Якщо можна, виправте, будь ласка. Дуже хочеться дізнатися яке запитання випало:)

это не повторение, два совершенно разных вопроса. Хотя второй вопрос для аналитика данных — я бы поспорил о необходимости таких знаний

Згоден, але відповідь на це питання може допомогти зрозуміти логічність мислення аналітика.

Це дійсно різні питання. Порядок написання коду і його виконання не співпадають.

Так, я залишила коментар і одразу зрозуміла, що вони дійсно різні. Виповзала моя неуважність і дія поспіхом. Пішла ридати, що ось такий з мене буде аналітик :)
Дякую всім за відповідь.

Аналітик буде хорошим. Одна помилка нічого не значить, якщо не повторювати її)

Романе, черговий корисний матеріал. Кількість питань лякає, буду долати частинами) Дякую!

Дякую, Володимире. Ну я його і писав частинами. Тому, звісно, краще перевіряти себе поступово.

Ну це топ, як і завжди:) Дякую.

Дякую вам. Сподіваюся, стане в нагоді потренувати себе)

Багато корисної інформації для початківців. Дякую:)

І тобі дякую за допомогою з певними розділами, де у мене була «творча криза»)

Підписатись на коментарі