Як почати шлях у Data Science та Machine Learning вже сьогодні. 10 навичок для успіху

💡 Усі статті, обговорення, новини для початківців — в одному місці. Приєднуйтесь до Junior спільноти!

Мене звати Ганна Пилєва, я — Machine Learning Engineer з досвідом 8 років в різноманітних Data Science проєктах. Працювала в EVO (prom.ua), Parimatch Tech, N-iХ, GroupBy Inc. Зараз консультую компанії з побудови data-рішень та навчаю аналізу даних і машинному навчанню у своїй академії Data Loves.

Крім всього іншого я вже 3 роки веду блог (навіть блоги) про роботу з даними і постійно аналізую запити моїх читачів. І одне зі спостережень — багатьох людей цікавить напрям Data Science для розвитку (для себе, або для розвитку карʼєри в ІТ) і при цьому максимально складно зрозуміти, з чого почати. Це спричинено тим, що ML/DS напрям активно розвивається, зʼявляються розгалуження на спеціальності, і при цьому для входження в кожну з них треба багато навичок. Тож, початківці в ML/DS, навіть досвідчені ІТ-фахівці, часто не знають, з чого почати, як скласти план розвитку, скільки це потребуватиме часу до рівня «я вмію використовувати ML для реальних задач».

Я постійно аналізую вакансії, проводжу інтервʼю в різні конманії, слідкую за ринком. І у цій статті хочу поділитись, з чого ж почати в ML/DS сьогодні, які навички потрібні, щоб стати фахівцем з актуальними знаннями. Також в процесі буду ділитись власним досвідом, як освоювала кожну секцію навичок я.

Ця стаття має стати першою в циклі про кар’єру в ML. Якщо побачу позитивний відгук — з радістю розкажу, як розвиватися у сфері, що допомогло мені та що працює в принципі, і які уроки я засвоїла за 8 років у Data Science.

Еволюція галузі

Коли я починала у Data Science у 2015 році, сфера мала геть інший вигляд. Багато хто приходив з позицій аналітиків, і я була серед них. Кумедно згадувати, але тоді я будувала лінійні та поліноміальні регресії в Excel і інтегрувала метод кластеризації kMeans (реалізований на R) з Tableau для візуалізації сегментів користувачів в реальному часі.

Колись без глибокого знання математики в ML було не вижити. Лінійна алгебра, статистика, теорія ймовірностей — без цього розібратися, що відбувається «під капотом» алгоритмів, було майже нереально. Часто доводилося писати все з нуля, вручну реалізовуючи методи, тож розуміння внутрішньої логіки алгоритмів було критично важливим.

На той момент ML активно розвивався і були зроблені великі прориви в Deep Learning, але бракувало готових інструментів. Хоча вже існували scikit-learn, tensorflow, keras для Python, ML-пакети на R та Java, проте чимало алгоритмів не було автоматизовано та оптимізовано для широкого використання.

Відтоді Data Science суттєво змінився, як і підхід до освоєння цієї сфери. Поріг входження значно знизився. Сьогодні більшість алгоритмів уже запаковані в бібліотеки, тож головне — не знати всі формули, а вміти вибрати правильну модель, адаптувати її під задачу й успішно запустити в продакшн.

ML все ще залишається одним із найцікавіших і найприбутковіших напрямів. Чому? Бо це завжди нові виклики, круті задачі та можливість впливати на реальні бізнес-процеси.

Фундаментальні навички для початку кар’єри в ML

Щоб почати кар’єру в Machine Learning, потрібно багато знати. Але все можна освоїти, якщо зрозуміти, в якому порядку і що саме вивчати, і на чому фокусуватися.

Серед навичок, які потрібні для старту на позиції Junior, я б виокремила такі:

  • Програмування на Python.
  • Аналіз і підготовка даних.
  • Математичний фундамент.
  • Класичні методи машинного навчання.
  • Методи глибокого навчання.
  • Інженерні навички.
  • Робота з базами даних і SQL.
  • Робота з мовними моделями.
  • Комунікація та взаємодія з бізнесом.
  • Англійська мова.

Наявність цих навичок покриють від 70 до 100% вимог до Junior та навіть Middle-вакансій. Звісно, в вакансіях зустрічаються і інші навички. Я виділила ці 10 як найбільш частотні, і без яких точно нікуди. З тих, які не увійшли, і на які я б рекомендувала звернути увагу — це Clouds, MLOps Stack, Data Engineering Stack (побудова і автоматизація data-пайплайнів). Часто ці навички будуть зустрічатись у вимогах до досвідчених фахівців і ми можемо їх розглянути в наступних серіях про розвиток в Data Science.

А поки розглянемо кожен із зазначених необхідних пунктів для старту детальніше.

1. Програмування на Python

Python став стандартом для ML-розробки. Якщо ви тільки починаєте, інвестуйте час у вивчення цієї мови та її екосистеми. Важливо не тільки знати синтаксис, але й вміти писати ефективний і чистий код.

Варто вивчити:

  • Базовий та просунутий синтаксис Python.
  • Основи об’єктноорієнтованого програмування (ООП).
  • Роботу з даними в Python (Pandas, NumPy).
  • Паралельну та асинхронну обробку даних (multiprocessing, asyncio).

Де вивчати:

  • Курси на Coursera, Udemy, DataCamp («Python for Data Science»).
  • Книга «Python for Data Analysis» від Wes McKinney (третє видання доступне безплатно онлайн).

Важливо! Практика є ключовою. Вибирайте ресурси з практичними завданнями або організовуйте собі проєкти з перших днів навчання.

Я освоювала Python самотужки та це зайняло в мене надзвичайно багато часу — аж 2 роки. З університету я знала основи програмування (поняття змінної, цикли, функції) на інших мовах: Pascal, Delphi, C++, C#. Це, на жаль, не надто спростило освоєння Python для Data Science, оскільки тут треба практика саме на задачах аналітики й побудови моделей і необхідно набити руку.

Руку я набивала довго, оскільки одразу вчилась на доволі просунутих задачах в магістратурі — написання програм для паралельної обробки даних, побудова повних пайплайнів обробки табличних та текстових даних. Мені було складно десь на 10 з 10.

Тому зараз початківцям я дуже раджу взяти структуроване навчання з синтаксису Python і бібліотек аналізу, навчитись використанню цієї мови програмування на практиці на задачах, наближених до робочих, від простих до складніших. І тоді при освоєнні вже машинного навчання, в подальшій роботі та з тестовими завданнями на Python будете почувати себе комфортно і суттєво скоротите собі час освоєння цього інструменту.

2. Аналіз даних

Здатність розуміти та працювати з даними — одна з основних навичок для ML-фахівця. Якщо дані не підготовлені належним чином, моделі не зможуть видати оптимальні результати.

Часто саме тут і відбувається «магія», адже моделі, в тому числі й ті, що використовують глибоке навчання та LLM, зараз неймовірно потужні. Але, як і у випадку з машинним навчанням, існує золоте правило: «garbage in — garbage out».

Ви точно помічали, як по-різному відповідає ChatGPT із добре сформульованим запитом, прикладами та контекстом, та без цього. Тому без якісної роботи з даними моделі не розкриють свій потенціал. Готуйтеся, що 60-80% часу ви будете не моделі тренувати, а чистити й готувати дані, шукати в них закономірності та аномалії, а також аналізувати помилки та оцінювати моделі. І усе це — за допомогою спеціальних інструментів.

Отже, варто освоїти:

  • Pandas — для обробки та трансформацій даних;
  • NumPy — для числових операцій;
  • Matplotlib, Seaborn, Plotly — для візуалізації;
  • EDA (Exploratory Data Analysis) — основні методи перед моделюванням;
  • Feature Engineering — створення нових корисних ознак.

Практичні навички, які корисно розвинути:

  1. Очищення даних від шуму, пропусків та аномалій — повірте, в реальних даних це буде всюди.
  2. Виявлення патернів — знаходити цікаві залежності та нестандартні спостереження.
  3. Формування гіпотез на основі даних.
  4. Підготовка даних до моделювання — масштабування, трансформації, encoding (кодування категоріальних ознак, наприклад, як представити категорії «синє», «червоне», «жовте» у числовій формі для моделі).

Ця частина роботи часто залишається непомітною для зовнішнього спостерігача, і, чесно кажучи, вона не така «сексі», як побудова моделей, але саме вона закладає основу для ефективного ML-рішення. Тож важливо не тільки вміти це робити, а й любити!

Цю частину я теж освоювала самотужки на практиці. Тому це зайняло більше часу, ніж якби я взяла цільове структуроване навчання. Але тоді, у 2015-2017, пасуючих не бачила. Для початківців маю ще одну важливу пораду. Аналіз даних, виявлення патернів, аномалій, заповнення пропущених значень, вміння створювати висновки з даних — це мистецтво і великий шмат знань. Не засмучуйтесь, якщо у вас не виходить навчитись цього за тиждень.

Ви будете вчитись різним фішкам аналізу і очищення та збагачення даних протягом усієї своєї карʼєри. Але при цьому перед пошуком першої роботи ви маєте освоїти критичний набір навичок аби вже могти давати цінність бізнесу.

3. Математичний фундамент

ML — це математика на практиці. Готові бібліотеки полегшують життя, але без базового розуміння ви не зможете пояснити, чому модель поводиться саме так, як її покращити чи оптимізувати.

Ключові розділи:

  • Лінійна алгебра — матриці, вектори, власні значення. Це основа всього: від лінійної регресії до нейромереж.
  • Математичний аналіз — похідні, градієнти, оптимізація. Без цього не розібратися в градієнтному спуску.
  • Теорія ймовірностей — потрібна для всіх моделей, що працюють із невизначеністю (класифікація, рекомендації тощо).
  • Прикладна статистика — допомагає аналізувати дані, тестувати гіпотези, правильно трактувати результати.
  • Оптимізація — якщо хочете розуміти, як навчати моделі швидше й ефективніше.

Не потрібно знати все на рівні академічних підручників, але й «натискати кнопки» наосліп не варіант. Отже, важливо:

  • Інтуїтивно розуміти, як працюють алгоритми.
  • Вміти інтерпретувати результати моделей.
  • Розпізнавати, коли навчання моделі дає некоректні результати або щось пішло не так.

В мене був сильний бекграунд в теоретичній математиці з бакалаврату в системному аналізі в КПІ. На жаль, бекграунд був надто теоретичний і зі справді прикладного для сучасного ML була лише статистика. Також в мене неоптимально щодо руху до реальних навичок, з якими беруть на роботу, був той факт, що 4 роки мого навчання в бакалавраті були зосереджені на вивченні здебільшого широких теоретичних математичних знань.

Це формує особливе математичне мислення, але конкретні теореми і підходи — забуваються. Тож, коли я підійшла до освоєння методів машинного навчання, доводилось все повторювати. На щастя, в магістратурі в УКУ (Український Католицький Університет), на яку я пішла для фундаментального освоєння Data Science, було передбачене освоєння необхідної математики, при чому більш цільово. І курси з лінійної алгебри та статистики в УКУ були чудові.

Зараз мені найбільше подобається і виглядає time-effective підхід, коли математику дають одразу у звʼязці із реальними задачами з індустрії. В такому підході викладаю математику і я на моєму авторському курсі «Machine Learning для людей».

Що можу порекомендувати для освоєння математики для Data Science:

  • Книга Essential Math for Data Science by Thomas Nield — непогана книга, підійде для початківців. Є приклади коду на Python для розуміння, як використовувати математичні концепції на практиці.
  • Спеціалізація Mathematics for Machine Learning and Data Science by Deeplearning.AI — спеціалізація з трьох курсів. Дуже крута, якщо можете добре сприймати математичний контент англійською. Є практичні приклади, пояснення простою мовою, наочно.
  • Книга Mathematics for Machine Learning by Deisenroth, A. Aldo Faisal, and Cheng Soon Ong — доступна відкрито онлайн. Вона містить перелік основних математичних понять для розуміння, як працюють алгоритми ML під капотом. Підійде для тих, хто мав мат.аналіз і лінійну алгебру в університеті аби повторити. Також може бути корисною як довідник для повторення основної математики перед інтервʼю.

4. Класичні методи машинного навчання

Попри популярність нейромереж класичні алгоритми залишаються основою багатьох ефективних рішень у бізнесі.

Ключові алгоритми:

  • Лінійні моделі (лінійна регресія, логістична регресія).
  • Дерева рішень, Random Forest, Gradient Boosting.
  • Методи кластеризації (k-means, DBSCAN).
  • PCA, t-SNE, UMAP — зниження розмірності.

Що важливо:

  • розуміти, коли який алгоритм застосовувати;
  • бачити сильні та слабкі сторони кожного методу;
  • вміти налаштовувати гіперпараметри й відстежувати їхній вплив на модель;
  • використовувати правильні метрики для оцінки якості моделей.

Виникає питання: де вчитися? Адже світ ML — це джунглі курсів, статей та документацій. Щоб не загубитися, ось перевірені джерела:

  • Класика жанру — курс Machine Learning від Andrew Ng на Coursera. Навіть якщо ви його ще не проходили, точно про нього чули.
  • Книга для тих, хто любить практику — Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow. Читається легко, пояснює складне простою мовою.
  • Документація scikit-learn — якщо хочеться швидко зрозуміти, як працює конкретний алгоритм, і одразу протестувати його на коді.

Я починала освоєння ML з того самого курсу Andrew Ng, де тоді ще лабораторні були на Octav. Після курсу тривалістю 11 тижнів в голові була каша, пройти співбесіди не вдавалось, я плутала kNN і kMeans, не могла запамʼятати, який метод для чого. Тому після цього я пішла в магістратуру для більш ґрунтовного освоєння мл. В магістратурі курс з ML — самі лекції були, чесно кажучи, на трієчку.

Але у нас було багато практики й не було ChatGPT та звідки списати, і це дозволило мені і з Python краще навчитись працювати, і з методами ML розібратись. Але було в цьому розділі багато самонавчання і деякі методи на мій поточний погляд можна було б опустити, оскільки в індустрії вони не використовуються. Ще профіт від того курсу: я виклала всі свої лабораторні на GitHub і це був такий добрячий пласт роботи, який для роботодавців підтверджував, що я справді шарю.

5. Deep Learning: той самий wow-ефект

Напевно, вже й не знайти ML-вакансії без згадки про глибоке навчання. Саме завдяки йому в нас є голосові асистенти, нейромережі, що малюють картини, і автономні авто.

Тому раджу сфокусуватися на наступному:

  • FCN (Fully Connected Networks) — база для роботи з табличними та числовими даними.
  • CNN (Convolutional Neural Networks) — королі комп’ютерного зору.
  • RNN, LSTM, GRU — якщо треба працювати з послідовностями (часові ряди, тексти).
  • Трансформери — обов’язковий must-have для NLP.
    Автоенкодери — щоб виявляти аномалії та створювати стиснені представлення даних.
  • Генеративні моделі (GAN, Diffusion models) — для тих, хто планує навчати нейромережу створенню нового контенту.

Для цього вам знадобляться наступні навички:

  1. Писати нейромережі на PyTorch або TensorFlow/Keras.
  2. Використовувати transfer learning — не завжди треба вчити модель з нуля.
  3. Розбиратися в embeddings — векторизація даних важлива для пошуку схожостей.
  4. Оптимізувати моделі для inference, щоб вони працювали швидко та ефективно.

Якщо ви хочете не просто «подивитися вебінар», а маєте на меті реально засвоїти матеріал, вам стануть у пригоді:

  • Курс Deep Learning від Andrew Ng на Coursera — щоб структурувати основи.
  • Документація PyTorch та TensorFlow — офіційні найактуальніші гайди.
  • Книга «Deep Learning» (Goodfellow, Bengio, Courville) — для тих, хто хоче глибше закопатися в теорію.

Перший дотик з глибоким навчанням в мене був в магістратурі. На той момент я вже добре розуміла принципи ML. На курсі з DL ми почали з основ, писали базові архітектури нейромереж на numpy і це було чудовою практикою. Я б навіть хотіла, аби її було більше. Потім у нас були спеціалізовані курси з Computer Vision та NLP. А після цього я за 3 тижні пройшла ту саму спеціалізацію Deep Learning на Coursera і це дозволило мені чудово структурувати знання. Мені також в той час дуже подобались курси Stanford University в записі на ютуб. Наповнення там глибше, ніж на Coursera і дивилась я ті лекції з величезним дитячим захопленням. Раджу глянути в записі CS231n аби відчути, що таке подача матеріалу в топовому університеті світу.

6. Інженерні навички для ML

Ваша ML-модель не має залишитися просто локальним скриптом. ML-фахівець має інтегрувати її так, щоб вона вправно працювала в продакшені, приносила користь бізнесу і не ламалася на рівному місці.

Для цього вам знадобляться інженерні навички:

  • API (FastAPI, Flask) — щоб вашу модель могли викликати як сервіс, а не запускати вручну.
  • Docker — аби все працювало стабільно незалежно від середовища. Без контейнеризації деплой може перетворитися на пекло.
  • MLflow, Weights & Biases — допоможуть трекати експерименти, бо без цього ви швидко загубитеся серед версій, гіперпараметрів і датасетів.
  • Моніторинг моделей — навіть якщо модель була чудовою на старті, в продакшені вона може деградувати. Моніторинг рятує від таких сюрпризів.
  • CI/CD для ML — щоб усе оновлювалося автоматично, без зайвих ручних запусків.
  • Основи Kubernetes — масштабування моделей і керування ресурсами. На старті не критично, але на рівні Middle точно знадобиться.

Навіщо це все, легко розібрати на конкретному прикладі.

Уявіть: ваш алгоритм покращує рекомендації товарів в Amazon. Без належної інженерної обгортки він залишиться просто кодом на локальному ноутбуці. А з правильним підходом — реально впливатиме на бізнес.

Тут я все освоювала на практиці. Інженерії ставало все більше впродовж мого розвитку в Data Science. Я працювала в різних проєктах, де був і highoad, і необхідність обробляти сотні тисяч товарів, і потреба віддавати результати в real-time. Вигадували з командою кастомні рішення, помилялись, вчились. Ще я часто відвідувала доповіді на ML-інженерні теми на конференціях. Мені ця частина давалась непросто, але зараз я впевнена, що можу самотужки створити та задеплоїти великий діапазон рішень, знаю з практики, а не з книжок, як добре, а як — ні, і пишаюсь своїм бойовим досвідом.

7. Робота з базами даних і SQL

Дані в реальних проєктах зберігаються в базах, а не в CSV-файлах. Тому SQL — це must-have. Так, ChatGPT вміє писати SQL-запити. Але робить це не завжди оптимально, правильно і точно не врятує вас на live-інтерв’ю чи під тиском дедлайнів. Тому краще навчитися працювати з базами самостійно.

Що варто знати:

  • SQL на рівні складних запитів: підзапити, агрегації, віконні функції, CTE;
  • оптимізація запитів — щоб не чекати їх виконання годинами;
  • основи проєктування баз даних — як вони зберігаються та як це впливає на їх обробку;
  • робота з великими даними — базове знайомство зі Spark та BigQuery, бо з величезною ймовірністю дані просто не влізуть у ваш ноутбук.

Навіть найкраща модель не запрацює, якщо ви не зможете дістати й підготувати для неї потрібну дату.

Основи роботи з базами даних були у нас в КПІ на бакалавраті. Там я дізналась про нормальні форми і як будувати реляційні бази даних. SQL освоювала на практиці, працюючи з аналітиком. Впевнено почала почуватись десь за пів року.

Якби концентровано тренувалась — було б в рази швидше, але не було часу, бо я поєднувала роботу аналітиком з навчанням в університеті. В магістратурі у нас були розділи по роботі з розподіленими БД, з noSQL базами, та це теж було корисно, хоча і врешті ці знання частіше ставали в пригоді на співбесідах. Безпосередньо в роботі я використовувала вже готові бази, аби був налагоджений алгоритм наповнення баз і достатньо знань SQL та Python, щоб виконувати успішно задачі.

8. Робота з мовними моделями (LLM)

Навіть якщо ви не працюєте напряму з NLP, великі мовні моделі (LLM) вже стали невіддільною частиною ML-інструментарію. Вони пришвидшують вирішення більшості задач, але тільки якщо вміти з ними правильно працювати.

Що варто знати:

  • Базові архітектури — Transformer, self-attention, embeddings.
  • Prompt Engineering — як правильно ставити запитання моделі, щоб отримувати адекватні відповіді.
  • Робота з OpenAI API, Hugging Face, open-source LLM (Llama, Mistral та інші).
  • Fine-tuning та instruction tuning — коли та навіщо їх застосовувати.
  • Адаптація LLM під бізнес-задачі — генерація текстів, класифікація, пошук, аналіз даних.
  • Інтеграція в продукти — AI-сервіси, чат-боти, автоматизовані системи.

LLM — це вже не «хайп», а стандартний інструмент для аналітики, автоматизації та створення ML-продуктів. Якщо ви ще не в темі — саме час розібратися.

На мій погляд, мовні моделі — це так неймовірно цікаво, що їх прям хочеться освоювати самостійно просто читаючи новини і пейпери, на які в них посилаються. Я так і занурювалась в тему. Переглядала також різні курси в deeplearning.ai. Зараз ще є чудові курси по LangGraph та LangChain — популярні нині інструменти по роботі з мовними моделями.

9. Комунікаційні навички та взаємодія з бізнесом

Технічні знання — це лише половина успіху ML-фахівця. Друга половина — криється у правильному спілкуванні. Наразі цінність спеціаліста не тільки й не стільки в тому, як добре він будує моделі, а й у тім, як він вміє донести їхню користь бізнесу, як впливає на рішення та ефективно працює в команді.

Щоб стати саме таким профі, вам знадобиться:

  1. Говорити з бізнесом зрозумілою мовою — формули мало кого цікавлять, усім важливо, як алгоритм збільшить прибуток, зменшить витрати чи покращить продукт.
  2. Переводити бізнес-вимоги в ML-задачі — зрозуміти, що саме потрібно вирішити, і як це можна зробити за допомогою ML.
  3. Грамотно доводити результати — графіки, метрики, звіти мають бути чіткими та відповідати на конкретні питання.
  4. Працювати в команді — ML-фахівці майже ніколи не працюють у вакуумі, завжди є взаємодія з аналітиками, інженерами, продактами, дизайнерами.

Скільки б ви не знали про ML, якщо не вмієте пояснити свою модель і показати її цінність, кар’єрне зростання буде складнішим.

Тут найбільше допомагає психотерапія і робота з коучем :) На мій погляд, всі конфлікти і непорозуміння в команді — через те, що хтось з учасників процесу недолікував свої дитячі травми. Можливо жорстко — але хіба можна це заперечити? Зараз я вважаю, що обовʼязок кожної людини, яка хоче бути успішною — навчитись керувати своїми емоціями, відвідувати психотерапевта раз на тиждень, працювати над емоційним інтелектом і нейропластичністю. Це взагалі інвестиції ресурсів на все життя. Навіть якщо потім підете з ІТ і будь-яку іншу сферу — викладати танці чи робити власний ІТ-бізнес — ваше мислення, вміння вести перемовини, делегувати і досягати результатів вас суттєво пришвидшить у порівнянні з іншими початківцями в тих сферах.

10. Англійська мова

Найкращі курси, статті, документація та дослідження в ML — англійською. Без неї буде складно розібратися в нових підходах та працювати з міжнародними командами. Фахівці з хорошою англійською зазвичай заробляють більше, бо працюють з іноземними клієнтами.

Перекладачі — це добре, але доносити власні ідеї, розуміти коментарі менеджера або швидко розбиратися з новими інструментами доведеться самостійно.

Що допоможе:

  • Google Translate Chrome Extension для швидкого перекладу документації.
  • Автогенеровані субтитри на YouTube для навчальних відео.
  • Мета — B1/B2 — цього рівня знання мови достатньо для комфортної роботи та розвитку кар’єри.

І бонус: крута англійська — це не лише про роботу. Це ще й можливість комфортно подорожувати, працювати на міжнародні компанії та брати клієнтів з усього світу.

Я вчила англійську з першого ласу. Між п’ятим та одинадцятим класами у мене в гуманітарній гімназії було п’ять уроків англійської на тиждень. Тому випустилась зі школи я із В2, але не зовсім впевненим. Чому невпевненим? Я не вміла читати книжки англійською, профільні технічні статті, слухати й розуміти музику, дивитись фільми. Але могла добре розмовляти. В КПІ англійська була слабенька і мій рівень дещо просів.

Тоді я пішла в школу SpeakUP і загалом задалась ціллю нарешті досягнути впевненого В2. Досягла. І фільми тепер дивлюсь лише в оригіналі. Зараз мій рівень тримається сам по собі, бо я постійно взаємодію з англійською: статті, відео, написання дописів, комунікація з іноземними колегами та замовниками, проведення виступів англійською. Практика — наше все.

Що далі

Шлях у машинне навчання непростий, але кожен крок — це інвестиція у вашу кар’єру. Навички, які ви освоюєте в процесі, — це ваш квиток до роботи у великих технологічних компаніях, де створюють інновації.

Як ви вже помітили, одне лише навчання моделей не зробить вас сильним фахівцем. Потрібні й інші компетенції: програмування, аналіз даних, математика, деплоймент, комунікація. Саме вони допоможуть вам впевнено почуватися у складних реальних проєктах.

Планую продовжити серію й розповісти про кар’єрний розвиток у ML:

  1. як виглядає кар’єра в цій сфері на практиці;
  2. чим відрізняються Junior, Middle та Senior-спеціалісти;
  3. які варіанти розвитку після Senior: технічні та менеджерські.

Буду рада вашим відгукам і коментарям!

👍ПодобаєтьсяСподобалось24
До обраногоВ обраному13
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

На мою думку, Ви написали прекрасну інструкцію для початківців у галузі. Щиро дякую!

топ контент, дуже дякую! і угораю з хейтерів, які не витримали того, що ви гарна і успішна :)

Дякую за чудову статтю та дійсно унікальний курс. Чудові лекції, багато практики та підтримуюча спільнота надають сил та натхнення лупати цю скалу)

Дякую за цікавий огляд «найсексуальнішої професії ХХІ» століття.
Маю відмітити, що все вищевикладене звучить вже як повноцінна університетська програма і потребує як значних зусиль з боку людини, часу на вивчення та практику так і підтримки з боку близьких, щоб не втратити мотивацію й запал протягом вивчення усіх цих джунглів

Приблизно десь такий перелік тем, як ви описали, давався на курсі «From the Frontline to Data Science Consulting» в УКУ для ветеранів російсько-української війни — apps.ucu.edu.ua/...​-data-science-consulting . Правда, там не було спеціальних занять по deep learning, але більшість слухачів застосувала deep supervised learning самостійно у своїх випускних роботах поряд з методами unsupervised machine learning, які відпрацьовувались на заняттях. Так що ваш курс цілком кореспондується з 7-ми місячним курсом, який запропонували Ukrainian Catholic University і SGH Warsaw School of Economics для ветеранів. Дехто після цих курсів знайшов роботу і проекти по спеціальності в українських і західних компаніях.

Дякую, що поділились, гадаю, багато хто не чув про цю програму від УКУ. Класно, що таке створюється для ветеранів і люди знаходять роботу.

Дякую за статтю,
Питання — а нашо pandas з asyncio коли далі по тексту згадується Spark? Можете навести приклад будь ласка де перші два кращі за останній? Бо після таких порад потім часто густо Датабрікс кластери ХЛ стоять простоюють бо хтось звик/навчили
import pandas as pd 🥲😅
Майже будь яка книжка зі Спарку обов’язково покриє і Spark SQL і MLlib і навіть трошки про стріминг розкаже. До речі в статті варто було б його згадати — не уявляю зараз вакансії де б не спитали про кафку ту саму.

По матеріалах мабуть пораджу всі книжки і відео від Хольдена ( Holden Karau 😺)

З моєї т.з. додам ще таку пораду — оберіть якогось одного хмарного провайдера і вивчайте його екосистему для МЛ також можливо є фірмові курси/академіі безкоштовні, бо купа речей уже давно пропонується з коробки. Я б радив Azure, але хтось може навести переваги AWS чи GCP

Вітаю! Не в усіх компаніях використовується spark, тоді використовуються інші інструменти. Я працювала і там, де був spark та hadoop екосистема, і там де airflow dags з пандасом і нумпаєм для обробки даних. З датабрікс також працювала, і там spark. Дуже різні набори інструментів — в залежності від проєкту і потреби.

До речі в статті варто було б його згадати — не уявляю зараз вакансії де б не спитали про кафку ту саму.

— далеко не всюди треба знання kafka і стрімінгу на ML-позицію, якщо переглянути актуальні вакансії.

По матеріалах мабуть пораджу всі книжки і відео від Хольдена ( Holden Karau 😺

Не чула про нього, гляну, дякую.

З моєї т.з. додам ще таку пораду — оберіть якогось одного хмарного провайдера і вивчайте його екосистему для МЛ також можливо є фірмові курси/академіі безкоштовні, бо купа речей уже давно пропонується з коробки. Я б радив Azure, але хтось може навести переваги AWS чи GCP

Так, тут згодна. Хмарні сервіси часто вимагаються зараз. Теж раджу підписникам/студентам глянути базові курси, аби розуміти які є сервіси, і потім вже занурюватись в ML specific функціонал. Бо реалізовано — то так, але аби обрати методи, способи оцінки, побудувати MLOps — треба розуміти чим це все відрізняється і мати ML-базу. Без того складно, як можу судити зі спостережень за початківцями.

Вітаю! Не в усіх компаніях використовується spark, тоді використовуються інші інструменти. Я працювала і там, де був spark та hadoop екосистема, і там де airflow dags з пандасом і нумпаєм для обробки даних. З датабрікс також працювала, і там spark. Дуже різні набори інструментів — в залежності від проєкту і потреби.

А є ще легасьові Apache Pig проекти, Luigi та Prefect, AWS glue та Azure Synapse і навіть кастомні самописні рішення досі десь кредитний скорінг рахують.
Але ж це не означає що початківці мають знати всі ці різні набори інструментів — тут і більш досвідчені фахівці заваляться.

Ви ж чомусь звузили список інструментів для порад до pandas, numpy та Pyspark.
Тому моя ідея це звузити ще більше і сконцентруватися на одному якомусь інструменті але вивчити гарненько, а не по вершках всього.
І от джун з гарним розумінням Pyspark >> джуна з pandas.
Якщо людина впевнено пояснює різницю між функціями explode() та inline() - для мене це був би дуже гарний знак

А є ще легасьові Apache Pig проекти, Luigi та Prefect, AWS glue та Azure Synapse і навіть кастомні самописні рішення досі десь кредитний скорінг рахують.

Абсолютно недоречний до контексту коментар. Я не зазначила в статті жодного інструмента, який би не фігурував у реальних актуальних вакансіях.

Ви ж чомусь звузили список інструментів для порад до pandas, numpy

Стаття орієнтована на початківців, які не знають, з чого взагалі почати — з вивчення плюсів чи деплойменту LLMів. Я навела інструменти, які точно треба на позиції початківців, без яких точно не знайдеш роботу. І як раз з цим набором інтрументів її можна знайти. Але іноді треба знати і інші. Коли людина вивчає новий напрям, їй треба йти від вимог, які треба всюди, до більш нішових. Так от pandas і numpy треба всюди, а Pyspark — ні, але десь треба і тому я навела його **для прикладу**. А ви причепились і знецінюєте мою роботу :)

І от джун з гарним розумінням Pyspark >> джуна з pandas.

Це ваше субʼєктивне бачення. Дані кажуть про інше. Прямо зараз на DOU 5 вакансій дата саєнтистів з зазначеним необхідним знанням PySpark, і 28 — із зазначеною явно вимогою на pandas. Це прекрасно, що ви так цінуєте PySpark, але далеко не в усіх компаніях це викорситовується.

Якщо людина впевнено пояснює різницю між функціями explode() та inline() - для мене це був би дуже гарний знак

Ключове тут — для вас.

Мене звати Ганна Пилєва, я — засновниця та викладачка Data Loves Academy, спеціалістка з машинного навчання та аналізу даних

ви з галуззю трішечкі помилилися ;)
Loves Academy звучить краще)

На основі чого ви зробили цей висновок?

А ваше прізвище часом не Петросян?

Привіт) Нажаль ні. А Вам саме він потрібен? Може я Вам зможу допомогти?

Можна ваш акаунт на kaggle? Подивлюся що ви за експерткиня

Ви хочете пісюнами з нею помірятися? Типу, хто більш ко-фаундеріший ко-фаундер?

Коментар порушує правила спільноти і видалений модераторами.

ну так і ти спочатку виклади свій лінк на акаунт в каглі, щоб розуміти хто просить. Можливо їй не варто навіть звертати увагу. А ще виклади акаунт на літкоді, подивимся що ти там з червоного вирішив, бо поки що виглядає що ти відкрив фірму пінопласт на 4 тіпа без гіта, на якій вручну в папочки складаєте файлики)

Коментар порушує правила спільноти і видалений модераторами.

Бачу, що у культурі спілкування ви нічого не досягли, але у вас ще все життя попереду, щоб це виправити.Тепер перейдемо до головного питання. Ви не скинули лінки на акаунти кагл та літкод, щоб ми могли пересвідчитися, що ви справді експерт, а не балабол, тому з вами наразі все зрозуміло. Даю вам час до завтрашнього вечора, щоб надіслати лінки й довести свою професійність. Щодо вашого минулого контракту тут теж усе ясно. Я бачив сайт вашого технологічного холдингу і зрозумів, що ви розробили машину часу та подорожуєте крізь часовий континуум у минуле — у 1994 рік і там успішно ведете бізнес. Передавайте привіт Кравчуку від нас!

Я не бачила сенсу свого часу вкладати час в змагання на Kaggle — я зосередилась на реальних робочих проєктах, які від змагань суттєво відрізняються. Мій досвід Ви можете переглянути в моєму LinkedIn, там все детально розписано.

Вау, який чудовий шлях. Знімаю шляпу. Це дійсно варто поваги. Дякую, що ділитеся 🤝

Дякую за Ваш коментар 🙏☺️

у вас є додаткові заняття? 🫠

Зараз за браком часу індивідуальні заняття не проводжу, але маю кілька знайомих викладачів-практиків, які проводять саме з математики для Data Science. Напишіть мені в директ в LinkedIn (посилання в профілі), я поділюсь контактами)

Доброго дня.
Зайшов на сайт Вашої навчальної платформи і відкрив реєстраційну форму... А там обов’язковим полем є профіль в Instagram 😳 Але навіщо? 🤔

Можете сказати, що не користуєтесь) Це тому що у нас більшість студентів про мене дізнаються саме звідти — маю блог на 28К людей — і аби не загубити людину, просимо лишити профіль.

Надіюся хтось знайдеться хто проаналізує дану статю і скаже норм чи ні. Я тільки починається щось на слово «автор курсів» в мене зразу така настороженість. Де буде реклама, чи варто читати статю і так далі. Це нормально?

Сумно усвідомлювати, що викладач в університеті — це почесно, а коли я створила власну Академію з аналітики і Data Science, навчаю людей на власному досвіді, вкладаюсь в крутий curstomer experience і після моїх навчань люди знаходять роботу — це сприймається з насторогою. Може не варто ставити стереотипне клеймо сходу?)

Ну викладачами в університеті становляться для науки, а академії створюють для грошей

викладачами в університеті становляться для науки

В наших університетах на науку практично ніколи не залишається часу. Там рутина і папірці

Ну можливо ви одна із тих хто говорить не тільки про плюс вакансій але й і мінуси. Для мене не важливо викладач університету чи власна академія. Головне для мене говорити чесно, але таке не накористь бізнесу. По курсам пайтон, я б згадав CS50P самий кращий курс що я бачив, і безкоштовний(також є титри що добре для початку), на coursera кращих курсів не бачив. Чому CS50P кращий навіть пояснювати не буду, краще переглядути хочаб один урок. Також я переглянув ваш сайт, і знайшов маленькі проблеми з ним, я не тестувальник а звичайний юзер і як для людини вашого рівня я думав там все від поліровано буде. І я не знайшов опис мінусів на сайті, це важка сфера. Але це ваш сайт хто я щоб судити. Але стаття яку ви написали тут, як на мене дуже багато знань ви розписали, як для початку і входу в сферу ML. Та це все потрібно, але я от зараз починаю вчити, і те що я бачу це дуже багато для початку. В цілому не сказати щоб ви щось погано зробили, бо я сам ще нічого хорошо не зробив, але і щоб піти до вас навчання не має бажання, бо я бляха ціну дізнаюся тільки коли зі мною звяжуться по телефону, бісить таке, перепрошую. Блін а на що я час витрачав на написання цього коментаря.

але я от зараз починаю вчити, і те що я бачу це дуже багато для початку

А ви дивилися вимоги у вакансіях?

З тих людей, що я знаю у цьому напрямку — у всіх потужна профільна освіта + купа самоосвіти зверху.

Критикувати — не створювати.
Вибір курсів — це справа поглядів і смаку. Я маю досвід у викладанні 4 роки, у мене аудиторія більше 30 тис людей, з якими я спілкуюсь і знаю що цікавить і що буде корисно початківцям. CS50 — хороший курс, але він більше для розробників. Є курси, які більше орієнтовані на аналіз даних і Data Science, в яких ви не експерт. Власне, стаття опублікована в рамках блогу, я ділюсь своїми рекомендаціями і що вважаю корисним. Напишіть свою статтю з рекомендаціями на ваш погляд корисних ресурсів.
"

Як на мене дуже багато знань ви розписали, як для початку і входу в сферу ML.

" - зайдіть на ML-вакансію і подивіться, скільки там вимог до джуна. Це важкий напрям для входу. Я про це всюди відкрито кажу, в тому числі і про те, що вакансій джунів мало.
Я ділюсь тут своїм досвідом. Для багатьох людей ця інформація цінна. Для вас ні — ну нехай, шукайте, як увійти в ML з меншим набором навичок.

Як затравка для зацікавити цілком норм, але більше упор на ML, ніж на датасайенс, ні слова про ETL/ELT чомусь.

> Це нормально?

Ну як сказать...

Stenford

Дякую за зауваження. Я в цій статті виходила з типових вимог на вакансії аби почати в напрямі. ETL/ELT так само як клауди, звісно, теж зустрічаються, але для більш досвідчених фахівців. Якщо розписувати все-все, що має знати сучасний ML-щик — буде втричі довше) А стаття все ж орієнтована на тих, хто хоче зрозуміти, з чого почати і коли я вже готовий до бойового досвіду.

Стаття дає повне коло задач, насправді повне коло ніхто не робить, крім джунів в стартапі за 3 копійки.

Data engineer пяоуює з даними, докерами, пітоном
Data scientist пряцює з даними, модялми і презентаціями. Там з усього пітону 20 строчок SQL — pandas — scikit — plotlib
Ml engineer по суті devops який займається інфраструктурлю. Вибирайте що ближче і шукайте норм компанію для старта.

Я мала на меті поділитись, з чого почати, бо ML напрям потребує багато навичок, і початківці часто не знають, з чого почати. В своєму блозі я розказую і про напрями, і які подальші навички треба для кожного. Все в одну статтю — не вмістиш)

Так хороший огляд. Людина спитала чи норм — кажу норм, можна менше. Якщо знати оце от все то або джун або лід :)

Стаття сама звичайна. Таких статей можна знайти безліч, погугливши «roadmap data science ml» або «how to learn ml data science». Навчання до рівня джуна\трейні в Україні (ukr engineer != foreign engineer) вистачить 7-8 місяці при умові, що ти повний 0 не знаєш, ні програмування, ні математики та можеш вкладати 5-6год вдень в навчання, якщо є досвід девелопера, але не знаєш математики 4 міс. Тільки треба врахувати, що все одно дс\мл інженерів в скорому часі частково замінять апками типу манус

Таких статей можна знайти безліч, погугливши «roadmap data science ml» або «how to learn ml data science».

І все одно є купа початківців, які цікавляться, з чого почати. На них і спрямована ця стаття)

можеш вкладати 5-6год вдень в навчання

В цілому згодна з Вашими естімейтами, тільки з мого досвіду людина, яка працює десь фултайм та має сімʼю, не може вчитись 5-6 год на день. Реалістично вкладати 10-12 год на тиждень. І тоді відповідно зазначені Вами терміни стають вдвічі довшими.

Тільки треба врахувати, що все одно дс\мл інженерів в скорому часі частково замінять апками типу манус

Це як сказати, що всіх програмістів невдовзі замінить Devin AI. А правда в тому, що диявол — в деталях і якісне рішення з нуля з рісерчем, кастомною обробкою даних, врахуванням всіх нюансів, побудовою кастомного рішення, яке врахує специфіку даних, деплойментом і покриттям NFRs потребує включення інженера, який розумію всю ML-кухню.

А PoC з autoML/AI-сервісами можна звісно запілити. Це вже давно можна.

Відповідь була адресована виключно автору коментаря. Сумніваюся, що в нього є робота або сім’я. Очевидно, що замінять не всіх, але більшість — без варіантів. І в горизонті 5-10 років, можливо, приберуть і тих, хто поки ще тримається. З вашим мехматом за спиною вижити буде значно легше (привіт проблем солвінг скіл!), але тим, хто мріє зайти в айтішку за сценаріями 2012–2019 років, місця більше не буде. Проблема зараз не в тому, що ші слабкий. Проблема в тому, що його ще не впустили у великі компанії і не дали йому доступу до справжнього коду. Те, що ми бачимо зараз — це спроби робити висновки на основі шуму з паблік гіта (паблік != комерція). Коли ші отримає доступ до реальних кодових баз і процесів, більшість девелоперів опиняться в дуже скрутному становищі. Топи лишаться, але давайте будемо чесними — українські деви в масі своїй — це не топи. Близько 70% — це просто кодери, а не інженери у класичному сенсі цього слова і тому їх чекатиме мороз. Навіть вже зараз за старими методологіями можна створити апки, які автоматизують збір даних, препроцесінг, оцінку, типові кейси регресії, класифікації і так далі. Я пам’ятаю, як тримав у руках сіменс м75 і ніхто не вірив, що якийсь телефон зможе коли-небудь зрівнятись із олімпус. Але ось ми тут: смартфони вже давно переписали правила гри у фотографії. І те саме відбудеться з розробкою.

Близько 70% — це просто кодери, а не інженери у класичному сенсі цього слова і тому їх чекатиме мороз.

Щодо того, що багато людей не інженери в класичному розумінні — часто чую це від тих, хто шукає хороших інженерів і не може знайти. І я повністю згодна, що потреба в фахівцях, які виконують «механічно» свою девелоперську роботу — буде стрімко зменшуватись та втримаються ті, хто вміють давати більше цінності маючи ширший набір навичок.
І от те саме в Data Science. Це ж не тільки про тренування моделей зараз. Є менеджери в DS проєктах, девопси, розробники, аналітики. І якщо обʼєднати свою глибоку експертизу в предметній області з вмінням використовувати АІ і розумінням, як воно там під капотом все працює — від цього буде цінність. І я от за те аби вчитись і одразу бачити, а чим я можу бути більш корисна, ніж чатгпт чи Cursor. Це і студентам пояснюю. Бо інакше буде якась безвихідь і відсутність розуміння навіщо взагалі розвиватись. Але ж людина активна і свідома завжди тяжітиме до розвитку.

Підписатись на коментарі