Як стати Data Scientist: навички та знання, що будуть актуальними у найближчі роки
Привіт, мене звати Дмитро Зікрач. Я Data Scientist у SoftServe з більш ніж
Також маю ступінь кандидата фізико-математичних наук і є автором понад 20 наукових публікацій. Моя експертиза охоплює різні галузі та сфери, включаючи різноманітну аналітику, DSP, NLP, аналіз часових рядів, та застосування цих технологій у торгівлі та нафтогазовій галузі.
Штучний інтелект (ШІ) докорінно змінив наш підхід до аналізу даних та ухвалення рішень, що істотно вплинуло на бізнес, індустрії та суспільство в цілому. Теми розвитку технологічних інновацій не скидають обертів, і роль Data Scientist в управлінні ініціативами зі штучного інтелекту є важливішою, ніж будь-коли. Data Scientist майбутнього повинен буде володіти широким спектром технічних, бізнесових і міжособистісних навичок, щоб досягати успіхів у світі, який постійно змінюється.
У цій статті розглянемо основні навички та компетенції, необхідні для того, щоб стати ефективним Data Scientist, з акцентом на ключові зміни, які відбулися в цій галузі за останні 5 років, а також на ті, які, ймовірно, визначатимуть майбутнє.
Звертаю вашу увагу, що подані висновки — це узагальнене бачення на основі моєї професійної практики і тенденцій індустрії, і залежно від компанії, досвіду та портфоліо клієнтів, ці вимоги й компетенції можуть відрізнятися.
Тренди та виклики у використанні штучного інтелекту
Напрямок Data Science та штучного інтелекту стрімко зростає та розвивається, і компанії в усіх галузях звертають на це увагу. Згідно з останніми опитуваннями, 35% компаній повідомили, що використовують штучний інтелект у своєму бізнесі, а ще 42% вивчають його потенціал.
Це означає стабільне зростання порівняно з 2021 роком. Однак, попри це зростання, компанії все ще зіштовхуються з низкою проблем, коли справа доходить до впровадження стратегій ШІ.
Ці проблеми включають обмежені навички роботи зі штучним інтелектом, високі витрати, брак інструментів і платформ для розробки, складність проєктів і складність даних.
Крім того, більшість організацій ще не вжили заходів, щоб зменшити упередженість і відстежувати зміни в результатах роботи.
Ось як компанії планують інвестувати в ШІ упродовж наступного року, згідно з дослідженням IBM Global AI Adoption Index 2022:
- Дослідження та розробки (R&D): 44%;
- Впровадження ШІ в поточні програми та процеси: 42%;
- Перекваліфікація та розвиток персоналу: 39%;
- Створення власних рішень: 32%;
- Готові рішення для ШІ: 28%;
- Готові інструменти для створення власних застосунків і моделей: 26%.
Судячи з досліджень, в тому числі проведених нашою компанією, при розробці чи впровадженні рішень на основі штучного інтелекту компанії зазвичай підходять до цього питання з технічної точки зору, а бізнес-цілі відступають на задній план.
А непорозуміння між керівництвом бізнесу, розрив між ІТ та стратегією продукту призводить до проблем з монетизацією рішень на основі ШІ та машинного навчання. Зараз на ринку також спостерігається нестача талантів та недостатня кваліфікація у цьому напрямку.
Тож побудова ефективних стратегій з впровадження рішень на основі ШІ може стати критичною для розвитку ІТ-компаній у наступні 5 років.
Три основні групи компетенцій для Data Scientist
Ми визначаємо три основні групи компетенцій, які є критично важливими для будь-якого Data Scientist. Залежно від того, навички якої групи переважають, визначається профайл Data Scientist.
- Бізнес-компетенції включають скіли, що дозволяють інтерпретувати дані в бізнес-середовищі та ефективно формулювати бізнес-проблеми. Ця група включає навички, пов’язані з визначенням застосовності та впровадженням ШІ, а також ефективним менеджментом очікувань стейкголдерів, щоб стимулювати розвиток проєкту.
- Дослідницькі компетенції об’єднують навички, спрямовані на застосування математичних і статистичних методів для пошуку структур або закономірностей у даних. Крім того, ця група включає розробку моделей для прогнозування або перетворення неструктурованих даних у візуальні образи, які розповідають історію або дозволяють побудувати аналітику. Ця група також відповідає за роботу з алгоритмами машинного навчання або глибокого навчання.
- Інженерні компетенції дають фахівцям навички роботи з мовами програмування Python, хмарними сервісами, алгоритмами та структурами даних, які зазвичай використовуються для розв’язання складних проблем. Ця група також відповідає за впровадження масштабованих пайплайнів обробки даних та ефективну інтеграцію моделей у продакшн-системи.
Кожна група компетенцій має важливе значення для того, щоб Data Scientist мав всебічний набір навичок та ефективно виконував свою роль. Розглянемо, як змінюються пріоритети з роками.
Як змінюються вимоги: актуальні навички для Data Scientist зараз і в майбутньому
Технології швидко розвиваються, тим самим впливаючи на вимоги до спеціалістів. Скажімо, 5 років тому дата-саєнтисти в основному зосереджувалися на розробці моделей та проведенні статистичного аналізу, інженерна складова обмежувалася використанням реляційних баз даних та вмінням написати мінімальний код.
Сьогодні, у зв’язку зі стрімким зростанням обсягів великих даних, вони повинні володіти технологіями Big Data, щоб обробляти та аналізувати великі масиви даних.
Крім того, все більшого значення набувають хмарні обчислення та зростає фокус на розумінні бізнесу, комунікаційних скілах та роботі в широких командах.
Які навички потрібні, щоб стати Data Scientist зараз

Навички бізнес-операцій (DecisionOPS)
- Business Acumen: Data Scientists повинні розуміти бізнес-контекст, в якому вони працюють, включаючи цілі та завдання організації, а також виклики та можливості, з якими стикається їхня галузь. Це знадобиться для визначення high-impact сфер, де Data Science може повпливати на ситуацію, а також щоб донести її цінність до бізнес-стейкголдерів.
- Project Management: Data Scienсe проєкти часто передбачають багато зацікавлених сторін, конкуруючі пріоритети та стислі терміни. Data Scientists повинні досконало володіти навичками управління проєктами, такими як визначення обсягу, планування та впровадження, а також вміти ефективно керувати стейкголдерами впродовж усього життєвого циклу проєкту.
Дослідницькі навички
- Deep learning вже стало потужною технікою для побудови складних нейронних мереж і застосовується у багатьох напрямках: від комп’ютерного зору (Computer Vision, або СV) до обробки природної мови (Natural language processing, або NLP).
- NLP та CV комплексні моделі для аналізу неструктурованих даних. Зі збільшенням використання неструктурованих даних, таких як текст і зображення, дата-саєнтисти повинні знати, як використовувати технології NLP і CV для одержання інсайтів з цього типу даних.
Інженерні навички
- Big Data технології. У зв’язку з розвитком Big Data, дата-саєнтистам необхідно знати, як працювати з розподіленими системами, щоб обробляти та аналізувати великі масиви даних.
- Платформи хмарних обчислень, такі як AWS, Azure і GCP. Хмарні обчислення набувають все більшого значення в Data Science, оскільки вони дозволяють легко зберігати дані та отримувати до них доступ, а також виконувати обчислення в масштабі.
- Інженерні аспекти. На додаток до традиційних навичок роботи з data science, фахівці повинні мати глибоке розуміння інженерних аспектів, наприклад, software дизайну, програмування та управління базами даних. Це пов’язано з тим, що вони часто працюють з великими об’ємами даних і складними системами та повинні вміти створювати масштабовані, надійні та ефективні рішення.
- Впровадження MLOps у робочий процес Data Science. Дата-саєнтисти повинні бути обізнані з основами MLOps, включаючи такі методи, як контроль версій, CI/CD, а також моніторинг моделей. Це допоможе їм забезпечити безперебійну роботу моделей машинного навчання у продакшн середовищах (включаючи EDGE технології) і отримання очікуваних результатів.
Перспективи для Data Scientists у найближчі роки
У найближчому майбутньому увага до штучного інтелекту та машинного навчання тільки зростатиме. Це означає, що дата-саєнтисти повинні будуть добре володіти алгоритмами та інструментами машинного навчання для аналізу складних наборів даних і складання точних прогнозів.
Оскільки моделі машинного навчання стають дедалі складнішими та об’ємнішими, а також ширше використовуються в організаціях, важливість MLOps значно зросте. Якщо ви хочете розвиватися в напрямку Data Science, то відразу опановуйте такі інструменти і методи як контейнеризація, оркестрування і автоматизоване тестування, щоб керувати всім циклом побудови моделей — від розробки до розгортання і моніторингу.
AWS, Google Cloud і Microsoft Azure все частіше використовуються для розгортання систем ШІ, тож вам також знадобиться вміння працювати з цими платформами та знати їхні можливості побудови продакшн рішень, застосовуючи MLOps-практики.
Ще один важливий фактор, що вплине на вимоги до Data Scientists — це те, що втрати даних і проблеми з конфіденційністю стають все поширенішими. Отже, потрібно буде володіти навичками забезпечення конфіденційності та безпеки даних, з якими вони працюють.
Це вимагатиме знання новітніх протоколів і технологій безпеки, а також розуміння правових та етичних аспектів.
У минулому Data Science часто була зосереджена на процесі побудови моделей, а не на результатах, які вони давали. У найближчому майбутньому більше уваги буде приділятися орієнтації на результат, а Data Scientists нестимуть відповідальність за вплив своєї роботи.
Це означає, що вони повинні будуть вміти вимірювати ефективність своїх моделей і постійно ітераційно вдосконалювати їх для підвищення продуктивності.
Співпраця між командами та взаємодія з іншими дисциплінами ставатиме ширшою. Якщо раніше дата-саєнтисти часто працювали ізольовано, в найближчі роки вони повинні будуть тісно співпрацювати з розробниками, продакт-менеджерами та іншими стейкголдерами, щоб створювати продукти та рішення на основі даних, які відповідають потребам бізнесу.
Це вимагатиме сильних навичок комунікації та співпраці, а також розуміння ролей та обов’язків інших членів команди.
Від програмування до Deep learning: за яким принципом поглиблювати знання
У цьому розділі поговоримо про піраміду навичок. Вона наочно показує, які скіли потрібні, щоб стати ефективним Data Scientist і в якій послідовності їх розвивати. Ці навички мають різні рівні загального використання та пріоритетності залежно від конкретної сфери або галузі, в якій працює Data Scientist.
Наприклад, навички програмування є основоположними та важливими у всіх сферах, тоді як досвід глибокого навчання частіше потрібен у таких напрямках як Computer Vision та NLP. Data Scientists повинні розуміти, які навички найбільш затребувані у їхній конкретній галузі, і постійно розвивати їх та визначати пріоритети відповідно до цього.

В основі піраміди лежать навички програмування, які необхідні для імплементації аспектів обробки, аналізу та візуалізації даних.
Наступний рівень піраміди — це навички інтелектуального аналізу даних та статистичного аналізу. Data Scientist повинен вміти застосовувати різні методи для дослідження, очищення та моделювання даних.
Це охоплює вміння визначати релевантні особливості, трансформувати дані та вибирати відповідні алгоритми для аналізу. Вони також повинні володіти навичками статистичного аналізу та перевірки гіпотез.
На третьому рівні ми бачимо машинне навчання, що є ключовою частиною сучасного Data Science. Фахівець у цьому напрямку повинен розумітися на алгоритмах машинного навчання, включаючи машинне навчання, глибоке навчання (Deep learning) і навчання з підкріпленням (reinforcement learning).
Він повинен вміти розробляти, впроваджувати та оцінювати моделі машинного навчання, а також налаштовувати їхні параметри для оптимальної роботи.
Важливо розуміти, що час, витрачений на кожну складову обернено пропорційний складності. Наприклад, щоб почати писати базовий код на Python достатньо декількох тижнів; а щоб розуміти в деталях побудову нейронної мережі може бути замало і
Але у своїй роботі ви будете більше сфокусовані на написанні коду і набагато менше на аспектах побудови нейронної мережі. Тому якісне написання коду є мегаважливим.
Інакше можна і не дійти до тренування моделі, а весь час виловлювати баги в погано написаному коді.
Підсумок: топ-5 рекомендацій для Data Scientists
Підсумовуючи, ось основні рекомендації, які допоможуть вам побудувати успішну кар’єру в Data Science та розвиватися як спеціалісту:
- Розвивайте свої бізнес-навички. Дата-саєнтисту важливо вміти інтерпретувати дані в бізнес-контексті та ефективно формулювати бізнес-проблеми. Щоб досягти цього, розвивайте такі навички: ефективна комунікація, робота зі стейкголдерами, розв’язання проблем.
- Опануйте інженерні аспекти. Щоб бути ефективним Data Scientist, ви повинні мати ґрунтовну базу в Python, алгоритмах і структурах даних, які зазвичай використовуються для розв’язання складних проблем. Крім того, зосередьтеся на впровадженні масштабованих пайплайнів обробки даних та інтеграції моделей у продакшн-системи.
- Розвивайте глибоке розуміння MLOps. MLOps — це нова галузь, яка поєднує DevOps, Big Data та Data Science напрямки, щоб допомогти організаціям ефективно керувати та розгортати моделі машинного навчання. Розуміння основ MLOps та їх впровадження у ваш робочий процес може допомогти вам стати ефективнішим Data Scientist.
- Будьте в курсі останніх тенденцій. Оскільки технології швидко розвиваються, дуже важливо бути в курсі останніх тенденцій і досягнень в галузі. Відвідуйте конференції, читайте галузеві публікації та беріть участь в онлайн-спільнотах, щоб бути в курсі подій і продовжувати розвивати свої навички.
- Відточуйте свої дослідницькі навички. Розвивайте навички математичних і статистичних методів для пошуку закономірностей у даних, а також розробки моделей для прогнозування або роботи з неструктурованими даними. Крім того, будьте в курсі останніх досягнень у галузі машинного навчання та алгоритмів глибокого навчання.
Наостанок, слід розуміти, що ефективні результати зазвичай досягаються тоді, коли вдається комбінувати команди зі спеціалістів різних напрямків і рівнів, які доповнюють і підсилюють одне одного на проєкті. Принципи, закладені в розподіл компетенцій для Data Science напрямку, сприяють тому, щоб цілі проєкту досягалися в синергії команди якомога ефективніше.

15 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів