.NET Fest: полная программа конференции на сайте. Присоединяйся к самому большому .NET ивенту
×Закрыть

Data Analyst — Big Data — Data Science с нуля

Всем привет. Ситуация не новая: я, как и многие другие, хочу «войти в IT». Но не в разработку софта/сайтов или тестирование, а в область аналитики.

Исходные данные такие: мужчина 28 лет с нетехническим образованием, все годы после ВУЗа проработавший менеджером по снабжению, сначала в торговле, теперь в производстве. С аналитикой на примитивном уровне имел дело как раз в торговле (анализ продаж). Но главное, что понял за это время — это то что мне нравится больше всего работа с цифрами.
Читал много статей о Data Science и искусственном интеллекте и мне очень интересна эта тема.

Предлагаю обсудить следующие вопросы:
— реально ли самостоятельно изучить направление Big Data/Data Science без соответствующей технической базы? (я не беру в расчет математику/статистику/экономико-математическое моделирование в ВУЗе, которое я уже благополучно забыл)
— сколько времени на это потребуется и с чего начинать?
Чтобы для начала получить оффер Data Analyst (из инструментов, я так понимаю, для старта нужно освоить хотя бы SQL и Python, поскольку это самые частые требования)
— есть ли у нас толковые курсы по этим направлениям и сколько это стоит?
— насколько перспективно это направление в Украине и какой примерно уровень зарплат?

Ну и все остальное, кто что думает об этих вещах.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

1. learn data structure and algorithm
2. Learn probability, linear algebra, statistics, calculus and some math
3. Learn data manipulation ( play with data)
4. Learn basics of data science libraries ( pandas, numpy, matplotlib etc in python and packages like dplyr in R)
5. Learn data visualization in Python, R and tableau/powerBi
6. Learn data mining, data cleansing
7. Start learning Machine learning algorithms
8. Do case studies in ML
9. Do some mini projects
10. Do capstone projects
11. If you need to go further, learn SAS
12. Dive deep into AI using packages like tensorflow, opencv, pythorch etc
13. Seek job in product base company by learning their products from the 1st step till 12th step

скопировано отсюда — www.facebook.com/...​rmalink/1433192633487021

Первое и самое важное это английский.
Второе — статистика, теорвер, линейная алгебра (если плохо с английским советую платформу stepic.org (там есть неплохой курс по основам статистики и теорвер))
Если с английским хорошо тогда youtube канал Siraj Raval.
Третье- алгоритмы машинного обучения (youtube канал Siraj Raval или степик).

(из инструментов, я так понимаю, для старта нужно освоить хотя бы SQL и Python

Одного Питона недостаточно. Кроме самого языка нужны еще библиотеки Pandas, Numpy, Matplotlib, sklearn etc.

И по моему скромному мнению самое главное:

Нужно знать и понимать когда применить тот или иной метод и какие его преимущества и недостатки, а это приходит только с практикой и опытом.

На начальном этапе для практики советую Kaggle. После, придумайте себе задачу на текущем месте работы и попробуйте получить нужные данные, очистить их и построить модель.

Например: попробуйте разбить на кластеры поставщиков с которыми вы работаете или спрогнозируйте потребность в каком-нибудь материале для производства и тд.

Нужно знать и понимать когда применить тот или иной метод и какие его преимущества и недостатки, а это приходит только с практикой и опытом.

для этого неплохо знать чуть больше, чем линал и теорвер в формате политеха, согласитесь.

дискретка и общая грамотность. есть хорошие курсы МФТИ на coursera. теория графов, комбинаторика, введение в теорвер, введение в общую алгебру.

матан. если есть минимальная база, можно читать относительно простые книги по функциональному анализу (например, Шамин Р.В. — Функциональный анализ от нуля до единицы, не самая строгая и глубокая книга, но для начала очень неплохо).

линал. хорошо помоагет освоить линал линейное программирование и MIP (mixed integer programming). на coursera есть отличный курс — discrete optimisation, курс этот на питоне, кстати. numerical analysis (в наших края — численные методы) — тоже отличный кандидат для первых шагов и основения линала.

а вот теперь и к теорверу можно подбираться :)

Я обычно радею как раз за глубокое овладение предметом, противопоставляя его формошлепству, однако же:

теория графов,

ну ок, это еще может быть нужно в специфических задачах (например, графы связей в социальной сети)

но вот где вайти-в-ДСнику (да и мидлу) понадобится

введение в общую(!) алгебру

 — это для меня загадка. Хотя если читать научные статьи типа вот этой -
www.di.ens.fr/...​ers/RSTA2015Published.pdf — то да.
Впрочем, денег за их чтение никто платить не будет (ну разве что работодатель уровня Гугла или ФБ).

матан. если есть минимальная база

Что-то мне подсказывает, что у ТС ее нет — и вот с нее-то вместе с линалом и теорвером надо начать. Это у ТС уже займет как минимум полгода занятий каждый вечер — даже если ограничиться форматом политеха, но реально изучать, а не проходить мимо.

Шамин Р.В. — Функциональный анализ от нуля до единицы,

Ну действительно (с учетом сложности предмета) довольно легкое чтиво, но опять-таки даже до этого уровня ТС как до Пекина раком. Вот если было бы что-нить типа Глазман И.М., Любич Ю.И. Конечномерный(!) линейный анализ в задачах — только с упором на DS, тогда да.

понадобится

введение в общую(!) алгебру
— это для меня загадка

подтверждаю — алгебра бесполезна

Хотя если читать научные статьи типа вот этой -
www.di.ens.fr/...​ers/RSTA2015Published.pdf — то да.

ну такое, первый-второй курс гуманитарного универа

Совсем недавно мне графы на серьзном уровне понадобились. Готового решения инете не нашел скопипастить.

Без алгебры сможешь разве что готовые нейронки из питона тупо дергать.

а що за задача була, коли не секрет?

Построить граф перехода одних точек интереса в другие на видео

А що це за точки такі? Щось типу фіч для трекінгу?

Як в оптікал флов? Цікаво... А в чім, власне, полягала «графовість» задачі? Я просто звик, що з простими фічами зазвичай інші проблеми: вибрати добрий дескриптор, оутлаєри покосити яким-небудь там ранзаком, власне імплементація для ріал-тайм... А от де там щось серйозне з графами може вилізти ніяк не втямлю. Мені це цікаво, бо я просто на роботі намагаюся забирати різні математизовані таски собі, така от «екологічна ніша». Відповідно й цікавлюсь кому що випадало такого нетривіального розв’язувати.

Трекать обект на видео. Немного не стадартный путь.

Немного похожее на марковские цепи, но с другой стороны зашел. Идея оказалась рабочей, но я ее не доделал. Хотелось попробовать.

Совсем недавно мне графы на серьзном уровне понадобились

Насколько серьёзно? Лемма регулярности Семереди, случайные графы?
Ну и как бы разговор шёл об общей алгебре, а не комбинаторике и графах. И вот даже материал из одноимённой книги Винберга (довольно элементарной) в ДС почти не нужен.

Случайные графы в течение 5 лет всплывут

Совсем недавно мне графы на серьзном уровне понадобились

Кто ж (будучи в здравом уме) вайти-в-DSнику серьезную задачу даст?
ТС, насколько я понимаю, интересно именно как вайти — а порог и без того высокий (настолько, что у процентов 90 «хотящий вайти» хотелка и от самого минимума быстро сдувается.

Сам я с графами соприкасался постольку-поскольку: в рамках марковских цепей, ну и еще в курсе algorithmen und datenstrukturen была красивая задачка «как замутить майдан» (чтоб марш получился по наиболее длинному маршруту, при этом ширина каждой следующей улицы должна быть не меньше ширины предыдущей). В обоих случаях было достаточно простой линейной алгебы.

Но все одно нужно понимать где и что искать, чтобы решить свою задачу.
А для этого хочешь не хочешь а базовую высшую математику изучить придется. Проще на 3х первых курсах ВУЗа

Кто ж спорит с тем, что хороший спец. всю жизнь учится.
Тут речь о самом минимальном тривиуме, чтоб с пониманием решать самые базовые задачи (коих в бизнесе пожалуй 90%).
Вот для этого достаточно калькулуса (вкл. ф-й многих переменных), базовой линейной алгебры (по Стренгу, но не по Ильину и Позняку), теорвера (например, по Вентцель), ну и основ статистики.
Высшая алгебра, графы и функциональный анализ — это уже следующий уровень. Впрочем и без них получилось порядочно материала, которое подавляющее большинство вайтишников ниасиливает.

Такой же вопрос, только меня интересует топовый уровень. Что надо сделать, чтобы поехать, например в Стэнфорд или МИТ на пхд? Может в КПИ какую то ускоренную магистратуру взять? Может через страну-агрессор как то?
Кто что знает, слышал, подозревает?

Что надо сделать, чтобы поехать, например в Стэнфорд или МИТ на пхд?

Ничего, просто забыть. Вопрос поступления в эти универы просто деньгами не решается, нужны выдающиеся успехи в обучении, конференции, статьи и отличные рекомендации.

Может через страну-агрессор как то?

Через страну агрессор конечно ощутимо проще, народ оттуда регулярно поступает
math.hse.ru/news/207173632.html
www.hse.ru/...​/math/news/181127045.html
math.hse.ru/news/149574575.html
Вот только стоит ли оно того — просрать несколько лет жизни в говняшке?

Лучше жизнь просрать работая гребцом в условном ЕПАМе?
Какие есть советы? Может реально пойти на пару лет в магистратуру на матфак в ВШЭ?

Матфак не совсем подходящий вариант, так как там в основном чистая математика. ML&DS во вшэ занимаются на ФКН, но я без понятия о статистике поступления в топ аспирантуры выпускников фкн. К тому же нужно учитывать риски: если закончить вшэ и потом никуда не поступить, то в итоге останешься с бумажкой какого-то сомнительного говновуза. Лучше уж КПИ тогда. Другое дело Европа — после местной средней маги можно попробовать в аспу если не Тиер 1, то хоть в Тиер 2 или европу. И даже если это зафейлить, то все равно останется евро-бумажка и шансы найти в европке хотя бы обычную работу негалерного типа. Еще кстати есть УКУ как вариант, тут даже выезжать не придется.
А как по мне, то лучше забить на образование и науку. В МЛ/ДС решают не бумажки и ученые степени, а скиллы, опыт и фантазия.

без стеба, если вам 15 лет — то тогда поступать в топовые вузы на норм специальности (с упором не на «преподавателя из ЕПАМа что научит кодить на жаве» , а например с кем нибудь типа www.mathnet.ru/rus/person22771 ) Из украинских, из того что я помню — кибернетика КНУ, Физтех КПИ (ФИ группы) , ИПСА. И да, МФТИ, МГУ, ИТМО — дадут более высокий старт, что бы патриоты не говорили. Сразу начинать работать — т.е. не ботать то что задано (это само собой разумеющееся), а постараться зацепиться в том же институте кибернетики и что бы к выпуску у вас уже были реальные статьи (пусть и не первого авторства).
Если вам 30 и у вас нет статьей и из математики вы помните только то что интеграл это площадь, а производная угол касательной — то забить болт и расслабиться. Даже если вы сможете подтянуть уровень (а это год+), с большой вероятностью без статьей и конкуренцие с топ ребятами из топ вузов с топ конференциями и статьями в топ журналах — шансов нет.

Порекомендовала бы начать со статистики (можно бесплатно пройти курс на Khan Academy например), дальше — Data Analyst track на датакампе (оплата по подписке), параллельно читать towardsdatascience канал на медиуме чтобы понимать что вообще происходит в мире. Английский подразумевается, без него можно на улицу не выходить))

Вместо «Кое-что непонятно в TensorFlow» мужчина 28 лет спрашивает, нужно ли освоить «хотя бы SQL и Python»...

А у кого-то есть реальные примеры релокейта специалистов из этой сферы?
Я просто понимаю, что у нас об этом, по сути, мало кто знает и ЗП не выше чем у девелоперов.
Но читал, что в США это уже одна из самых высокооплачиваемых и востребованных должностей с зарплатами over 100К в год.

А у кого-то есть реальные примеры релокейта специалистов из этой сферы?

Релокейт куда? в Штаты? Европу?

из какой именно сферы, у тебя их три разные указаны в топике

Ну в Україні ситуація дещо інша:
jobs.dou.ua/...​uage=&spec=&exp1=0&exp2=0

Віджет показує, що на старті це буде 500 баксів і це ще досить хороший кейс для світчера.

Видите ли, в этом есть один довольно забавный момент: в эту сферу получится зайти тем, кто готов вкалывать безотносительно перспектив по зарплате, релокации и прочих плюшек. И здесь речь не о том, что кто-то вас непременно заставит трудиться бесплатно. Вы рассматриваете эту сферу как инвестицию своего времени и пытаетесь разузнать, что получите в итоге, и, хотя ваш подход 100% попадает в модель поведения здравомыслящего человека, применительно к данной сфере (и, осмелюсь грубо обобщить — ко всей сфере компьютерных наук) этот подход не работает. Это не то чтобы неправильно, просто так у вас ничего не получится. Получится только у тех, кто готов лупати цю скелю заради самого лупання. У тех ненормальных, кого закроют под замок, а он будет писать листинги на использованной туалетной бумаге. Вас потащат под топор, а вы будете орать: «$#@!, ;№»!, закрою цикл, потом рубите".
Если вы займётесь этой сферой вплотную, то десятки, сотни, тысячи, миллионы раз будете натыкаться на глухую стену, когда оно не работает (и причины может быть самые разные, начиная вашей собственной некомпетентностью, заканчивая прискорбным, без сомнения, фактом, что оно действительно не работает, хотя должно), и, если ваш мотиватор — те самые плюшки, о которых я упомянул вначале, вы пошлёте этот дата анализ подальше и вернётесь на прежнюю работу.

Получится только у тех, кто готов лупати цю скелю заради самого лупання.

Золоті слова.

У меня аналогичная вашей ситуации была. Сразу войти не выйдет ИМХО.
Мне было 24 (сейчас 29). Вошёл в 28. Опыт работы:
Менеджер отдела маркетинга
Аналитик отдела маркетинга
Ведущий аналитик отдела
Руководитель аналитического направления
Product Analyst.
У меня оба непрофильных образования оба гуманитарные.
Советы:
— четко понимать прикладную сторону того что вы учите
— вкалывать «после уроков» курсы, занятия, работа над своим кодом.
— английский ( вся годная литература на нем)
— Яп: Python или R это дело вкуса оба хороши у обоих хорошие IDE большие комьюнити и т.д
— нужно знать: SQL ( желательно несколько диалектов, на уровне вложенных запросов, создания своих таблиц, вьюх)
— визуализация маст хэв.
— Без статистики и алгебры не стать ДС это образ мышления и игра коефами внутри моделей. Образование здесь нужно для того что бы понимать как это работает под капотом.

Спасибо, это дает мне надежду, как свитчеру в свои 23 :)

— реально ли самостоятельно изучить направление Big Data/Data Science без соответствующей технической базы?

Если именно Science — то нереально, но вот считать среднюю температуру по больнице и показывать «результат» в красивой презентации руководству, не знающему и знать не желающему основы статистики — вполне. И именно этим занимаются многие современные датасцаентисты.

Добрый день,
Изучаю самостоятельно дата анализ уже год с очень переменным успехом на DataCamp. Без четкого плана и практики мало что запоминается, все слишком сумбурно и не видно конца и края. Недавно пришла идея что для толчка и выхода из состояния стагнации мне не хватает оффлайн учителя, курсов.
Может ли кто-то опытный подсказать курсы в Киеве по данной тематике.

Background: Не имею технического образования. За все это время освоила pandas, mathplotlib, jupiter notebook.

Спасибо за советы!

Вже є Топик для поиска курсов, що там, що тут, тобі відпишуть 2-3 менеджера, які будуть рекламувати свої курси
Ось список, який пів року тому оновлював, Список ІТ курсів в Києві по Python та Data Science

Цим проектом перестав займатись, але можу підтримувати, якщо хтось захоче допомогти і написати парсери під кожну школу

Рекомендую спрашивать советов у работников в индустрии.
Хотите, я могу вам помочь в обучении:)

Полностью согласна, что только работники сферы могут что-то дельное посоветовать! Подскажите как и где лучше всего получать опыт в этой сфере и ’набивать руку’?

— насколько перспективно это направление в Украине и какой примерно уровень зарплат?

Джуніор дата аналіст — 500$, Сеньйор 1500-2000$

У Senior QA 2500+, у Senior Data Science кваліфікація вище, але зарплатні опитування показують, що там дійсно менші винагороди 🙁

Як би це не звучало смішно, але сеньйором в ДС стати легше ніж в QA.

Нижче написали про тисячу годин, абсолютно згоден, але хотів би доповнити:
1000 годин для того аби почати працювати і 10 000 годин аби стати майстром.https://www.forbes.ru/forbes/issue/2009-04/7255-pravilo-10000-chasov

Дуже подумайте чи вартує воно того, бо DS це далеко не найпростіша галузь в ІТ, можливо, є сенс будувати кра’єру в тому, в чому у вас вже є досвід.

А, ну і про англійську не забувайте, це must have і це не входить в 1000 годин.

Посмотри вот эту ветку комментов habr.com/...​/455080/#comment_20276038

— реально ли самостоятельно изучить направление Big Data/Data Science без соответствующей технической базы?
Да, реально.
— сколько времени на это потребуется и с чего начинать?
1000 (одна тысяча) часов упорного вкалывания.
Делите как хотите. 100 дней по 10 часов чистых занятий без перерыва. 330 дней (год с одним выходным раз в две недели), по три часа чистых занятий ежедневно без кофе/пиццы, ютубов, инстаграммов, только документация, статьи, питоновское/аровское ИДЕ, — каждый день без отпуска, больничных, ДР, ДП.
Начинать с курсов на Курсере. Там же самые толковые курсы по этой теме.

Скажу только, что имея базу гораздо легче стать обычным девом и получать больше. ДС ещё не набрал обороты по этому платят меньше, а требования все ещё выше..

И не будут. Точнее небольшому количеству спецов будут а у остальных будут на уровне среднего тестера

Подписаться на комментарии