×Закрыть

Советы сеньоров: как прокачать знания junior Data Scientist

В рубрике «Советы сеньоров» опытные специалисты делятся практическими советами с джуниорами — общие лайфхаки по обучению, какие книги и ресурсы читать, какие навыки осваивать и многое другое. В этом выпуске говорим о Data Scientists.

Богдан Павлишенко, Data Scientist у SoftServe

Канд. фіз.-мат. наук, доцент факультету електроніки та комп’ютерних технологій ЛНУ ім. І. Франка

Область Data Science є дуже широкою, її важко відразу охопити на високому рівні. Тому для початку важливо вибрати один із напрямків цієї сфери знань. Найкраще вибрати той напрям, який ближчий до поточних завдань, що вирішуються у вашій компанії.

Початківець і досвідчений Data Scientist часто майже не відрізняються у розмовах та дискусіях про Data Science. Інколи початківець виглядає ефектніше, жонглюючи термінами та поняттями. Основна відмінність між початківцем та досвідченим фахівцем визначається саме досвідом, який проявляється у деталях реалізації тих чи інших алгоритмів та підходів. Замовникам інколи важко визначити реальний кваліфікаційний рівень фахівця, тому важливі об’єктивні показники його кваліфікації.

Поділ на сеньорів та джуніорів є умовним. Такі звання надають керівники поточних проектів, де працює фахівець, і часто буває, що інших об’єктивних підстав для таких звань немає. Data Science здебільшого належить до наукової області, тому одними із об’єктивних критеріїв кваліфікації є публікації у фахових наукових виданнях, наукові ступені, виступи на конференціях, презентації власних кейсів та підходів в області аналізу даних, рейтинги на відповідних змаганнях з аналізу даних.

Досвід у сфері Data Science приходить не в процесі теоретичних роздумів, а в першу чергу в процесі розв’язку та реалізації складних багаторівневих проектів, пов’язаних із аналізом даних. Data Scientist повинен поєднувати у собі як розуміння методів та алгоритмів, так і вміння самостійно реалізовувати всі свої задуми програмними засобами, хоча б у вигляді прототипу, що працює на реальних обсягах даних.

Декілька слів про змагання у сфері Data Science. Однією із найпопулярніших платформ таких змагань є сайт kaggle.com. Відомі світові компанії пропонують свої завдання з аналізу даних, прогнозної аналітики, розпізнавання образів. У більшості змагань є призи для переможців. Однак більшість учасників бере участь, у першу чергу, щоб ознайомитись із передовими підходами в аналізі даних, а також отримати високі місця у таблицях лідерів за результатами змагань, щоб підкреслити свій високий кваліфікаційний рівень. У одному із таких змагань (Grupo Bimbo Inventory Demand) команда, учасником якої я був, отримала перше місце (із нашим розв’язком можна ознайомитись тут).

Усім Data Scientists я рекомендую брати участь у таких змаганнях. Це суттєво підвищує майстерність та кваліфікацію в області аналізу даних. Деякі Data Scientists скептично ставляться до участі у таких змаганнях, мотивуючи це тим, що вони, серйозні спеціалісти, займаються складними та важливими проектами і не мають часу на олімпіадні задачки. Також дехто підкреслює, що рішення на таких змаганнях не підходять для практичної реалізації, оскільки на змаганнях боротьба йде за малі частки точності, і на практиці нібито це неможливо використати. На мою думку, це не так. На таких змаганнях Data Scientist вчиться працювати з реальними даними, вивчає та тестує нові підходи до аналізу та прогнозування. Отриманий високий результат свідчить про високу майстерність учасника. Хочу сказати, що такі змагання вимагають великої віддачі. Вони значною мірою поглинають розумові ресурси, однак також суттєво піднімають кваліфікаційний рівень.

Щодо програмних засобів, я рекомендую використовувати мови R та Python. Мова R має експертний рівень, в першу чергу, за рахунок великої кількості доступних аналітичних пакетів, які можна підключити до аналізу. Мова Python, на мою думку, має певні переваги в реалізації продуктів та їх інтеграції із існуючими прикладними системами. На мові R зручно працювати у середовищі R-Studio, а на Python — у середовищі Jupyter Notebook. Для роботи з Python зручно інсталювати збірку пакетів Anaconda, яка включає у себе основні пакети для аналізу даних та прогнозної аналітики. Якщо ви плануєте працювати з нейронними мережами, то необхідно мати потужні графічні карти, які потрібні для тренування нейронних мереж. Однак для навчальних цілей на початковому етапі достатньо ноутбука середнього класу. Для складіших задач можна використовувати хмарні ресурси, наприклад, Amazon AWS.

Артем Чернодуб, Chief Scientist в Clikque Technology

Более 10 лет опыта работы с алгоритмами машинного обучения, распознавания изображений и нейронных сетей. Кандидат технических наук, преподаватель в Украинском католическом университете, член программного комитета нескольких научных конференций IEEE

Самое главное, что можно посоветовать желающему получить знания и навыки в области машинного обучения / Data Science / AI — это попасть в правильное окружение, способствующее развитию. Нужно найти единомышленников, с которыми можно обсудить текущие вопросы и желательно грамотного наставника. После этого вопросы, какие конкретно книги нужно читать и какие обучающие онлайн-курсы нужно проходить, можно считать второстепенными и техническими. Вы как-то автоматически будете это узнавать по ходу движения.

Вариантов вхождения может быть несколько. Во-первых, можно устроиться на младшую позицию DS/ML в большую IT-компанию, которая занимается AI, например, Grammarly, Ring, ELEKS. Это очень хороший вариант для развития не только потому, что можно делать «earning & learning», но и для получения знаний и навыков, как в реальной жизни алгоритмы AI работают, тестируются и деплоятся.

Во-вторых, можно попробовать академический вариант: поступить в магистратуру или аспирантуру хорошего университета, лучше зарубежного. Если вы в настоящее время еще студент и хорошо учились на математической специальности, то это вполне можно попробовать. Могу порекомендовать немецкую программу академического обмена DAAD. Из наших вузов советую обратить внимание на магистерскую программу Data Science от Украинского католического университета, к которой я тоже имею небольшое отношение.

В-третьих, можно участвовать в AI-митапах, конференциях, хакатонах и бесплатных курсах, анонсы которых регулярно размещаются в том числе и на DOU. Среди больших конференций я бы выделил Data Science Lab в Одессе и AI Ukraine в Харькове, которые проходят каждый год. В Киеве также есть очень энергичное и бесплатное движение Ukrainian Data Science Club. Среди курсов для начинающих я бы выделил бесплатные курсы от ARVI Lab, которые уже прошли, и бесплатные курсы от Genesis, которые еще пройдут. Кроме того, в последнее время проводятся хакатоны по теме AI, усилиями в том числе Hackathon Expert Group. В фейсбуке есть уже многочисленная группа Ukrainian Artificial Intelligence Community.

В общем, варианты есть. Найдите своих «собратьев по разуму» и пробуйте делать что-нибудь интересное, практическое (бесплатный рецепт базовой системы распознавания: взять немного нейросетей, порезать кубиками с ребром 1 см, бросить в кипящую соду и обучать до готовности). Не стесняйтесь гуглить, читать пейперы и экспериментировать — ваши усилия обязательно окупятся новыми знаниями!

Сергей Шельпук, Head of Data Science Office в ELEKS

Беседуя с кандидатами, мы обычно говорим, что есть два пути карьеры, связанных с анализом данных: условный Research&Development и условный Implementation&Consulting.

В R&D вы будете работать с наиболее новыми технологиями и state of the art моделями, но 95% вашей работы пойдут «в стол» и никогда не выйдут в мир. В I&C непосредственно моделирование будет занимать у вас, быть может, 20% времени, и большинство моделей, с которыми вы будете работать, будут известны и хорошо изучены. Но результаты вашей работы люди будут использовать в своей повседневной жизни.

Естественно, это деление очень условно, это всегда градиент, но оно дает общее представление о стилях работы и возможность выбрать на этом градиенте точку для себя.

Если вы целитесь на R&D, вам стоит обратить внимание на технологические навыки. Определяющим для вас будет знание деталей последних моделей, опыт их имплементации и идеи возможных улучшений, а также знакомство с теоретической частью и наборами данных.

Если вы целитесь на I&C, важным будет понимание работы бизнеса, функций компании и экономических показателей. Вам нужно будет уметь общаться с бизнес-людьми, понимать их и формулировать проблемы в абстракциях моделей анализа данных. Знать в общих чертах архитектуру информационных систем, технологии Big Data и уметь писать production-ready компоненты.

Валентин Кропов, Engineering Director в SoftServe

Основатель GeekSpeaks.Club и Kyiv Big Data Community, 17 лет опыта в IT, 7 лет — в области Big Data

Я проработал несколько лет руководителем направления Big Data в SoftServe, поучился у самых именитых архитекторов Калифорнии в компании Cloudera, основал наибольшее сообщество Big Data в Восточной Европе, поучаствовал как инструктор и ментор в двух школах больших данных от компании Киевстар, провел десятки докладов и воркшопов на тему Data Science и Big Data и, наконец, основал школу GeekSpeaks.club. Одним из основных моих занятий последние несколько лет было обучение и менторство инженеров в области Big Data и Data Science.

Ниже я приведу несколько основных советов, которые пригодятся юным и не совсем еще окрепшим умам молодых Data Science инженеров.

Жертвуйте теорией ради практики

Выбирая онлайн или офлайн курс обучения, обращайте внимание на количество практики, ее должно быть не менее 50%, иначе вы теряете свое время. Теория усваивается только частично и достаточно быстро забывается.

Прочитав статью, посетив митап или лекцию, посмотрев вебинар, попробуйте повторить то же самое. Мир Data Science ориентирован на быстрое прототипирование. Поэтому если пропускать все услышанное и увиденное через практический, пусть даже минимальный опыт, это позволит существенно лучше запоминать информацию и применять полученные знания в реальной работе.

Data Science, в отличие от многих других областей, не гарантирует 100% результата, поэтому негативный результат — это тоже результат. Важно научиться минимизировать цикл: идея — прототип — результат — тест — выводы. Такой практически ориентированный подход также позволит вам создать библиотеку собственных небольших прототипов, которые отлично можно использовать в решении реальных проблем.

Конкурентоспособность: научитесь решать проблему целиком

В США я наблюдаю тенденцию переучиваться на Data Science инженеров. Действительно, имея математическую и техническую базу, многие способные инженеры могут освоить начальные навыки.

В этом году я и еще трое моих коллег выступали лекторами в Kyivstar Big Data School, куда было отобрано около 20 человек из 700. Это значительно больше, чем в прошлом году. Масштаб конкуренции впечатляет.

Так чем же вы будете отличаться от других Data Science инженеров?

Одни из наилучших специалистов в области Data Science, которых я знаю, способны создавать полный стек прототипа: от структуры базы данных до модели и даже системы отображения данных. Они понимают, как устроен UX и что будет важно для конечных пользователей. Кроме того, лучшие инженеры еще и отлично владеют несколькими предметными областями. Именно такая универсальность и отличает обычного Data Science инженера от высококлассного.

«Золотая» предметная область

Квинтэссенцией всех технологий в конечном итоге станет тот самый пресловутый AI — универсальный искусственный интеллект, оперирующий всеми доступными человечеству данными для принятия кардинально более правильных и значительно более быстрых решений, чем на это способен человек.

Конечно же, взять и сразу написать полноценный AI не выйдет. Он, скорее всего, образуется в результате объединения десятков и сотен различных технологий и решений. Поэтому основной совет в выборе индустрии применения Data Science знаний — это задавать себе вопрос: а каким образом и насколько работа в этой области приблизит человечество к созданию AI, какую проблему позволит решить.

Решая ежедневные задачи обработки данных в медицине, продажах, маркетинге, телекоммуникациях, юриспруденции, не переставайте задавать себе эти универсальные вопросы. Это поможет вам двигаться в наиболее правильном направлении.

Оставайтесь голодными

Огонь, вода и медные трубы — достаточно старая концепция испытания человека на прочность. Я бы хотел посоветовать тем ребятам, которые из голодных «джуниоров» превратятся однажды в сеньоров, не успокаиваться на достигнутом и максимально открыто потреблять новую информацию, подходы, советы и не переставать учиться.

Области Data Science и Big Data, пожалуй, больше всего подвержены изменениям — еженедельно появляется минимум один новый продукт, решение или подход в этой области. Невозможно за всем уследить, но и остановка в развитии, обучении и открытии для себя новых предметных и технических областей будет означать неминуемое отставание и потерю конкурентоспособности.

Александр Кондуфоров, Head of Data Science Department в AltexSoft

4 года опыта в Machine Learning / Data Science. До этого 8 лет опыта в разработке ПО и архитектуре

Data Science — относительно молодая специальность, которая образовалась на стыке программной инженерии, математики и аналитики данных и еще не до конца сформировалась в наши дни. Работа, которую выполняют люди в роли Data Scientist в разных компаниях, может радикально отличаться: быть более аналитической или инженерной, использовать структурированные или неструктурированные данные, заключаться в использовании существующих алгоритмов или же создании новых и толкании границ state-of-the-art. В зависимости от рода бизнеса или продукта, вы можете копаться в данных пользователей, обучать нейросети распознавать объекты на дороге или лица на фотографиях, работать с ДНК и результатами медицинских исследований, анализировать и предсказывать спрос на товары или даже пытаться найти бозон Хиггса. Вариативность задач настолько велика, что, к сожалению, здесь нет какого-то универсального рецепта, какой именно инструментарий и алгоритмы изучать, но я постараюсь дать какие-то общие советы.

Во-первых, Data Science — это всё-таки так или иначе про математику. Алгоритмы и подходы базируются в том или ином виде на дифференциальном и интегральном исчислении, матстатистике, линейной алгебре и дискретной математике. Нельзя сказать, что без хорошего знания этих областей вы не сможете обучать свои нейросети, но в какой-то момент вам придётся углубиться в теорию и вы можете надолго там зависнуть над формулами. Если вы хотите подтянуть математику, есть довольно много онлайн-курсов на Coursera, Udacity, edX и других ресурсах, а также всегда можно обратиться за персональным обучением в ближайший университет.

Второй базовый инструмент в рабочей сумке Data Scientist’а — это язык программирования. Если вы занимаетесь исключительно анализом данных и построением несложных моделей, то вам может хватить и какого-нибудь визуального инструмента, но большинству специалистов всё-таки понадобится знание языка или даже нескольких. И здесь возникает вопрос: какие языки изучать? Как минимум вам понадобится R или Python для быстрого анализа данных и моделирования, как максимум — С++, Java, C# или любой другой язык общего назначения для внедрения вашей предсказательной модели или алгоритма в продукт. Хотя иногда внедрением занимаются программисты, а Data Scientist занимается только моделированием, ваши способности по имплементации алгоритма в готовое решение (даже в виде простого Python веб-сервиса) могут сильно добавить вам очков в компании. Что касается извечного спора «R или Python?», лично я бы рекомендовал изучать Python. R очень хорош для статистического анализа данных, препроцессинга и визуализаций, но последнее время начал отставать в вопросах «тяжелого» машинного обучения, особенно если речь заходит о работе нейронными сетями, не говоря уже про его плохую готовность к production.

Третий очень важный кусочек пазла — это статистический анализ данных и машинное обучение. Это тот фундамент, который вам 100% пригодится в работе в том или ином виде. Чем лучше вы будете знать достоинства и недостатки разных алгоритмов, моделей и подходов, тем быстрее вы будете достигать нужного результата, не тратя время на тупиковые пути. Вариантов изучать анализ данных и машинное обучение очень много, я бы посоветовал вам обратить внимание на всё те же онлайн-курсы и книги. Если же вам хочется личного общения, могу порекомендовать курсы Lviv IT School, Master Code и, конечно, магистерскую программу УКУ.

Если говорить об общении с единомышленниками, то отдельным пунктом надо отметить конференции и митапы по AI/DS тематике. В Украине уже сформировалось довольно много региональных групп и ежегодных конференций. Боюсь кого-то забыть, но навскидку можно обратить внимание на конференции EECVC, AI Ukraine, Data Science Lab Odessa, AI & Big Data Lviv, Data Fest Kyiv, Data Science UA, AI Rush, DS трек Lviv IT Arena и многие другие. Более-менее полный список мероприятий можно найти на DOU Календарь по тегам AI и Data Science. Если же вы хотите посетить академическую конференцию, то смотрите в сторону международных NIPS и ICML.

Еще один важный пункт — визуализация данных и вообще коммуникация результатов исследования другим людям. Иногда это могут быть ваши клиенты, иногда — руководство компании или другие специалисты. В любом случае эти навыки очень помогут вам в разных аспектах работы, начиная от анализа данных и заканчивая подготовкой отчета по результатам работы.

Но самое главное — это, конечно, практика. Как известно, теория без практики — мертва, а практика без теории — слепа. Бессмысленно читать книги, проходить курсы или ездить на конференции, если вы не делаете домашние задания, не пробуете свои силы на Kaggle или не выполняете реальные задачи на работе или в вашем пет-проекте. Мой самый главный совет — это постоянно практиковаться!

Однако это была лишь основа основ и было бы неправильно не сказать о других областях знаний, с которыми вы можете столкнуться уже с первых дней работы:

  • Если вам посчастливилось работать со сложными неструктурированными данными, например, текстами, звуками или изображениями (видео), то вам придется сделать дополнительный шаг в сторону и углубиться в Natural Language Processing, Digital Signal Processing и Computer Vision. Для этих типов данных и задач, связанных с ними, существует большой дополнительный список алгоритмов и подходов.
  • Если вы занимаетесь программированием интеллектуальных агентов и роботов, играющих на бирже программ, либо же пытаетесь научить компьютер играть в игры — вас ждет изучение еще одной непростой области — Reinforcement Learning.
  • Пожалуй, отдельным пунктом стоит вынести Deep Neural Networks, которые развиваются сейчас семимильными шагами. Существует несколько популярных фреймворков, и хотя бы один из них придётся изучать: TensorFlow, Caffe, Torch/PyTorch.
  • И, наконец, если у вас большие данные, вам придется научиться работать со Spark и его библиотеками типа MlLib, GraphX, а также инструментами для работы с потоковыми данными и распределенными базами данных.

Как видите, Data Science — это достаточно большая область знаний, и мало кто из специалистов может похвастаться, что он знает все достаточно хорошо. Но есть и хорошие новости: обычно все-таки существует некоторая специализация, и вам нужно разбираться лишь с теми вещами, с которыми вы сталкиваетесь на практике :)


Подписывайтесь на наш Telegram-канал для джуниоров, чтобы не пропустить интересные вакансии, стажировки, курсы, статьи.

LinkedIn

19 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

Блог о Data Science с примерами использования в реальной жизни
datascience.org.ua/...​ng-dlja-planirovanija-tu

«Львов — самый популярный у туристов город в Украине. Можно днями бродить по его улочкам, особенно по старому городу. А что делать, если мы заходим обойти все достопримечательности? Во время самостоятельных экскурсий иногда возникает вопрос — каким маршрутом сегодня лучше пойти, чтобы увидеть как можно больше достопримечательностей за максимально короткое расстояние. Порой мы составляем расписание по дням своих будущих маршрутов, полагаясь на собственную интуицию. Это хорошо, но что скажет Data Science на этот счет? Существуют ли алгоритмы, которые могут нам хоть как-то помочь? И если да, то где достать данные? Ответы на эти вопросы мы найдем в данной статье.»

Прохожу кстати очень годную школу для джунов по дата-сайенсу
www.facebook.com/dataroot.university
Народ, место просто топ, как на заказ: материалы актуальные, сам процес обучения хардкорный, в конце работаете с интересными бизнес-проблемами на реальных проектах с потенциальным трудоустройством на их основе после.
Слишком идеально, что бы быть правдой, но это действительно так)
Слышал, что после НГ будет набор новый, ооочень советую к нему присоединиться — лучше места для начала карьеры не найти! И, кстати, поспешите, а то места ограниченные ;)
Говорю исходя из личного опыта, так как сам очень довольный, что повезло проходить эти курсы)

Согласен с Alex Plotnikov. Добавлю про свой опыт.
В прошлом году заинтересовался ИТ, хотя до этого работал в бизнесе и продажах, просто был хороший математический базис когда-то.
Очень быстро втянулся именно в Дата сайенс, где интересно было применить аналитические способности и поддался рекламному тренду, что не обязательно быть программистом.
Прошел полностью курсы на DataCamp.com, поверхностно, надо сказать честно, но хотелось практики! )
Зашел на www.kaggle.com/kivaschenko и сразу влез в новое компетейшн по такси Нью-Йорк. За пару месяцев соревнование сожрало все мое время и психическую энергию, правда я на практике выучил и запомнил больше, чем параллельно читал в трех книгах по машинному обучению — то есть навыки работы с данными и всякие штуки с обработкой, использование объектов библиотек.
Потом сделал регрессию по ценам на дома для новичков и, конечно, конечно же Титаник )).
Так вот мое впечатление.
Катастрофически не хватает опыта и навыков в программировании на Питоне! Мало понять как теоретически работает регрессия или метод к-ближайших соседей, рандом форест и т.п. Надо хорошо понимать код, философию языка программирования. Иначе на практике это исследование превращается в складывание кубиков из объектов библиотек scikit-learn, pandas.
Я, конечно не такой мудрый и заслуженный статистик и теоретик, но все равно, скажу.
Если хочешь строить свою модель, надо потом использовать и наследование классов из scikit-learn, с переопределением, и finite state machine пригодится для кластеризации текста и т.д. То есть, чтобы осознанно писать код.
А так... Открываешь джупитер блокнот... Можно просто пару десятков раз обработать данные, вычистить мусор, создать новые признаки, категории, и скармливать модели. И для этого не надо университет заканчивать.
особенно, если подсмотреть на кагле, как делают другие, учесть их ошибки и взять находки.
И будет нормальный результат, если вы не собираетесь биться до крови за пятый знак после запятой в точности. Нормальный результат, я имею ввиду для бизнеса, когда надо выдержать баланс между сроками и стоимостью вычислений и точностью модели. А не так, как было в истории с рекомендательной системой для Netflix. Ну, кто в теме, тот понял.
И да, икс-джи-буст (xgboost) — наше фсё ).
Вот что делать толпе дата сайенсов, когда все основные модели будут описаны так, как и описаны сейчас алгоритмы в ссайкит-лерн? Для кого нужны визуализации? Если решение принимает нейросеть ).
P.S. Учу сейчас глубоко Python 3, потому что иначе — это все игрушки.

Вот что делать толпе дата сайенсов, когда все основные модели будут описаны так, как и описаны сейчас алгоритмы в ссайкит-лерн? Для кого нужны визуализации? Если решение принимает нейросеть ).

Ни одна модель не сможет решать задачи универсально («no free lunch» теорема), все равно нужен будет человек для подготовки/преобразования данных, выбора модели, валидации и т.д.

и поддался рекламному тренду, что не обязательно быть программистом

Ну по факту так и есть — простой пример, компания в которой я работаю — DataRobot. Продукт автоматизирует бОльшую часть data science pipeline — от припроцессинга, до feature engineering (часть его например как вы написали — вычистка мусора), так и для валидации моделей. Результат? Раньше клиент строил модель 3 месяца — сейчас 3 часа. И это все без знания Python или R:) Хотя само собой — опытный data scientist с навыками все равно справится лучше — это как дать болид формулы 1 Шумахеру, а не водителю с опытом на Ford Focus:)

И тут то начинает просачиваться value который несут data scientists — знание данных, умение их собрать или трансорфмировать (как минимум например умение работать с платформами типа Alteryx), понимание бизнес задач и какие данные для каких из них подходят (например важен ли возраст плательщика по страховке для расчета того или иного риска — что часто так и есть), ну и тд.

Для кого нужны визуализации

Могу сказать что все таки иногда нужны — часто по очень банальным причинам — a picture is worth a 1000 words и многие executives тупо не могут представить результат не на картинке:) Ну и прочие задачи — часто в data exploration помогает — особенно на стадии discovery данных для составления новой гипотезы для предсказания и тд.

> Продукт автоматизирует бОльшую часть data science pipeline

ціну тільки не називайте шоб людей не лякати :-) бо, мені здається, вона хардкорно ентерпрайзна

ха) ну это по разному — в зависимости от задач/ типа деплоя и тд, но ROI в десятки раз превышает вложения, а по факту кроме как энтерпрайз клиентам и стандартные data science решения не по карману:) но вот например MIT выпустил что-то похожее (намного проще конечно) — но это опен сорс продукт с теми же задачами: www.techrepublic.com/...​an-human-data-scientists

Мова R має експертний рівень, в першу чергу, за рахунок великої кількості доступних аналітичних пакетів, які можна підключити до аналізу.

я бы советовал начинающий все таки использовать Python. Во-первых, он уже обошел R по использованию в data science: www.kdnuggets.com/...​alytics-data-science.html, те влияние его будет расти. Во-вторых, потому что с точки зрения организации/разработки — Python более распространен и это помогает двигать data science внутри организации. Ну и самое главное, machine learning это основной инструмент любого data scientist и многие основные и самые доступные инструменты для ML сделаны под питон — например, scikit-learn, NumPy и тд. Так что и экосистема под Питон уже солидная и в ML он рулит — по крейней мере в supervised machine learning.

Еще R страшно уродлив по сравнению с Python.

Я решил на этом не акцентировать внимание, чтобы никого работающего с R не обидеть. По факту это язык который вышел из науки — типа life sciences, medical research и для современного внедрения в бизнес он не совсем подходит, так как в той среде свои требования к языкам и другие задачи.

Так до сих пор и не понял прикладное значение Data Science. Разве что относить сюда Machine Learning и робототехнику. Этот термин всегда казался слишком расплывчатым.

A/B тестирование, например. Вот дядька из StackOverflow помогает выбрать, какие из новых решений оставлять, какие отклонять: varianceexplained.org

Джош Виллис из Slack дал очень хорошее определение для data scientist: a person who is better at statistics than any software engineer and better at software engineering than any statistician.

А по факту применений data science море — особенно в сфере predictive modeling, где data scientist это еще и человек который знает бизнес процессы и понимает какие данные оптимальны для построения predictive models (correlation =/= causation, Occam’s razor и тд).

Если говорить конкертно о сфере IT — есть статья на DataCamp с заголовком «Using Data Science to Explore Software Development», там хороший high-level overview применения конкретно в разработке, если интересно.

Реалии таковы что и эта профессия скоро отойдет в прошлое благодаря автоматизации, либо приобретет другие очертания по наполнению обязанностей.

Профессия прогера или дата сайентиста отойдет в прошлое?

Data scientist, в текущей ее ипостаси (где весь пайплайн менеджится самим DS — от data prep/ wrangling и до операционализации самого prediction). Само собой, такое станет реальностью только при достаточном уровне автоматизации, но процесс уже начался.

Auto Tune Models от MIT это шаг в этом направлении: www.techrepublic.com/...​an-human-data-scientists (по факту это то, что уже доступно коммерчески для enterprise клиентов несколько лет)

Ну и в MIT Technology Review уже была статья на тему automated machine learning и как он решает обширный кусок data science задач без глубокого уровня знаний: www.technologyreview.com/...​re-you-know-it-heres-how

отличная статья.

В качестве одного из лучших ранних конкурсантов Kaggle Ачин понял, что он уже автоматизирует множество шагов, участвующих в каждом соревновании. "Я думал, что если мы соберем достаточное количество наборов данных, достаточное количество проблем и проведем достаточно экспериментов, мы сможем провести машинное обучение по компьютерному обучению. Это была оригинальная идея, — говорит он.

И именно поэтому компания уже на раунде C инвестиций:) идея действительно отличная, ну а исполнение самого продукта это уже совсем другой уровень — когда на борту Kaggle Masters которые неоднократно занимали первые места — по другому быть не может.

Фамилия кстати Эйкин — если правильно, мы еще шутим что there’s no mACHINe learning without ACHIN in it:)

Если бы прикладное применение DS (и ML как ее составляющей) не включало ничего больше, чем одно-единственное решение
www.ibm.com/...​gy-and-genomics/oncology
то даже и тогда, ее значение для человечества (извините за пафос) было бы сравнимо с внедрением рентгена или анастезии и оправдало все затраты (и интеллектуальные и материальные) которые потребовались на ее развитие.

Дякую, дуже цікаво!

Подписаться на комментарии