Результаты опроса по Artificial Intelligence & Machine Learning
В июле проводился анонимный опрос по тематике Artificial Intelligence & Machine Learning, в котором приняли участие 74 человека.
Портрет участников опроса:
Город

50% респондентов киевляне, 23% живут в Харькове. Львов на
Гендерное распределение
10,8% женщин, 89,2% мужчин.
Чем был вызван выбор направления

Склонность к точным наукам и интерес к новым технологиям делят поровну первое место с 41,1%.
Популярность вузов

Наиболее популярным вузов является киевский НТУУ «КПИ», который получил 26% голосов, второе место поделили КНУ им. Шевченко и ХНУРЭ с 9,6%, третье место у НТУ «ХПИ» с 4,5%.
Уровень образования

Более половины респондентов являются обладателями диплома магистра — 56,2%. Бакалавров и закончивших аспирантуру поровну — 20,5%.
Специализация

Computer science доминирует с 38%, на втором месте по популярности Data science c 18,3% на третьем месте Machine Learning с 15,5%.
Популярность должностей

Карьерная лестница распределена равномерно: 28,2% старших программистов, мидлов и джунов по 26,8%. Лидов 12,7% от общей суммы респондентов.
Опыт работы в сфере

Поскольку направление новое, то опытных кадров мало: 55,6% респондентов с опытом до 3 лет и 18,1% с опытом до 5 лет. Восьмилетних ветеранов кодинга — 8,3%.
Популярность дополнительного образования

76,7% респондентов получили дополнительное обзразование, из них наиболее популярными были курсы Coursera, вторая по популярности edx. Udacity не далеко ушли от живых семинаров и занимают третье место.
Популярность языков програмирования

Как и следовало ожидать, наиболее популярным языком является Python, на втором месте R и замыкает тройку лидеров С++. Примечательно, что С++ используют специалисты с опытом от 5 лет, а Java c опытом до 5 лет.
Использование подходов

Наиболее популярным является Supervised Learning — 88,1%, Un-supervised Learning на втором месте с 70,1%. Третьим по популярности является Semi-supervised Learning с 28,4%. Что примечательно, респонденты, использующие Active Learning, не проходили дополнительные курсы, то есть являются по своей сути самоучками.
Использование FW

Наиболее популярным FW является Theano — 40,5% респондентов отдают ему предпочтение. Dato Graphlab Create на втором месте с 21,6%, третьим по популярности является Weka с 18,9%. Что примечательно, Theano лидирует с двойным отрывом. Объясненить это можно тем, что лидирующий язык — Python, так как программирование под Theano не является программированием (пишется программа на Python, которая создает выражение для Theano).
Решаемые задачи

Наиболее популярным являются задачи классификации — 92,3%, Regression на втором месте с 70,8%, третьими по популярности являются Clustering с 61,5%. Что примечательно, подавляющее большинство респондентов, отдающих предпочтение методам Сlassification, (более 90%) не используют GPU, хотя по сравнению с CPU обработка шла бы намного быстрее (по утверждению компании nVidia, можно добиться прироста в 33 раза).
Использование классификаторов

Наиболее популярным является Random Forest классификатор — 74,6%, SVM на втором месте с 67,8%, третьими по популярности являются ANN с 49,2%.
Использование датасетов в работе


Из 51,6% опрошенных, кто использует датасеты в своей работе, наибольшей популярностью пользуются задачи с обработкой текста, на втором месте работа с изображениями и многовариантная работа на третьем. Что интересно, обработка звука не пользуется популярностью, даже не смотря на старания Amazon & Google и релизы их продуктов. Опыт респондентов, работающих со звуком, — от 5 лет, что показывает, что это задачи не для новичков.
Использование GPU ускорения

Из 29,4% опрошенных, кто использует GPU, необходимо больше 8Gb видеопамяти 47,8% респондентов, 26,1% хватает от 1х до 2х и 17,4% респондентов необходимо от 2х до 4х Gb видеопамяти для расчётов.
Рейтинг Neural Networks

Из 56,5% респондентов, кто использует Нейронные сети, Convolutional сети наиболее популярны — 75,7% респондентов отдают им свое предпочтение. На втором месте Recurrent multilayer perceptron с 43,2% и LSTM с 35,1% на третьем.
Рейтинг Deep Learning FW

Из 40,3% респондетов, кто использует Deep Learning, наибольшее количеcтво пользователей у TensorFlow — 53,6%. Вторым по популярности является Theano 50% и Caffe замыкает тройку лидеров c 39,3%. Что примечательно, респонденты использующие TensorFlow в своей работе, отдают предпочтение открытым датасетам в решении своих задач.
Использование Big Data

У 49,3% респондетов, кто использует Big Data, наибольшей популярностью пользуется Spark — 73,5%. На втором месте по популярности Hadoop — 52,9%, Kafka замыкает лидерство с 26,5%. Что интересно, не смотря на популярность языка R, F/W на его основе такой популярностью не пользуется.
Выводы
Говорить о чётких результатах опираясь на 74 ответа сложно, но уже видны тенденции:
— Это очень молодая сфера, которая привлекает молодых IT специалистов интересными задачами, но, к сожалению, предпочтение пока отдается работе с изображениями;
— Нехватка данных уже легко компенсируется курсами по тематике, чем охотно пользуется большинство респондентов;
— Пока игнорируются последние новинки от nVidia в области GPU вычислений, но время и снижение цен должны компенсировать эту ситуацию.
Успешного всем вычисления!
4 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарівзамените Mathlab на Matlab, это Matrix laboratory, не Math laboratory. У меня в универе препод по оптимизации на первом семинаре завалил всю группу, потому что никто не знал как расшифровуется Matlab, я думаю теперь знают все)
к нвидии нету доступных фреймворков пока что бы в нее машин ленинг сунуть, ну и самый крутой язык для машин ленинга — это скала, не самый простой но большинство крутых проектов хотят именно его, и он почему то отсуствует тут.
Круговые диаграммы очень неудобно читать.