Зарплаты в IT-сфере с точки зрения регрессионного анализа

В январьском зарплатном опросе DOU приняло участие 4200 человек — абсолютный рекорд среди всех предыдущих опросов. После небольшой очистки данных (явные промахи в переводе зарплаты в доллары, вроде системных администраторов с годичным стажем с зарплатой в 5000, или просто странные зарплаты в виде цифр ‘1’, ‘6’ и т. д.) мы все равно получаем более 4 тысяч наблюдений — число, более чем достаточное, для получения значимых результатов с помощью регрессий. Подробнее о самом методе и результатах исследования читайте ниже.

© Images_of_Money

Распределение анкет по должностям в выглядит так:

Отклонения от предыдущих опросов минимальны.

Распределение Software Engineers и QA Engineers по уровню:

Распределение среди Software Engineers осталось таким же, у QA наблюдается незначительное уменьшение количества Seniori’ов за счет увеличения доли Junior’ов.

Средний возраст 26.7 лет — значение, которое уже можно считать почти каноническим для отрасли — в предыдущих опросах средний возраст был в пределах 26.5-27 лет. На фоне стабильных показателей явно выделяется средний опыт работы. Если на прошлых этапах он, в среднем, составлял 4.2-4.3 года, то в этот раз у нас имеется резкое падение до 3.3 лет. У меня тут напрашивается одно объяснение — количество специалистов в отрасли растет, и не всегда за счет бывших студентов (средний возраст тот же) — значительное количество людей меняют предыдущею сферу деятельности на ИТ.

Регрессионный анализ

Хотя большинство людей имеющих техническое образование слышали про метод наименьших квадратов и его применение в различных сферах, главная сфера его применения — регрессионный анализ пока не обрел должного внимания в нашей стране. Хотя его уже давно используют во многих компаниях IT сферы, в сферах финансов и экономики, его преподаванием, как отдельной науки, занимаются лишь единичные ВУЗы Украины. Я не буду вдаваться в подробности метода (объем материала, доступный в интернете, даже на русском языке, достаточно велик), а лишь сосредоточусь на некоторых результатах, которые мне показались интересными/ необычными/ заслуживающих внимания. Буду рад ответить на любые вопросы относительно самого метода, метода получения данных результатов, а также обсудить их. Немного о самой методологии в конце статьи.

  1. Общий опыт и зарплата. В среднем, при прочих равных условиях, дополнительный год опыта сулит работнику IT сферы прибавку в размере +19% (или около $200 в абсолютных значения). Эффект разнится в зависимости от должности. Так, несмотря на более низкую зарплату (и снова-таки, в среднем) у специалистов QA, дополнительный год опыт дает прибавку около +30% (у Senior’ов +25%, у джуниоров +40%) , тогда как у Software Engineer среднего звена этот показатель составляет лишь +16% (у Senior’ов так же +16%, у джуниоров +30%).
  2. Опыт на текущем месте работы. В некоторых сферах, работа на одном и том же месте негативно сказывается на вашей зарплате. Оказывается, IT сфера одна из них. Те, кто засиживаются на одном месте, каждый год теряют возможность на дополнительные +1.5% к зарплате, которую имеют те, кто чаще меняют компанию. Конечно, этот маленький процент с лихвой перебивается эффектом от дополнительного года опыта. Каждый может попробовать сделать свои выводы: текучесть кадров в отрасли, не очень большой средний возраст (предрасположенность к частым переходам), частое переманивание сотрудников между компаниями, etc. А факт же таков: в отличие от многих отраслей, где ценится преданность компании, IT сектор отдает предпочтение активным работникам, готовым к переменам. Логично.
  3. Возраст? Только не в IT. Средняя прибивка за дополнительный прожитый год — 1.3% (около $14). Вывод? Ваш жизненный опыт не важен. Важен только опыт работы в этой сфере. Вероятно, результат должен отличаться для высоких С-level позиций. К сожалению, маленькая выборка по этим позиция не позволяет это проверить.
  4. Образование не играет роли. Знание английского влияет. Все коэффициенты на уровень образование не значимы. Это значит, что статистически их нельзя отличить от нуля (нет эффекта на зарплату). Большая выборка четко дает понять, что уровень образование не так важен в этой сфере. Возможное объяснение — технически/математически подкованные люди выберут соответствующие высшие образование, но в Украине уровень именно IT образования оставляет желать лучшего. Вероятно, такой человек самостоятельно может освоить все азы и опытом полностью компенсировать отсутствие образования. При этом уровень знания английского языка играет огромную роль. Так, переход от уровня Ниже Среднего до уровня Средний дает прибавку в +10%, +8% за последующий переход на уровень Выше среднего и, наконец, +7% за заветный переход к уровню Advanced. Может люди с более высокой зарплатой больше путешествуют или просто склонны преувеличивать свои знания? Даже в таком случае, показатель может снизиться лишь незначительно. Факт же таков — английский язык необычайно важен. Учите его.
  5. Самообразование. Коэффициент на количество часов, которые вы проводите за самообразованием, не значим. То есть, эффекта нет. Но тут стоит быть скептичным. Возможно, проблема была в постановке вопроса. В неочищенной базе было немало ответов вроде 500 часов в месяц. Многие не задумались над этим вопросом и могли ответить не совсем (мягко говоря) точно. Это была пилотная попытка и, возможно, в следующий раз, следует использовать диапазоны, что бы получить адекватный результат. Будем пробовать.
  6. Киев в лидерах. Даже с учетом остальных параметров, смена трудоустройства со следующего лидера по зарплатам — Львова в столицу обещает прибавку в +24%. Те же +24%, если вы переехали из Харькова. +14%, если из Одессы *.
  7. Размер компании. В то время, когда размеры зарплат в компаниях сегмента 50-200 сотрудников, 200-1000 и более 1000 статистически не отличаются между собой, явно меньше получают те, кто трудится в компаниях, где менее 10 сотрудников — −17% , 10-50 сотрудников — −8%.
  8. Девушки QA. Около 44% девушек трудятся на позиции QA разного уровня. У парней аналогичный показатель около 11%. Как думаете, чем вызвано такое предпочтение прекрасного пола?

* Эти значения не связанны со средними зарплатами. Средняя зарплата во Львове выше, чем, скажем, в Одессе, но и переезд в столицу обещает большую прибавку к зарплате. Это может быть связано с тем, что, в среднем, во Львове работают люди с более высокой квалификацией.

Методология и исследование

Метод наименьших квадратов (МНК) — основа стандартного регрессионного анализа. Его основная идея состоит в том, что бы подобрать такие коэффициенты, которые бы максимально близко описывали модель (в данном случае, за счет минимизации суммы квадратов отклонений).

Простая модель МНК на практике:

История метод начинается еще со времен Гаусса и Лежандра, которые построили основы метода в конце 18го века. Сегодня, современные методы МНК используются для прогнозирования всевозможных процессов в абсолютно различных сферах, начиная от экономики и финансов, и заканчиваю медициной и физикой. Редкая Нобелевская премия по экономике достается за работу, где не используется регрессионный анализ, а сфера финансов на половину построена из методов, основанных на МНК.

Эффект опыта и уровня образования на зарплату (так называемая Экономика труда) начал изучаться еще в середине прошлого века, а одним из главных основателей самой науки считается Якоб Минсер. В наши дни, сотни и тысячи статей печатаются в авторитетных изданиях на эту тему, а многие экономисты уже получили своих Нобелей за исследования рынка труда. Поскольку современной экономической науки, как таковой, в Украине почти не существует, то и этот метод пока не знаком широким кругам.

Данные опроса DOU подходя для анализа как нельзя лучше. Большая выборка, интересная сфера, хорошие вопросы. Многие экономисты, с которыми я обсуждал этот опрос, были часто обеспокоены не полностью случайной выборкой DOU. С другой стороны, DOU единственное сообщество такого уровня в Украине. На мой взгляд, большинство работников сферы знают и посещают этот ресурс. Уже не говоря о том, что можно смело предположить, что все работники ИТ сферы имеют доступ в Интернет (частой проблемой Интернет опросов является не случайная выборка, из-за не равномерного распределения доступа в Интернет среди населения).

Если вы заинтересовались методом, сферами его применения или любыми другими релевантными вопросами, я буду рад на них ответить.

Для интересующихся могу заметить, что я использовал почти классическую Минсеровскую регрессию с некоторыми инструментальными переменными (именно для этого были вопросы о возрасте написания первой программы и трудоустройстве родителей). Регрессия была на логарифм зарплаты, с учетом большинства переменных с опросника DOU. Количество переменных, с учетом фиктивных переменных, достигало около 70 переменных. Результаты, приведенные выше, базировались исключительно на значимых коэффициентах (обычно, p-value был около 0.00-0.01). R2 около 70%, F-value = 117.31. Все это гонялось в Stata 11.

UPD: Данные статьи приведены из работы Февраля 2013 года.

На конец апреля были сделанные некоторые дополнения/исправления:

1. Нельзя винить ИТ образование Украины в целом. В анкете не было разделения на ИТ образование или любую другую специальность . Вполне возможно, что в Украине есть некоторые ВУЗы с образованием, подходящим для работы в ИТ сфере, но их вклад в общую ситуацию не велик.

2. Эффект опыта на зарплату убывающий. На сегодняшнем рынке, опыт перестает добавлять существенную прибавку к З/П, в среднем, после семи лет. Вероятно, эта ситуация изменится в скором времени.

3. Совмещение учебы и работы положительно сказывается на будущей зарплате (дополнительно к полученному опыту работы). В среднем, +1 год совмещения — +3% к З/П. Логическое объяснение? Возможно, это вырабатывает трудолюбие ) А может просто учит ставить приоритеты."

  • Популярное

55 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

<grammarnazimode>исследование интересное и в целом полезное. но к автору очень большая просьба — потрудитесь исправить грамматические ошибки. уверен что после этого результаты вашего кропотливого труда станут чуть более весомыми.</grammarnazimode>

Интересные данные.. :) И да, на себе ощутил ситуацию с опытом. Опыта больше 9 лет, а толку от этого аж ни как.. и прям как в статье... +$200. Смысла нет. Но если ты теме, то все гуд, и думаю эта ситуация изменится, так как много недоспецов на рынке. :)

Возможно, стоит учитывать, что часть опыта за 9 лет может устареть и стать не особо полезной (иногда даже вредной).

Глядя на то как делают html/css многие свежеопытные.. то нет 9лет опыта во фронт-энде, дизайне и верстке, вреда нет. Главное не застрявать на одном месте.

Пользы от умения верстать для IE 5-6 сейчас не так уж много. Опытные тоже могут наделать специфического html/css... В любом случае лучше опыт, знания и полезность специалиста измерять не только годами, но и рекомендациями, портфолио и т. д. Еще можно протестировать на фрилансе — там нередко зарплата зависит от реально проделанного, а не положения на карьерной лестнице. Опыт может помочь получить заказы получше и сделать их качественнее и быстрее, что конвертируется в +xxx$.

Портфолио, самая большая тупость, и оно действительно устаревает, становиться неактуальным.

Я работал во фрилансе, и скажу так, сделал плохо — остался без дохода. Так как могут смело заплатить минимум, чисто из вежливости.

ИЕ 5-6-7-8 не нужен. Но когда человек с опытом, он, как минимум, понимает назначение тэгов, тех или иных правил, знает где лучше сделать обтекание, а где относительное позиционирование. Я видел этих мега-крутых html/css но когда дело доходит до больших проектов, или одностраничнх вебаппс, где объемы css до мегабайта, они на стенку лезут, и делают г#@!. Нахерачили градентов со старым синтаксими, или картинки не оптимизируют.. а что? ImageMagic? OptiPNG, Custom optimize? — Не не слыхал. Да и много таких вещей найти можно, которые реально встрачаются часто.

На счет рекомендаций — 100000000% правда :) Я так и занимался фрилансом, один клиент приводил 2-3)

Опыт — мое богатство :)

Я нелюблю 20-детних сеньоров в любой сфере. Опыт важен, не для клиента, а для разработчика. Главное, как я сказал уже, не застывать во времени.

Отсутствие большого опыта и наличие энтузиазма и знаний позволило, например, Юре Артюху почти сразу заниматься довольно сеньорными задачами.

Юра бог для вас? :) Это у кого отсутствие опыта? У всех свой путь, и у меня задач интересных хватало в теже годы. Юра делал ukr.net а я работал на юса, разницы 0. Тот же энтузиазм. И в добавок тогда было немного проще. Мы были не ленивые.

Лучше вам прекртить переходить на личности, можете нравться на грубость.

По теме, дискуссия не приятная. Вы считаете что опыт безполезен, я нет. На этом все и оставим.

Юра бог для вас? :)

У него просто сегодня ДР :)
К тому же я с ним немного знаком лично.

Дискуссию завершаю. Извините если что не так, не силен в дискуссиях, лично против вас или ваших идей я ничего против не имел и не имею.

Девушки QA. Около 44% девушек трудятся на позиции QA разного уровня. У парней аналогичный показатель около 11%. Как думаете, чем вызвано такое предпочтение прекрасного пола?
Тем же чем и увеличение junior QA специалистов :)
На рынке есть много вакансий, где надо просто «мануально тестировать пальчиком», а с такой работой, как показала практика, девушки справляются лучше.
На моём опыте Junior и до «среднего» Middle QA-девушки (если это мануальное тестирование, частые регрессии, однообразные задачи) работают лучше «сильного пола». Они более ответственны, старательны, внимательны, усидчивы к такого рода работе.
На top-middle- (только что придумал, имеется ввиду — не далеко от Senior) и Senior-позициях, где надо решать высокотехнические и высокотехнологические или просто сложные задачи, уметь найти решение, когда его нет на поверхности или вообще придумать новое, знать вагон и тележку тулов, иметь на плечах два мешка ответственности, работать в стрессе,... парни справляются лучше. Я видел единицы хороших специалистов-девушек на таких позициях.

Еще одна причина: разбавить суровый мужской коллектив.

Девушек-разработчиков — днем с огнем, а вот тестировщики и аналитики встречаются отличные.

По поводу английского языка:

Так, переход от уровня Ниже Среднего до уровня Средний дает прибавку в +10%, +8% за последующий переход на уровень Выше среднего и, наконец, +7% за заветный переход к уровню Advanced
Может это просто проявляется зависимость от опыта? Обычно более опытный специалист знает английский лутче. Указанные прибавки к зарплате рассчитывались в рамках одного и того же опыта/должности?
лутче
Что не скажешь про русский.

Ну извините, грамматику русского в школе не учил.

Может это просто проявляется зависимость от опыта? Обычно более опытный специалист знает английский лутче
А может от «наглости»? Человек который __говорит__ что у него мега-крутой ангельский просит больше бабла, чем тот кто неуверен в своих силах.

Да, очень важно и то, как человек сам себя тут оценивает.
Хотя это ИТ сфера, тут долго не попонтуешся)

Хотя это ИТ сфера, тут долго не попонтуешся)
Рылли?
Люди вполне удачно годами «живут на понтах». Одна проблема с кризисом, но это от ИТ не зависит.

Фишка регрессий в том, что они учитывают эффекты тех переменных, которые включены в регрессию (как опыт). То есть опыт не катит.
Надо искать другое объяснение. Например: — работа в иностранной компании, — целеустремленность, и т.д.

«Около 44% девушек трудятся на позиции QA разного уровня. У парней аналогичный показатель около 11%. Как думаете, чем вызвано такое предпочтение прекрасного пола?»

Очевидно же, что женский вид работы. Сохранить, прибраться.

Самообразование. Коэффициент на количество часов, которые вы проводите за самообразованием, не значим. То есть, эффекта нет. Но тут стоит быть скептичным. Возможно, проблема была в постановке вопроса. В неочищенной базе было немало ответов вроде 500 часов в месяц. Многие не задумались над этим вопросом и могли ответить не совсем (мягко говоря) точно. Это была пилотная попытка и, возможно, в следующий раз, следует использовать диапазоны, что бы получить адекватный результат. Будем пробовать.
Пропоную зробити: 5 — 125год/міс. з кроком 5. Для людей у яких 8-ий робочий день. А таких більшість, якщо не всі:)

да, нужны категории, но наверное шаг побольше. вряд ли кто-то может с такой точностью сказать)

Эта статья должна была выглядеть так
Виктория
И коэффициенты Пирсона по векторам опыт, пол, город, язык и т д из того же экселя.

Я не понял про ссылку на википедию.
Если вы говорите про мультиколлинеарность, то она не смещает оценки. Она может их сделать менее значимыми, но, как я написал, все коэффициенты, про которые я говорю, значимы.

Я не описывал все детали (вряд ли они интересны рядовому читателю), но указал, что могу ими поделиться. Данная работа не коммерческая и будет доступна в финальном варианте где-то через 2 месяца.

Все это делалось не в екселе, а в статистическом пакете (Stata). Если интересно, могу скинуть код и дату. Еще лог, его можно открыть без самого пакета. Так же есть сама методология, но пока что только на английском.

Я наверное не учёл общего саркастического тона на ДОУ.
Я хотел сказать, что не хватает результатов вашей работы в чистом виде. Анализ статистических данных, тем более многовекторных — дело индивидуальное. Каждый сам сделает свои выводы глядя на набор коэфициентов. Ваши выводы висят в воздухе и не понятно на каких числах и коэфициентах они основаны.

Понятно. Ну, это не совсем техническая статья. Тут есть и плюсы и минусы.
Я понимаю, что данные результаты могут казаться не всегда на 100% правдоподобными, но статья написана в ознакомительных целях.
В след. раз учту, может нужно написать отдельную статью.
Эконометрика реально интересная наука, многие могут что-то подчерпнуть

Выводы интересные но методология не описана. Чтобы больше доверять выводам хотелось бы подробнее услышать о методологии. Как вы моделировали зависимости между переменными? По-парно?

Не уверен, что вы подразумеваете, под по-парно.

Выдержка из методологии. Могу прислать методологию + результаты.
Думаю, вам, перевод не нужен.

“We use a 2 SLS Instrumental Variable regression in this paper. We also run a usual OLS regression to check for the robustness of our results in this case.

The regression equation has the following form:
ln⁡(w_i )=a+B〖∙X〗_i+C∙E_i+D〖∙Educ〗_i+e_i, (1)
where
w — wage,
X — matrix of employee characteristics, including experience, the second order polynomial of experience, tenure, position, age, level of English language competence
E — matrix of employer characteristics, such as city, size of the company
Educ — matrix of educational variables, including formal (university) education, time spent on self-education, and the time-period, when a person was studying and working at the same time.

This functional form goes back to Mincer’s work on returns to schooling (Mincer, 1974). As in Mincer’s paper we also use the logarithm of wage, years of schooling, work experience and work experience squared. We also add additional explanatory variables which include tenure, position, age, etc. A proxy and an instrumental variable are used to increase the accuracy of estimates.... ”

Интересно было бы еще узнать как обстоят дела у пм’ов, сильно ли отличаются зп топов и обычных пм’ов.

ПМ’ом слишком мало в опросе для серьезных выводов.
Если судить просто по средним, средняя ЗП около 2300 у Project Manager, 3550 у Senior PM/Program Manager. Отклонение большое. Можно посмотреть по разным годам, но опять же, выборка не очень большая...

можно подробнее где такая з/п у пиэмов ...

Это данные опроса ДОУ, данные в открытом доступе

Спасибо за статью. Очень знакомая расцветка графиков. Если не секрет, каким инструментом создан?

Очень знакомая расцветка графиков.

Круговые диаграммы — из Excel 2007.

Хотя большинство людей имеющих техническое образование слышали про метод наименьших квадратов и его применение в различных сферах, главная сфера его применения — регрессионный анализ пока не обрел должного внимания в нашей стране
LOL-что ?
Украина конечно, отсталая страна, но не настолько. Он изучается (кажется на вторых-третьих курсах)
его преподаванием, как отдельной науки, занимаются лишь единичные ВУЗы Украины
LOL-что ?

У вас в аккаунте LinkedIn написано, что вы закончили КПИ. Так вот, я тоже. Год назад. ИПСА. Первый поток.
У меня даже близко такого не было. Пару слов говорили может на численных методах и пару слов в статистике, и то слабовато. Я сейчас учусь по программе Американского вуза и эконометрика есть почти в каждом семестре. Это даже трудно сравнивать.
Как отдельный предмет, я знаю, его изучают в Могилянке (на неплохом начальном уровне). Про другие вузы даже думать не хочется.
Некоторые компании с сильными рисерчами его используют, но таких не больше дюжины.

Вивчають детально в курсах Бідюка і Подладчикова на другому потоці.

Ага. В курсе микроэкономики и САЭПа. Это не детально. лекции 4 может было. на практике максимум обычный МНК в екселе.
Про такие пакеты как Stata, eviews или R в кпи даже не слышали

По МНК тільки було десь 4 лаби і не в екселі.

круто. ипса эволюционирует. нам разрешали токо в ексель. у нас еще Шолохов был.
но eviews же вроде платный? вряд ли в кпи есть лицензия...

Шолохов також лаби вів, про ліцензію нічого сказати не можу. Це було 4 чи 5 років тому.

разве что деградирует, ибо Анна закончила ИПСА раньше Вас ;)

это неправда, мы на занятиях у Бидюка пользовались eviews. Лекции, практики, применение в разных лабораторных.

Аня, как одногруппница, подтвердит ;)

Вы правы у Бидюка лабы были в eviews. Но это 5 курс, который Миша не застал, так как покинул ИПСА после бакалаврата. Так что правы оба) на 3 курсе на предмете САЭП не заставляли юзать чтото конкретное, но никто даже не уведомил про существование eviews и подобных програм поэтому в ход шли Excel, Delphi, .Net ...

У нас отдельным предметом была матстатистика.

КПИ. ФМФ (физмат).

У нас, например, был отдельный курс по анализу данных. ДНУ, Примат.

Не забывайте, что мы говорим о самых технических факультетах лучших вузов страны.

не только. Металлургическая академия в Днепропетровске к таковым никак не относится. тем не менее на кафедре ИТС все это было: мат.статистика, анализ данных. и сами программировали алгоритмы для МНК, и эксель/статистику использовали.
так что, думаю, это много где дают)

ХАИ, кафедра ПОАС (с недавних пор КИ) — мат. методы, два семестра, 2 или 3 курс. По самому МНК было штуки три лабы, кажется (там его модификации еще какие-то есть, если мне не изменяет память...).

Спасибо, интересно.
На первой диаграмме «Распределение анкет по должностям» — светло сине-серый сектор(6%) — что за должность?

Подписаться на комментарии