Open Data и анализ украинских автомобилей за 2019 год

Open Data это концепция, которая позволяет распространять данные по свободной лицензии — пользоваться ими может любой желающий. Проще говоря, если у вас есть какие-либо данные, например, сколько стаканчиков maccoffee может за день выпить среднестатический таксист, вы можете безвозмездно поделиться этим данными с общественностью и любой может их использовать. Конечно же, open data относится к более серьезной информации от организаций или государства. Государственные данные в Украине стали доступны для общественности с 2017 года.

Более детально как все это работает можно почитать на Википедии ru.wikipedia.org/wiki/Открытые_данные.

На сайте data.gov.ua можно найти данные которыми государство готово с нами поделиться. Среди них есть один интересный набор, который у меня уже давно «чесались руки» проанализировать — данные по автомобилям. Тем более, что этими данными я уже пользовался через OpenDataBot, когда искал себе машину. Зная дату последней регистрации можно предположить кто продавец — владелец или перекупщик. Ну и элементарно сравнить цвет и модель авто, чтобы это не оказалась нерастаможенная бляха, с номерами от дедовой копейки.

Отчет доступен по ссылке в Google Data Studio datastudio.google.com/...​7BTDLoSh20lKNyoY0aCG49c4j

Доступные в наборе данные

Номер ТСЦ. ТСЦ — Территориально Сервисный Центр.

Дата операции и ее тип. Например, регистрация или перерегистрация авто.

Характеристики автомобиля:

  • марка
  • модель
  • тип кузова
  • цвет
  • объем двигателя
  • вес
  • год выпуска
  • тип топлива
  • регистрационный номер

О технических составляющих, для тех, кому интересно.

Оригинальный набор данных содержит более 2 миллионов строк и доступен по ссылке. (data.gov.ua/...​8f-42d7-895e-5a39833375f0)

Скачать его может любой желающий, как это принято говорить, без регистрации и смс.

Датасет хранится в csv файле.

Для удобства обработки я решил залить его в BigQuery и уже оттуда передавать данные в Data Studio. Но как оказалось это квест, поскольку файл содержал очень много ошибок и был достаточно тяжелым — 670MB. Google Sheets и Microsoft Excel открыть такой файл не могут — в нем более 2 миллионов строк.

Текстовые редакторы вроде встроенного блокнота или notepad++ тоже с таким файлом не справились. В итоге удалось исправить ошибки через автозамену в Notepad2. Notepad2 — это какая-то сторонняя разработка расширяющая возможности встроенного блокнота. Также, для себя узнал, что есть программы типа csv splitter, при помощи которых можно разделить большой файл на несколько маленьких. Мне было лень возиться с большим количеством файлов, но как крайний вариант я к нему конечно же прибегнул бы.

Подготовка данных для анализа

Чтобы проводить анализ было проще я решил предварительно обработать датасет и добавить недостающую или же упростить существующую информацию

Фильтрация базы

Для удобства и наглядности оставил данные по легковым автомобилям для физлиц. Также скрыл все данные с ошибкой которые удалось выявить.

Группировка операций

В базе хранится 86 уникальных типов операций с автомобилями, которые мало чем отличаются друг от друга по сути, но при этом разные с юридической точки зрения. Например — перерегистрация на нового владельца по договору купли продажи или же перерегистрация на нового владельцы по договору составленному в ТСЦ. Для удобства анализа все типы операций сгруппировал и получил 5 верхнеуровневых:

  • перерегистрация
  • перерегистрация на нового владельца
  • регистрация
  • регистрация авто ввезенного из-за границы
  • прочее
Регионы для ТСЦ

В базе есть только номера ТСЦ, но нет их адресов или хотя бы городов. Нагуглил отдельную таблицу с адресами ТСЦ и добавил данные. Это позволило сгруппировать данные по регионам.

Регион регистрации владельца

Как известно, автомобильные номера привязываются не к месту регистрации авто а к месту регистрации (прописки) владельца. Регион определяется по первым двум буквам номера. Получив первые две буквы смог присоединить к ним данные по региону регистрации владельца.

На этом предварительная подготовка данных завершена и можно приступить к визуализации.

Как пользоваться отчетом

Отчет построен в Google Data Studio — бесплатной программе для визуализации. Доступ на просмотр открыт всем желающим datastudio.google.com/...​7BTDLoSh20lKNyoY0aCG49c4j

Отчет состоит из двух листов:

  1. Данные по загрузке ТСЦ
  2. Данные по автомобилям категории В

Переключаться между листами можно либо стрелочками на клавиатуре, либо стрелочками в верхнем левом углу

Верхний ряд визуальных элементов предназначен для фильтрации данных. Фильтры работают как выпадающие списки. В зависимости от страницы набор фильтров меняется. За что отвечает тот или иной фильтр указано в его названии.

Впрочем, следует отметить, что все визуальные элементы на листе (таблицы и графики) фильтруют друг друга. К примеру, при выборе в таблице с регионами «город Киев» данные во всех остальных таблицах автоматически подстроятся под это регион. Для этого достаточно кликнуть по нужной вам строке или фрагменту.

(без выбранного региона)

(с выбранным регионом в таблице)

Данные внутри таблиц листаются вниз, а также постранично влево или вправо. Как правило, одна страница внутри таблицы содержит 100 строк.

Чтобы «обнулить» все фильтры достаточно обновить страницу.

Анализ загруженности ТСЦ

Воскресенье и понедельник у всех ТСЦ выходной день, но в базе хранилось примерно 15 000 записей для этих дней. Из финального отчета я их исключил, чтобы не вносить визуальный шум в графики.

Типы операций

Регистрация. Я думал, что это покупка нового авто у официалов в Украине. Но оказалось, что средний возраст зарегистрированного авто > 9 лет. Скорее всего это какие то проблемные машины с документами, которые пришлось заново регистрировать. Но для таких, как мне кажется, подходит вторая группа — перерегистрация. Впрочем, я точно не уверен. Если знаете правильный ответ — отпишитесь в комментариях. Таких автомобилей в базе 27 тысяч.

Перерегистрация — это какие либо изменения с авто без смены владельца.Таких автомобилей в базе 205 тысяч.

Перерегистрация на нового владельца — покупка на вторичном рынке 674 000 операций. Наиболее распространенная группа операций.

Регистрация авто из-за границы — 271 000 операций.

Количество операций по регионам

Вполне ожидаемо, что лидером по количеству операций является Киев — 168 тысяч операций.

Второе и третье место: Львов и Полтава — 97 и 90 тысяч операций за год соответственно.

Загрузка по дням недели

Наиболее загруженный день недели — вторник. Наименее загруженный — суббота.

Такая картина свойственна для всех регионов. На общем фоне выделяется только Житомир, с самой равномерной нагрузкой по всем дням недели.

Для Закарпатской и Черновицкой области перепад в количестве между началом и концом недели более выражен чем для остальных регионов.

Среднее количество операций для всех ТСЦ за 2019 год — 7942. Дополнительно можем вычислить количество операций за день.

Официальных рабочих часов в 2019 году — 2000. Разделив количество операций на время получаем ~4 операции в час или 32 за рабочий день.

Самый высоконагруженный ТСЦ во Львове — 41 452 операции за год, что равно ~ 21 операция в час или 168 в день. В 5 раз больше среднего — фантастический результат как по мне. Хотелось бы взглянуть на этот ТСЦ изнутри.

Самый ненагруженный ТСЦ обслужил 601 человека за год — 2,5 человека в день.

Самыми нагруженными по всей Украине являются ТСЦ в:

  1. Киеве
  2. Львове
  3. Ровно
  4. Софиевской Борщаговке(Киевская область)
  5. Виннице

Менее нагруженные:

  1. Великая Олександровка (Херсонская область)
  2. Новая Одесса (Николаевская область)
  3. Новый Буг (Николаевская область)
  4. Сватово (Луганская Область)
  5. Березовка (Одесская область)


Так что если вам нужно в МРЭО и вы не хотите стоять в очереди — стоит рассмотреть вариант поездки в Херсонскую область в пгт Великая Олександровка. Возможно в отдельных случаях это будет быстрее, чем пытаться сделать тоже самое в Киеве.

Анализ автомобилей категории В

Поверхностный анализ показывает, что средний возраст автопарка в Украине составляет 13-14 лет.

Популярная модель без учета года выпуска — Volkswagen Passat.

Общее количество зарегистрированных моделей — 63 590. Средний возраст авто — 14,9 лет. Наиболее популярный год выпуска 2012 и 2007 — 4800 и 4200 штук соответственно.


На втором месте народный любимец 14-ти летний Daewoo Lanos — 27 200

Третье место у 10-ти летнего Renault Megan

Если же оценивать автомобиль вместе с годом выпуска, то на первом и втором месте окажутся Daewoo Lanos 2007 и 2008 годов выпуска. Третье место займет Kia Sportage

Как видим народ предпочитает стареньких немцев или же доступные, как киевская перепичка, ланосы.

Тип кузова

В основной массе популярны практичные кузовы — универсалы и седаны

Универсал — 635 тысяч штук

Седан 548 тысяч

Вид топлива

Неожиданно лидирует дизель — 478 тысяч автомобилей.

На втором месте бензин, на третьем газ.

Старый автомобиль

Самый старый автомобиль в базе — Packard 180 1900 года выпуска.

Впрочем, скорее всего здесь ошибка в данных, поскольку 180 Packard выпускались в 1940х -годах. Но в любом случае он старее, чем дядиколина шестерка, а это уже что-то да значит.

ТОП-5 производителей

Неожиданно в ТОПе на втором месте оказываются нерушимые автомобили марки ВАЗ.

Volkswagen — 156 тысяч авто

ВАЗ — 133 тысячи

Renault — 84 тысячи

Opel — 75 тысяч

Toyota — 68 тысяч

Цвет

Здесь все просто и обыденно, как и в повседневной жизни. Треть всех автомобилей серая. Представительный черный и элегантный белый — 21% и 13% соответственно


.

Регион регистрации владельца

Больше всего регистраций было произведено на автовладельцев с крымскими и киевскими номерами. Меньше всего на луганских и херсонских.

Перерегистрация на нового пользователя

Если оценивать по типу операций, то самыми востребованными на вторичном рынке являются Daewoo Lanos и Volkswagen Passat.

Средний возраст Volkswagen — 15,3 года. Lanos — 14,3

Растаможка

Среди авто ввезенных из-за границы — лидируют:

15 летний Volkswagen Passat,

14 летний Opel Zafira и

11 летняя Skoda Octavia.

Заключение

Если верить различным интернет изданиям — средний возраст авто в Европе около 10 лет. Самый молодой автопарк в Германии — 8 лет.

Самый старый в Прибалтике — 15. Насколько мне известно, самый старый автопарк в мире находится на Кубе — чуть более 40 лет.

Наш, не то чтобы окончательно старый, но и свежим его однозначно не назовешь — 13 лет как никак возраст. Некоторые в таком возрасте уже становятся успешными блогерами и growth хакерами.

Внутренний рынок достаточно стар, но и из европы не новые машины приезжают.

Радует Daewoo Lanos, который все не спешит сдавать свои позиции, хотя разработке уже 20 лет. Впрочем, 20-ти летние ВАЗовские девятки тоже задних не пасут, особенно у простых харьковских пацанов — 779 машин за год. Хорошо, что сейчас карантин и никуда особо ездить не надо — послужат чуть дольше.

Также посидев полчаса на autoria можно сделать вывод, что большинство машин от автопригонщиков сначала регистрируется, а уже затем, в момент продажи конечному покупателю, проходят перерегистрацию. Определить такие машины в наборе данных невозможно. Скорее всего, количество уникальных легковых машин, прошедших через ТСЦ в 2019 году, будет на 15%-20% меньше — в районе 1 миллиона.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Интересный отчет. Я глянул на исходные данные, жаль что там нет VIN, а то можно было бы запилить украинскую версию карфакс.

Цікаво було б побачити статистику по Nissan Leaf. Але вони, здається, в С класі.

Но как оказалось это квест, поскольку файл содержал очень много ошибок и был достаточно тяжелым — 670MB. Google Sheets и Microsoft Excel открыть такой файл не могут — в нем более 2 миллионов строк.

 а в чём собствено проблема сделать ETL-ку накаких-нибуть реактивных стримах? На современной экосистеме это делается очень быстро.

легких путей не ищем. решал задачу исходя из тех флоу которыми пользовался до этого.

Ну, кстати. Свою машину регистрировал в 2019. Но в списке моделей ее не нашел.

как я писал я отфильтровал часть данных если там были ошибки. возможно она туда попала. самый простой способ проверить ее наличие в базе — воспользоваться OpenDataUABot через телегу или любой другой мессенджер.

Дуже цікаво, респект.
Чи є там якась інф. про ціну авто?

Дякую.
Ні ціну на авто не шукав адже вона залежить від регіону пробігу і таке інше. Але ідея цікава

Підписатись на коментарі