Open Data и анализ украинских автомобилей за 2019 год
Open Data это концепция, которая позволяет распространять данные по свободной лицензии — пользоваться ими может любой желающий. Проще говоря, если у вас есть какие-либо данные, например, сколько стаканчиков maccoffee может за день выпить среднестатический таксист, вы можете безвозмездно поделиться этим данными с общественностью и любой может их использовать. Конечно же, open data относится к более серьезной информации от организаций или государства. Государственные данные в Украине стали доступны для общественности с 2017 года.
Более детально как все это работает можно почитать на Википедии ru.wikipedia.org/wiki/Открытые_данные.
На сайте data.gov.ua можно найти данные которыми государство готово с нами поделиться. Среди них есть один интересный набор, который у меня уже давно «чесались руки» проанализировать — данные по автомобилям. Тем более, что этими данными я уже пользовался через OpenDataBot, когда искал себе машину. Зная дату последней регистрации можно предположить кто продавец — владелец или перекупщик. Ну и элементарно сравнить цвет и модель авто, чтобы это не оказалась нерастаможенная бляха, с номерами от дедовой копейки.
Отчет доступен по ссылке в Google Data Studio datastudio.google.com/...7BTDLoSh20lKNyoY0aCG49c4j
Доступные в наборе данные
Номер ТСЦ. ТСЦ — Территориально Сервисный Центр.
Дата операции и ее тип. Например, регистрация или перерегистрация авто.
Характеристики автомобиля:
- марка
- модель
- тип кузова
- цвет
- объем двигателя
- вес
- год выпуска
- тип топлива
- регистрационный номер
О технических составляющих, для тех, кому интересно.
Оригинальный набор данных содержит более 2 миллионов строк и доступен по ссылке. (data.gov.ua/...8f-42d7-895e-5a39833375f0)
Скачать его может любой желающий, как это принято говорить, без регистрации и смс.
Датасет хранится в csv файле.
Для удобства обработки я решил залить его в BigQuery и уже оттуда передавать данные в Data Studio. Но как оказалось это квест, поскольку файл содержал очень много ошибок и был достаточно тяжелым — 670MB. Google Sheets и Microsoft Excel открыть такой файл не могут — в нем более 2 миллионов строк.
Текстовые редакторы вроде встроенного блокнота или notepad++ тоже с таким файлом не справились. В итоге удалось исправить ошибки через автозамену в Notepad2. Notepad2 — это какая-то сторонняя разработка расширяющая возможности встроенного блокнота. Также, для себя узнал, что есть программы типа csv splitter, при помощи которых можно разделить большой файл на несколько маленьких. Мне было лень возиться с большим количеством файлов, но как крайний вариант я к нему конечно же прибегнул бы.
Подготовка данных для анализа
Чтобы проводить анализ было проще я решил предварительно обработать датасет и добавить недостающую или же упростить существующую информацию
Фильтрация базы
Для удобства и наглядности оставил данные по легковым автомобилям для физлиц. Также скрыл все данные с ошибкой которые удалось выявить.
Группировка операций
В базе хранится 86 уникальных типов операций с автомобилями, которые мало чем отличаются друг от друга по сути, но при этом разные с юридической точки зрения. Например — перерегистрация на нового владельца по договору купли продажи или же перерегистрация на нового владельцы по договору составленному в ТСЦ. Для удобства анализа все типы операций сгруппировал и получил 5 верхнеуровневых:
- перерегистрация
- перерегистрация на нового владельца
- регистрация
- регистрация авто ввезенного из-за границы
- прочее
Регионы для ТСЦ
В базе есть только номера ТСЦ, но нет их адресов или хотя бы городов. Нагуглил отдельную таблицу с адресами ТСЦ и добавил данные. Это позволило сгруппировать данные по регионам.
Регион регистрации владельца
Как известно, автомобильные номера привязываются не к месту регистрации авто а к месту регистрации (прописки) владельца. Регион определяется по первым двум буквам номера. Получив первые две буквы смог присоединить к ним данные по региону регистрации владельца.
На этом предварительная подготовка данных завершена и можно приступить к визуализации.
Как пользоваться отчетом
Отчет построен в Google Data Studio — бесплатной программе для визуализации. Доступ на просмотр открыт всем желающим datastudio.google.com/...7BTDLoSh20lKNyoY0aCG49c4j
Отчет состоит из двух листов:
- Данные по загрузке ТСЦ
- Данные по автомобилям категории В
Переключаться между листами можно либо стрелочками на клавиатуре, либо стрелочками в верхнем левом углу
Верхний ряд визуальных элементов предназначен для фильтрации данных. Фильтры работают как выпадающие списки. В зависимости от страницы набор фильтров меняется. За что отвечает тот или иной фильтр указано в его названии.
Впрочем, следует отметить, что все визуальные элементы на листе (таблицы и графики) фильтруют друг друга. К примеру, при выборе в таблице с регионами «город Киев» данные во всех остальных таблицах автоматически подстроятся под это регион. Для этого достаточно кликнуть по нужной вам строке или фрагменту.
(без выбранного региона)
(с выбранным регионом в таблице)
Данные внутри таблиц листаются вниз, а также постранично влево или вправо. Как правило, одна страница внутри таблицы содержит 100 строк.
Чтобы «обнулить» все фильтры достаточно обновить страницу.
Анализ загруженности ТСЦ
Воскресенье и понедельник у всех ТСЦ выходной день, но в базе хранилось примерно 15 000 записей для этих дней. Из финального отчета я их исключил, чтобы не вносить визуальный шум в графики.
Типы операций
Регистрация. Я думал, что это покупка нового авто у официалов в Украине. Но оказалось, что средний возраст зарегистрированного авто > 9 лет. Скорее всего это какие то проблемные машины с документами, которые пришлось заново регистрировать. Но для таких, как мне кажется, подходит вторая группа — перерегистрация. Впрочем, я точно не уверен. Если знаете правильный ответ — отпишитесь в комментариях. Таких автомобилей в базе 27 тысяч.
Перерегистрация — это какие либо изменения с авто без смены владельца.Таких автомобилей в базе 205 тысяч.
Перерегистрация на нового владельца — покупка на вторичном рынке 674 000 операций. Наиболее распространенная группа операций.
Регистрация авто из-за границы — 271 000 операций.
Количество операций по регионам
Вполне ожидаемо, что лидером по количеству операций является Киев — 168 тысяч операций.
Второе и третье место: Львов и Полтава — 97 и 90 тысяч операций за год соответственно.
Загрузка по дням недели
Наиболее загруженный день недели — вторник. Наименее загруженный — суббота.
Такая картина свойственна для всех регионов. На общем фоне выделяется только Житомир, с самой равномерной нагрузкой по всем дням недели.
Для Закарпатской и Черновицкой области перепад в количестве между началом и концом недели более выражен чем для остальных регионов.
Среднее количество операций для всех ТСЦ за 2019 год — 7942. Дополнительно можем вычислить количество операций за день.
Официальных рабочих часов в 2019 году — 2000. Разделив количество операций на время получаем ~4 операции в час или 32 за рабочий день.
Самый высоконагруженный ТСЦ во Львове — 41 452 операции за год, что равно ~ 21 операция в час или 168 в день. В 5 раз больше среднего — фантастический результат как по мне. Хотелось бы взглянуть на этот ТСЦ изнутри.
Самый ненагруженный ТСЦ обслужил 601 человека за год — 2,5 человека в день.
Самыми нагруженными по всей Украине являются ТСЦ в:
- Киеве
- Львове
- Ровно
- Софиевской Борщаговке(Киевская область)
- Виннице
Менее нагруженные:
- Великая Олександровка (Херсонская область)
- Новая Одесса (Николаевская область)
- Новый Буг (Николаевская область)
- Сватово (Луганская Область)
- Березовка (Одесская область)
Так что если вам нужно в МРЭО и вы не хотите стоять в очереди — стоит рассмотреть вариант поездки в Херсонскую область в пгт Великая Олександровка. Возможно в отдельных случаях это будет быстрее, чем пытаться сделать тоже самое в Киеве.
Анализ автомобилей категории В
Поверхностный анализ показывает, что средний возраст автопарка в Украине составляет
Популярная модель без учета года выпуска — Volkswagen Passat.
Общее количество зарегистрированных моделей — 63 590. Средний возраст авто — 14,9 лет. Наиболее популярный год выпуска 2012 и 2007 — 4800 и 4200 штук соответственно.
На втором месте народный любимец
Третье место у
Если же оценивать автомобиль вместе с годом выпуска, то на первом и втором месте окажутся Daewoo Lanos 2007 и 2008 годов выпуска. Третье место займет Kia Sportage
Как видим народ предпочитает стареньких немцев или же доступные, как киевская перепичка, ланосы.
Тип кузова
В основной массе популярны практичные кузовы — универсалы и седаны
Универсал — 635 тысяч штук
Седан 548 тысяч
Вид топлива
Неожиданно лидирует дизель — 478 тысяч автомобилей.
На втором месте бензин, на третьем газ.
Старый автомобиль
Самый старый автомобиль в базе — Packard 180 1900 года выпуска.
Впрочем, скорее всего здесь ошибка в данных, поскольку 180 Packard выпускались в 1940х -годах. Но в любом случае он старее, чем дядиколина шестерка, а это уже что-то да значит.
ТОП-5 производителей
Неожиданно в ТОПе на втором месте оказываются нерушимые автомобили марки ВАЗ.
Volkswagen — 156 тысяч авто
ВАЗ — 133 тысячи
Renault — 84 тысячи
Opel — 75 тысяч
Toyota — 68 тысяч
Цвет
Здесь все просто и обыденно, как и в повседневной жизни. Треть всех автомобилей серая. Представительный черный и элегантный белый — 21% и 13% соответственно
.
Регион регистрации владельца
Больше всего регистраций было произведено на автовладельцев с крымскими и киевскими номерами. Меньше всего на луганских и херсонских.
Перерегистрация на нового пользователя
Если оценивать по типу операций, то самыми востребованными на вторичном рынке являются Daewoo Lanos и Volkswagen Passat.
Средний возраст Volkswagen — 15,3 года. Lanos — 14,3
Растаможка
Среди авто ввезенных из-за границы — лидируют:
15 летний Volkswagen Passat,
14 летний Opel Zafira и
11 летняя Skoda Octavia.
Заключение
Если верить различным интернет изданиям — средний возраст авто в Европе около 10 лет. Самый молодой автопарк в Германии — 8 лет.
Самый старый в Прибалтике — 15. Насколько мне известно, самый старый автопарк в мире находится на Кубе — чуть более 40 лет.
Наш, не то чтобы окончательно старый, но и свежим его однозначно не назовешь — 13 лет как никак возраст. Некоторые в таком возрасте уже становятся успешными блогерами и growth хакерами.
Внутренний рынок достаточно стар, но и из европы не новые машины приезжают.
Радует Daewoo Lanos, который все не спешит сдавать свои позиции, хотя разработке уже 20 лет. Впрочем,
Также посидев полчаса на autoria можно сделать вывод, что большинство машин от автопригонщиков сначала регистрируется, а уже затем, в момент продажи конечному покупателю, проходят перерегистрацию. Определить такие машины в наборе данных невозможно. Скорее всего, количество уникальных легковых машин, прошедших через ТСЦ в 2019 году, будет на 15%-20% меньше — в районе 1 миллиона.
9 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів