×Закрыть

DOU Проектор: Papir — открытые данные о компаниях Украины в одной карточке

В рубрике DOU Проектор все желающие могут презентовать свой продукт (как стартап, так и ламповый pet-проект). Если вам есть о чем рассказать — приглашаем поучаствовать. Если нет — возможно, серия вдохновит на создание собственного made in Ukraine продукта. Вопросы и заявки на участие присылайте на editors@dou.ua.

Идея

Привет, меня зовут Михаил Кашкин. Я расскажу о своем проекте Papir — это удобный сервис, собирающий все открытые данные о компаниях Украины в единую карточку компании.

Мой долг — сделать страну лучше. После того как в Украине произошел Майдан, у меня возникло очень сильное желание сделать что-то для страны, в которой я живу. Я искал проект, к которому можно было бы приложить мои навыки и экспертизу. Первый проект, который я реализовал, был сервис открытой криптографии и идентификации граждан на основе стандартов ДСТУ (уже потом Приватбанк сделали свой BankID). Проект быстро перерос из коммерческой плоскости в инициативу по изменению законодательства. Я получил начальный опыт коммуникации с органами власти, создал сеть инициативных групп в разных городах Украины и сам стал соучредителем инициативных групп в ОДА, сотрудничал с представителями демократических сил и партий, участвовал в проектах совместно с сотрудниками АП и даже выступал консультантом по критике законов децентрализации власти, разработал множество рекомендаций по изменению законодательства в сфере криптографии и шифрования.

Это был очень крутой 9-месячный опыт эволюционирования из хорошего программиста в профессионального лоббиста. Самый главный урок, который я извлек из этого опыта: люди вообще ничего не понимают в криптографии. Но зато я знаю, как можно быстро стать скучным собеседником для совершенно любого человека.

Конечно, это не все выводы, которые я сделал. Стало понятно, что самая большая проблема не в том, что есть какая-то хорошая или плохая инициатива. Самое главное — это перевести ее на язык, понятный обычному человеку. У меня был период разочарования, депрессии и внутренних конфликтов, и какое-то время я не мог понять, в чем причина того, что я не смог довести этот вопрос до конца.

Я хочу подчеркнуть этот момент. Безусловно, тут можно было бы написать отдельную статью, потому что это важный период моего развития, с которым я столкнулся, или уже столкнулись многие. При том, что у меня были некоторые важные победы за этот период (типа получения половины призовых мест на хакатоне, организованном Минюстом), но я разочаровался во всей своей волонтерской деятельности. Девять месяцев упорной работы с раннего утра и до изнеможения вечером, сотни звонков, упущенная выгода (я уволился и не получал ни копейки за свою работу). Моим драйвом было желание быть честным перед самим собой, сделать что-то для той страны, в которой должны были жить семьи бойцов, отдавших свои жизни в АТО. Это был мой долг — сделать страну лучше.

Научиться разбираться в себе. Это важный исторический момент, но почему он в проекте о стартапе? Потому что вы наверняка видели много людей, которые оказались в том же положении, что и я. Потому что Facebook и блоги были завалены постами разочарованных людей, которые писали о #зраде, о том, как наши «технократы» выдавливались из разных мест во власти. Думаю, многие из них до сих пор так же разочарованы, как тогда был я.

Мне понадобилось больше года, чтобы сделать выводы. На самом деле, только этой весной я понял, что именно помешало мне и на что надо было обращать особое внимание, чтобы не выгореть. Для того чтобы добраться до сути и сделать выводы, мне пришлось переступить порог того, что айтишники обычно предпочитают игнорировать: научиться разбираться в себе. Тут не об эзотерике и не о чакрах и прочем мракобесии. Точно так же, как надо заботиться о своем физическом состоянии, внутреннее психологическое состояние требует заботы.

Мой главный вывод: мне не хватило яиц. Власть — это реальная каждодневная борьба за ресурсы с более опытными, и, если хотите, злыми людьми. Бледные болезненные тела, изнеженные удобными креслами, сидящие перед мониторами и выбирающие какую новую игру купить для приставки после работы — слишком легкая еда для всей этой системы, которая управляет страной. Надо признаться самим себе, что я в тот момент был, как и большинство других хваленых технократов, обычным ссыкуном. Честно, у меня оказалась кишка тонка на тот момент. О себе и других реформаторах делайте выводы сами. Но то, что я продержался 9 месяцев подряд и потом еще несколько месяцев суммарной работы, говорит о том, что на самом деле уже тогда я был гораздо сильнее и круче многих.

Проблема: условно открытые данные. Сейчас Украина переживает период взросления и отрезвления. Мы находимся в уникальной ситуации, когда благодаря законам о публичности данных, органы власти (иногда, кажется, сами того не понимая) дали нам внутренние данные финансовых и социальных процессов, которыми они занимаются. И этот фарш уже нельзя будет провернуть назад, хотя многие будут пытаться. Мы видим, что на сайте data.gov.ua регулярно публикуются большие массивы информации в ввиде огромных файлов, но на самом деле ими невозможно пользоваться.

Им необходима дополнительная кропотливая обработка, и даже потом их тяжело вовлечь в деловой оборот. Например, все то, что публикуется Минюстом, я называю «условно открытыми данными». Потому что информация вроде как есть, а пользоваться ей — невозможно, так как из 46 полей реестра в публичном дампе нам дают только 7. Я понимаю, что даже с ними можно было бы работать, но никто не дает нам инструменты для анализа этих крох информации. И я поставил перед собой задачу превратить залежи информации в удобные данные.

Так родился проект Papir, слоганом которого стал «Открытые данные — удобные данные».

Реализация

Удобными данными я называю такие данные, которыми можно пользоваться, вовлекать в анализ внутри компании, использовать как полноценный источник важной информации. Например, при работе с судами, в скоринг-моделях, при обращении в государственные органы и т.д.

Летом я взялся за обработку данных ЕГРПОУ Минюста. И потратил десятки часов, чтобы превратить условно открытые данные в удобные для анализа. Мне показалось, что если в стране есть такие же энтузиасты, то им для того, чтобы начать использовать данные для анализа, придется точно так же тратить десятки часов. Мне захотелось делиться накопленными результатами.

Буквально с первого дня стало понятно, что проблема гораздо шире, чем просто превратить информацию в удобные данные. Я столкнулся со множеством небольших неудобств. Например, юристы и бухгалтера пытаются пользоваться сайтом Минюста, у которого, по иронии тоже есть «приемные часы». Кроме того, даже когда все работает, доступ осуществляется только через Recapcha. Да и счастливчикам, которые все-таки добрались до данных, все равно сложно пользоваться информацией на нем, не говоря о том, чтобы использовать данные в системах автоматической проверки или анализа.

Я нашел нефть. Возможно все слышали фразу, что большие данные — это новая нефть. Papir расшифровывается как Public API Robot. Это API, который позволит создать новую индустрию обработки информационного сырья в виде готовых данных для анализа. Иными словами, Papir — это и есть вышка для извлечения этой нефти. На текущем этапе я и моя команда наращиваем экспертизу по обработке и представлению данных.

Для того чтобы было понятно, как именно используются эти данные, скажу, что в проекте постоянно работают одни из лучших юристов в стране по тендерным процессам, происходящим вокруг Prozorro. К нам присоединились люди, помогающие создавать инструменты поиска на основе ИИ и машинного обучения. Есть люди, помогающие с парсингом и обработкой данных, и журналисты, с которыми мы будем делиться результатами поисков и с кем будем публиковать исследования.

Продукт. На текущий момент проект Papir уже создал небольшое количество публичных инструментов:
— Сайт с поиском по реестру Минюста. Это основа карточки компаний, к которой будут привязываться другие данные.
— Плагин для браузера Chrome для удобства людей, который позволяет одним кликом мышки проверить статус компании.
— Чат бот (в процессе окончательной отладки), который также позволяет отслеживать изменение статуса компаний.

Это те вещи, которые уже реализованы на данный момент и доступны. Но помимо них уникальным преимуществом являются инструменты, которые пока еще находятся в процессе подключения и обработки:
— База Минюста ЕГРПОУ;
— База банкротств;
— База решений Антимонопольного комитета;
— База реестра судебных решений;
— База решений о коррупционерах;
— База крупнейших новостных сайтов Украины;
— База закупок Prozorro;
— Множество других данных полученных в результате анализа разных источников волонтерами.

Это те базы, которые уже накапливаются и будут постепенно объединены и доступны в карточках компаний. Для обработки этих данных мы делаем инструменты полнотекстового поиска и извлечения данных на основе алгоритмов машинного обучения.

О технологиях. Все написано на Python 3.5, в качестве фреймворка используется aiohttp, шаблоны Jinja, база данных Postgres. Если кому-то интересны более серьезные подробности самого сайта, то я делал доклад об использовании aiohttp, и он доступен на Youtube. Для анализа и обработки данных применяем разные технологии, экспериментируем.

Электронная демократия: ожидания VS реальность. В этом году мой сын пошел в первый класс, и мы буквально сразу столкнулись с особенностями жизни этой системы. В нашем классе были старые, неудобные, неэргономичные парты, вредные для здоровья первоклашек, но одобренные государственной комиссией, которая должна следить за такими вещами. Как ответственные родители, заботящиеся о своих детях, мы начали решать эту задачу. В конце концов, мы решили ее, и сейчас у моего сына и у всего класса красивые новые парты. Меня пригласили в родительский комитет школы, и я отпраздновал первую победу.

Но эта история не является примером истории со счастливым концом. В Днепре все закупки от 3000 гривен идут через Prozorro. Предыдущий опыт директора школы показал, что красивая в теории процедура имеет множество проблем применения на практике. В поисках исполнителя мы вынуждены были сами обзванивать компании и мотивировать их подать заявку в систему, потому что многие владельцы бизнеса уже получили негативный опыт участия в тендерах и отказывались тратить время впустую.

Закупки через онлайн торги — один из основных инструментов открытой электронной демократии. Но он сейчас слишком сложен и непредсказуем для рядового бизнеса. Намеренно запутанные или просто неаккуратные условия заявок, попытка выдавливания конкурентов, договорняки, да и просто незрелость бизнеса и заказчика привели к тому, что показатель отказов от участия в тендерах среди тех, кто участвовал хоть один раз — 30% (по словам создателей Prozorro). Мы видим в этом свою возможность сделать более прозрачной и защищенной работу тех, кто участвует в тендерах.

Пока проект только выходит в общий доступ, но мы работаем с юристами и готовим для них инструменты поиска нарушений на рынке закупок. Это большой и важный конкурентный рынок.

Миссия Papir. Глобальной миссией Papir является внедрение инструментов электронной демократии для всех. Кроме того, мы в тесном контакте с профессиональным экспертным сообществом бухгалтеров и планируем серию совместных проектов для предоставления доступа к инструментам бухгалтерам и собственникам бизнеса. Как показывает практика, в нашей стране бизнесу важно следить за своими контрагентами, чтобы защититься или в целях создания более здорового делового климата.

Наличие конкурентов является признаком зрелого рынка. В Украине есть спрос на открытость, но пока предложение не очень большое. Есть узкоспециальные или дорогие инструменты, но при цунами-образном спросе на аналитику мы все еще наблюдаем очень низкое качество предложения. Примером является текущая ситуация вокруг анализа деклараций чиновников. В основном мы видим инфографику вокруг денежных сумм, глубже пока не сильно копают. И мы бы хотели в будущем видеть публикации такого уровня, как Panama Papers.

Команда. С первого дня работы над проектом я чувствую себя, как диснеевская принцесса, которая стоит на опушке леса и к которой слетаются птицы и ластятся звери. Текущая команда — это мой личный невероятный успех на сегодняшний день. Хотел бы похвастаться теми людьми, которые уже присоединились к команде:

— Наш маркетолог — это журналистка, которая имеет наибольшую цитируемость в интернете за прошлую неделю как независимый автор. Это просто офигеть, человек, который мне помогает в написании текстов — самый читаемый автор ноября во всем русскоязычном интернете!

— Главный специалист по машинному обучению — это человек, который в течение последних 10 лет занимается вопросами компьютерной лингвистики, анализа и извлечения данных. Который сам знает уже больше 4-х языков (разговорных). Связанные с ИИ образовательные проекты, которые он разработал, были одними из первых в русскоязычном интернете. Это бриллиант нашей команды.

— Партнеры проекта — юристы, специализирующиеся на тендерах, они одни из лучших специалистов по этим вопросам в Украине и работают совместно с Антимонопольными комитетом, командой создателей Prozorro и другими ведомствами.

— Что касается лично меня, то я в отрасли с 2000 года, имею успешный опыт запуска десятков проектов, опыт работы в Google. Поскольку в Украине обязательно меряться длиной своих финансовых успехов, то скажу, что в тот момент, когда было модно заниматься разработкой сайтов, моя студия имела оборот больше миллиона долларов. Это во времена, когда средняя зарплата программиста была $400. После этого я управлял проектами с бюджетами от $2M до $10M. В моем портфолио крупнейшие телеканалы России, ГИБДД Москвы и Московской области, крупнейшее европейское агентство недвижимости и десятки других проектов, включая компании в Таиланде, США, России, Украине. Я выступал консультантом для правительственных организаций Таиланда, России, Армении и, конечно, Украины.

И в этой команде есть еще очень много мест для новых людей. И нам нужны аналитики, фронтендщики, люди, которые будут помогать в создании парсеров и роботов, специалист по полнотекстовому поиску, devops. Отдельно нам нужен специалист по 1С. Мы хотим создать инструменты, которые смогут побороть систему, сделав ее прозрачной и реагирующей на нарушения.

Результаты

На текущем этапе Papir создается как некоммерческий проект, мы рассчитываем на поддержку грантами и финансирование силами, заинтересованными в создании более открытой и чистой бизнес-среды в стране. Уже сейчас мы имеем первые контракты на создание небольших совместных проектов с партнерами. И это позволяет проекту оплачивать хостинг и вести небольшую операционную деятельность. Но в целом сейчас проект — это моя попытка проверить гипотезу, возможно ли создание подобного проекта в нашей стране. И мы уже получили первые успехи.

Papir вышел на конкурс проектов инкубатора 1991 в Днепре. И мы выиграли! Теперь мы будем учиться и продвигаться в сильнейшем инкубаторе Украины. Мы, как команда, будем совместно искать рынок и учиться создавать продукт, будем наращивать свою экспертизу на рынке аналитики и исследований с применением государственных реестров. Будем бороться за открытие важных реестров на равных условиях.

Если говорить о цифрах, то мы видим, как растет посещаемость страниц, как спустя два месяца после запуска на сайт ежедневно заходят тысячи людей, проверяющих статусы компаний и своих контрагентов.

Вы можете помочь множеством способов, начиная от финансовой поддержки, вкладываясь своим временем, знаниями, советами и заканчивая просто тем, что будете следить за тем, что мы делаем. Мы хотим больше дружить с журналистами и теми, кто ведет расследования. Уважаемые чиновники, помогайте открытием данных, если у вас есть такие полномочия.

Приглашаю тех, кто хочет помогать, писать мне на m@askpapir.com.

Делитесь сайтом в социальных сетях, критикуйте или поддерживайте нас. Лайкните нашу страницу на Facebook, это наше основное маленькое персональное СМИ, каждый лайк и каждая нажатая кнопка «поделиться» очень важны для нас. И это действительно большая поддержка.

Инвестиции в Papir — это инвестиции в электронную демократию Украины. Спасибо вам!

36 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

Знакомая история.
С той же целью еще в сентябре 2013-го запустили у себя хранилище подготовленных открытых данных с простым API.

Кстати Кабмин принял постановление о разработке API для обмена данными между 15 госреестрами www.kmu.gov.ua/...k/cardnpd?docid=249309026 , кроме этого не так давно была Постанова Про прийняття за основу проекту Закону України про електронні довірчі послуги w1.c1.rada.gov.ua/...proc4_2?pf3516=4685&skl=9

коллеги, а что в Америке, Европе и других странах, как там с открытыми данными? API?

Я работал с большим количеством данных связанных с healthcare в США. Там очень много всего открыто и публично, например все траты по медицинским страховкам, по лекарственным препаратам, обширная база кодификации разных услуг и подуслуг, специализаций, сама информация о врачах и медработниках. Есть огромное количество датасетов обезличенных данных для исследователей, у Apple есть отдельная программа по доступу к аггрегированным данным из утилиты Health.

Практически у каждого крупного города США есть свой портал открытых данных. Потому что там есть законы регулирующие открытие налогоплательщикам информации.

В Британии огромный портал data.gov.uk.

Вообще где-то были рейтинги открытости для разных стран по разным критериям. Точно видел по поводу данных о компаниях и финансовой информации. Чтобы было понятно это очень важная информация для борьбы с отмыванием денег и всякими экономическими преступлениями.

В общем везде по разному, но открытых данных очень много, это глобальный тренд.

Михаил, спасибо ... интересно! ... поищем ещё

Наиболее часто используемые рейтинги открытости данных по странам:
index.okfn.org,
opendatabarometer.org.

Я не сотрудничаю с Papir, но позвольте мне прокомментировать.

Что касается государственных ресурсов:

usr.minjust.gov.ua/ua/freesearch
sfs.gov.ua/businesspartner

то это не конкуренты, это источники данных. Нужно понимать, что бизнес, построенный на открытых государственных данных не может быть независимым от самих открытых государственных данных и органов власти их предоставляющих. И существует определенный риск, что эти самые органы власти «прикроют лавочку», закрыв данные и заняв монопольное положение. Но существует немалая надежда, что изменения в области открытых данных необратимы.

Перечисленные частные ресурсы:

contragent.ligazakon.net
youcontrol.com.ua

появились до опубликования реестра юрлиц Минюстом, поэтому получают данные не вполне прозрачным способом (либо личные договоренности с чиновниками, либо каким-то образом обходят порядок получения данных через информационные системы госорганов).

Мне неизвестна бизнес-модель Papir, поэтому об аналогах можно судить лишь по признаку использованию открытых данных.

Непосредственно после открытия данных Минюстом появились cледующие ресурсы:

edr.data-gov-ua.org (disclosure: разработан мной лично)
opendatabot.com
odnodata.com

Не исключено, что множество ранее существовавших бизнес-каталогов начали подтягивать открытые данные. Надеюсь, что в связи с повышенной конкуренцией многие компании станут более прозрачны по поводу источников своих данных. А может даже будут помогать лоббировать ещё большее открытие государственных данных.

Да, хотелось бы чтобы прекратилась практика когда данные открываются каким-то компаниям в частном порядке.

В каком-то смысле эти сервисы, но в перспективе. Сейчас разработка ориентирована на конкретные сервисы в партнерстве с юристами.

Хорошая идея! Правда на данный момент уже есть opendatabot в фейсбуке, который находит и ЧПшников.

Реальной пользы от базы ЧПшников никакой, данные которые публикуются в открытом реестре буквально содержат следующие поля:

— «ПІБ»;
— «Місце проживання»;
— «Основний вид діяльності»;
— «Стан»

Нет никакого уникального поля по которому можно связать конкретного человека с чем-то еще. Условный Пупкин Василий Иванович который является субъектом предпринимательской деятельности может вообще не иметь никакого отношения к любому другому своему теске и однофамильцу. Если вы или кто-то еще подскажет практическое применение от использования таких данных, то я безусловно вовлеку в процесс обработки.

Кстати, не нашел довольно много ТОВ. Странно. В целом, сервис удивил скоростью работы.

Можно искать потом по ФИО на usr.minjust.gov.ua, а там уже есть телефон, например

Кроме того, и статистические данные по кол-ву ЧПшников по областям/ КВЭДам тоже могут быть полезны.

На сайте написано: «Сервис создает открытое API для доступа к данным публичных реестров Украины», выходит есть свое API?, если так, его попробовать можно?

Допилю swagger будет красивая страница с документацией. Есть какие-то запросы?

ОК, подождем.

Очень интересный проект. Но сайт не совсем интуитивно понятный )) Например, из того что я вижу, можно делать поиск в базе ЕГРПОУ, и это удобнее сайта Минюста, потому что без капчи. Но можно ли скачивать массивы с информацией по многим компаниям (или например по всем компаниям)? Или это только планируется? Также, как я поняла, сейчас доступны только данные базы ЕГРПОУ?

Очень не хватает, чтобы госорганы просто выкладывали один большой подписанный файл каждый день по крону и все.

Сейчас в работе эта штука, мне тоже кажется она очень нужна. Вообще страница с результатами поиска в текущем виде это жалкая заглушка (что уж врать самому себе). Но один из ребят предложил помочь сделать на ангуляре, так что как только у него будет время, то обязательно выкачу.

Еще такой вопрос. У вас написано, что в базе 1,5 млн. компаний, если это ЮЛ+ЧП, то их как-то маловато, насколько я знаю, у нас около 300 тыс.ЮЛ и около 2 млн.ЧП.
И еще хорошо было бы добавлять также данные о времени регистрации + контактные данные компании (телефон), хоть они в базе Минюста не очень качественные, но все же.

Юрлиц — 1.5 млн, ФЛП — более 3 млн, они идут отдельно. При использовании базы ФЛП существует некоторый риск, связанный с возможными наездами в связи с персональными данными. Насколько я знаю, пока что никто не рискнул копать туда. Да и нет там возможности отличить одного ФЛП от другого.

По поводу дополнительных полей — опять же туда, петиция в Минюст.

по всем компаниям
один большой подписанный файл каждый день

Пока что здесь каждые 5 дней: nais.gov.ua/text/248

Подпишите петицию за увеличение частоты обновления: petition.kmu.gov.ua/kmu/Petition/View/667

Вот это круто! Жаль, контактов там нет

Я тут углубилась в эти данные и нашла такую проблему. Там коды КВЭД перемешаны по классификаторам: есть версии 2005 года, есть 2010. Причем отличить, где какой, нельзя (только смотреть на названия). Проблема в том, что в двух версиях классификатора бывают виды деятельности с одинаковыми кодами, но разными видами деятельности. Пример: 50.10, в 2005 версии это торговля транспортными средствами, а в 2010 это деятельность морского транспорта

Если кто сталкивался с этой проблемой и преодолел ее, поделитесь, как :)

П.С. Я написала в НАИС, и они ответили вот что:
Перелік інформації, які наявні у відкритих даних регулюється Наказом Міністерства юстиції України від 23.03.2016 № 897/5.
У Єдиному державному реєстрі наявні Класифікатори ВЕД як 2005 року (якщо суб’єкт господарювання їх не змінював) так і 2010 року.
Додатково повідомляємо, що формування КВЕДів поза компетенцією ДП «НАІС».

Насколько я помню, там есть хитрость: старые коды в верхнем регистре
Если есть буквы в нижнем есть, это 2010 год, нету — 2005

Я проверила базу ЧП-шников, и похоже вы правы (точно сложно сравнить, т.к. названия часто не соответствуют точно названиям согласно классификатору, например, «Пасажирський річковий транспорт» вместо «Діяльність пасажирського річкового транспорту»). Но как вы догадались? О.О

Серьезно дорабатывал статью на Википедии. Пришлось много всего прочитать и изучить.

uk.wikipedia.org/...ів_економічної_діяльност

Ясно. Большое вам спасибо! А то я уже представила проверку этих КВЭДов во всех красках...

Здравствуйте, это опять я :)
Я обратила внимание, что в датасете НАИС нет некоторых компаний, которые есть на сайте Минюста (можно найти поиском).
Вот несколько кодов ЕГРПОУ для примера: 39556898, 39870022, 37033890, 40977515, 14085922.
Вы не знаете, с чем это может быть связано?
Я обратилась в НАИС, но они пока что мне не ответили.

Если это действительно так, то очень странно.
В старом наборе всё было (кроме 40977515):

edr.data-gov-ua.org/organizations/39556898
edr.data-gov-ua.org/organizations/39870022
edr.data-gov-ua.org/organizations/37033890

Может быть теперь размещают только добавленные и измененные компании?

Да, это у меня была ошибка при обработке XML, и для некоторых компаний не считались коды ЕГРПОУ.
Я также дозвонилась в НАИС, и они подтвердили мне, что выкладываются все компании.

Забавные компании бывают в стране.

Приятель решил официально оформить свое небольшое производство фонтанчиков в гаражных условиях. Долго думал над названием, наконец пришел и говорит:

Он: (С серьезным видом) Придумал! «Шаркон».
Я: Наверное что то французское? А как переводится?
Он: Шарашкина Контора

bash.im/quote/405060

askpapir.com/search?q=шаркон

Ріспект і уважуха за вашу громадську позицію. Без неї зараз ніяк.

Подписаться на комментарии