gensim + підкручена токенізація та чистка для української.
github.com/...
Якщо цікаво, можу скинути на гіст примірник плейн-тексту.
Ну базову редактуру вони роблять, але проблема має місце, не буду сперечатися.
Але ж виникає інше питання. Якщо в нас доволі багато текстів такої якості in the wild, то може має сенс їх включати до корпусу так само?
Там всяке буває :)
Але для пошуку згадок про політиків та установи згодиться.
Для embeddings також.
О, це цікаво, залийте кудись будь ласка.
Коли його хтось напише, власне.
А які джерела?
Бо в нас так само є десь близько мільйона, а може й більше вже.
Hе все реестры полные.
Реестр — вспомогательный инструмент.
Не все проверки проводятся по реестрам.
Проверки могут быть инициированы по сообщениям в СМИ (в Румынии 80% дел открыты по сообщениям из СМИ, но у них нету обязательных проверок по группам риска, например).
Основная задача этого инструменты — научить чиновникам быть подотчетным, и передать всю информацию о себе.
Помимо утаивания информации о доходах есть еще такие вещи как незаконное обогащение (расхождение задекларированных доходов и стиля жизни), конфликт интересов (наличие коммерческих интересов у чиновника или членов семьи в сфере деятельности чиновника) и несовместимость.
Ни один из инструментов в борьбе с коррупцией не может быть панацеей (даже смертная казнь в Китае). Но их совокупность может серьезно сократить проблему.
Ну и вспомните о зам.министре Чеботаре или главгаишнике Ершове. Их увольнение, в том числе, произошло из—за расхождений реальной собственности и деклараций.
github.com/... csearch-ukrainian-stemmer
ну наприклад.