Инструменты для анализа текста
Доброго времени суток, господа.
Недавно столкнулся с проблемами, которые подразумевают необходимость анализа текста, к примеру:
— Есть файл, в нем есть набор символов, что-то вроде «PPP» , «QP», «$%#lt}=», «-d99S$%» (т.н. шумы) и есть «нормальные» слова, например «cluster» «safari», «billgates» etc. Задача: убрать из файла шумы и оставить нормальные слова
— Распарсить rss-ленту dou с вакансиями и составить список всех трендовых технологий, будь то джава, монго дб и прочее. В данном случае, хотелось бы учесть, что появляются новые технологии, следовательно, наперед заданный словарь придется обновлять. Не хотелось бы.
Для этих нужд я решил поковыряться с ElasticSearch. Если для первой задачи я не уверен, насколько он подойдет, то во втором все смотрится гораздо приятнее. Разумеется, для каждой из задачи можно написать очень мощную регулярку, но я боюсь, что не настолько крут.
Какие у вас есть идеи для решения задач подобного типа? И вообще, насколько перспективна эта сфера? Спасибо.
6 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів