Какие реальные задачи по обработке текста вам приходилось решать?

Всем привет!

Хочется узнать про Ваш опыт работы с естественным текстом, интересно послушать любую информацию, о: трудностях, успехах, неожидонностях...

То есть были ли у вас проекты, в которых, например, приходилось проверять текст на валидность. Либо производить «умный поиск» (инфопоиск) по текстe?Всем привет!

Хочется узнать про Ваш опыт работы с естественным текстом, интересно послушать любую информацию, о: трудностях, успехах, неожидонностях...

То есть были ли у вас проекты в которых например приходилось проверять текст на валидность, либо производить «умный поиск» (инфопоск) по тексту, возможно стояла задача классификации текста.

Напишите пожалуйста здесь :) Возможно стояла задача классификации текста.

Напишите пожалуйста здесь :)

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

короче говоря, мне надоело троллить, поэтому просто предложу топикстартеру почитать первоисточники.

это все вводные тексты; если хочется более продвинутых материалов, смотрите для начала материалы конференций:
среди прочих.


ЗЫ те, кто уже в теме, или сильны в других областях, но в IR/NLP/KDD хотя бы владеют терминологией и примерно представляют себе, что возможно и каким трудом — пишите, буду рад поучаствовать.

Спасибо за контент.

nlp.stanford.edu/IR-book
Видно стоит ее почитать если ВСЕ ее рекомендуют к прочтению первой.

Всего раскрывать не будем, но:
1. Парсинг английского интернета(открытые, закрытые источники)
2. Предварительное обработка и компрессия
3. Построение графов
5. Извлечение фактов
5. Извлечение скрытых связей
6. Моделирование доменной области
7. Кросс доменный анализ (объединения моделей из разных бизнес домаин)
8. API для кастомного фида данных в plain text формате
9. Плагины для обработки кастомных форматов

что получаем на клиент:
Отчеты в разнообразных срезах
Прогнозирование событий
Выявление скрытых сущностей и связей с машиной логического вывода
интеграция с картами, внутренними системами и тд по заказу клиента

Спасибо! То что нужно.

В скл запрос добавалял опции и лимиты, позже их считывал

Маю досвід з POS tagging, named-entity recognition, syntactic parsing, sentiment analysis, relation extraction, error correction... Що цікавить? :)

ну, я бачу, топікстартер не відповідає (мабуть, шукає в словнику всі ці терміни), то ми вже можемо починати стартап без нього — лишилося тільки вирішити, що саме робити :) як з’являться якісь ідеї — дайте мені знати, буду радий допомогти

мабуть, шукає в словнику всі ці терміни
Нi, вiн поiхав у село)

Я зі ще кількома волонтерами потрохи працюю над автоматичним опрацюванням української мови. Ось перші досягнення:
— зарелізили відкритий граматичний словник української мови на 3,4 млн словоформ (отут писала: dou.ua/forums/topic/15933/. Він уже використовується для перевірки правопису в languagetool.org/uk, Firefox та Libreoffice.org, в лематизаторі для Elastic Search та скоро буде в pymorphy2 (як додамо частотні словники). Це був приблизно рік роботи лінгвістів та одного програміста;
— в роботі зараз бібліотека для української мови: поділ на речення, поділ на слова та морфаналіз, але поки без зняття омонімії. Наразі проект поселився тут: github.com/arysin/nlp_uk
— перевірка лексики та граматики в languagetool.org/uk + зняття омонімії
— збирання збалансованого корпусу сучасної української мови + анотування цього корпусу

Якщо є бажання приєднатись, нашому програмістові, Андрію Рисіну, точно згодиться допомога ;)

Якщо є бажання приєднатись, нашому програмістові, Андрію Рисіну, точно згодиться допомога ;)
Хм. Интересное предложение. Готов пообщаться :)
И для меня это будет отличный опыт поработать с реальными задачами :)

молодці, дуже класно! ЗІ о, languagetool якраз шукають на machine learning developer — я обов’язково подивлюсь. Андрій теж нехай мені пише

error correction
Какие методики использовали? :)

И в каких проектах все это добро применяется? Для решения каких задач?

Какие методики использовали? :)
Багато різних статистичних та rule-based алгоритмів: для кожної підзадачі інший підхід. Залежно, що конкретно цікавить.
И в каких проектах все это добро применяется?
1. www.grammarly.com ;) Є редактор, браузерне розширення та плагін для Офісу.
2. LanguageTool для української мови. Офіційна сторінка тут: languagetool.org/uk, а остання версія завжди тут: r2u.org.ua/check. Є редактор, плагін для FireFox та LibreOffice.
Для решения каких задач?
Див. вище. Перевірка правопису, граматики, структури речення, лексики, стилю.

Доводилось работать с csv. Генерить и парсить огромные отчеты.

Можно конкретно что именно парсить? Я так пинимаю вы парсили по XPATH или прочим «предсказуемым» признакам?

На перле писал скрипт, который сплитил строку, разбивал на поля и инсертил в базу данных. Или то же самое, но в обратном порядке: получаешь данные с бд, генеришь строку через разделитель

ну я много чего делал, но вот сейчас у меня реально проблемы распарсить ваш пост (хинт: для автора поста сверху должна быть ссылочка «редактировать») :-)

ЗЫ. а по сути — задавайте конкретные вопросы, я отвечу. скажем, классификация текста — это что имеется ввиду? бинарная классификация документов? multi-label classification? topic modeling? какие задачи вы решаете, и как это делаете сейчас?

Добрый день!

Я пытаюсь создать семантическую машину. То есть программу которая делает разбор текста по словам. И строит на основе разбора графы связей.
Так вот что бы не далать систему ради системы. Хочется найти практическю задачку (конкретную проблему в бизнесе которую можно монетезировать). Потому что система сложная и разрабатывать ее не так то просто. Хочется найти конкретные задачи так сказать для «промежуточного зароботка». Но вижу Вам явно будет не интересны мои наработки. Они еще в очень сыром виде. :)
По сути дела я только с апреля за машину взялся всерьез, до этого работал на другим проектом (для заказчика).

хм. граф связей чего с чем? а главное, что потом с этим графом делать?

хм. граф связей чего с чем?
Сущьности описанные в тексте.
а главное, что потом с этим графом делать?
Как по мне это очевидно, когда у нас есть построенная сеть. С «упорядоченными» зависимостями. То из этой структуры можно делать все что угодно. Главное что бы информации описанной в сети (графе) хватало на решение конкретной задачи :)
Как по мне это очевидно, когда у нас есть построенная сеть.
ничего не понял. Ты хочешь построить семантическую сеть «всего» ? :D или ты там уже ее построил ? :D Шо конкретно ?
С «упорядоченными» зависимостями.
Какого рода зависимости, а точнее сказать отношениями ?
Главное что бы информации описанной в сети (графе) хватало на решение конкретной задачи :)
Хочется найти практическю задачку (конкретную проблему в бизнесе которую можно монетезировать)
Ну снова как то непонятно, можно конкретно классификацией заняться отзывов/постов/рецензий, чисто поприколу, или тематическим моделированием, а у тебя какой то «сферический конь в вакууме» из которого
можно делать все что угодно
. Ты хочешь построить семантическую сеть «всего» ?
Нет, это глупо. И ОЧЕНЬ не просто. Для решения ряда задач (на мою думку), достаточно вычлинить объекты (существительные) и зафиксировать какие над ними произвордятся действия. И уже можно по графу спрашивать информацию.
а у тебя какой то «сферический конь в вакууме» из которого
Так я за прояснением этой ситуации пришел сюда. Что бы выяснить что можно делать. ;)
Сущьности описанные в тексте.

для начала неплохо бы найти эти сущности. это называется named entity recognition (см выше), и это не такая простая задача, как может показаться

Как по мне это очевидно, когда у нас есть построенная сеть. С «упорядоченными» зависимостями. То из этой структуры можно делать все что угодно. Главное что бы информации описанной в сети (графе) хватало на решение конкретной задачи :)

ну вот есть (пока) freebase — вы что-то подобное хотите строить? приведите пример текста, графа, и задачи, которую можно решить с помощью этого графа

для начала неплохо бы найти эти сущности
Я выдвинул гипотизу что их не ВСЕХ нужно искать, возможно, для решения конкретных задач нужна будет частичная идентификация. Но для работы системы в целом полная идентификация и/или отождествление не нужно. Например серкретарь в офисе принимает письма. Он/она его, у себя в голове классифицирует, запоминает контент. И уже по нему может принимать решение о дальнейших действиях, также он/она может его кратко пересказать.
ну вот есть (пока) freebase — вы что-то подобное хотите строить?
Я до конца не понял что такое freebase. Но похоже — нет. Я хочу сделать что-то вроде базы данных, в которой лежат накопленные знания в виде естевсвенного текста. И по которой можно делать запросы. Например, мы собрали отзывы из интерент магазина. И в базу мы можем сделать запрос: «покажи все „агрессивные“ отзывы». Сисема сама пробежится по тектсу и выкатит результат. Или у нас есть база биографий (не формализированная), мы делаем запрос покажи нам все биографии оставленные людьми старше 30 лет и географами.
приведите пример текста, графа, и задачи
За целевыми задачами я пришел сюда )
Я до конца не понял что такое freebase.

www.freebase.com

Я хочу сделать что-то вроде базы данных, в которой лежат накопленные знания в виде естевсвенного текста. И по которой можно делать запросы.

я понял. «можно грабить корованы» :)

www.freebase.com
Заходил, смотрел, вот только я не понял как его можно применять? Ссылка мне не нужна :)
я понял. «можно грабить корованы» :)
Ну можно и так сказать )

Реверс строки без объявления новых переменных

Підписатись на коментарі