Репутація українського ІТ. Пройти опитування Асоціації IT Ukraine
×Закрыть

Дмитро Чаплінський про проект «lang-uk» — прорив у обробці україномовних текстів (відео)

Україномовний сегмент інтернету швидко зростає. У тому числі, завдяки об’єднанню зусиль фахівців, які роблять його більш функціональним середовищем.

Проект «lang-uk» — один із важливих кроків у цьому напрямку. Мова йде про механізми і засоби обробки україномовних текстів.

Про сам проект і можливості, які він відкриває, у студії idealist.media розповів волонтер ГО «Канцелярська сотня» Дмитро Чаплінський.

Див. також статтю Анонс lang-uk: створюємо умови для повноцінної обробки україномовних текстів і сторінку проекту на GitHub: github.com/lang-uk

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Dmitry Chaplinsky пише:

Есть интересная небольшая задача по Natural Language Processing для украинского языка.

У нас есть небольшой тональный словарь (где каждому слову указана негативная или позитивная тональность) собраный командой Oleksandr Marikovski. Словарь можно использовать как один из компонентов для определения тональности текста: например, по тексту отзыва понять, как к товару относится автор отзыва.

Есть мысль расширить его, поискав возможные синонимы при помощи word embeddings. Корпуса для вычисления word embeddings есть, серверные мощности тоже.

Также есть приблизительный алгоритм выполнения задачи, нет только времени.

Prerequisites:

1. построить самому мелкую модель (word2vec, glove, etc) на любых данных и найти при помощи неё слова, похожие на слово «донька».
2. Написать у себя публичный пост, о том, что вы взялись за эту задачу.

www.facebook.com/...ky/posts/1129034140453229

Дякую за ваш ентузіазм.

І до речі. Якщо хтось хоче підтримати проект, то можете це зробити тут: github.com/...io/blob/master/support.md

Ти ба, виявляється, українська мова таки потрібна. А то тут в одній темі мені про інше говорили :)

Браво творцям. Просто нереальні молодці.

Чудово, не забуваю згадати про необхідність українського стеммінгу в NLTK.

Подписаться на комментарии