Сучасна диджитал-освіта для дітей — безоплатне заняття в GoITeens ×
Mazda CX 30
×
👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Тема не такая уж и сложная. в основе скалярное произведение. Элементы — веса. количественные показатели вхождения слов, можешь нормировать как вектора запроса так и матрицы. Убирай стоп-слова (шум). Дерзай. google в помощь

Убирай стоп-слова (шум).

Мне кажется часть IDF для того и придумана что бы определять и нивелиробать значимость стоп слов автоматически. Другое дело что стоп слова стоит убрать для того что бы увеличить разреженность матрицы tf и уменьшить количество операций по созданию обеих матриц, и тем самым увеличить производительность алгоритма.

А что делать с вариантами слов в разных склонениях, числах и т.п.?

Словарь стоит делать не из словоформ. а из их основ, отсекая префиксы и окончания. То о чем мы сейчас говорим, это алгебраическая модель (ранжирование. матрица смежности слов, синонимы и т.д.)

Думаю что префиксы отсекать все таки не стоит.

Коментар порушує правила спільноти і видалений модераторами.

Підписатись на коментарі