Реализация TF-IDF на PHP
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті
Вопрос к программистам. Кто-нибудь сталкивался с реализацией TF-IDF (ru.wikipedia.org/wiki/TF-IDF) на PHP?
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті
Вопрос к программистам. Кто-нибудь сталкивался с реализацией TF-IDF (ru.wikipedia.org/wiki/TF-IDF) на PHP?
Тема не такая уж и сложная. в основе скалярное произведение. Элементы — веса. количественные показатели вхождения слов, можешь нормировать как вектора запроса так и матрицы. Убирай стоп-слова (шум). Дерзай. google в помощь
Убирай стоп-слова (шум).
Мне кажется часть IDF для того и придумана что бы определять и нивелиробать значимость стоп слов автоматически. Другое дело что стоп слова стоит убрать для того что бы увеличить разреженность матрицы tf и уменьшить количество операций по созданию обеих матриц, и тем самым увеличить производительность алгоритма.
А что делать с вариантами слов в разных склонениях, числах и т.п.?
Словарь стоит делать не из словоформ. а из их основ, отсекая префиксы и окончания. То о чем мы сейчас говорим, это алгебраическая модель (ранжирование. матрица смежности слов, синонимы и т.д.)
Коментар порушує правила спільноти і видалений модераторами.
5 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів