Язык запросов по неструктурированым данным
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті
Сейчас пытаюсь усовершенствовать поисковые алгоритмы концептуально отличающиеся от того, что предлагают гиганты вроде google или yandex.
Основной концепт заключается в том, что примитивная поисковая строка не соответствует тому обьему информации, который обрабатывает поисковая система. Обьем информации в интернете растет экспоненциально и разрыв между поисковой строкой и сотнями миллионов страниц в интернете усугубляется еще больше. Это проблема.
Как ответ этой проблеме предложено разработать простой и мощный язык поисковых запросов, так называемый язык запросов по неструктурированым данным.
Внук фасетного поиска .
Например запрос может выглядеть так:
Я ищу страницы где
есть много разных слов из категории «Позитивные отзывы», список слов будет выведен в отдельную колонку ’Позитивные отзывы’
а также
есть слово или фраза «google»
Энжин который сможет обрабатывать такие запросы я уже начал собирать.
Экспериментальный конструктор запросов есть на этой странице:
Каждый запрос состоит из нескольких частей.
Части бывают пяти типов.
1. Указываем точное вхождение фразы или слова (логика И)
2. Указываем вручную список слов (логика ИЛИ)
3. Указываем категорию слов, из нее чтото должно быть найдено.
4. Указываем категорию слов, из нее должно быть найдено максимальное количество слов
5. Указываем диапазон значений.
Что еще важно, поисковая машина не просто выдает топ страниц, она отображает данные в табличном виде. В такой системе легко построить запрос «Найти все страницы где есть картинки или видео» и поисковая машина отдаст таблицу в которой будут только картинки или видео.
__________________
94 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів