The Black Hole — Сервер для Полнотекстового поиска
Друзья мои !Пока в горячих августовских кузницах закаляют кремний для инновационного процессора KPU, когда недалек тот час когда операционка на менеджед языке будет проживать в бутсекторах каждой второй кофеварки, левое крыло отвечающиее за разработку национальных баз данных старается не отставать.
Нашел время и допилил для широкого использования свой старый проект
Full Text Search engine + tools. Есть вся экосистема которая устанавливается в несколько кликов инсталляторами на Windows в виде:
1. Сервер баз данных, хостится как Windows Service и паблишит вебсервис.
2. Поисковый сайт, для поиска по базе данных
3. Шаблоны роботов\краулеров\джобов для заполнения бд, которые можно кастомизировать на обход и индексирование ваших ресурсов. (.NET)
Не удивляйтесь слишком пафосному названию, эта штука расчитана на действительно большие обьемы данных, которые вы сливаете как в бездонную бочку, причем на слабом оборудовании. Полнотекстовый индекс занимает лишь технологии упаковки до 60 слов в одном байте в инвертированных структурах данных, а скорость индексирования блягодаря HArray (github.com/Bazist/HArray), может достигать до 50 мб\сек при малой загрузке CPU. Наибольшая известная мне база построенная на этом движке занимала 14 террабайт текста (логи) и загружалось туда больше 100 гб текста ежесуточно.
Пример меньшей базы, которую можно вскользь пощупать, поисковый сайт booben.com, роботы которого наполняют эту базу круглосуточно уже несколько лет.
Буду рад ответить на все вопросы.
Подробней на моей страничке гитхаб
github.com/Bazist/BH
23 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів