fast search regexp tool

А знает ли кто нибудь библиотеку или программу, которая позволяла бы создавать для текста некий индекс, используя который можно было бы быстро делать regexp запросы к тексту. Например если текста много(скажем 20 гб) то full scan будет плохим решением.

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Оно вроде по keywords ищет как и все порядочные full text search engines, а мне надо было весь текст шерстить, например для текста «a b» регекс «a.*b» у glimpse ничего бы не нашел. Или я ошибаюсь?

некробамп древней теме. Что то хорошее нашли?

Я так понимаю кончилось все чем то типа map reduce, инетесна конкретика

понял, спасибо. Я просто думаю над средствами поиска в немалой вики помойке сейчас...

Ну так может тебе подойдет любой full text search engine, типа sphinx или lucene/solr/elasticsearch

Ну то есть у нас есть поиск на люцене но ревалентность результатов порнографическая.

К сожалению задача ну очень хобийная и ковырять его полноценно времени нет.

Осмелюсь предположить, что общего решения не существует потому, что regexp (в зависимости от версии) позволяет делать слишком много всего. Если допустимо ограничить regexp’ы — тогда может быть что-то есть.

Буду рад любым вариантам. Например такому который применяется в google code search.

Есть исходник функции для SQL- CLR на C#, которая может работать с выборками через regex по шаблону, подойдет? :)

И че, она индекс строит? Если да то давай.

не, она индекс не строит. там — несколько функций, их юзать по типу

select dbo.RegexSelectOne(table.field, ’\d{3}-\d{2}-\d{4}’, 0) from table

Значит наверное на 20ГБ и большом количестве concurrent запросов эта функция успешно загнется.

Ну дык скажите мне примерное кол-во записей в поле, и я посмотрю план выполнения запроса. Че ж оно загнется — то — это ж M$ SQL Сервер! :)

Только что поднял у себя функцию — вроде работает, не загибается

Ну начнем с того какой там будет latency на 20гб данных?

х.з.

100 строк прорегекспало за 10 милисекунд, если верить клиентской статистике

Підписатись на коментарі