🏆 Рейтинг ІТ-работодателей 2019: уже собрано более 5000 анкет. Оцените свою компанию!
×Закрыть

Поисковая система в офисе

Проблема поиска информации Всегда была актуальной. На сегодняшний день внутренний поиск по большинству сайтов остается далеким от идеала. Глобальный же поиск является прерогативой только крупных компаний и корпораций. С появлением на рынке дешевого серверного оборудования появилась возможность создания на их базе небольших поисковых систем, которые способны производить поиск не по всем сайтам глобальной паутины, а лишь по некоторым, которых объединяет тема или регион.

Хочу представить Вам программное обеспечение, которое может работать на недорогом сервере или на персональном компьютере у Вас дома или в офисе.

Пример поисковой системы, работающей на данном движке — kavunka.com.ua
Скачать программное обеспечение и получить консультацию по установке — kavunka.biz
Посмотреть краткое обзорное видео — youtu.be/XWKUf4v8HIk

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Вчера прошла встреча с Booben Com. Было интересно и продуктивно! Наметили дальнейшее сотрудничество в области поисковых технологий. Был приятно удивлен возможностями базы Black Hoel от Booben Com -> github.com/Bazist/BH

О, как говорится тот редкий случай.
Создавал подобную тему, пару лет назад, на счёт своего движка
dou.ua/forums/topic/24669
Ещё ранее, создавал тему на счёт развития укр. поисковика

Автор, если увлекаешься темой поисковых движков, алгоритмами ранжирования и тд. то есть о чем поговорить, тем более если ты в столице.
booben90 жимеил ком

С удовольствием! Отправил первого голубя!

Автор, не могли бы Вы описать чем Ваш продукт интереснее существующих opensource решений? Ну кроме того что он на php. ;) Видели ли Вы например это: www.opensemanticsearch.org/download ? Ваши впечатления?

Мой продукт написан на Си. Впечатления от Вашей ссылки у меня радостные :). Вы привели пример не поисковой системы!

Решений подобных Кавунке не существует!

Хм... а с каких пор apache solr, который оно же использует, перестал быть поисковым движком? То что аналогов нет я даже спорить не буду. Но предпочту elastic.

Если у Вас один сайт, то предпочитайте эластик. Если говорить о тысячах сайтов и о миллионах страниц + чтобы это все работало на одном сервере. Реализуемо это на эластике? )))

Хм... один сайт? ))) Вы о чем? И да, мне непонятно зачем мне реализовывать это на одном сервере, покупать его, платить вам 20$ в месяц, если я могу платить за elastic site search $79-199 и не париться?
Про количество разработчиков и комьюнити elasticsearch и kavunka я промолчу... При всем при этом, желаю Вам удачи!

Спасибо за пожелание удачи, но зачем комедию то ломать? Прекрасно разбираетесь в вопросе, но сбрасываете ссылку на ПО, которое ищет на локальном компьютере. Как настоящий продажник указываете цены с девятками + добавляете фразу «и не париться», заканчиваете ссылкой на услугу )))))).

Но то, что Вы подписаны как «Директор в ФОП» конечно же указывает на то, что вы не сотрудник компании, которая предоставляет услуги поиска, а мегадоволный клиент )))))) готовый платить не 20$ а 79$ — 199 и не париться. Ребята, у Вас подгорает?))) Ой, живот с Вами надорвал )))))).

Подгорает, похоже, у Вас ;) А я лишь задал простые вопросы. Вместо ответов — куча обиженой бугагИ. Директор ФОП смутило? Ну так здесь большинство таких (ФОП). Для Вас можно просто — ТокарьПекарьМашинистАкушерМультипликатор. С эластиком я действительно имею дело, готовлю его сам, правда, использовать его для изобретения велосипеда (поисковая система сайтов на б.у. сервере с 64 гигами ОЗУ) мне в голову не приходила. Предоставлять услуги поиска тоже. Есть гугл и прочие.

Если Вы готовите сам эластик, зачем бросаете ссылку на ПО для поиска на ПК и спрашиваете у меня мнение? Почему не сказать сразу «С эластиком я действительно имею дело, готовлю его сам»? А я бы вам ответил. Бросайте ссылку на ваш сайт, я пройдусь своим поисковиком и сравним выдачи. Это же интересно!!! Но ежели Вам нет, то сорян. Спасибо за пожелание мне удачи!

Что касается моего велосипеда, то с помощью него периодически нахожу товар дешевле 10 — 20% чем в .... сами знаете где. При этом, поисковик является всего лишь демкой возможностей движка, а интернет-магазины добавлялись туда все подряд, без фильтрации по ценовой политике.

Я готовлю эластик для совершенно других целей — ELK стэк и я не занимаюсь поисковыми системами, сайтами и прочей чепухой. Ваша тема (поисковые системы) мне не интересна. Мне был интересен конкурентоспособный украинский продукт. А Вам пожелаю менее болезненно и пафосно относиться к критике и замечаниям в адрес своего детища. И вот это вот меряние пиписьками, а давайте сравним, я уже не в том возрасте и мне есть чем заняться как в рабочее, так и в свободное от работы время.

с таким настроением ты слона не продашь...

Сорян, блоб на сервер не буду ставить, особенно чтоб еще и под рутом крутился, он хоть права свои дропает до nobody?

Скачал админку — там адовое месиво из хтмл, цсс и кода pastebin.com/DEsq16u8
никакой валидации, :
$settings = $_POST['settings']; $forrequester = '{"mod":'.$mod.',"settings":'.$settings.'}';

особенно повеселила сериализация в жсон
$jsonsnipb = '{"glsnipb":"'.str_replace('"','\"',$glsnipb).'","glurlb":"'.str_replace('"','\"',$glurlb).'","gltitleb":"'.str_replace('"','\"',$gltitleb).'"}';

Удаляйте всю админку и переписывайте все её с 0. Код, обычно написанный в таком стиле, кишит массой уязвимостей

У тебя хоть сервак есть с 64 Gb рама? Регнулся, скачал файлы из праздного интереса, а потом решил код потроллить? Есть железо + интерес? Установил за 10 мин, протестил. Не понравилось -> снес и забыл, понравилось и есть вопросы -> в сапорт.

Ладно я здесь на форуме пиаром занимаюсь, а тебе делать больше нечего? Ребята с железом и шарами бла-бла-бла не разводят, а действуют по схеме, которую описал выше!

Я Вам предлагаю отрефакторить код перед продажами, т.к. данный продукт с беглого взгляда имеет потенциальные уязвимости, т.к. все демоны работают под рутом, установка блобов не через пакетный менеджер, и качество админки не может привести к успешным продажам

Какой беглый взгляд кода? Вы же не видели код демонов! Может код php-скриптов Вас смущает? Приведите конкретный пример.

Как вы смогли оценить качество админки, если она не работает без запущенного runer, а запускать ПО Вы отказались.

Может Вы переживаете, что демоны выйдут из вашего контроля и начнут добывать мне криптовалюту? ))))) Я Ваши страхи понимаю, но они мне кажутся наивными.

Ставлю себя на Ваше место. Меня заинтересовал поисковик, но я не буду его ставить на сервер, где работают важные мои проекты. И вопрос безопасности будет стоять не на первом месте. Важным для меня будет вопрос прожорливости ПО, которое во время пиковых нагрузок будет влиять на производительность системы в целом. Я, естественно, буду устанавливать это все на отдельный сервер, который стоит копейки. Единственным открытым вопросом останется порядочность разработчика, чтобы он не накодил в своих демонах чего либо незадекларируемого.

Как разработчик, я готов к любым личным встречам в пределах Киева.

Проблема спама и мусорных текстов Всегда была актуальной. На сегодняшний день внутренний контент на большинстве сайтов остается далеким от идеала. Контент глобальной ценности является прерогативой только крупных компаний и корпораций. С появлением на рынке дешёвых SEOшников, которых можно заставить работать за еду, за фантики, или за обещание оных,появилась возможность создания на их базе небольших спам-систем, которые способны производить говно не по всем сайтам глобальной паутины, а лишь по некоторым, которых объединяет тема или регион.

Хочу представить Вам раба, которое может работать на недорогом компе или на ноуте у Вас дома или в офисе...

Дорвеестроительством от Вас повеяло! В прошлом были на темной стороне?

Чем это лучше чем elasticsearch?

Скорее всего, это он и есть

Вы плохо разбираетесь в поисковых движках. Убедиться, что это не эластик достаточно просто.

Зарегистрироваться и скачать ПО.

Если вы хотите думать, что я использую эластик а выдаю его за свое творение, то не нужно Вам этого делать. Картина мира целее будет.

Я думал, Ваше творение — сайт на 7 языках и краулеры.

Сергей, вы понимаете что вы все делаете чтобы отбить у людей желание вообще смотреть на ваше «творение»?

Вот я зашел kavunka.biz/started.php
что это вообще за чушь? iptables? semanage?

Вот как это выглядит в поисковиках здоровых людей, а не поделках.

docker run -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:7.4.2

Или (просто скопипастил из документации aws)
aws es create-elasticsearch-domain --domain-name mylogs --elasticsearch-version 5.5 --elasticsearch-cluster-config InstanceType=m4.large.elasticsearch,InstanceCount=2 --ebs-options EBSEnabled=true,VolumeType=standard,VolumeSize=100 --access-policies '{"Version": "2012-10-17", "Statement": [{"Action": "es:*", "Principal":"*","Effect": "Allow", "Condition": {"IpAddress":{"aws:SourceIp":["192.0.2.0/32"]}}}]}'

Все. Я могу скармливать туда документы и делать по ним поиск для того, чтобы понять как оно вообще может понять в решении моих задач. У вас же вообще ничего не понятно.

Документация

"
NW, UW, SN, TI, BH, UB- the meaning of these coefficients can be understood by experiment with the search
"

ну ох..ть теперь.

p.s. Я имел дело с Microsoft FAST в свое время, сейчас мы используем ElasticSearch, и могу сказать что в вашем творении вообще смотреть не на что, потому что оно выглядит не как промышленное решение, а как дипломная работа. Вычитайте хотя бы английский на сайте, потому что вещи типа Suport в футере режут глаз.

3.5. Upon purchase of a license, full technical support is provided, software installation is also possible in case of agreement by the parties.

валаю шо ппц от этой истории с айпи тейблс, совсем озверели наркоманы

Вопрос не в том, эластик ли это, а в том чем это лучше чем эластик?

Почему Вас смутило банальное открытие портов? Что в документации непонятного? Скачал, распаковал, запустил, начал сканировать.

Вы используете ElasticSearch? Давайте устроим батл поисковиков. Возьмем случайный сайт, загоним по 10к страниц в индекс каждому поисковику и сравниваем выдачу. А лучше 10 сайтов по 1к страниц. Принимаете вызов?

Может, лучше сравнить выдачу с гуглом, яндексом, и duckduckgo?
Которые без абонплаты и не требуют инсталляции на выделенном сервере.

По каким параметрам будете выдачу сравнивать, кстати)

Почему Вас смутило банальное открытие портов? Что в документации непонятного? Скачал, распаковал, запустил, начал сканировать.

Если вы не видите разницу между количеством и сложностью шагов у вас и количеством шагов для того, чтобы получить работающий инстанс эластика, то нам просто не о чем разговаривать. Ваше решение просто не является enterprise-ready решением (особенно с комментарием на 4:14 на видео где вы говорите что скорость сканирования у вас 3 страницы/сек). Сколько времени оно будет обновлять индек на типичную пятнчную ветку со срачами на ДОУ, которая обновляется каждые несколько секунд?

Вы используете ElasticSearch? Давайте устроим батл поисковиков. Возьмем случайный сайт, загоним по 10к страниц в индекс каждому поисковику и сравниваем выдачу. А лучше 10 сайтов по 1к страниц. Принимаете вызов?

Мне это не нужно и не интересно (тут уже был комментарий в ветке про ваши попытки взять на понт). Ситуация на рынке такова что вы должны меня убедить хотя-бы посмотреть на ваш продукт, при наличии таких конкурентов как elasticsearch, solr, algolia.

Вы отвечаете на комментарии, читаете документацию, смотрите видео. А после того, как Вам предложили провести честное сражение, Вы говорите, что Вам это не нужно?

Для меня, к примеру, заняло бы это 5 с., для сервера 30 — 60 мин. Я бы это сделал быстрее, чем допишу этот комментарий. Для Вас сколько нужно времени?

Так поставьте себе эластик и сравните.
Потом допишете в рекламе, насколько ваш поисковик лучше.
Чем мерять качество выдачи будете?

Вы, что из одной компании? У Вас-то он уже стоит! Все равно время на этом форуме прожигаете. Или с этим эластиком целая проблема, загнать рандомный сайт в индекс?
Мерять можно лайками от читателей этой ветки!

Если мерять лайками от читателей ветки то ваш продукт уже не взлетел, т.к. большинство лайков у скептических и критических комментариев, а вы, вместо того чтобы адекватно воспринять фидбек и сделать выводы, начинаете предлагать померяться и отбрасываете неудобные замечания (стемминг).

Пример: Еще в 2010 Ашманов писал что отсутствие словобразования было проблемой www.ashmanov.com/...​hizn-vnutri-puzyrya/#p5.5 а вы отбрасываете проблему полностью

Удачи в продвижении! Я не вижу смысла продолжать общаться с вами.

Так это же Вы со своим коллегой друг другу и ставите лайки )))) Я же рассчитываю на честность и справедливость. Кстати, Ваш коллега изначально принял мой движок как раз за эластик, а Вы говорите, что «не выглядит как промышленное решение». Уж очень субъективное у Вас мышление.

Нет, я занимаюсь телефонами, а не эластиком и краулерами.
Так что устанавливайте себе, и придумывайте, как мерять качество выдачи)
Если книжку уже прочли)
Стемминг делается либо хеш таблицей, либо многоуровневым индексным массивом. Почитать можно у Седжвика, если помните такого)

Xеш таблицей и многоуровневым индексным массивом козырнули? С поиском не вышло, перешли на телефоны? Решили меня поднатаскать ))))
Я же в Ваших глазах теперь должен быть на уровне разработчиков эластика. И вы должны меня не поучать, а спрашивать, как у меня получилось )))) Забавно, правда? Как только ореол бренда эластик развеялся, Вы тут же понизили рейтинг движка Kavunka. Вш мозг бредозависим?

Стемминг у меня получился как побочный продукт от распознавания слов. Но я не использую формы слов для ... я Вам это уже говорил.

чувак, продавать ты не умеешь, смирись с этой оценкой или докажи обратное. слабо? ))))

У Вас гениальные мысли! Позвольте мне дать Вам совет. Собирайте их, а потом издайте философский трактат по маркетингу. Для всего человечества!!!! Умоляю Вас — не загубите свой талант!!!!!

эластик предназначен для внутреннего поиска. Вы не сможете сделать на его основе поисковик.

Почему же? А если краулерами записать в него данные?

В поисковике главное это ранжирование, потому что данных овердофига и на один специфический запрос может быть миллион вхождений — и чтоже тогда в топе показать? Эти механизмы у Эластика, Солр ... вообщем у всего выводка Люсьены в весьма зачаточном состоянии. К тому-же джава не айс на скорость индексирования

Ну вот на арбузе я не заценил. Какой запрос там может показать качество? «Жесть» фигню показала. Стабильные словосочетания вводить?

Да, ранжирующий движок тут явно промахнулся.
Типичная ситуация когда слово имеет много разных значений в языке.
У меня в свое время были такие результаты на поиск таких двузначных слов, тролил Яндекс =)
ibb.co/fQc1GVm

А что оно у тебя должно было на «грей» найти?
Жесть — известный прикол гугла tjournal.ru/...​h/50812-never-google-this

Зависит от того, в каком контексте употребляется слово «жесть» на конкретном интернет ресурсе. Если на форуме жестянщиков, то вероятно ассоциации были бы железо сталь и тд. Если на тинейджерском форуме, где жесть употребляют в негативном контексте, то работал бы примерно как гугл.
«Работник завода никогда не сможет найти в Google информацию о листовой стали по запросу „жесть“. Этого слова в Google стоит бояться как огня.»

Не добавлял сайты по металлообработке, поэтому нашло то, что есть. Всего-то 1200 сайтов. Пытался охватить как можно больше тем, а теперь понимаю, что зря. Нужно затачивать поисковик под конкретную тему, тогда и результат лучше будет.

А тебя местный форум можно было охарактеризовать одним словом: трактор.
Гугл же писал когда-то, что решил этот вопрос тем, что заставил самих пользователей ранжировать всё. Но и сам загнал себя же в ловушку позитивной обратной связи. Но на данный момент все одно лучше ничего нет. Ну и, я уверен, там много еще чего наворочено и для отрицательных обратных связей.
Но я плохо знаю особенности поисковых систем. Посему то, что я написал выше — это уровень бабки у подъезда.

Эластик изначально делает акцент на горизонтальное масштабирование. У вашей поделки вообще ничего не сказано про то, как это планируется достигать. Как она выживет если мастер нода умрет? Если умрет SSD? Как делать бекапы? Что делать если заканчивается место на дисках? Как настраивать data retention? Какой tps на вставку, на поиск при рекомендованных системных требованиях?

Я так понимаю, Вы там самый умный и самый главный. Может спишемся? ;)

Чем это лучше YaCy? Как минимум системные требования настораживают, YaCy куда более скромный.

YaCy — Decentralized Web Search! Kavunka — персонаlized Web Search!

Это всё пустые слоганы. У YaCy одна из штатных возможностей — поиск по интранету. По сути, по белому списку внутренних ресурсов. Что нового в этом плане привносит Кавунка?

Новое в том, что с kavunka любой Вебмастер может позволить себе иметь маленькую поисковую машину. Сделав выборку сайтов, он сможет привлечь дополнительных посетителей на свой ресурс, которым интересна та или иная тема. Это только один из вариантов.

1) Ввод не вызывает поиск — надо тыкать мышью.
2) Падежи не понимает.
3) На запрос «жесть» на втором месте «Слава из группы „НеАнгелы“ родила дочь / Бульвар Шоубиз».

Слава из группы «НеАнгелы» родила дочь

Снова родила?

Не, просто только сейчас нашли (спасибо новому поиску, как мы раньше без него)...

1) Вы, как программист, должны понимать, что это мелочь.
2) Дык и не нужно понимать падежи, они присутствуют только в русском.
3) слово «жесть» в статье «„Кесарево — это жесть“, — призналась певица в том, что ей пришлось делать данную операцию.»
4) маты обязательно вводить для теста поисковой системы?

Дык и не нужно понимать падежи, они присутствуют только в русском

Вот это щас внезапно было. На вашем сайте написано (цитата) «Kavunka is trained to recognize the language of webpages. Currently available: en, it, fr, pt, es, pl, uk, ru». Все языки из этого списка кроме английского — синтетические, а значит разнообразие словоформ присутствует в полный рост.

Вы предлагаете что-то + консультации, но оно выглядит бесполезным.
Приведение словоформ — базовая функциональность поисковиков. Без этого — тяжело назвать поисковик рабочим.
Распознавание смысла — более продвинутая штука, но ей тоже уже лет 10-15. Вряд ли корпоративному поисковику интересны певицы.
В общем — думаю, Гугл лучше. Кто не хочет гугл — можно попробовать подвязать DuckDuckGo (не разбирался, как он с русским, и как подвязывается).
Маты пробовать обязательно, так же как и местоимения и междометия. Они входят в stop words.

Понимание контекста и распознавание словоформ — все это реализуемо, и в этом нет запредельной сложности. В экспериментах удавалось определять пол и классифицировать объекты, но это невероятно долго. Уместить это в одном сервере крайне сложно. Ну Вы же должны это понимать?!

А по поводу матов, зачем вы лукавите? Я прекрасно понимаю их смысл, и это была не проверка на стоп слова )))))

Зная, что вы вбивали в поиск, я уже могу сложить некоторое мнение о Вас. Представьте, что о Вас знают другие поисковые системы. Вы еще продолжаете пользоваться ими? Пользуйтесь моим поисковиком и то, что вы ищете, навсегда останется нашей маленькой совместной тайной ;)

В экспериментах удавалось определять пол и классифицировать объекты, но это невероятно долго. Уместить это в одном сервере крайне сложно. Ну Вы же должны это понимать?!

Стемминг совсем несложный — намного меньше памяти занимает, чем собственно векторное пространство для поиска. И да, я это понимаю, потому что немного читал теорию, и даже должен был знаяться на практике. Но потом — ах! — уволили)

А по поводу матов, зачем вы лукавите? Я прекрасно понимаю их смысл, и это была не проверка на стоп слова )))))

А вот теперь я не понял — откуда у Вас взялся четвертый пункт. В моем посте его не было. И вот теперь, после второго упоминания, мне уже интересно.

Зная, что вы вбивали в поиск, я уже могу сложить некоторое мнение о Вас.

Давайте, представьте на рассмотрение общественности Ваши дедуктивные способности)

Зачем нам тратить время на выяснение того, вбивали Вы маты или нет, и какие ))). Для нас с Вами это факт. Почему другим это должно быть интересным? Есть красная черта, за которой шутки заканчиваются. Если я ее перешел, приношу свои извинения!

Вы можете поделиться своим опытом и знаниями, это будет гораздо интересней и полезней. Давайте обсудим стемминг. Как вы реализовали этот алгоритм?

А может, Вы расскажете, как Вы реализовали? Если Вы его реализовали)
А то пока что одни попытки взять на понт.

То, что я его не реализовывал, это понятно из контекста нашего с Вами разговора. Я четко и ясно выразил свое мнение касательно форм слов и необходимости учитывать их при ранжировании страниц. Ваша догадливость сейчас на нулевом уровне. Боюсь, Вы ничего внятного по поводу стемминг не сможете здесь сообщить.

Я не хочу Вас брать на понт. Я хочу увидеть глубину и почерпнуть лучшее от Вас. Очень жаль, что мне это не удается.

Вот почитайте классику, если реально интересно nlp.stanford.edu/IR-book

Зачетная шутка ). Еще ссылку на «Си для чайников» ))).

Вы читали?
Тогда где стемминг?

Подписаться на комментарии