Українська пошукова система: за і проти

Всім доброго дня/вечора/ночі/ранку.

Хотілось би обговорити доцільність створення української пошукової системи з пошуком по вітчизняних сайтах.

Цікавить:
— текстовий пошук з урахуванням української семантики;
— пошук по зображеннях;
— пошук товарів з українських сайтів
— пошук в українських новинах;
— пошук місць та маршрутів на карті.

З того, що знає про вітчизняні пошуковики Wikipedia, все використовує одну й ту ж популярну пошукову систему. Наприклад: search.i.ua, search.ukr.net, search.meta.ua.

Що не так зі згаданою популярною пошуковою системою:
— питання анонімності;
— відсутність можливості виключити з пошуку сайти з окремої країни;
— постійне зростання к-ті факторів, що впливають на індексацію сторінок;
— занадто дорога реклама;

На скріні — результати пошуку за запитом «придбати Raspberry Pi 4» в українському інтерфейсі (12 рядок результату — не релевантний сайт).

Як би я брався за написання невеликого пошуковика, я б використав Elasticsearch для повнотекстового пошуку. Spider та Crawler можна було б розмістити на кількох десятках окремих машин і обходити список сторінок з частотою в 1-3 дні.

А що думаєте про ідею української пошукової системи Ви?

--------------------UPD------------------------
Панство, щоб не бути голослівним, додам що я вже обійшов кілька тисяч сайтів в українському сегменті.
Якщо бути точним: 82 373 шт без піддоменів, 205 494 шт з піддоменами.
В «індекс» Elasticsearch додано 18767680 текстових записів сторінок. База з Elasticsearch важить понад 18GB. Крутиться це все щастя разом з іншими проектами на дуже скромному серверочку з 32GB RAM і застарілим 4-поточним Xeon, правда на SSD Intel DC.

Пошук перших 50 записів за фразою «придбати Raspberry Pi 4» займає 13ms (в мілісекундах Elasticsearch), доставка відповіді до клієнта зараз займає значно більше часу (пов’язано з запитами в MongoDB, обробкою відповіді на PHP і т.д.).

Про релевантність говорити зарано, вона повністю віддана на розсуд еластіка (окрім `_score` є ще кілька цікавих параметрів сортування).

В перспективі: рознесення на окремі БД за мовами, збільшення текстових записів кожної сторінки, використання NVMe в сервері.

Чому я веду мову саме про Elasticsearch:
— майже необмежений розмір БД
— кластеризація
— висока швидкість пошуку

Тож, цікавлять саме мінуси використання Elasticsearch і можливі альтернативні варіанти від людей з досвідом, які працювали з ДУЖЕ великими даними (1TB+).

👍НравитсяПонравилось5
В избранноеВ избранном0
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Как бы давно пора.. Что тут обсуждать

З моменту показу спільноті робочих прототипів збігло доволі багато часу.
Індекси search.com.ua перезбирались заново вже кілька раз, було дороблено систему ранжування та оцінювання.

Наразі, індекс продовжує зростати (навіть явив світу невелику статистику search.com.ua/info/big-data) і залишається все менше і менше сайтів у вітчизняному сегменті Internet, до яких пошукові «роботи» search.com.ua ще не дібрались. Була додана повна підтримка правил з robots.txt та були сформовані прості правила частоти перевірок search.com.ua/...​ase/frequency-of-checking. Виходячи з цих правил, search.com.ua намагається не ddos-ити сайти, а обходити оптимальну кількість сторінок за одиницю часу.

Ви можете перевірити чи є Ваш сайт в базі простим запитом на кшталт «site:site.ua» і додати будь-яку сторінку Вашого сайту через форму search.com.ua/add. Пам’ятаємо, що TLD має бути UA або УКР, всі інші додаються через info@search.com.ua.

Існує твердження, що релевантність залежить від кількості даних в індексі. Оскільки індекс вже має понад 60 млн. сторінок, пропоную оцінити релевантність результатів пошуку за простими фразами: search.com.ua .

Особливу увагу звертаю на прогрес з новинами: search.com.ua/news. Додано ще більше джерел новин, реалізовано пошук через Elasticsearch (раніше була регулярка в MogoDB). Тепер знайти всі актуальні новини в одному місці стало ще простіше. Є задум додати форми, щоб читачі залишали свої коментарі та емоції під кожною новиною. Цікавить ваша думка щодо теми з коментарями та щодо розділу новин загалом.

Приділено значну увагу кабінету власника сайту. Там тепер можна знайти не тільки суху інформацію про сайт і сторінки (search.com.ua/...​estimation_m-host.net.png), а й on-page SEO «оцінки» сторінок з подробицями і простеньку аналітику, якщо на сайті використали спеціальний JS-код.

Словом, потуги з наївним українським пошуком продовжуються.
Дякую всім за майбутні коментарі та поради!

Друзі, вашій увазі робочий прототип.
Очікую на Ваші зауваження по суті.

Українською:
search.com.ua/...​rch/купити Raspberry Pi 4
Російською:
search.com.ua/...​rch/купить Raspberry Pi 4

Окрема тема з українськими новинами:
search.com.ua/news

На запрос афини показывает одну картинку с книжкой.
Гугл показывает кучу фоток черники

афини

Тут нет ошибки ? У меня даже гугл Афины показывает на этот запрос

это название черники в западных областях
imgur.com/a/emFAcEu

Забавно, а в анонимной вкладке тоже самое ?

За зображення я ще нічого не говорю. Тут роботи — непочатий край.
На даний момент пошук по фото — регулярка в MongoDB, швидкість — відповідна.

То і в головному пошуку аж 2 сайта за запитом афини

1. Вас не смущает, что на первой странице по запросу «купити Raspberry Pi 4» нет ни одной ссылки где можно купить Raspberry Pi 4? А так все збс.

2. На превой странице:

Raspberry Pi Pico RP2040 | Raspberry Pi в Киеве (Украина)
raspberry.com.ua/...​raspberry-pi-pico-rp2040
8 лют. 10:43. the and raspberry with грн for you can pico are usb chip other there power not has boards led but raspberry.com.ua

Raspberry Pi | Seka як він є | Page 2
seka.org.ua/tag/raspberry-pi/page/2
26 січ. 10:28. browser карти your мене posts raspberry update newer triton gps web oziexplorer seka.org.ua

Raspberry Pi — ИнфоВеб
infoweb.org.ua/tag/raspberry-pi
5 січ. 03:31. seo создание словарь разное raspberry раскрутка как admin сети магазина магазинов каталога визитки потдержка товаров контекстная реклама голосовое контент корпоративного

вы считаете, что это нормальные результаты? Вам не кажется, что эти результаты хакнуты SEO очень грязным образом?

Стосовно тексту після дати: кравлери не завжди валідно забирають description. Замість опису підтягнулись внутрішні ключові слова, які йдуть на Elasticsearch і теоретично не мали б бути доступні у видачі, шкода що вам довелось це бачити. Зараз подібного тексту не має бути.

Над зауваженням (1) попрацюю більш ретельно.
На російській мові трохи кращі результати (магазини продають в основному російською) search.com.ua/...​rch/купить Raspberry Pi 4

1) Результат не гірший, ніж у DuckDuckGo

2) Дофіга російської мови

3) Релевантність див п.1

За всієї моєї нелюбові до гугля через відсутність семантики, в них є і синоніми, і page rank, і на цьому вони переганяють наївні реалізації. А щоб зробити ненаївну — це треба робити бізнес...

За українським запитом не повинно бути жодної сторінки російською (чи іншою мовою).

site:ua

Що я роблю не так?

В користувача в налаштуваннях чітко вказано регіон: Україна.
Користувач не повинен вивчати додаткові правила фільтрації і писати в пошукових запитах «-site:.ru», «site:ua», «site:укр», «inurl:.ua» тощо.

Приклад з запитом «придбати Raspberry Pi 4» не вичерпно показує наскільки одна дуже популярна пошукова система вважає, що сайти .ru — прийнятні для регіону «Україна». Був би пошук в контексті всього світу, але ж ніт.
Ситуація з медіа — ще гірша: тут вам і новини, і попса і «тренди». Мене особисто це трохи вкурвлює.

Мене також вкурвлює.

Але свого вбивцю гугла я, наївний, писав десять років тому...

Як вчить системантика, систему можна або обійти, або зробити частиною більшої системи...

Якщо б створили заточений під Україну аналог DuckDuckGo, я б залюбки користувався.

Хоча недавно DuckDuckGo ввів регіон «Україна». Доволі непогано працює, якщо порівнювати з Ґуґлом з його 90% результатів зі срунету на українські запити. Однак усе ж бракує націленості на українську семантику.

Дійсно, DuckDuckGo доволі непогано еволюціонує. Для пошукової фрази за моїм прикладом є цілком релевантні результати:
duckduckgo.com/...​ити Raspberry Pi 4&ia=web
Востаннє, коли я відвідував DuckDuckGo, Україна була майже «терра інкоґніта» )

Була-була, на українські запити весь час вигулькували болгарські результати. :)

А тепер я майже перестав звертатися до Ґуґла для пошуку в УАнеті.

П.С. Було б дуже круто, якби ви робили цей проект з відкритим сирцевим кодом. Так би було набагато більше шансів, що проект розвиватиметься.

Недавно дивився, і було суцільне .ру

Щось за пів року змінилося?

Ага, росйських сайтів нема, російської мови майже нема, результати нерелевантні (запит ’купити t-motor 17"’).

Враховуючи те, що гугол сам пропонує показувати результати тільки українською, і всі (!) результати з українських сайтів, я поки що лишуся з корпорацією добра.

Враховуючи те, що гугол сам пропонує показувати результати тільки українською, і всі (!) результати з українських сайтів, я поки що лишуся з корпорацією добра.

Я ж перейшов на DDG не через мову, а через приватність.

Український регіон ввели вже коли я давно користувався пошуковиком — і це був приємний бонус та +1 аргумент користуватися DDG.

Та ось українська пошукова система —> www.ukr.net

і обходити список сторінок з частотою в 1-3 дні

Багато ресурсів потрібно моніторити ледве не в реальному режимі (новини).

У вітчизняному сегменті не так і багато новинарень всеукраїнського масштабу. Більшість новин можна забрати з RSS (так, ці XML-фіди досі є на сайтах).
Я, наприклад, обходжу RSS зо 2 десятків сайтів з різною періодичністю, в залежності від їх частоти оновлення. Такий собі агрегатор RSS вийшов ))

Є окрема тема: сайти з товарами. І там позиції доволі часто оновлюються. Обходити всі — велика морока. Тому, скажімо Hotline, Google, Rozetka чи будь-які маркетплейси забирають свої фіди за доволі грубі гроші.
Я спробував парсити сторінки з Structured Data, але у вітчизняних сайтах якість таких даних доволі низька. Власників сайтів з товарами доведеться ще довго перевиховувати.

Было уже
dou.ua/forums/topic/10889

Юзать эластиксерч идея глупая. Ценность поисковика в релевантном поиске. С эластика это невыжать на уровне миллионов страниц и сайтов.

Я игрался с машинлернингом, получил хорошие результаты в области поиска по сайтам в терминах сайта. Потом проект забросил, иногда включаю как игрушку, выдает интересные результаты.

Цікавить Ваш проект. Як би потестувати?
Як щодо кластеризації БД на кількасот TB, кілька PB?

За релевантність Elasticsearch щось говоритиму після експериментів з синонімами.

Завтра включу сервер, можно будет глянуть.

Включил сервер. Вот можно посмотреть релевантность поиска, для примера на мемах доу

1. бетонометры
booben.com/?q=sdou бетонометры&p=1

www.google.com/...​4UKHVldBTsQ4dUDCAc&uact=5

2. зеля
booben.com/?q=sdou зеля&p=1

www.google.com/...​IsKHWcYC7YQ4dUDCA0&uact=5

Ищет хорошо в основном по одному слову. По фразе ищет, но хуже, нужно допиливать.
Хорошо ориентируется в мемах, сленгах и тд. поскольку автоматом обучается и выводит ассоциативные ряды для ранжирования страниц.

Дякую, встиг зацінити Ваш проект.
Це дуже круто, що Ви запарсили dou.ua.
Скільки часу парситиметься 80+ тис. сайтів з 1000 сторінок в кожному?
Як зберігаються дані? Які вимоги до hardware?

Скільки часу парситиметься 80+ тис. сайтів з 1000 сторінок в кожному?

Если предположить что средняя страница текста в интернете 50 кб:
80 000 * 1000 * 50кб / 60мб\сек = 18.5 часов.
В один поток, на iCore5

Но узкое место здесь не индексация, а скачивания из интернета страниц.

PS:
В интернете нет равномерного распределения, 99% сайтов будет иметь 10-50 страниц. Оставшийся 1% самых популярных и посещаемых сайтов будет иметь десятки и сотни тысячи страниц

Включил

Если будет выключен, скрин с выдачей
по ключевому слову сиетл

ibb.co/D5dT7DH

Что выдает гугл
www.google.com/...​oUKHRiTB9IQ4dUDCAc&uact=5

Причем первую тему выдал, только потому что «сиетл» есть в заголовке.
А так гугол достаточно примитивен чтобы анализировать текст внутри.

Еще пример, ищем слово „порох” на доу

Как ищет бубен
ibb.co/TTzQycf
booben.com/?q=sdou порох&p=1

Как ищет гугл
www.google.com/...​&sourceid=chrome&ie=UTF-8

booben.com/?q=sdou сиэтл&p=2
Произошла ошибка, приносим свои извинения

баг, с переходом на вторую страницу.
Нужно будет как нибудь глянуть
Первую страницу выдает норм
booben.com/?q=sdou сиэтл

Знаменитый мем 300к :)
booben.com/?q=sdou 300к&p=1
Кстате встроенный доу поиск работает вообще никак.
Базируется на алгоритмах гугла.
dou.ua/search/?q=300к

Як щодо групування результатів за доменом на значно більшій кількості даних?
І Ви не розповіли як зберігаєте індекс. Чи є перспектива масштабування, кластеризації та багатопоточного пошуку в індексі?

Я так бачу dou.ua/...​orums/topic/14026/#727916 , Ви заморочились з власною системою стемінгу.

Окремо цікавить як будуються та використовуються асоціації (синоніми) у Вашому пошуку.

Ми можемо зв’язатись у Viber/Telegram?

Як щодо групування результатів за доменом на значно більшій кількості даних?

Я решил это просто. Перед тем как индексировать добавляю доп служебные слова на страницу. Например если индексируется страница доу, то добавляются ключи
sdou — сайт с доу
@img — страница содержит картинку
@gif — страница содержит гифку
@y2021 @m02 @m09 — дата индексирования страницы

І Ви не розповіли як зберігаєте індекс. Чи є перспектива масштабування, кластеризації та багатопоточного пошуку в індексі?

Инвертированный индекс. Не храню расстояния между словами и порядок между слов. Поэтому индекс занимает всего 1-3% от проиндексированного текста.
Движок в опенсорсе, выложен здесь github.com/Bazist/BH

Я так бачу dou.ua/...​orums/topic/14026/#727916 , Ви заморочились з власною системою стемінгу.

Да, я готовую либу прикрутил.

Окремо цікавить як будуються та використовуються асоціації (синоніми) у Вашому пошуку.

Там достаточно сложный алгоритм. Он похож на пейдж ранк, только работает не на уровне доменов сайтов, а на уровне страниц текста одного и тогоже сайта. Поэтому на форумах ищет лучше. Умеет анализировать о чем страница, а не просто ориентируется по заголовку темы. Более того, умеет определять уникальную субкультуру определенного интернет ресурса. Например на этом форуме трактор это эмиграция, а на аграрном форуме трактор это машина. Поэтому на аграрном будет искать все что связано с техникой, а на доу все что связано с имиграцией.

Ми можемо зв’язатись у Viber/Telegram?

Написал в скайп.

Как я понял, вас расстроило то, что в результатах поиска оказались .ru домены? Чтоб от этого избавиться не обязательно пилить клон гугла. Достаточно добавить «-site:.ru» в строку поиска и все неподобство пропадет.

Теперь что с этим делать: например, пилите свой сайт, который будет проксить все запросы в гугл и добавлять нужный фильтр. Или extension к хрому.

А почему бы нет? Гугл слишком много набрал веса. Нехай делится. Распределить все по компам пользователей в режиме — десктоп приложение постоянно закачивает обновления все интересных пользователю сайтов (например, ДОУ)
И гугл похудеет.
Интернет ускорится и браузеры начнут летать.

десктоп приложение постоянно закачивает обновления все интересных пользователю сайтов
Интернет ускорится

?

Когда-нибудь запрограммируют умный интернет и любимые страницы пользователя будут обновляться браузером в фоновом режиме. Или они уже это делают?

Не поможет: даже при наличии в списке языков результатов поиска «українська, english» в таком порядке, тот же microsoft.com находится в виде microsoft.com/ru_ru/...

«microsoft россия -ru -site:.ru»

никакого ru_ru вы выдаче нет, ЧЯДНТ?

Достаточно добавить «-site:.ru» в строку поиска и все неподобство пропадет.

В данном случае лучше сработает фильтр -inurl:.ru

Мне тут подумалось, что выстрелит, если запретить показывать контакты или карту. То есть, если ваш поиск не будет зависеть от денег — такой опен соурс серч получится — что чертям в пекле станет жарко. Никто не будет «оптимизировать» страницы, да.

Все ж таки, оптимізувати сторінки потрібно.
Детальніше описав тут:
search.com.ua/...​-it-works/page-estimation

Тобто, пропоную цілком вичерпний перелік критеріїв. Для старту — 16 умов, пізніше список доповниться.

Посмотрел, появились вопросы:

10. Больше 2000 слов? Это много буков.
Или что-то пропущено в тексте? Если у меня меньше 500 слов мне +1 бал?

14. Не ясно написано в скобках «(а ще краще ???)» Там, где про врезки style
А если врезка динамическая, например, так:
<div class="this_div_not_visible"></div>
То есть класс появляется и исчезает. Включается и выключается пользователем или событиями.
Остальное мне понравилось.
В 9 плюс пропущен, а в 8 пробел после плюса.

10. Так, на перший погляд здається дуже велика кількість слів. Проте саме такі зараз вимоги намагаються подолати SEO-шники.
serpstat.com/...​-obem-teksta-na-stranice
Тут взагалі говорять про понад 200 факторів:
mytasker.com/...​g/google-ranking-factors

14. Мова більше про стилі атрибутом style в повторюваних елементах там, де можна було б використати CSS-клас.

8-9. Дякую, виправив.

Семантический веб круче традиционного. Гугл традиционный держит всеми лапками, но пффф гугл уже знает слишком много. И выдавая даже первую позицию в списке настолько обще берет, что нужен еще один запрос по вот этим вот уже выданным страницам для уточнения.
Даже если в запросе несколько слов гугл выдает слишком общую релевантность.
Гугл вобщем все.
Теги рулят имхо куда больше позволяя максимально детализировать поиск.
Я в своем движке вассаби сейчас очень тесно работаю с механизмом тегов, ключевых слов, однозначно указывающих на тот или иной контент.
дерево — тег, ель — контент
Еще б финансирование было...

В данном случае блондинки не осилят теги. Все что может сделать Гугл, это молча следить за тобой и примерно определив картину твоих интересов, кастомизировать выдачу.
Собственно поэтому у Дениса в выдаче афини черника, а у меня Афины город.

Для блондинок картинки тегов — пиктограмки со всплывающим пояснением, если пиктушка не понятна. Как кнопки на айфоне — вообще весело будет искать всем.
Последовательное наложение тегов (ко все уменьшающейся с каждым применением следующего тега) первоначальной выборке.
То есть, берем в начале мега-широкую от гугл, а потом тегами ее на клиентах быстро-быстро прошуршим до максимально релевантной...
По крайней мере как-то абстрактно так видится.
P.S.
SVG пиктограмки.

Это хорошо работает. Но работает для 0.1% узкоспециализированных запросов.
Вот тут был пример, как в Гугле тегом указать что хочу сайты только с зоны ua. О этом не знают 95% гуглоюзеров. Оно им не надо. На самом деле у Гугла целый язык запросов с тегами, но почти никто не использует.

Где про него почитать? Я давно уже хочу использовать. Для меня гугл стал недостаточно точен.

Ты прав насчет кому что надо. Да, большинству хватит и теперешнего. А вот меньшинство давно уже на теги ориентированы. Те, кто давно гуглят.

Мне даже кажется что правильно составленный запрос в гугл просто берет и делает за тебя всю работу.

А ты используешь два вида памяти — для хранения правил свой, а для хранения данных, к которым эти правила функции применяются с целью фильтрации/изменения — другой тип и вид памяти???
Соответственно это будут два разных алгоритма доступа к двум разным памятям.

Вечно покупается кот в мешке. Никто не знает магазина, где сначала дают вещь «примерить» — пару дней поюзать?

Будь-який магазин в країні де діють закони з захисту покупця.

А чем плох кот в мешке? 🐈

Выдали бы инструкцию по сборке и коробку подержанных деталей (из некондиции вытащенных).
Сам бы себе DIY девайс собрал. Для тестирования полезности и удобности.

давно выкуплен владельцами из РФ
www.pravda.com.ua/...​/news/2007/03/14/4414621

Юзає пошук дуже популярної пошукової системи, власного пошуку наразі не має.

думаю топик стартер не осознает масштабов
и те инструменты что он выбрал, подходят только на стадии MVP
что нисколько не отменяет актуальности идеи создания национального поисковика, которая с 2014 года только обострилась;
думаю, аналогичные потребности есть и как минимум у наших ближайших соседей от Польши до Эстонии (нет ли у них уже чего-то такого?), а один общий продукт, но с адаптацией под локальную специфику — был бы гораздо целесообразнее экономически;
во Вьетнаме бОльшую долю рынка занимает именно вьетнамский поисковик с чисто локальными фишками — например, на фоне медленного местного интернета они сортировали выдачу видеоконтента по скорости загрузки
так что локально конкурировать с Google — вполне реально

Насколько я помню, Яндекс смог зайти только в Турцию. Собственно, особо много примеров и нет — везде гугл. Тут вопрос, как перейти от качества выдачи duckduckgo к гуглу/яндексу при отсутствии ресурсов.
ЗЫ Российское правительство пыталось сделать свой поисковик «Спутник». Вложили пару миллиардов, оно несколько лет агонизировало и сдохло ru.wikipedia.org/...​утник_(поисковая_система

и nigma.ru там сдохла (эта 1/9 часть суши видно проклята), но та же команда запустила coccoc.com во Вьетнаме
правда я тут посмотрел долю этого поисковика на Вьетнамском рынке — оказалось меньше 4%, всего лишь...
то есть, наверно стюардессу таки нужно закапывать, хотя пишут что прибыль coccoc своим инвесторам исправно приносит и доля его тихонько растет

виглядає в них спутник улюблена назва

А что они предложили для Чехии?

супер. делаем так же)))

В Чехии наиболее популярен национальный поисковик, www.seznam.cz .

Но это не точно

нужно делать

соцсеть, насколько помню, уже сделали,
но там и такого глубокого концепта

Spider та Crawler можна було б розмістити на кількох десятках окремих машин і обходити список сторінок з частотою в 1-3 дні.

не было

Ви про ті соц. мережі, де «ви зареєструйтесь, а ми зробимо Instant messaging через пів року»?
Чи про піарений esvoe.com?

Хотілося б що в Україні була власна пошукова система, яка була б зручною і набувала б популярності

Elasticsearch

просто посчитайте для него сайзинг под эту задачу, думаю количество требуемых ресурсов убедит в необходимости использования другого инструмента

з ДУЖЕ великими даними (1TB+)

хотели сказать — с десятками, сотнями, ... петабайт?

Це ж що треба писати на такі об’єми?

1TB+ у каждого местного форумчанина просто дома лежит
у меня в паре ЦОД — суммарно под 1PB наберется (банк)
а размер поискового индекса google — более 100PB

Зазвичай до запиту у неназваній системі додаю «site:ua» задля обмеження пошуку однією країною. Це виключає з результатів інші українські сайти не у *.ua, але як правило вони мені не потрібні.

Кто «целевая»? (Почему они «целевая»?)
За чей счет банкет? («целевая» способна закрыть стоимость владения/использования?)
...
итд
---------------------
ЗЫ: Имхо, как бы есть «теоретические» цели для которых имеет смысл содержать свою «национальную» поисковую систему. Но, в реальности «денег на это нет». Так что, обсуждать такое можно исключительно в теор ключе.
ЗЗЫ: и короткий ответ «нафиг».

идея — огонь! Делайте, только не релизте.

Гугл возник из научных трудов трех человек — двух студентов и одного профессора, и эти труды дали гуглу то самое преимущество перед альтавистой и прочими.

Какое у вас конкурентное преимущество?

Завдання не стоїть створити Google 2.0-ukr. Завдання — акумулювати власний досвід та створити свій конкурентний за релевантністю пошук.
В авторів названої пошукової системи не було сучасних швидкісних баз даних та NVMe.
Словом: «велосипед, щоб набити власну ґулю на лобі».

акумулювати власний досвід та створити свій конкурентний за релевантністю пошук

Або розкажіть алгоритм, або надайте прототип помацать

Алгоритм наступний:
1) спайдер, окрім тексту сторінки, «на льоту» визначає «оцінку якості» сторінки за жменею чітко визначених і оприлюднених параметрів; оцінка — ціле число від 1 до 16, пишеться в БД окремим полем поряд з текстом, швидко індексується;
2) еластік при пошуку сортує за внутрішньою релевантністю і, якщо _score — однаковий для кількох записів, сортування здійснюється ще й за оцінкою.
То ж, логіка «кращі сторінки — вгорі видачі» працює.

Прототип для помацать обов’язково буде, але не сьогодні (борюся з цікавим багом у швидкодії, соромно буде, якщо сервер приляже як тільки но поділюсь лінком).

Синоніми не розпізнаєте? Семантику тексту та запиту не парсите?

Синоніми — тільки в перспективі. Тут не обійтись без нейронки. Це доволі цікавий напрямок.
Для початку, думаю, можна запарсити наявні словники синонімів і гратись з пошуковими варіаціями.

Btw, Google доволі тривалий час розробляв свого Берта:
quantamixsolutions.com/...​t-affects-your-businesses , а раніше їх система семантичного пошуку називалась Colibri.

Тут не обійтись без нейронки

Взагалі робили через en.wikipedia.org/wiki/FrameNet. Гугл, кажуть, натомість використовував статистичні методи — скільки разів різні фрази зустрічались в однаковому контексті. Тому після Криму Росію почав перекладати як Мордор.

введите запрос жесть у себя и в гугл, и сравните картинки.
Ваш поисковик показывает филармонии, какие-то другие здания, и вообще неизвестно что

А ви хотіли так одразу і результати «як в Google» ?
Тут ще на кілька років роботи ))

То як тоді в Гугла людей переманювати.
Та й питання, чи тут кількісний бар’єр (мало сайтів проіндексували), чи якісний (нема розуміння синонімів)

Відсутні синоніми зовсім. З’являться пізніше.
Сподіваюсь, буде з чим порівнювати.

Повторить гугл глупая затея, да и зачем?Зробити щось Украiнське — добре але що?С каждым годом истинно украинского все меньше.Сделайте поисковик по реальным историческим архивам,например польским с переводом, где обозначены события связанные с историей украинской земли.Думаю «буде цiкаво», откроите много нового для себя.

Пошук по архівам — це цікава тема.
Наскільки володію досвідом отримання інформації з ГАДА (Головного архіву давніх актів) у Варшаві, багато матеріалів є у вигляді скан-копій. Хоча й високоякісних, але все ж — не текст.
Якщо маєте прсилання на текстові дані — діліться зі спільнотою. Думаю, десь має бути окрема вітка на цю тему.

Так а в чому проблема текст на сканах розпізнать? Думаєте, пошук картинок простіше реалізується?

Поиск по архивам это первый шаг.Далее интересна тема моделирования на основе этих данных.Думаю всем было бы интересно узнать:"А что было бы если....".Такая прогнозируемая величина от исходных правдивых исторических данных.Чем Вам не тема?

5 версія Visicom Data API розгорнута і доступна: беріть і тестуйте
dou.ua/forums/topic/32692

Хороший продукт. Використовував попередні версії в кількох проектах.

А що сталось з цими проектами, наскільки успішні вони зараз?

Проекти не користуються популярністю, озвучувати тут їх не буду.
Використовував Geocode в рамках безкоштовного ліміту. Якістю був цілком задоволений.

Ты пытаешься решить проблему которой нет. Settings>Search Settings>Region Settings>Ukraine и на первых трех страницах нет ни одного магазина из домена ru. Даже с учетом того, что я физически нахожусь в Польше.

Регіон, ясна річ, встановлено.
В мене проблема відтворюється і через VPN, і без його.
Пошукова фраза

придбати Raspberry Pi 4

 — це ще дрібниці.
За певних умов у видачі занадто багато контенту з нерелевантних країн (особливо — РФ).

Варіант 1. Settings -> Advanced search -> Narrow your results by domain — «ua»
Варіант 2. Швидший, але менш надійний. Використовуйте лапки навколо слова «придбати» і буде вам щастя.

Лучше потратить ресурсы на создание качественного контента на желаемом языке. На фрилансханте ежедневно десятки исполнителей соглашаются за деньги засырать сеть говном «за пригоршню гривен». Разбавьте это говно чем-нибудь хорошим, а мы уж как-нибудь найдем это хорошее через Google или DuckDuckGo.

Вообще-то давно пора, так же как и соцсети. Вон в Китае сделали и все норм

А це не жарт. Ти вконтактє чи меілру сидиш?

Вперёд, удачи в трате кучи времени и ресурсов на проект, который никому не нужен. Я не понимаю, кто в здравом уме поменяет устоявшийся Google на какой-то мутный, примитивный, самопальный украинский поисковик. Хотя может сотня уникальных юзеров в месяц у тебя и наберётся.

можна взяти готові АПІ яндексів\гуглів
і використовувати їх пошук, тільки знайдені результати вже фільтрувати\сортувати\розділяти на власний смак.
спойлер — вже було.
спойлер спойлер — не вистрелило.

Якщо вважаєш що потрібен — візьми і зроби. Наша думка залежить від того, що ти зробиш. Але я обіцяю, що коли зробиш, ми всі його спробуємо хоча б раз. Дехто навіть фідбек залишить.

Якщо хочеш обговорити ідею — спочатку продумай деталі, що саме ти індексуватимеш, як саме робитимеш ранжування, що для твого індексу буде пріоритетом, і власне як саме ти вважаєш твій пошуковий сервіс стане № 1? Бо сервісом № 2 мало користуватимуться через те що треба перемикати пошуковий движок.
_____________________
Як на мене, шансів нуль. Банально через те, что в Украине население знает русский и будет знать ещё очень долго, а информационного контента тупо на порядок больше русскоязычного. С разделением по языковому вопросу очень сильно опоздали во времени, в силу общности пространства количество языков должно тупо сократиться.

Но ты можешь попробовать собрать мертворождённый проект, который якобы должен разделять нацию, формировать ненависть, и конечно же игнорировать всё российское — с целью получить финансирование фонда «Відро».

Если хочешь упростить задачу, создай очередную новостную помойку. Пипл хавает.

Про «Відро» — трохи мимо))

Ціль — не парсити тільки україномовний контент, ніхто не говорить про відмову від рос. пошуку чи заборону рос. контенту. Пріоритет — сайти з України, щоб український споживач краще знаходив товари/послуги українською.

+ реклама (в далекому захмарному майбутньому) у вітчизняному пошуковику має бути значно доступнішою для власників сайту

Создать — не вопрос. Вопрос — как туда привлечь людей?

В мене був такий план:
1) SEO та органіка в «одній дуже популярній системі» за трендами, марками товарів, популярними персоналіями;
2) розповісти про проект на dou.ua та інших профільних ресурсах;
3) робота над помилками на основі фідбеку від спеціалістів та «людей в темі»;
4) реклама та замовні статті;
5) зовнішня реклама;

А де бабла візьмеш на джинсу та спам?

Отлично, давай проверим твой план. Сделай простую форму, в которую посетители будут писать о том, что именно их не устраивает в текущей поисковой системы.
Попробуй нагнать туда людей и получить обратную связь.
Если получится — я обеспечу поисковик.

На скріні — результати пошуку за запитом «придбати Raspberry Pi 4» в українському інтерфейсі (12 рядок результату — не релевантний сайт).

Для товарів бувають спеціальні пошукові системи, напр.
hotline.ua/sr/?q=raspberry

В спеціалізованих пошукових сайтах товарів — свої вимоги до вхідних даних. В більшості випадків — це агрегатори даних з фідів (XML, YML, JSON, тощо). У фідах детально описуються категорії, параметри і всі інші подробиці.
З мінусів:
— специфічна структура для різних платформ (Google, HotLine, Rozetka використовують різну, хоча й схожу структуру).
— ціна розміщення «в системі» для власника сайту.

Товари ж можна розмітити на сторінках з Structured Data, включно з параметрами для фільтрів.

Коли маєте стільки ж грошей, як Гугл та Яндекс, і маєте бізнес-план, щоб покривати витрати на розробку — тоді варто зорганізувать. Інакше — не з’їсте слона.

А якщо я Вам скажу, що для цього насправді не потрібно мати бюджет Яндекса. ddos-ити вітчизняні сайти можна і цілком бюджетним обладнанням. Головне — багатопоточність в спайдерах і кравлерах + чуть-чуть ресурсів на головний пошуковий сервер, який міститиме БД на кілька TB даних і забезпечуватиме зв’язок клієнта з тією БД.
Можливо, український сегмент не такий вже і великий слон, щоб його не подужати.

То я Вам скажу, що якість пошуку без NLP та ML буде як в минулому тисячоріччі. Цього достатньо, усі щоб юзери лишилися в Гуглі?

Цікавлюсь NLP більше для машинного перекладу.
Для пошуку ж, в Elasticsearch є влаштована система стемінгу та повнотекстового пошуку. Є думка, що цього може виявитись достатньо для отримання більш-менш релевантних результатів.

Порівняйте видачу duckduckgo та google
Придумайте, як шукати картинки з об’єктами
Подивіться, наскільки легко знайти в Гуглі фільм за описом того, що в ньому відбувається

Подумайте, як Ви це усе зробите.
ЗІ Оцініть об’єм даних, що запхаєте в Еластік, та його швидкість роботи після цього.
ЗЗІ Хоча б оце перечитайте — як в минулому тисячоріччі робили nlp.stanford.edu/IR-book

цього може виявитись достатньо для отримання більш-менш релевантних результатів.

Ніт. Є таке адаже (англійською adage, українською не єбу як — прислів’я? народна мудрість?
якось не так): «пошук не маштабується вниз». Тобто якщо у тебе немає 1-10млн+ користувачів, які фільтруватимуть твої результати, то ти не збереш достатній датасет щоб була хороша видача.
Тобто якщо у тебе є користувачі, то ти не забувай, що від них ти сам получаєш багато інфи. Наприклад якщо хочеш перевірити наскільки хороший топовий результат на певну видачу, то на той же запит посунь цей топовий результат на 5-те місце. Якщо на нього всерівно тиснуть пропускаючи верхні 4, то це таки був дуже хороший, годний результат.

Source: працював в гуглі, і наш внутрішній пошуковик по своїх же документах (MoMA) був настільки ***овий, що з нього не прикалувався тільки ледачий.

В недавнем топике был чувак который в твитере работал и песал виджет с рекомандациями, и вот они в нашем сегменте рабтали очень херово по той же причине.
Ютуб в рекомендациях показывает дичь по похожей причине, то что там п**ц как дофига ватанства и прочего уепанства, пожтому как только юутуб видет нашего то пихает именно популярное, оно к сожалению — дичь.

Крута, прогресивна і правильна ідея. Головне, щоб ресурс / монетизація / прибуток для творців був. Національні пошукові, соціальні мережі — це правильний тренд, як альтернатива глобальним монстрам.

«глобальных монстры» создают 2 проблемы:
1) монополизация
2) тотальная слежка и сбор всех персональных данных

Будет ли решать новый сервис 2-й пункт? Если нет, то грош ему цена. Лучше использовать searx, DuckDuckGo, qwant.com и т.п.

Однозначно, анонімність пошуку і відсутність збору даних «всіх і вся» — в пріоритеті.

Подписаться на комментарии