Сучасна диджитал-освіта для дітей — безоплатне заняття в GoITeens ×
Mazda CX 30
×

Запущен сервис поисковых стримов

Господа, я попрошу Вас всех собраться ©

Поисковый проект укропоиска Бубен запускает новый бомбезный сервис.
Пока он в тестовом и очень сыром режиме
(Спешил, потому что сам «джва года ждал ...») но суть его следующая.
К поисковой машине можно написать достаточно сложный запрос
и поисковик сформирует стрим, поток свежих сообщений на определенную тематику.

Пока я сформировал стрим где горят политические холиворы
booben.com/...​today+1&s=online&a=search

Можете добавить в избранное, это стримы которые постоянно обновляются ( с лагом примерно в 4 часа ). На данный момент роботы сканят 6 сайтов.
В дальнейшем это число будет только рости. Позже я опишу спецификацию языка запросов, по которому можно строить запросы к базе данных.

Следующая точка — это создание персональных поисковых страниц, где пользователи смогут указывать интересующие их области. Это секономит кучу времени и одновременно позволит держать руку на пульсе беспрерывно обновляющегося интернета. Что важно, я делаю упор не на бложики и сайты с заказными статьями, а именно на активно обновляющиеся социальные ресурсы.

У каждого человека есть облако информации, которое его интересует и поисковик сможет разискивать информацию с этого облака, чтобы пользователь ничего не пропустил. В облаке могут быть технологии, география, эмоции, люди, фото видео, фильмы, фасеты товаров и многое многое др.

В такой схеме у каждого пользователя есть свой персональный поисковый агент, который будет тонко выуживать информацию
из инернета и предоставлять ему в удобном виде.

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Кстати тут появилась статья, которая может быть тебе интересна: 16 Searches You Can Run on Wolfram Alpha That Don’t Work on Google.
Кстати давно не писал, есть ли у тебя какие-либо успехи в проекте?

Спасибо за ссылку, Вольфрам интересный проект. Давно за ним слежу :)
По проекту пока особых новостей нет, пока что переключился на другой небольшой проект.
В свободное время в поисковик добавил разных мелких рюшечек, поиск кубов:
booben.com/...b+1&s=online&a=search&p=1

Поиск гифок:
booben.com/...f+1&s=online&a=search&p=1

Новости по проекту.
1. База сайтов расширилась до 11 штук.

2. Сделал стемминг слов, тоесть к примеру по слову Крым ищутся все темы Крыма Крыму Крымом и тд...
booben.com/...y+1&s=online&a=search&p=1

3. «Подсел» на сервис по поиску картинок, теперь им пользуюсь каждый день.
Особенно классная тема с pravda.com.ua тянуть =)
booben.com/...y+1&s=online&a=search&p=1

3. Зафиксил несколько суровых, трудно воспроизводимых багов в Сишном ядре системы. Теперь уже несколько дней даже под относительной нагрузкой кор не падает. (До этого даже подумывал дог вотч написать).

4. Собираюсь вскоре писать новый фронт (с беком у меня уже почти все готово).
Надеюсь вполне юзабельный прототип будет запущен через месяц.

Добавил новую фичу, тег @img.
Этот тег говорит движку, что ищем только те страницы, где есть картинка, причем картинки отображаем сплошной лентой (без текста).
Например так, можно поискать чтото про майдан.
booben.com/...айдан+1&s=online&a=search

Ну и соответственно работают все остальные теги. Можно сделать фильтр за сегодня, за месяц, ограничить поиском на одном ресурсе, добавить категорию и тд.

Дауж, нашел конкурента youscan.ru
Правда цены ломят космос и для пиарщиков работают )

Я кстати тоже такую систему делал 12 лет назад.

Ну мы делали, сервис развивался, благодарные пользователи несли деньги, а потом я ушел на другую работу и не особо в курсе как они там сейчас.

12 лет назад весь инет СНГ можно было скачать и унести на современной флешке...

Мы в основном финансовые и политические новости из английского интернета выпаршивали для финансовых компаний.

вот только флешки тоже были не современные 12 лет назад. Так что мудрствование ни о чем.

Тем не менее rh понял о чём я говорю.

если не считать медиа информацию, то и сейчас можно на несколько трехтерабайтников закатать весь рунет. По крайней мере индекс на него:
пруф blog.pikosec.com/?p=83

Закон Бероала. Все интеллектуальные агенты, которые тонко выуживают информацию, будут обмануты сеошниками.

В действительности этот закон звучит так.
Есть как минимум один способ сделать страницу, которая будет иметь очень высокую релевантность с точки зрения поисковой системы и будет абсолютно бесмысленна с точки зрения человека.

Есть такой подход — брать данные только из ТОП надежных и проверенных источников.

И скатишся рано или поздно к скучной Википедии

Почему именно к википедии? Есть 100500 источников инфы, которые модерируются и пользователями и хозяевами сервисов, амазон к примеру.

потому что если будет ТОП то это будет поисковик ТОПа.

Ну да, что плохого? Гугл в свой knowledge graph aka freebase тоже сует только топ источники.

вот представь, у тебя есть агент и ты через него покупаешь картошку. Звонишь ему, говоришь, хочу купить мешок картошки. А он тебе топ магазинов присылает Сильпо, Фора, АТБ. При этом 1000 других лавочников с более качественным товаром и более дешевыми ценами остаются не у дел. Так вот зачем поисковик, который всегда отдает результаты на топ супермаркетов ? У меня вот есть рабочее интересное решение на тему «ассоциативный поиск». Но в гугле я даже на сотую страницу по этому запросу не пробьюсь, потому что топ забит какимто сео муссором.

Если нету на рынке поисковика эфективно работающего с лавочниками и СЕОшниками, то у такого поисковика тоже вполне себе есть ниша.
НУ и ты утрируешь, на амазоне и ибее 100500 тыщ миллионов лавочников трутся.

те кто продажники выкручиваются разными популярными площадками вроде амазон, алибаба или сландо. Но это только маленькая область сети. Остальные, кто не в продаже, курят бамбук, или ищут свою площадку более менее релевантную. Все это конечно есть и работает, но не совсем отвечает интересам пользователя.

Таких вертикалей 100500 нишь: я выше писал как мы искали важные фин новости, юридический поиск, поиск по патентам, поиск по научным статьям, поиск по индустриальным запчастям и техпроцессам, поиск по всяким абстрактным датасетам.

Мне понравилось. Идея классная.

Звучить дуже круто. Пригадую читав одну книгу, де ішов опис програми, що створив один із головних героїв, котра працювала за схожим принципом. Річ надзвичайно захоплива, потім вона ще себе почала позиціонувати як особистість, і усе інше що зараз пишуть про штучний інтелект. Але нажаль це лише фантастика, бо навіть якщо і можна запрограмувати логіку через нейронні сітки, то до зародження ідей та нелогічної поведінки ще дуже далеко.
Є бажання чимось вам допомогти, але навіть і не уявляю чим, думаю що я не один такий.
Успіхів вам!

Спасибо ) Скоро нужен будет фронендщик, сам я могу конечно чтото склипать но выглядит коряво конечно. На счет ИИ тема конечно интересная. В плане фасетного поиска ( стримов ) его там конечно нет, а вот с ассоциативным поиском .... я досих пор не понимаю ПОЧЕМУ это работает. И почему в некоторых случаях — нет. Не смотря на то, что сама база данных «муссорная», там на биг дата появляются очень интересные эзотерические эффекты которые, чтото мне подсказывает, имеют прямое отношение к ИИ.
Но я пока как «Старик и Море», хз как и что там делать, тяжело продвигаться вперед.

Фронт, це не моя стихія, тому тут без мене, і щодо інтелекту теж не вважаю себе компетентним щоб давати якісь поради, але якщо ви продовжуватимете у цьому ж дусі висвітлювати матеріал, то вважаю що отримаєте не одну корисну пораду. При теперішніх темпах програмування щось робити самому надзвичайно і важко і довго, я теж пробував не один раз щось хороше зробити, але одному, та ще і при відсутності вільного часу, це непідйомний камінь. Тому вам однозначно потрібно шукати людей котрі чимось допоможуть. Із свого незначного досвіду можу порадити надавати перевагу цілеспрямовиним людям, нехай він краще менше знає і зробить за тиждень, а ніж більше знає і не зробить за 3 дні.

Мде, только что через бубен стримы нашел это:
habrahabr.ru/...pany/lazerto/blog/260619

«За год мы сделали так, что наша выдача не уступает результатам крупнейших поисковых гигантов, а зачастую и превосходит их. »

«Технология представляет собой метапоиск по Google, Yandex и Bing»

Эх, как там говорил РеалитиХакер. ВСерч в наших серцах )))

Таки да, сделал небольшую документацию по формированию стримов и языку запросов
blog.pikosec.com/?p=141

Там есть еще в движке куча недокументированых возможностей, но пока что я собираюсь все хорошо протестировать. Баги сейчас фиксятся только если они блокер )

Про гугловые знаю.
Надеюсь зайти намного дальше :)

Підписатись на коментарі