Сучасна диджитал-освіта для дітей — безоплатне заняття в GoITeens ×
Mazda CX 30
×

Потрібні ідеї для стартапу

Отже, є ресурси і пошуковий робот який зберігає 10k новин за годину. Новини класифікуються по 11 категоріям: політика, культура, ... і по ~200 країнах. Все це працює для 15-ти топ мов. Не проблема реалізувати для будь-якої іншої притомної мови.
Що з цього можна зробити цікаве?

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Привяжи к курсам валют, попробуй предсказывать.

Робив в свій час щось схоже vsetke.com
Пошук цікавих новин ітд
Толку не багато )

Навіть якщо у вас
"

10k новин за годину. Новини класифікуються по 11 категоріям: політика, культура, ... і по ~200 країнах

є news.yandex / news.google... у котрих картина все рівно буде більша

Якщо є бажання
— можна конструювати моніторинг ЗМІ (хоча таких проектів купа)
— моніторинг соц мереж (хоча вони не дуже бажають данними ділитись) і потім анатітика брендам / пошук лідів / авто коментарі к товарам ітд
— можно намагатись зробити трафіко обінник аля макретгід — але там кількість новин не головне

Кстати о стартапах. Сегодня скинули мне сылку на новую нетленку:

Ищу программиста виртуоза, чтобы ты мог на Ты обращаться с программами, превратил идею которого я тебе дам в настоящий Сайт, который сделает Нас с Тобой через некоторое время Необъятно Богатыми. Нужен тот, который на основе Контракта начнет Бизнес идею с созданием сайта многомиллионного пользования. Оплаты никакой! Но Ты включи серое вещевство, если ты со мной заключишь контракт на правах Системного Директора с правом на 10% прибыли от Интернет Сайта, который по моим многомесячным задумкам точно будет в короткое время популярен, то счет пойдет за миллионы доллоров! Да, странно, но я ищу настоящего Компаньона, человека который поверит в Идею и реализует его вместе со мной! Так что, я жду тебя!
www.olx.ua/...t-IDmXOb4.html#9b147caf0b

Это в каком? Хочу приобщиться.

Думаю, нужно делать пельменную в центре Харькова/Киева/Львова, где будут показывать новости на всех языках.

Якщо прав на контент немає (а їх немає), то все, що можна робити — аналітика + класифікація.
Класифікація — якщо є щось, що _дуже_ точно мапить новини в IPTC topic, то можливо комусь можна продати. З практики — дуже навряд, бо ті, хто новини продає, і так вміють іх класифікувати.
Аналітка — якщо контент ± комерсовий, можна рахувати вартість. В інших випадках — NLP(семантика/мета/сентименти) + лінкування дублікатів, пошук першоджерел/фейків/трендів (якщо багатомовність — фішка, то саме те).
Загалом — sad to say, але там, де займаються подібним, весь input контенту нічого не коштує — надто просто і швидко пишеться.

майже три новини за секунду, якось малувато...
хоча з другої сторони де це зберігати без монетизації)))

Хіба малувато на пошук, скачування і обробку? Зберігається два тижні на Amazon.

Колись на Python писав робота, який витягував 20К+ сторінок за пару хвилин,
походжуюсь без класифікацій, але класифікацію ніби можна робити «пачками», а не по одному.
Тому, пробуйте паралелізувати далі...
p.s. система не могла робити більше нічого крім того скрипта (він вижирав всі доступні ресурси: інтернет, CPU, RAM)

Розпаралелізовано по мовах. Так «пачками» буде швидше, але ліміту по RAM не вистачає, тому робимо послідовно з 2Г на мову.

Тобто ви одночасно працюєте з сайтами на різних мовах? Чому не по-черзі, чи на різних машинах?
(в мене тоді було 8Гб.)

Одночасно запущено 15 процесів.

Чому не по-черзі, чи на різних машинах?
Так вийшло найоптимальніше в $ на серверах Амазону.

в мене кількість процесів в ОС іноді доходила до 600 :-)
але на домашній машині, в клауд я б виставляв вже результати.
Бо виникло питання скільки новин у світі з’являється за ту ж одиницю часу? І чи є потреба агрегувати 15 мов, якщо як користувач я зайду на сайт з однією мовою і за хвилину охоплю більше корисної для себе інформації ніж робот, зможе підібрати))

Бо виникло питання скільки новин у світі з’являється за ту ж одиницю часу?
Явно більше ніж ми можемо агрегувати.
І чи є потреба агрегувати 15 мов, якщо як користувач я зайду на сайт з однією мовою і за хвилину охоплю більше корисної для себе інформації ніж робот, зможе підібрати))
Наприклад, вам потрібні останні новини культури в Франції італійською мовою. Де ви це будете шукати?
Наприклад, вам потрібні останні новини культури в Франції італійською мовою. Де ви це будете шукати?
Заходжу на будь-який французький сайт новин, і автоматичним з перекладачем читаю італійською чи будь-якою іншою. Можливо якість буде страждати, але наскільки це частий use case?

Напишите мне в скаип vyacheslavm81
Есть идеи как применить в развивающемся проекте.

увы, уже есть. Солидные аналитические агентства уже давно обзавелись своими продуктами и парят свои услуги тем же госструктурам.
Здесь колоссальные оверхеды, к тому же. Просто продать — мало. Нужно с клиентом много времени проводить и составлять для каждого подробный профиль, под который информацию анализировать и структурировать. А учитывая масштаб и институциональный характер клиентов, то нужен нехилый штат из сейлзов, аккаунт-менеджеров, аналитиков, саппорта и т.д.

А вот это уже другое дело. Плюсую. Только доработать еще надо — добавить какие-то аналитические инструменты / вьюшки для просмотра данных

Если есть желание сделать стартап, то у меня когда-то была идея (мне кажется сильная) — но там надо делать сильную интеграцию с Ссетями (ну мордокнига, как минимум) — если есть охота — можно встретиться лично.

в 2007 сделал подобную шнягу только для англоязычного сегмента.Потом по работе по знакомился в с людьми из hfq trading — показал им решение. предложили переориентироваться с масс медиа — на платные financial newsfeedы и социалочки. поработал с ними какое-то время- но к успеху тогда так и не пришел.
Кравлеры паблик инфо и категоризация — это фундаментальное, примитивное решение присутствуещее практически в любой системе анилитики и прогнозирования.

Так, фундамент є, що далі? Фішка тут в мультимовності.

Перепрошую, а в чому саме фішка мультимовності?

Цінність подібної технології близька до нуля, якщо ви не обробляєте та аналізуєте інформацію. А щоб аналізувати, треба розуміти, навіщо, кому це потрібно та що саме ви шукаєте.
На мою думку, ви почали не з того кінця. Ринок, звісно, є. Але є і компанії, які аналогічні рішення розроблюють вже багато років.
Наприклад, www.clarabridge.com

Я б порадив самостійно дослідити ринок, а не шукати порад на форумі, бо тут переважно займаються технічною реалізацією, а ви запитуєте про бізнес складову.

Перепрошую, а в чому саме фішка мультимовності?
Не всі знають англійську.
А щоб аналізувати, треба розуміти, навіщо, кому це потрібно та що саме ви шукаєте.
Саме це і питаю тут, що би ви шукали на такій базі.
На мою думку, ви почали не з того кінця.
Почали задовго до мене. Я думаю, як продовжити.

Ну тут навели вже приклади того, що можна шукати.
Особисто мені новини не цікаві, реакцію користувачів на вихід оновлень — це більш практично, але для цього треба парсити соцмережі, форуми, блоги тощо. Це вже трохи інший рівень.
В будь-якому разі, як я вже казав, є такі компанії з потужними продуктами та великим штатом працівників. Не бачу, чим те, що ви змалювали, краще.
Оскільки цей бізнес — дуже labour intensive, то лише продукта замало. Треба влити дууууже багато ресурсів в це.
Пан Viktor вище непогану ідею підкинув — зробити це opensource. По-перше, можете отримати таким шляхом замовлення особисто. По-друге, якщо буде реальна зацікавленість від якоїсь компанії, зможете за гроші продавати кастомізацію під конкретного замовника (класична опенсорс-модель, до речі).

Що з цього можна зробити цікаве?

Точно не стартап

Уже есть такое, называется GDELT, спонсируются гуглом. Парсят не только интернет издания, но и оффлайн новости (газеты, радио) и предоставляют метаданные всем желающим.
Кстати, если вы будете распростронять контент новостных изданий, то готовьтесь к судебным искам — это незаконно.

Розповсюджуємо лінки на них, а не контент.

Мб стоит присмотреться к политике: например, составлять sentiment отчеты для выбранной партии и анализировать основные драйверы настроений/предпочтений избирателей.

Можно попробовать продать сервис маркетологам: например, как выбранный товар позиционируется отоносительно похожих.

Я знаю як це можна монетизувати. Знайди кореляцію із валютними трендами. Але тут треба правильно сегментувати, ЯКА САМЕ категорія джерел має кореляцію пряму, а не зворотну.

Як це працює: політики перед тим як щось утнути, роблять інформаційні вкиди через свої джерела, перевіряють не тільки віконце Овертона, а ще й проводять розвідку боєм та інформаційний захист від конкурентів. Зокрема, ПОЧИНАЮТЬ ВИПРАВДОВУВАТИСЯ, коли вони вже про катастрофу знають, а СМІ ще не встигли оцінити масштаб.

Що це дасть: торгового робота, який зможе грати на біржі. Так, ризиковано. Але який же стартап без ризику? Зате досить нескладно знайти фінансування — можна фінансувати не робота, а його роботу як сервіс.

Цікаво, треба буде покопати в цьому напрямку.

Наскільки знаю, то щось подібне вже є, здається News Insider. Автоматично грає на біржі і вгадує тренд.

Тут питання лише в відношенні зусилля/профіт.

Нажаль, не можу сказати. Бо тоді взагалі неможливо буде знайти новини — робот випалить тонесеньку нішу адекватної інфи і засере її лайном.

я видел заработки таких проектов. Первое — парсят форумы и сайты типа жж, выделют фразы (как внизу описанно), по фразам ищут угрозы — теракты там всякие, махинации и т.д. заработок — продают систему государсву, в России недавно кто то продался, второй кажись палантир в штатах уже стоит 50ярдов. Второй тип зарабока — парсят новости и другую инфу с сыйтов поставщиков например труб, или пластика или матриц для телефонов, выделяют ключевые фразы типа трубы 300 миллиметров, или новый АМОЛЕД экран, и т.д. Продают эту информацию заказчикам, например Сименс имеет 5000 поставщиков ему нада провести закупку труб 300 миллиметров, кому разсылать инфу ? а тут сразу выборка с базы по ключевым словам. Или продают всю систему с кастомизаций — кого парсить, по каким фразам и т.д. Третий тип это парсинг ресурсов для работы с отзывами, например кто то у себя в твиттере написал — макдональдс впарил мне воду вместо колы, это можна продать медиа службе макдональдса что бы они пришли в твиттер и публично обсдили и т.д. .... ну вообщем надеюсь понятно.

Робот заточений саме під новини.

Я саме зараз доробляю подібний проект . В мене буде використовуватись технологія Sentiment Analysis.
Я із кожного тексту вибираю ключові фрази (саме фрази, а не лише слова) і для цих фраз визначаю емоційне забарвлення (негатив чи позитив).
В результаті, для кожного періоду часу буде хмара ключових фраз , де кожна фраза червона або зелена . І розмір шрифту відповідно до кількості згадувань.

Але як монетизувати я також не знаю :)

Я це робив як проект для вивчення Golang

Хто маркує фрази емоційним забарвленням для тренувальної вибірки? Звертаєтеся в спеціальні компанії?

Ні. Я використовую словник WordNet.
Мій підхід працює лише для англійської мови. В майбутньому хочу додати підтримку німецької. Є аналог WordNet для німецької.

Тобто використовуєто готові марковані списки фраз. Яку модель берете для тренування?

В мене немає якогось конкретного наукового методу. Грубо кажучи, я дивлюся які слова стоять поряд із фразою в реченні , і на основі цього роблю висновок про тональність.

Але як монетизувати я також не знаю :)
Хоча я чув лише приблизно «що таке bigdata», але здається це їхня сфера діяльності — чим більше даних, тим важче їх обробляти, але й тим цінніші висновки можна зробити, бо можна прослідковувати різні неочевидні взяємозв’язки між різними подіями і т.д.

Спробуйте створити «snapshot news» (або не лише news).

Хоче користувач побачити який контекст топ-новин був, наприклад, на момент «24 серпня 2014 року», заходить на ваш ресурс, шукає бажану категорію, і ви йому видаєте все що тоді було найбільш актуальне.

Хоча так сходу й не придумаю яка може бути монетизація в подібного ресурсу.

Новини класифікуються по 11 категоріям: політика, культура, ... і по ~200 країнах. Все це працює для 15-ти топ мов.
Грубо кажучи, цінність цієї роботи близька до нуля. В наш час не проблема залити користувачів морем інформації, проблема якраз в організації навігації та актуальності в цьому морі.

Очередной никому не нужный агрегатор новостей

у бубена гугл хлеб забирает, все остальные проекты находятся в очень зачаточном состоянии и используют уже готовые полнотекстовые движки с ограниченными возможностями, в отличии от.

Підписатись на коментарі