Ищу партнера в стартап Machine Learning in Web Security

Ищу партнера, который может взять на себя техническую часть по Machine Learning.

Варианты сотружничества обсуждаются, может быть доля в продукте, почасовая оплата или что-то еще.

Что есть
— опыт и понимание Web security индустрии
— контакты с экспертами по безопасности
— идея и результаты idea validation базируясь на опросах экпертов и отзывов на конференциях

Кого ищу
— тех специалиста, который на ты с machine learning
— хорошая база в математике и мат-анализе

Описание идеи
— есть определенные паттерны атак, так называемы вектор атаки. Их что-то около 14 000 общих и очень много разных вариаций
— есть логи доступа к вебсайту

Идея — делать прогнозы атаки при помощи наложения векторов атаки на логи доступа.

Проблема — просто шаблонные скрипты и выборки не работают, так как много данных и данные потоковые, нужен именно прогноз-анализ скорее всего с разной вероятностью.

Зачем нужно
Знание что возможна атака очень ценно. так как большиство аттак успешны не потому что получилось взломать защите, а частино потому что про аттаку вовремя не узнали.

Знание возможного типа аттаки, позволяет быстро и просто включить нужную защиту.

Проблема с защитой что ее очень дорого постоянно держать включенной, так как она требует ресурсов сервера, людей и прочего. Плюс всегда есть погрешность или шум, когда нормальные пользователи блокируется из-за защиты.

Поэтому одно из оптимальные решений, держать ligh-weght с минимальной погрештностью постоянно включенной и включать определенную strong protection только в определенные моменты.

----

Если заинтересовало, обращайтесь в личку.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Не могу понять, как из логов веб сервера получить прогноз атаки.
Что вообще это словосочетание должно значить?

Из блока «Зачем нужно» можно сделать вывод, что требуется нечто типа самообучающейся IDS. Не понятно слово прогноз.

Ідея — так. Схоже на те, що зробили в IBM Trusteer (був у них на співбесіді за півроку-рік до того, як їх IBM купив).

интересная идея... но как-то надумано слишком, ну или просто защита от школьников или эксперты-пиджаки (извиняюсь если кого обидел). Специалист по ИБ скажет с 2-3х проб есть в конкретном параметре sql-injection или нет ( а не будет запускать sqlmap с сотней тестов). Аналогично про эксплуатацию найденной sql-injection, не будут дампить БД через, к примеру, blind sqli. Либо переведут ее в RCE либо логин/пасс админа.
А как быть с теми атаками, которые в логах доступа к вебсайту выглядят как вполне обычное поведение пользователя, к примеру SSRF/XXE (post-ом загружается на сервер файл от пользователя)...

SIEM с корреляцией и предиктивным анализом?

Да, можно и так назвать. Но больше предиктивный анализ с интеграцией с SIEM и прочими.

А Вы не думали о нескольких людях ? Просто

Линукс и Web безопасности, типа что такое nginx access log или что такое sql injection
оно ни как с «машинг-лернингом» не связано...Вы как будто супер-мена ищите....

Ключевое — знание и умение Machining learning. Дополнительное уже основы линукса. Просто если человек не понимет данные, то я думаю сложно будет строить какие-то learning AI.

А конечный продукт какой ? Что Вы ожидаете от этого спеца ? «Прогнозы атак» и «векторы атак» малоинформативные понятия... И непонятно чего не работают выборки ? 300 лет работали а теперь не работают :) Если данные разбиваются на тьму категорий (скажем чеки и прогнозирование далее приобретенного товара, по нему) так это футурестическое г*нище. Да и какие технологии думаете использовать ? Огласите список !

Да правильно он ищет. Смысл информации в логах понять несложно, смысл тех атак тоже.
Только сама идея никакая. Не знаю, чего они там собираются интересного сделать.
Хотя может для этого спец по ML и нужен.

en.wikipedia.org/...aive_Bayes_spam_filtering

мне кажется разумнее вложиться в защиту чем в анализ логов

Логично. Но за защиту не им платить будут, евпочя.
А так хз, статистическая спам-фильтрация используется очень широко.

Я думаю, им не нужен чел, который запрогает наивного баяса. Это сможет сделать каждый третьекурсник. Кто им нужен — для меня загадка.

машин ленинг подразумевает построение моделей на основе больших данных, откуда у вас данные ? а тсп дампа данные брать не реально

В их случае до этого еще далеко. Меня больше прикалывают, что они ищут такого человека-оркестр, что знает machine lerning, security и еще

openresty, nginx и как получить tcp dump
. Интересно, если такой и существует, готовы-ли они ему платить $10000 в месяц? Этот человек должен заменить им, как минимум 3 спецов.

ну я не вижу большой сложности — настроить сервер что бы данные писались в лог и потом анализировать этот лог.

Я, например, этой области совсем не знаю, как и что настроить, чтобы нужные писались. И какие нужные х/з.
Ну и с machine learning здесь хрен что понятно. Это либо надо для начала почитать десяток статей из этой области. Даже, если у тебя будет гора этих логов, из них же нужно выделить параметры на которых уже что-то строить. В общем тут надо знать еще и область применения этого machine learning к безопасности, причем основанных на логах. Понятно, что тупо можно прилепить просто гистограмму распределения запросов и назвать ее machine learning.

Я, например, этой области совсем не знаю, как и что настроить, чтобы нужные писались.

Тривиально. ТС это вроде умеет, если я его правильно понял.

Ну и с machine learning здесь хрен что понятно.

Как всегда с ML. Для этого вобщем спец и нужен.

Складність починається, коли маеш 100к таких серверів з логами і вони наливають тобі 2 Терабайти даних на добу 24×7.

готовы-ли они ему платить $10000 в месяц?

Або запропонувати значний відсоток опціонами. Бо ідея ж насправді робоча, питання в реалізації та спроможності продати (як в анекдоті «злізай, зламаєш спину»).

И поэтому все эти опционы идут лесом.

Да, здеть как раз построение моделей по патернам аттаки на основе данных.

Откуда данные — детальные логи доступа к вебсайту. Примерно 10 ГБ за день.

ТСП дамп оказалось плохой пример и я убрал его. Спасибо за коммент.

идея анализировать логи интересная, но что то возникают сомнения что это еффективный метод противостоять атакам. у вас есть какая то статистика по атакам сайтов ?

Да — анализ логов НЕ позволяет противостоять аттакам.

Да — анализ логов позволяет понять.уведомить, что возможно будет аттака и в какой области.

Немножко теории аттак, так сказать

Есть атаки просто DDoS — когда идет массированные простые запросы.
Есть атаки «layer 7 attack» — когда идет именно поиск уязвимостей и кража или доступ к данным.

Каждая атака не начинается внезапно и всегда (в 90% случаях) идет сначала исследование и анализ объекта аттаки. И именно это иссследование можно определить по логам и с какой-то вероятность определить возможную аттаку.

Пример
— начались странные комментарии с числами и символами вроде как с разных ip.
— большая вероятность что это в будушем возможная XSS или SQL injection аттака

Мне нравится идея, но что вам даст знание, что вас захотят атаковать? Есть же уже инструменты для поиска уязвимостей, которыми проверяют приложение до релиза ->дыры закрыты->зачем беспокоиться лишний раз.
Не, ну если оно само будет прогнозировать и само себя проверять, уведомлять где дырка да еще и само себя фиксить(мечты-мечты), то это круто, конечно.

Это скорее к связкам SCA+WAF. Там да — пока потенциальные уязвимости не закрыты, их прицельно нюхает и блочит WAF.
Но к ML это никакого отношения не имеет, впрочем.

Знание что возможна атака очень ценно. так как большиство аттак успешны не потому что получилось взломать защите, а частино потому что про аттаку вовремя не узнали.

Знание возможного типа аттаки, позволяет быстро и просто включить нужную защиту.

Проблема с защитой что ее очень дорого постоянно держать включенной, так как она требует ресурсов сервера, людей и прочего. Плюс всегда есть погрешность или шум, когда нормальные пользователи блокируется из-за защиты.

Поэтому одно из оптимальные решений, держать ligh-weght с минимальной погрештностью постоянно включенной и включать определенную strong protection только в определенные моменты.

> Да — анализ логов позволяет понять.уведомить, что возможно будет аттака и в какой области.

Ну вот у меня есть «веб сервер» — socat отдающий хоумпагу на «HTML4». Мне постоянно ломятся боты ломать мой PhpMyAdmin. Вопрос — будет ли на мой несуществующий PhpMyAdmin атака? (%

О, Zenedge! Разве у вас не хватает спецов по машинному обучению? Я думал Вы все в Калифорнии, а оказывается и в Украине есть «корни».

P.S. И кстати, Zenedge стартап довольно известный.

Классно что Zenedge уже и в Украине знают..

Но это идея и тема не связанна с Zenedge. Zenedge работает в Web Security и именно в защите от аттак.

А Machine learning Web security планируется работать в сфере Secuirty analytics and alerts. Так сказать предсказание возможности и типа аттаки.

А что там есть некие известные шаблоны-паттерны? Или это сродни попытке прилепить предсказание к биржам?

Да, есть известные шаблоны
к примеру
capec.mitre.org/...ata/definitions/1000.html

Не 100% связанная, но тоже из похожей области
www.spiderfoot.net/documentation/#overview

Да, темка интересная и вероятно можно некое предсказание сделать. Самый простой путь строится скользящее распределение неких параметров, выделяемых из входных данных. Строяться эталонные для конкретных точек в инет-пространстве (сайтов, адрессов). Затем по Колмогорову-Смирнову считается расстояние. На большой базе с атками и без строятся распределения расстояний и определяется порог принятия решения (и опосредовано вероятность атаки, точнее вероятности ошибок первого и второго рода). Но это самый тупой и простой путь, фактически без machine learning.

Но, просто как совет. Уберите из требований

Web безопасности, типа что такое nginx access log или что такое sql injection.
Вероятность, что найдете такого специалиста в Украине очень низка. А вот того, кто захотел бы войти в эту тему с базой в математике и machine learning вполне.
Ну а линух или винда в данном контексте значения не имеют. Типичные продукты, что используют в этой области одинаково работают и там и там.
Ну и будьде готовы, что первые полгода чел будет вникать в тему безопасности.

З.Ы. Еще пол-года, год назад я вероятно бы попробовал бы к вам подключиться, но сейчас уже куча работы есть.

Спасибо. Очень полезный и дельный совет!

распределение неких параметров, выделяемых из входных данных.
будьде готовы, что первые полгода чел будет вникать в тему безопасности.
:))

Ну даю. Но я все-таки знаю Zenedge по своему проекту)

понимание основ ит безованисти
Страшный зверь. Клетку не открывать, после полуночи не кормить.

О, давно стартапов не было)))

Подписаться на комментарии