.NET Fest: полная программа конференции на сайте. Присоединяйся к самому большому .NET ивенту
×Закрыть

data mining

Покажи класс в своем data mining

Here.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Кривое промо именно для того и пишется чтобы вы тему апали мне. То что мускул не язык программирования это понятно:)

Ой, ну так мы тебе и поверили, ламерок.

Кривое промо именно для того и пишется чтобы вы тему апали мне. То что мускул не язык программирования это понятно:) Спасибо всем за интерес видно что на этом форуме собрались люди которые разбираются неплохо. Даже не ожидал таких бурных дискусий. Кому что нужно стучим заказываем icq: 781741.

Я не совсем понял какие именно улучшения и какой именно алгоритм имеется в виду...

Улучшения по автоматическому подбору количества кластеров в качестве предварительного этапа кластеризации (это относится к k-means).

То есть мне кажеться что необходимым элементом подобных статей/докладов/документации должно быть сравнение по эфективности, производительности, маштабируемости с существующими алгоритмами и их реализациями.

Все верно, на сайте информация подана в упрощенном виде, так как все-таки это в первую очередь технический блог, а не научный. А все сравнения, обоснование эффективности, недостатки и преимущества находятся в научных публикациях.


Фактически, предложенные улучшения являются предварительным этапом к непостредственно выполнению алгоритма.

Я не совсем понял какие именно улучшения и какой именно алгоритм имеется в виду...

K-means очень неточный, если вы не знаете количество кластеров и начальные условия.
Ну у этих проблем тоже есть workarounds, например вычислять порог вхождения в кластер, строить иерархию кластеров и потом выбирать нужный нам уровень иерархии, рандомизировать порядок поступления обьектов в алгоритм (что бы устранить чувствительность к порядку элементов анализируемых данных.) и т.д.

Я просто имел в виду следующую ситуацию: предположим я потенциальный пользователь твоей алгоритма/библиотеки, я захожу на сайт и вижу что ты реализовал какой то новый алгоритм, но я не знаю насколько реализация эфективна, насколько она производительна, и т.д. То есть мне кажеться что необходимым элементом подобных статей/докладов/документации должно быть сравнение по эфективности, производительности, маштабируемости с существующими алгоритмами и их реализациями.

P.S. Я думаю, что раз мы уже заофтопили тему, можно ее выделить в отдельный тред.

то есть популярные обьекты выше ранжированы нежели узкоспециализированые даже хорошо изложены — хороший пример тут например попсовая и не уникальная в плане знаний статья в блоге о iPad может быть круче никального серьезного научного исследования

Спасибо за комментарии. Здесь больше имелось ввиду выделение информационного шума внутри отдельно взятой веб-страницы, т.е. практическая задача звучит как «найти основной контент и удалить все остальное». Знаю, сейчас подобную задачу пытаются решить в приложении — браузере для слепых, где очень критично определить основной контент, чтобы не зачитывать весь информационный мусор, а только информацию, ради которой человек пришел на конкретную веб-страницу.

Правда не сильно видно результаты тестирования алгоритмов и сравнения их с класическими, насколько они производительны, на каких обьемах могут работать и т.д.

Фактически, предложенные улучшения являются предварительным этапом к непостредственно выполнению алгоритма. K-means очень неточный, если вы не знаете количество кластеров и начальные условия. Поэтому очень много времени (теоретически) тратится на анализ данных. В нашем случае этот процесс можно немного автоматизировать. Небольше уточнение — проверять можно не только на нормальный закон распределения, но и на другие типы — линейный, треугольный и т.д. Но в реальном мире в любом случае без экспертных знаний не обойтись.

А, сорри, не совсем понял мысль.

так я это же и написал:)

а вот это показывает... намного интереснее
Как раз таки делает. Эта реализация использовалась, например, здесь (практический результат тоже можно увидеть, расширенная статья с комментариями).

так просто имплементация известного алгоритма класс не показывает, разве что класс кодера, насколько хороший у него стиль кодирования

Мне кажеться что ценность выше указанных результатов в интересных приминениях алгоритмов кластеризации. Ну и еще вроде описан оригинальный алгоритм кластеризации:

В своей работе «Метод кластеризации на основе кластеров, распределенных по нормальному закону» [4] было предложено проверять закон распределения объектов внутри кластеров. Если кластер распределен по определенному закону, то его оставляем, если нет — делим на два дочерних и процесс проверки продолжается до тех пор, пока не будут найдены все кластеры, распределенные по определенному закону либо, когда превысим лимит на количество кластеров. Таким образом мы решаем проблему количества кластеров. Проблема выбора начальных точек решается путем задания максимально отделенных точек внутри бОльшего кластера в качестве начальных центров. На тестовых данных метод показал 95% точность.

Правда не сильно видно результаты тестирования алгоритмов и сравнения их с класическими, насколько они производительны, на каких обьемах могут работать и т.д. Но вообще вполне себе креатив.

на тему ядерной физики..., но это отнюдь не делает это исследование шумом... чего иногда не скажешь об статьях iPad

P.S. Вопрос ведь стоял в том, чтобы показать класс;)

так просто имплементация известного алгоритма класс не показывает, разве что класс кодера, насколько хороший у него стиль кодирования,

а вот это показывает... намного интереснее

Как раз таки делает. Эта реализация использовалась, например, здесь (практический результат тоже можно увидеть, расширенная статья с комментариями).

Пару коментов если вы не против:

Данный подход позволяет отсеивать не основной контент (top, bottom, see also), так как сообщества, полученные из терминов данных блоков будут иметь маленький ранг, и, соответственно, будут отсеяны в ходе вычислений.
это известный факт, который называеться проблемой хвоста... en.wikipedia.org/...i/The_Long_Tail

то есть популярные обьекты выше ранжированы нежели узкоспециализированые даже хорошо изложены — хороший пример тут например попсовая и не уникальная в плане знаний статья в блоге о iPad может быть круче никального серьезного научного исследования

вопрос скорее был не в реализации алгоритма... то что в нем введена стохастическая модель не делает его реализацию полезной:)

Как раз таки делает. Эта реализация использовалась, например, здесь (практический результат тоже можно увидеть, расширенная статья с комментариями).

то что это первая релизация на C# может конечно и круто, но это тоже не сильно близко имеет отношение к Data mining в жизни... Вы же не думаете что в жизни специалисты Data mining занимаються кластеризацией (это кстати только один из этапов Data mining)?

Опять таки, имеет и очень большое. Только ленивый сейчас не использует методы кластеризации где только можно — информационный поиск, банки, фрауд менеджмент, различные системы принятий решений, разбиение объектов, image processing и т.д.

В большинстве случаев эти алгоритмы уже закодированы и включены в кучу мат пакетов... куда важнее что вы можете спомощью него раскопать, какие фичи будете использовать... как класифицировать обьекты и использовать кластер...

Я это не отрицаю. Кроме того, что есть реализация, нужно иметь понимание, как это использовать.

Но вы сами написали:

хотя конечно наверное с образовательной точки зрения полезно написать свой ODBC, OLE DB итд... что бы понять как устроено

Пока не написал сам ручками несколько методов, не пощупал кучу примеров, полного понимания процесса принятия решения не было.
Есть системы, где это все реализовано, но они стоят достаточно дорого. Кроме того, был приятно удивлен, что в той же Виннице некоторые компании используют data mining in production (OLAP, корзина покупателя, кластеризация + классификация).

P.S. Вопрос ведь стоял в том, чтобы показать класс;)

Насчет Data mining в университетах вот пример запроса Гугля — не сильно полистав я нашел 3 вуза
www.google.com/search hl=en& tbs=lr%3Alang_1ru& as_q=Data+mining+%D1%83%D0%BD%D0%B8%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%82%D0%B5%D1%82+%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0& as_epq=& as_oq=& as_eq=& num=10& lr=lang_ru& as_filetype=& ft=i& as_sitesearch=& as_qdr=all& as_rights=& as_occt=any& cr=countryRU& as_nlo=& as_nhi=& safe=images
этот запрос позволяет увидеть в снипетах что не так плохо с Data mining в КПИ (для Шевченко не нашел)
www.google.com/#hl=en& q=site%3Antu-kpi.kiev.ua+%22data+mining%22& aq=f& aqi=& aql=& oq=& gs_rfai=& fp=56d98b4494b0fec2
вопрос скорее был не в реализации алгоритма... то что в нем введена стохастическая модель не делает его реализацию полезной:)
то что это первая релизация на C# может конечно и круто, но это тоже не сильно близко имеет отношение к Data mining в жизни...
Вы же не думаете что в жизни специалисты Data mining занимаються кластеризацией (это кстати только один из этапов Data mining)?
В большинстве случаев эти алгоритмы уже закодированы и включены в кучу мат пакетов... куда важнее что вы можете спомощью него раскопать, какие фичи будете использовать... как класифицировать обьекты и использовать кластер...
а так это выглядит как написание нового провайдера БД в области решений для предприятий... само по себе это ничего не дает и не являеться решением...
хотя конечно наверное с образовательной точки зрения полезно написать свой ODBC, OLE DB итд... что бы понять как устроено, но ведь это не являеться решением бизнес задачи?

Приношу извинения за оф-топ в теме.


но все равно не ясно чем отличаеться Data mining от 5го курса университета

K-means — это общий (четкий) алгоритм, который имеет достаточно простой порядок действий. С-means — нечеткий, который вычисляет вероятности принадлежности к кластерам. Т.е. один и тот же объект может принадлежать к разным кластерам в равной степени, как это показано в классическом примере «бабочка». Менее описан в литературе.

А в чем финт запрограмировать алгоритм из Университетской программы?

Data Mining не входит в университетскую программу, разве что нейронные сети и нечеткие базы знаний, которые составляют малую часть данной технологии. Вторая причина в том, что, например, метод FP-trees в русскоязычном интернете два года назад не упоминался ни разу. Собственно, основной финт был в том, что никто не реализовал с-means на С# до этого (было что-то не совсем корректно работающее на java и matlab-проект).

не ясно чем отличаеться Data mining от 5го курса университета

Обычно объемом данных.

Сорри коррекция последней ссылки, это общий алгоритм, ваш да не много иначе пишеться:) странно en.wikipedia.org/...ans_clustering

но все равно не ясно чем отличаеться Data mining от 5го курса университета

А в чем финт запрограмировать алгоритм из Университетской программы?

Кстати, по англ в оригинале он называеться чуть-чуть иначе en.wikipedia.org/...eans_clustering

Як завжди... купа флуду і нічого по темі. Люди запропонували свої послуги, можете запропонувати роботу, маєте таке бажання... контактуйте.
Реально сумно робиться, наче адекватні люди, що не пост «Ищу работу/Предлагаю работу», набігає купа анонімів і починає флудити. Веселуха)
З.И. гоу виправляйте знаки пунктуації
З.И. И. згоден, що все-таки, «jQuery is a JavaScript framework».

З.И. И.И. так я теж анонім, не бачу сенсу ним не бути


Если это та поделка, которую я видел раньше, то я просил «класс», а не ее.

А сейчас портал лежит.

?

Если это та поделка, которую я видел раньше, то я просил «класс», а не ее.

А сейчас портал лежит.

сашенька, это типичный читатель твоего уютненького на хабре.

Подписаться на комментарии