Анатомия и физиология DOU в картинках: -)

гляньте, что я нарисовал:

DOU social graph

все очень глючно — в частности, кто на кого сколько раз ссылается, определяется тупо поиском имени в комментариях, поэтому, например, узел «Сергей» получает все линки, предназначающиеся для узла «Сергей Волошин», и т.д.:) когда построю языковую модель, буду сравнивать тексты в комментариях, тогда картинка будет точнее (и можно будет незалогиненых пользователей тоже показать).

размер вершины пропорционален числу постов от залогиненого пользователя, толщина ребра графа пропорциональна сумме упоминаний друг друга парой пользователей. ребра с весом < 4 отcекаются.

enjoy:)

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

таке. 50 самых активных пользователей (включая незарегистрировавшихся), и 250 самых сильных линков. видно, что теперь вершина «Сергей» уже не получает линков, предназачающихся для узла «Сергей Волошин», и т.п. ну и вообще, лучше видны тенденции — напр. оживленная переписка crypto5 — Rus, восходящая звезда Сеня Лютый и Emery Emerald, etc., etc.: -)

crypto5: таки да — я в очередной раз убеджаюсь, что простое лучше сложного:) не работает мой байес (точнее, работает, но оочень криво), а вот такая простая метрика, как процент совпадения триграмм, похоже, самое оно. дешево и сердито. сейчас сгружу форум и новую картинку сгенерю.

Ну если я правильно понял задачу, то ты хочешь анализируя текст постов, определить кто кого цитирует. Я думаю что можно построить модели языка каждого поста, а потом искать расстояние между этими моделями. Если бы я решал бы ее, то наверное бы сделал следующий алгоритм: — для каждого поста создаем Forward Index. Только храним там не слова, а фразы, длина которых выше какого то порога (я бы выбрал 3 слова) + вес фразы = f (ее длина). f я бы выбрал как f (x) = x ^ 3, что бы усилить роль длинных фраз. — для каждого поста, проходим по хронологически предыдущим постам в ветке, и ищем посты, расстояние между которыми и текущим постом больше нуля. Расстояние между постами и будет мерой цитируемости. Расстояние между постами = сумма весов общих фраз.

Как видишь я в нем забил на вероятности, но думаю что они бы только усложнили дело без увеличения качества, так как часть повторяющихся фраз в одном и том же посте, ничтожно мала.

crypto5: дык если бы было совсем очевидно, я и не брался б за это дело:), а что, у тебя есть какие-то идеи получше?, а за aot спасибо, обязательно посмотрю

то-то я думаю почему yahoo не пользуюсь

О, я в верхнем углу левом какой-то аутист что-ли, ни с кем не связан:)

Видимо бухаем с другими чуваками в углу схемы.

Очень неочевидно как такая модель может пригодиться для обозначенной тобой задачи. Кстати если интересуешься для POST русского языка есть отличная библиотека aot.ru.

crypto5:

Ну так что такое модель? Части речи, падежи, склонения?

я имел ввиду Language model. то, о чем ты говоришь, называется POST. впрочем, я сам в этом деле пока полный пень:)

Ну так что такое модель? Части речи, падежи, склонения?

crypto5: ну, модель я и так строю, ради этого все и затевалось., а в данном случае можно выделить из комментария цитаты и посмотреть, кого именно цитируют. тупо искать по тексту, во-первых, неинтересно, а во-вторых, в цитатах часто пропущены слова и предложения и пр., так что с моделью должно быть вернее — тем более любопытно потом сравнить, какой подход лучше.

Сашко: расположение вершин роли не играет — картинка вся на совести graphviz-a:)

О, я почти в центре, по правую сторону Макса Ищенко!

А что в данном случае языковая модель и зачем она нужна?

Сергей Волошин: дык на imgur я их загружал как png: -\

Вот только зачем использовать JPG формат для такого рода картинок: (

Постоянно в таких случаях вспоминаю комикс

Сергей Волошин: держи побольше.:) сорри, что imgur так беспощадно их сжимает., а древовидные комментарии это неспортивно — тогда и языковая модель ни к чему, все и так видно:)

crypto5: вот далась вам всем моя работа:) работы у меня навалом, и очень интересной, но я сейчас еще смотрю лекции по machine learning на videolectures.net, и в процессе учебы экспериментирую со всякими данными.

Интересно вышло:) В большем размере нет?

Наверное картинка была бы намного правильнее и красивее если бы на форуме комментарии были древовидными — было бы сразу видно кто кому отвечает.

Вас там в Яху вообще работой не загружают?; -)

Підписатись на коментарі