×Закрыть

((статистически) значимый) линкдамп #178

Итак, по просьбам трудящихся — авторский линкдамп!

Для затравки — несколько полезных технологий от Yahoo!:

  • Yahoo! Pipes — The mashup tool! Просто удивительно, что на DOU за год так почти и не обсуждали такую замечательную вещь. Обязательно посмотрите на примеры и поищите Yahoo! Pipes в интернетах — найдете массу потрясающих mashup-ов!
  • Yahoo! Query Language — (похожий на) SQL интерфейс к чему угодно на вебе. Особенно удобен, если нужно тянуть данные из нескольких Yahoo! API одновременно. Впрочем, теперь и сторонние сайты могут тоже открывать свои API в виде таблиц YQL (см. YQL Open Data Tables), а YQL Execute позволяет даже выполнять код на JavaScript в запросе. И, конечно, самая красота — это YQL Console, где можно поиграть с данными отовсюду в интерактивном режиме.
    Быстрый пример — список новых пользователей DOU:
    select a.content, p.content from html where url='http://www.developers.org.ua/members' and xpath='//div[@class="members"]/ul/li'<!--formatted-->
  • Yahoo! Search BOSS — поисковый API. Фактически, Yahoo! открывает доступ к своему индексу — например, можно посмотреть, кто ссылается на ваш сайт. (Тут примера не будет, т.к. все просто, но нужно зарегистрировать свой appid. Пробуйте сами.)

Теперь тема недели — статистика:

  • Тема навеяна появлением на реддите очередного злобного поста от Зеда Шоу: Programmers Need To Learn Statistics Or I Will Kill Them All. Пост весьма по делу, т.к. во-первых, Зед очень здоровый чувак, а во-вторых, Industrial Revolution of Data, о которой так долго говорил О’Райли, давно свершилась.
  • В подтверждение — еще одна статья: The Three Sexy Skills of Data Geeks, и цитата:
    ...with the Age of Data upon us, those who can model, munge, and visually communicate data — call us statisticians or data geeks — are a hot commodity.
    (весь блог, кстати, просто отменный).
  • И Зед, и Dataspora упоминают в своих постах замечательный пакет R: The R Project for Statistical Computing. Грубо говоря, это жуткий, но симпатичный язык программирования и набор библиотек для работы с данными (иными словами — Excel для настоящих пацанов). Прежде всего, впечатляют возможности R по визуализации данных и огромное количество сторонних библиотек: CRAN — аналог знаменитого перлового CPAN-a.
  • Еще один плюс R — масса прекрасной документации. Ее так много, что рекомендовать что-то конкретное затруднительно. Для новичков, пожалуй, можно начать с simpleR — Using R for Introductory Statistics или icebreakeR. На русском есть серия обширных статей Анализ данных с R.
  • And now for something completely different (C) — The speed, size and dependability of programming languages. Интересная статья, вечно животрепещущая (на LtU) тема, и прекрасная графика. Кстати, то же самое делается на R за несколько минут! Навскидку — похожая картинка (только без замечательных звездочек) всего в трех строчках R:
    library(lattice) dd <- read.csv("<a href="http://alioth.debian.org/scm/viewvc.php/*checkout*/shootout/website/websites/gp4/data/data.csv?root=shootout" target="_blank">alioth.debian.org/…<wbr></wbr>ta/data.csv?root=shootout</a>") xyplot(size.B.~log2(cpu.s.)|lang, data=dd)
    (Картинку не привожу, чтобы было любопытно попробовать самостоятельно).

Популярные темы на форуме DOU:

Ну, и пару слов от себя:

Меня, кстати, напрягают такие ярлыки: «уехал» (еще лучше — «свалил», «эмигрировал», «покинул родину») — значит, «не наш»; объективности от такого кадра ждать не приходится. Аналогично, те, кто использует свои институтские знания в работе — «эльфы», и их единицы. Ну блииин. Ребята, да с вашей профессией можно работать где угодно. Само понятие «уехать» теряет смысл. Из Житомира в Киев — это «свалить»? Нет? А в Москву? А в Прагу? Где начинается это «свалить»? Точно так же с математикой — ее в нашей работе ровно столько, сколько мы способны увидеть. Вот классический пример из прекрасной статьи Richard Feynman and The Connection Machine:
By the end of that summer of 1983, Richard had completed his analysis of the behavior of the router, and much to our surprise and amusement, he presented his answer in the form of a set of partial differential equations. To a physicist this may seem natural, but to a computer designer, treating a set of boolean circuits as a continuous, differentiable system is a bit strange.
И вот еще Джоэл: «Google uses Bayesian filtering the way Microsoft uses the if statement». Ага. Ну Фейнман-то точно «эльф», да и гугловцы тоже, скажет наш программист, и вернется к своему коду: if (flag == true || (flag == false && count > MAX_COUNT)) { ... И нахрена тут bayesian filtering?

Уфф. Ну, пожалуй, хватит для первого раза — надеюсь, я не сильно тут всех нагрузил... Ставьте ваши зирочки — может, сподоблюсь на продолжение, если хорошо пойдет:)

LinkedIn

12 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

от мені теж цікаво, я сюди підкруити цей фільтр і чи не оптимальніше буде іфами?

Похоже что формулу с ифами Мотус придумал сам, и к сожалению не обяснил что за флаг и что за каунт.По крайней мере в оригинальной статье Джоэля такой формулы не видно. Поэтому совсем неочевидно, можно ли равноценно применить данное условие вместо наивного Баесовского фильтра, на который Мотус ссылается. И вообще я так понял что Джоэль имелл ввиду что гугловцы мыслят абстрактнее чем их собратьа из Майкрософт: для одного и того же алгоритма Баесовского фильтра в гугле сделают фреймворк для решения подобных задач, и потом его применят для конкретных случаев, а в Майкрософт будут копипастить ифы с небольшими изменениями.

Оптимальнее — это когда легко понять что делает код: Р

if (flag == true|| (flag == false && count > MAX_COUNT)) {... И нахрена тут bayesian filtering?

от мені теж цікаво, я сюди підкруити цей фільтр і чи не оптимальніше буде іфами?

Чувак в Programmers Need To Learn Statistics Or I Will Kill Them All просто пар випустив, видно імбецили дістали. Важко сприймати серйозно.

Очень интересный пост. Радует что не просто flat list of links, a есть бекграунд и куча контекстных ссылок на полeзные статьи с других блогов. Keep up!

Уточнение — я б всё-таки сказал, что CRAN — аналог CTAN. Он был первее.:)

О! Яху, а что у вас слышно по поводу выхода Bing, судя по статьям он больше не на Гугль нацелен, а на Яху

Я про Yahoo! Pipes даже статью на DOU под новый год писал, но она пропала из-за какого глюка движка.За подборку по статистике автору респект. Правда, R меня не пропер. Мне как-то надо было обработать некоторые данные и сделать их стат.анализ.В итоге проще оказалось сделать по старинке на Haskell (именно за счет предварительной обработки данных, хотя она вовсе не сложная была).Если бы статистика была сложнее, все равно обрабатывал сначала на Haskell, а потом анализировал на R.И стиль поста понравился. Так держать:)

Спасибо большое, интересная штука этот «пакет R». Пойду искать по сусекам давно забытые конспекты по статистике и мат. анализу

R — такой себе Матлаб для анализа и визуализации данных.Правда теория анализа данных, преподаваемая мне в университете с этим анализом данных имеет общим только базовые термины.

Класс. Надо учить (вспоминать забытую?) статистику, 100%.

За ссылки по R спасибо, как-то у самого руки все не доходят. А пайпы уже такой боян, что и не понятно, зачем их обсуждать.:))

Подписаться на комментарии