((статистически) значимый) линкдамп #178
Итак, по просьбам трудящихся — авторский линкдамп!
Для затравки — несколько полезных технологий от Yahoo!:
- Yahoo! Pipes — The mashup tool! Просто удивительно, что на DOU за год так почти и не обсуждали такую замечательную вещь. Обязательно посмотрите на примеры и поищите Yahoo! Pipes в интернетах — найдете массу потрясающих mashup-ов!
- Yahoo! Query Language — (похожий на) SQL интерфейс к чему угодно на вебе. Особенно удобен, если нужно тянуть данные из нескольких Yahoo! API одновременно. Впрочем, теперь и сторонние сайты могут тоже открывать свои API в виде таблиц YQL (см. YQL Open Data Tables), а YQL Execute позволяет даже выполнять код на JavaScript в запросе. И, конечно, самая красота — это YQL Console, где можно поиграть с данными отовсюду в интерактивном режиме.
Быстрый пример — список новых пользователей DOU:select a.content, p.content from html where url='http://www.developers.org.ua/members' and xpath='//div[@class="members"]/ul/li'<!--formatted-->
- Yahoo! Search BOSS — поисковый API. Фактически, Yahoo! открывает доступ к своему индексу — например, можно посмотреть, кто ссылается на ваш сайт. (Тут примера не будет, т.к. все просто, но нужно зарегистрировать свой appid. Пробуйте сами.)
Теперь тема недели — статистика:
- Тема навеяна появлением на реддите очередного злобного поста от Зеда Шоу: Programmers Need To Learn Statistics Or I Will Kill Them All. Пост весьма по делу, т.к. во-первых, Зед очень здоровый чувак, а во-вторых, Industrial Revolution of Data, о которой так долго говорил О’Райли, давно свершилась.
- В подтверждение — еще одна статья: The Three Sexy Skills of Data Geeks, и цитата:
...with the Age of Data upon us, those who can model, munge, and visually communicate data — call us statisticians or data geeks — are a hot commodity.
(весь блог, кстати, просто отменный).
- И Зед, и Dataspora упоминают в своих постах замечательный пакет R: The R Project for Statistical Computing. Грубо говоря, это
жуткий, но симпатичныйязык программирования и набор библиотек для работы с данными (иными словами — Excel для настоящих пацанов). Прежде всего, впечатляют возможности R по визуализации данных и огромное количество сторонних библиотек: CRAN — аналог знаменитого перлового CPAN-a. - Еще один плюс R — масса прекрасной документации. Ее так много, что рекомендовать что-то конкретное затруднительно. Для новичков, пожалуй, можно начать с simpleR — Using R for Introductory Statistics или icebreakeR. На русском есть серия обширных статей Анализ данных с R.
- And now for something completely different (C) — The speed, size and dependability of programming languages. Интересная статья, вечно животрепещущая (на LtU) тема, и прекрасная графика. Кстати, то же самое делается на R за несколько минут! Навскидку — похожая картинка (только без замечательных звездочек) всего в трех строчках R:
library(lattice) dd <- read.csv("http://alioth.debian.org/scm/viewvc.php/*checkout*/shootout/website/websites/gp4/data/data.csv?root=shootout") xyplot(size.B.~log2(cpu.s.)|lang, data=dd) <!--formatted-->
(Картинку не привожу, чтобы было любопытно попробовать самостоятельно).
Популярные темы на форуме DOU:
- Пост Тренировки по Славяно-Гопницкому бою в Киеве еще раз доказывает: спам работает! Слава роботам!
- Куда податься без опыта работы в команде? В команду, разумеется.
- Работа с целью получения опыта — продолжает вечные темы: «эльфы» vs. «быдлокодеры» (орки?) и «ехать или не ехать?». Что характерно, наиболее активны «не эльфы», которые «не ездили».. уже 244 поста, однако...
Ну, и пару слов от себя:
Меня, кстати, напрягают такие ярлыки: «уехал» (еще лучше — «свалил», «эмигрировал», «покинул родину») — значит, «не наш»; объективности от такого кадра ждать не приходится. Аналогично, те, кто использует свои институтские знания в работе — «эльфы», и их единицы. Ну блииин. Ребята, да с вашей профессией можно работать где угодно. Само понятие «уехать» теряет смысл. Из Житомира в Киев — это «свалить»? Нет? А в Москву? А в Прагу? Где начинается это «свалить»? Точно так же с математикой — ее в нашей работе ровно столько, сколько мы способны увидеть. Вот классический пример из прекрасной статьи Richard Feynman and The Connection Machine:By the end of that summer of 1983, Richard had completed his analysis of the behavior of the router, and much to our surprise and amusement, he presented his answer in the form of a set of partial differential equations. To a physicist this may seem natural, but to a computer designer, treating a set of boolean circuits as a continuous, differentiable system is a bit strange.
И вот еще Джоэл: «Google uses Bayesian filtering the way Microsoft uses the if statement». Ага. Ну Фейнман-то точно «эльф», да и гугловцы тоже, скажет наш программист, и вернется к своему коду: if (flag == true || (flag == false && count > MAX_COUNT)) { ...
И нахрена тут bayesian filtering?
Уфф. Ну, пожалуй, хватит для первого раза — надеюсь, я не сильно тут всех нагрузил... Ставьте ваши зирочки — может, сподоблюсь на продолжение, если хорошо пойдет:)
Все про українське ІТ в телеграмі — підписуйтеся на канал DOU
12 коментарів
Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.