Big Data дайджест #0
В последнее время о Big Data не слышал только ленивый. В нашей компании EPAM Systems накопилось много опыта, связанного с обработкой больших объемов данных, и, разумеется, периодически мы делимся им как с новичками, так и с опытными коллегами.
Эта подборка ссылок разделена на 2 части: для начинающих и для продвинутых. Надеюсь, собранные материалы будут для вас полезными и интересными.
Я планирую выпускать дайджест раз в месяц. Задать вопрос, предложить тему или поделиться своими ссылками вы можете в комментариях.
Для начинающих
Лекция Андрея Себранта, директора по маркетингу сервисов, Яндекс
Что такое на самом деле Big Data — как кулинарные предпочтения влияют на вероятность удачного знакомства, что общего между плевком и записью в церковноприходской книге и чем всё это похоже на поиск Яндекса? Доступное объяснение основных принципов, рассчитанное на широкую аудиторию.
Что означает термин Big Data?
На этот, казалось бы, простой вопрос ответили более 40 экспертов из разных отраслей и сфер бизнеса: от медиа и fashion-индустрии, до медицины и автомобилестроения. Поверьте, их ответы вас удивят (подборка цитат на англ.)
Как быть с большими данными?
Если накопленная вами информация дает вам чувство комфорта и успеха, то, скорее всего, ваша интерпретация этой информации неверна. В этой на удивление трогательной лекции Сюзан Этлингер объясняет, почему при получении всё больших и больших объёмов информации нам необходимо углубить свои навыки критического мышления. И о том, как нелегко перейти от подсчёта вещей к их осмыслению.
Презентация на английском, с русскими субтитрами.
Для продвинутых
Quick Answers From Large Data — небольшой практикум по Tempe
Tempe — интерактивная система для изучения больших наборов данных. Этот инструмент помогает с большой скоростью проанализировать большие наборы данных и облегчает понимание этих самых данных. (Видео-практикум на английском).
An Explanation of the Hadoop Ecosystem
Большинство людей полагают, что Hadoop — это и есть большие данные. На самом же деле Big Data существовали ранее, и по-прежнему могут существовать без Hadoop. Из этой статьи вы узнаете о других проектах, помимо различных модулей Hadoop, которые также могут выполнять необходимые функции.
Статья-introduction на английском.
Hadoop Distributions — Cloudera vs Hortonworks vs MapR vs Intel
В этом видео представлен обзор разных решений Hadoop, таких как Cloudera, Hortonworks, MapR и Intel, а также общие сведения о Hadoop ecosystem.
Видео-лекция на английском.
Курс «Process Mining: Data science in Action»
Process mining (глубинный анализ процессов) — это отсутствующее звено между model-based process analysis (анализом процессов, проводимым на основе моделей) и data-oriented analysis (информационно-ориентированный анализ). Этот курс расширит ваше представление о data science (наука о данных), и поможет применить эти знания для анализа и улучшения процессов в любых доменах бизнеса.
Все материалы курса, в том числе практические задания, — на английском.
Курс «Intro to Hadoop and MapReduce: How to Process Big Data»
Проект Apache ™ Hadoop® разрабатывает программное обеспечение с открытым исходным кодом для надежной, масштабируемой, распределенной вычислительной техники. Этот курс поможет вам узнать основные принципы, лежащие в основе разработки, и на их базе написать собственные программы, которые помогут решать актуальные для вас проблемы.
Все материалы курса на английском.
Блоги технологических лидеров Big Data:
— Microsoft
— Oracle
— Amazon
17 коментарів
Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.