Python conf in Kharkiv, Nov 16 with Intel, Elastic engineering leaders. Prices go up 21.10

Big Data дайджест #0

В последнее время о Big Data не слышал только ленивый. В нашей компании EPAM Systems накопилось много опыта, связанного с обработкой больших объемов данных, и, разумеется, периодически мы делимся им как с новичками, так и с опытными коллегами.

Эта подборка ссылок разделена на 2 части: для начинающих и для продвинутых. Надеюсь, собранные материалы будут для вас полезными и интересными.

Я планирую выпускать дайджест раз в месяц. Задать вопрос, предложить тему или поделиться своими ссылками вы можете в комментариях.

Для начинающих

Лекция Андрея Себранта, директора по маркетингу сервисов, Яндекс
Что такое на самом деле Big Data — как кулинарные предпочтения влияют на вероятность удачного знакомства, что общего между плевком и записью в церковноприходской книге и чем всё это похоже на поиск Яндекса? Доступное объяснение основных принципов, рассчитанное на широкую аудиторию.

Что означает термин Big Data?
На этот, казалось бы, простой вопрос ответили более 40 экспертов из разных отраслей и сфер бизнеса: от медиа и fashion-индустрии, до медицины и автомобилестроения. Поверьте, их ответы вас удивят (подборка цитат на англ.)

Как быть с большими данными?
Если накопленная вами информация дает вам чувство комфорта и успеха, то, скорее всего, ваша интерпретация этой информации неверна. В этой на удивление трогательной лекции Сюзан Этлингер объясняет, почему при получении всё больших и больших объёмов информации нам необходимо углубить свои навыки критического мышления. И о том, как нелегко перейти от подсчёта вещей к их осмыслению.
Презентация на английском, с русскими субтитрами.

Для продвинутых

Quick Answers From Large Data — небольшой практикум по Tempe
Tempe — интерактивная система для изучения больших наборов данных. Этот инструмент помогает с большой скоростью проанализировать большие наборы данных и облегчает понимание этих самых данных. (Видео-практикум на английском).

An Explanation of the Hadoop Ecosystem
Большинство людей полагают, что Hadoop — это и есть большие данные. На самом же деле Big Data существовали ранее, и по-прежнему могут существовать без Hadoop. Из этой статьи вы узнаете о других проектах, помимо различных модулей Hadoop, которые также могут выполнять необходимые функции.
Статья-introduction на английском.

Hadoop Distributions — Cloudera vs Hortonworks vs MapR vs Intel
В этом видео представлен обзор разных решений Hadoop, таких как Cloudera, Hortonworks, MapR и Intel, а также общие сведения о Hadoop ecosystem.
Видео-лекция на английском.

Курс «Process Mining: Data science in Action»
Process mining (глубинный анализ процессов) — это отсутствующее звено между model-based process analysis (анализом процессов, проводимым на основе моделей) и data-oriented analysis (информационно-ориентированный анализ). Этот курс расширит ваше представление о data science (наука о данных), и поможет применить эти знания для анализа и улучшения процессов в любых доменах бизнеса.
Все материалы курса, в том числе практические задания, — на английском.

Курс «Intro to Hadoop and MapReduce: How to Process Big Data»
Проект Apache ™ Hadoop® разрабатывает программное обеспечение с открытым исходным кодом для надежной, масштабируемой, распределенной вычислительной техники. Этот курс поможет вам узнать основные принципы, лежащие в основе разработки, и на их базе написать собственные программы, которые помогут решать актуальные для вас проблемы.
Все материалы курса на английском.

Блоги технологических лидеров Big Data:
— Microsoft
— Oracle
— Amazon


LinkedIn

17 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

Вітаю усіх! Чи може хтось порекомендувать спікера по Big Data? Ми хочемо запросити цікавого лектора в наш унірсітет, НТУУ «КПІ», місто Київ, щоб він розповів що це таке, і з чим це їдять. Чи знає хтось таких людей і де їх можна шукати?

Повесте отдельную тему, с тем, что вы от него хотите и что можете ему предложить. Тут таких человек с 10 есть.

Как не крути, но опять пришли к выводу, что всё нужно засунуть в БД.
И казалось бы причем тут Hadoop?
И тут приходит Hive, сначала под MR, теперь под своим движком Tez.
Появляются продвинутые форматы: ORC, Parquet.
Появляется Impala.
Клиенту нужно делать update/delete?
Сделаем — сказали в Hortonworks и сделали delta файлы с процессом merge.
(hortonworks.com/...ctions-hdp-2-2)

Как не крути, но опять пришли к выводу, что всё нужно засунуть в БД.
не «засунуть в БД», а прикрутить снаружи нтерфейс, похожий на то, к чему привыкли прользователи реляционных СУБД.

Нет никаких упоминаний об Impala(impala.io) — real time SQL on Hadoop.
Вот публикация с прошедшего CIDR 2015:
www.cidrdb.org/...R15_Paper28.pdf

Спасибо, буду следить за дайджестом. Полагаю, у вас или ваших команд есть опыт создания Big Data решений, есть несколько вопросов:
1) Насколько часто в Big Data проектах используется Machine Learning, а не просто ETL?
2) Какие «реализации» Хадупа вы чаще используете? В чем их преимущества?
3) На каком языке пишете программы под Хадуп? Используете ли что-нибудь помимо Java?
4) Сложно ли поднять кластер под Хадуп? Какие нужны вложения и какие есть сложности и подводные камни?

1) Из своих практических задач редко видел Machine Learning, поскольку ETL прост для многих разработчиков. Максимально, что я встречал — байесовская фильтрация и метод cингулярного разложение.

2) Класические. Меньше проблем со «специфическими», которые еще нужно разобрать, стоят ли они того.

3) Java, JRuby. Была попытка с RHadoop, но что то не сложилось (уже не помню в чем там был затык).

4) Нет, особенно, если есть готовые роли/кукбуки (Ansible/Chef/Puppet/Salt) свои или можно взять вендорные (которые можно модифицировать, если вдруг не совсем то). Также есть Amazon EMR, которые сам разворачивает Hadoop кластер по заданным мощностям, обрабатывает задачу и тушит ресурсы, тем самым экономя деньги: платите только за рабочее время EC2 + хранение на S3.

Спасибо за ответ. По второму пункту хочу уточнить, какие именно «классические»? Cloudera, Hortonworks, MapR, что-то еще?

Только мазахисты ставят Хадуп из исходников.

Действительно, это невероятно тяжелая задача (особенно, если это делает DevOps утилита):

wget apache.volia.net/...op-2.6.0.tar.gz
tar -xzf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0/ /opt

Дело не в «сложности» установки, а в поддержке, мониторинге.
Хотел бы я посмотреть как вы управляете кластером из сотни машин.

Используете ли Вы:
Hive, HBase, Pig, Flume, Spark, Kafka?

Hive, Spark, Kafka (+ ZooKeeper) — да. Хотя сейчас с Kafka переходим на AWS Kinesis.
HBase, Pig, Flume — нет

У нас еще есть CoreOS + Docker + Mesos + Marathon + Cronos. Но это только показатель, что не нужно так часто давать волю команде разработчиков :)

Cloudera или Hortonworks. Первый гибче.

Кто сказал?
cwiki.apache.org/...omClientService
Кастом делать не проблема.
CDH более тяжелый.
Ambari является полностью открытым продуктом и использует только открытые технологии под себя его можно подогнать как угодно.
Огромным плюсом для дева есть наличие в составе openstack hortonworks.com/...labs/openstack что позволяет запускать обработку данных по запросу + разворачиванию разных сред для разработки, тестов.

Подписаться на комментарии