×

Розробка · 12 грудня 2012, 14:45 1795

Distributed Systems

Есть ли на доу супербизоны которые занимаются распределенными системами?

Какую литературу порекомендуете, какие алгоритмы лучше всего изучить? Расскажите о том как работается, какие проекты типичны для данной области, желательно поделиться опытом.

Теми: cloud, література

👍ПодобаєтьсяСподобалось0

До обраногоВ обраному0

Facebook

Twitter

LinkedIn

Ctrl + Enter

Ctrl + Enter

Олексій Орєшко Software engineer в Google 18.12.2012 23:04

Що читати залежить від того, які саме системи вам цікаві. А починати треба з класиків:

Непоганий оглядовий виступ.

Паралельні обчислення — то читайте про МапРедьюс тут або тут (обережно, це ПІАР), або пройдіть курс про паралельні обчислення.

Розподілене зберігання даних: Amazon Dynamo, Google Filesystem, BigTable (все знайдете в Гуглі).

Ще можна почитати про «службові» системи, без яких нічого цього б не було — наприклад, Чаббі (розподілений лок). Примітка: це варто читати тільки якщо зрозуміло нафіга ця система потрібна. Якщо поки неясно — не читайте.

Відповісти

Підтримати

anonymous 18.12.2012 11:18

-

Відповісти

Підтримати

Ivan Golovach Scala/Java TechLead в Moebius Lab (Real-Time Bidding) 16.12.2012 19:09

Привет. Все что ниже — персональное мнение на Распределенные Системы.

Я бы рассмотрел различные подходы:

1. теоретические концепции, лежащие в основе
— Casuality and Time: The Happens-Before Relation, Vector clock, consistent cut, matrix time,, distributed gc
— message passing primitives: Atomic Broadcast, Casual Broadcast, Totally Ordered Atomic Broadcast
— distributed shared memory consistency models and realizations over message passing: Linearisable, Secuentially consistent, Casaul Consistent
— mutual exclusion problem:
— wait-free algorithms: wait-free hierarchy, atomic operations, test-and-set, CAS
— imposibility in asynchronious systems: FLP Theorem, topological structure of asynchronious computability
— CAP Theorem, eventual consistency, BASE

— Faul tolerance: 2 Phase Commit, Paxos ???, Paxos commit

2. практические вопросы при реализации + инженерные задачи
— проблема персистентности: B+tree, LSM-tree, SSTable, Memtable, WAL
— проблема координации: Zookeeper, Atomic Broadcast, notification services
— распределенные структуры данных: очереди, топики, множества, очереди с приоритетом

— distributed hash table: Amazon Dynamo, Project Voldemor, consistent hashing

3. data storage classification
— Row-oriented storage
— Collumn-oriented storage
— Key/Value stores: Amazon Dynamo, Project Voldemor, Riak, Redis,

— Document databases

4. моделирования структуры данных/состояния/поведения
— Реляционная модель: ER-диаграммы, отношение один-ко-многим, отношение многие-ко-многим, нормализация
— Distributed Shared Memory
— Messaging: Queue/Topic, publish/subscribe
— Map/Reduce:

— Actor model:

5. проблемы бизнеса
— data intensive stream processing (stock exchange data analisis: IMDG:Coherence, TupleSpace/Linda:Gigaspaces)
— event processing (clickstream: )
— semi-structured data retrieval, Extract+Transform+Load (Map/Reduce:Hadoop, Hive, Pig)
— high avaliable partition tolerant low latency storage (?: Amazon Dynamo)
— near real-time query system (advertisement system: ?)
— TPC-C/TPC-E = OLTP benchmark

— TPC-H/TPC-DS = decision support benchmark

P.S. Версия сырая, буду дописывать

Відповісти

Підтримати

reality_hacker 16.12.2012 20:28

проблема персистентности: B+tree, LSM-tree, SSTable, Memtable, WAL

это никаким макаром не распределенные системы

ну и главная критика — куча теории, а практически распространенных сценариев особо нету: вроде фронтенд за лоадбалансером с расшардженной ДБ, или map reduce на хадупе, т.е. студенты после курсов не будут иметь никаких практических навыков.

Відповісти

Підтримати

ScorpZ Lapshov C++/C# && other programmer в AMC Bridge 16.12.2012 22:25

Я бы добавил сюда еще бы и паттерны проектирования.

Все таки есть общеизвестные архитектурные паттерны для таких систем, и изобретать мега-велосипед , для такого рода задач довольно таки опасно...

Відповісти

Підтримати

Ivan Golovach Scala/Java TechLead в Moebius Lab (Real-Time Bidding) 17.12.2012 00:29

Да, стоит подобрать «классическую подборку» шаблонов. Как-то явно не сталкивался, но возможно
1. Pipes and Filters
2. Распределенный портфель задач
3. Tuple Space
4. ?

Відповісти

Підтримати

Ivan Pomidorov 17.12.2012 12:03

Еще неплохо было бы дать обзор существующих систем, типа hadoop, lucene и прочих.

Відповісти

Підтримати

Grez 17.12.2012 19:10

Ого сколько умных слов...

Відповісти

Підтримати

ScorpZ Lapshov C++/C# && other programmer в AMC Bridge 17.12.2012 19:15

Я извиняюсь, за оффотоп, но может вы мне объясните, что это такое — " senior XML programmer"... ?
я что то пропустил, и xml это уже язык программирования ?

Відповісти

Підтримати

Grez

Grez 17.12.2012 19:24

Вы что в бодишопе не работали ?

Відповісти

Підтримати

ScorpZ Lapshov C++/C# && other programmer в AMC Bridge 17.12.2012 19:28

не приходилось...

Відповісти

Підтримати

Grez

reality_hacker 17.12.2012 20:08

На старом спринге и хибернейте наверное программирует

Відповісти

Підтримати

Volodymyr Rudyi CEO в AgileVision 19.12.2012 06:46

что это такое — " senior XML programmer"

— сарказм это :)

Відповісти

Підтримати

Andrii Serhiienko 14.12.2012 16:40

Судя по каментам на последние топики (практически, на все), некто «Андрей Разработчик» скоро затмит в профессионализме Романа Хмиля...

Відповісти

Підтримати

anonymous 14.12.2012 16:44

-

Відповісти

Підтримати

Andrii Serhiienko

Andrii Serhiienko 14.12.2012 17:15

Нисколько.

Відповісти

Підтримати

Sergii Voloshyn Product Manager в DOU.ua 14.12.2012 10:32

Иван Головач пишет в стол курс по распределенным алгоритмам и архитектурам и советует в комментарии базовые учебники:
— Distributed Computing: Fundamentals, Simulations, and Advanced Topics
— Distributed Algorithms
— Introduction to Distributed Algorithms

— Distributed Computing: Principles, Algorithms, and Systems

Відповісти

Підтримати

Ivan Golovach Scala/Java TechLead в Moebius Lab (Real-Time Bidding) 18.12.2012 21:28

Мне в этом списке больше всего нравится первый и последний учебники. Хотя вторая книга — это курс в MIT от автора курса, но слишком много аксиоматики.

Відповісти

Підтримати

Sergii Voloshyn

Ivan Golovach Scala/Java TechLead в Moebius Lab (Real-Time Bidding) 18.12.2012 21:32

У третьего учебника внушающий индекс цитирования, но написан математиком и он выбирал темы, в которых побольше математики:)

Відповісти

Підтримати

Sergii Voloshyn

Vadim Zaretsky Президент в MobiDevices 13.12.2012 17:36

Коментар порушує правила спільноти і видалений модераторами.

Catherine Vorobiova Product Manager 13.12.2012 13:06

Есть знакомые, которые пишут платформу для построения распределенных систем на erlang, туда же приплетен ejabberd, и пытаются внедрить все это в коммерческие проекты прямо в этой стране. Могу дать контакты, тоже пыталась во всем этом прекрасном эрланге разобраться, но пока что забросила. Там и mnesia, и SNMP и всего хватает.

Відповісти

Підтримати

anonymous 13.12.2012 12:43

-

Відповісти

Підтримати

reality_hacker 13.12.2012 20:20

объединять данные полученные с разных источников — получаем map-reduce

О, опять профессионализм попер. Меп редьюс совсем не для этого.

Відповісти

Підтримати

anonymous 14.12.2012 10:39

-

Відповісти

Підтримати

reality_hacker 14.12.2012 10:45

ну я ноды имею в виду под источниками

facepalm.jpg

А для чего по твоему мап-редьюс?

Что бы процессить большие обьемы данных конечно же.

Відповісти

Підтримати

anonymous 14.12.2012 10:48

-

Відповісти

Підтримати

reality_hacker 14.12.2012 10:52

Та нет, когда они собираются это частный случай.

Відповісти

Підтримати

anonymous 13.12.2012 12:37

-

Відповісти

Підтримати

reality_hacker 13.12.2012 20:21

С каких это пор редис — распределенное хранилище? Ну и мемкешд тоже?

Відповісти

Підтримати

anonymous 14.12.2012 10:45

-

Відповісти

Підтримати

reality_hacker 14.12.2012 10:51

What is Memcached?
Free & open source, high-performance, distributed memory object caching system, generic in nature, but intended for use in speeding up dynamic web applications by alleviating database load. ©

И где там про хранилища и «применяются для создания больших массивов данных, на которых работают распределенные вычисления»? Мемкешед это кеш понятное дело а никакое не хранилище. И к слову сам мемкеш не сильно знает что он распределенный, это клиенты могут обращатся к кластеру расшардженных мемкешд серверов.

Это касательно мемкешд. ну а редис — хранилище пар ключ-значение, там с распределением хуже, но поддержка кластеризации вроде есть.

ага, в пре-пре альфе уже который год

Відповісти

Підтримати

anonymous 14.12.2012 12:11

-

Відповісти

Підтримати

anonymous 13.12.2012 12:12

-

Відповісти

Підтримати

anonymous 13.12.2012 12:09

-

Відповісти

Підтримати

Нестор Иванович 12.12.2012 23:10

литературу ищите по конкретным технологиям, так в вакуме думаю о системах мало пишут
в основном это жесткое сношение с инфраструктурой. Веселого там мало, работы для молодежи со взглядом горящим еще меньше. чисто програмирование вообще кажется вторичным на фоне devops проблем

Это конечно персональное мнение- у меня с этим делом опыт спецефичный

Відповісти

Підтримати

Ivan Pomidorov 13.12.2012 11:00

А что насчет написания энджайнов?

Відповісти

Підтримати

Нестор Иванович

Bogdan Shyiak SE or Dev 13.12.2012 12:35

А что насчет написания энджайнов?

Типа свой hadoop? Если да, то нима смысла, а вот какую-то из частей — это гуд. Но надо решить какую именно.

Відповісти

Підтримати

Maksym Govorischev software engineer в EPAM 13.12.2012 17:21

Для Prismatic смысл был:

highscalability.com/...ocial-netw.html

Відповісти

Підтримати

Bogdan Shyiak SE or Dev 13.12.2012 18:25

Для Prismatic смысл был:
highscalability.com/...ocial-netw.html

Глубоко не вчитывался. Бегло просмотрел и не увидел чтобы они писали свое дженерик решение, наоборот сделали узко заточеное решение. Если я что-то пропустил, то укажите где.

Відповісти

Підтримати

Maksym Govorischev

Сергей 13.12.2012 18:55

Твитер свой Storm написали, но как обычно это исключения.

Відповісти

Підтримати

reality_hacker 13.12.2012 20:22

Это не твитер написал. Они купили конторку которая написала сторм

Відповісти

Підтримати

Maksym Govorischev software engineer в EPAM 14.12.2012 11:16

Нет, все правильно, они написали узко заточенное решение. Я имел ввиду другое, что они как раз переписали под себя весь стек, а не отдельные части, то есть и такие случаи встречаются

Відповісти

Підтримати

Нестор Иванович 17.12.2012 12:55

А вам зачем? Студента к этому делу все равно не подпустят.

Відповісти

Підтримати

Ivan Pomidorov 17.12.2012 13:36

Пока я в этом разберусь, пройдет пару лет, и я уже буду синьором-помидором.

Відповісти

Підтримати

Нестор Иванович

Нестор Иванович 17.12.2012 23:17

ну вот станете и начните разбиратся. Тк сейчас вы будете пытатся учится решать проблемы которые вы в глаза не видели. Это как плавать по асфальту, так же полезно...

Відповісти

Підтримати

Андрей 12.12.2012 22:51

Есть ли на доу супербизоны которые занимаются распределенными системами?

Ну есть, и что?

Какую литературу порекомендуете, какие алгоритмы лучше всего изучить?

Гугл один на всех — я не помню, чтобы читал что-то прям конкретное вроде «Распределенные системы для самых маленьких». Просто рутинно и постоянно что-то читаю на эту тему много лет.

Расскажите о том как работается

Когда как, самое тяжелое в таких проектах — это не построить систему, а исправлять в ней какие-то проблемы. Банально: приходит запрос и начинает хотить от машины к машине, от системы к системе — и чтобы понять, где именно узкое место, недостаточно просматривать замеры времени на каждом боксе отдельно. Отдельные баги очень трудно воспроизвести, и поэтому они могут существовать в системе месяцами и годами, периодически требуя внимания и отвлекая от других задач.

В целом, никто не строит распределенные системы ради распределнных систем — ради того, что это «круто». Их строят, потому что вынуждены это делать. И далеко не всегда «распределенный high-load проект» — это весело, замечательно и «настоящая работа». Наоборот, чаще всего это головные боли, овертаймы и героические усилия удержать какие-то узлы системы на плаву. Конечно, какое-то время можно решать проблемы, просто добавляя еще с десяток-другой серверов, но самое сложное начинается тогда, когда сколько мощностей не добавляй, толку не будет.

какие проекты типичны для данной области

Либо у вас много пользователей, либо большие объемы данных. Либо и то, и другое. Проекты самые разные.

Відповісти

Підтримати

Blitz .net Developer 12.12.2012 20:43

Если ещё крутишся в универе — спроси Толстолужскую. Она на этом специализируется.

Відповісти

Підтримати

Ivan Pomidorov 12.12.2012 22:14

Пишу у нее диплом, лол.

Відповісти

Підтримати

Blitz

Blitz .net Developer 13.12.2012 12:49

Тогда в чём проблема?

Відповісти

Підтримати

Ivan Pomidorov 13.12.2012 16:32

Не из этой оперы тема диплома.

Відповісти

Підтримати

Blitz

ScorpZ Lapshov C++/C# && other programmer в AMC Bridge 12.12.2012 19:12

Ну мы пытаемся чем то подобным заниматься, но это больше к архитектуре систем относится, кластеризация , например.

Відповісти

Підтримати

Ivan Pomidorov 12.12.2012 22:15

расскажите же подробнее, что за система, в рамках NDA.

Відповісти

Підтримати

ScorpZ Lapshov C++/C# && other programmer в AMC Bridge 13.12.2012 10:26

Та пока все в планах и схемах, и если инвестор не утвердит их, то все на бумаге и останется, так что рассказывать особо не о чем...
Хочу сказать вот что, важно с какой стороны вы интересуетесь этим вопросом, с точки зрения использования существующих энжайнов/фрэймворком (для распределенных кластерных систем) или разработки таковых...

Відповісти

Підтримати

Ivan Pomidorov 13.12.2012 10:59

Я бы хотел понять как разрабатывать такие энджайны.

Відповісти

Підтримати

ScorpZ Lapshov C++/C# && other programmer в AMC Bridge 13.12.2012 11:38

Ну для начала стоит посмотреть существующие инжайны (Sphinx, Lucene), прочитать про них всю доступную инфу.

Відповісти

Підтримати

proger 12.12.2012 18:25

распределенными системами

распределенными системами чего ?

Відповісти

Підтримати

Ivan Pomidorov 12.12.2012 22:17

В общем, не зависимо от предметной области.

Відповісти

Підтримати

proger 12.12.2012 22:21

dns — распределенная система доменных имен
интернет — распределенная система передачи информации
макдонадльдс — распределенная сеть общепита

Відповісти

Підтримати

Valentin Nechayev архімаггриб в Дарницькі печери 13.12.2012 08:29

Так не бывает. У разных схем и задач распределения практически нет ничего общего, кроме самого факта выполнения чего-то не на одном процессоре.

Відповісти

Підтримати

Viktor Sovietov Founder in theplatform.technology and smarter.trading в smarter.trading 12.12.2012 15:38

Хм, это ж целый универсум уже... С облаками и суперкомпьютерами...

Відповісти

Підтримати

anonymous 12.12.2012 15:17

-

Відповісти

Підтримати

Ivan Pomidorov 12.12.2012 16:52

Оба. Тем более что сначала надо сформировать представления в принципе.

Відповісти

Підтримати

Підписатись на коментарі

Ваша пошта

Не підписуватись