Альтернативы Apache Spark
Ок давайте внезапно поговорим про программирование а не про габариты колбасы в разных странах.
Есть такая задача — гонять аналитику поверх некого количества json файлов разнообразных форматов.
Текущее решение — крайние несколько месяцев лежат в MongoDB, экспортиться в MS BI и там аналитики делают что хотят.
Есть сильное желание делать аналитику с более глубокой историей.
Пока думал о дубовом пайплайне в духе
взять json — перегнать в паркет, дать что то типа Apache Zeppelin аналитикам в руки и успокоиться.
Данных не сильно много пока, десятки-сотни гигабайт в день
Мой вопрос собственно — какие подводные камни и не излишнее ли старперство пологаться на Spark в этом вопросе
76 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів