Кто в Украине использует Hadoop Map/Reduce?

Расскажите какие задачи Вы решаете с их помощью?

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Агрегация логов для репортинга.

в основном для ETL: обработка десятка Тб логов ежедневно для последующего BI/ad-hoc анализа в хранилище... правда не в Украине, но думаю, вопрос не особо к территории был привязан :)

Мы используем Hadoop платформу для анализа логов проприетарного приложения. В теории там их будут миллионы и миллионы ежедневно =)

Миллионы это гигабайт данных, можно на домашнем нетбучике анализировать без всяких хадупов.

Почему? Какие принципиальные ограничения? Вот я сейчас пилю програмку она обрабатывает 200-400 миллионов транзакций в сутки, логирую я все что только можно, потом все это перевожу в бинарный формат, компрессую и за пол года получилось 100ГБ данных, и все это успешно анализирую на своем ноутбучеке.

А какой бинарный формат используется? Protobuf?

Начинал с авро, но потом сделал свою реализацию колонкового хранилища, получилось в раза 3 быстрее, не знаю почему.

Спасибо кэп. Заказчики походу тупые, мы (девелоперы) тоже. Всего лишь надо было на нетбуке анализировать...

Переливка (ETL) кликстрима из HDFS в вертикальную базу данных для последующего анализа.

Да просто сделать join двух больших файлов (десятки/сотни гигабайт, когда в память ну никак не лезет) удобнее всего залив их на S3 и запустив небольшой PIG скрипт на Amazon EMR. Даже просто логи анализировать неплохо.

Весной (кажется) Вадим Залива (Codeminders) делал семинар в Киеве на эту тему, человек 30 было. Вот у них можно и спросить — dou.ua/...users/krokodil

С помощью hadoop гоняем данные для корпусной лингвистики, information extraction и сопутствующих вещей + загрузка некоторой части данных в облака Амазона. Задача отлично легла на такую модель, увеличение пропускной свособности свелось к простому наращиванию железок в кластерах.

Luxoft. Если совсем по-простому, на входе выгружаем данные из Oracle в XML. Потом многоступенчатые преобразования XML с помощью XLT. Затем загрузка XML в Oracle.

вы делаете XSLT преобразования в хадуп?

Если там миллионы или миллиарды файлов, то почему бы и нет.
Подход MapReduce здесь вполне применим.
Другое дело, зачем наплодили миллионы файлов, но раз уж так получилось...

Так же закономерен вопрос оптимально ли хранить/серриализовать в XML большие обьемы

Да, вопрос вполне закономерен.

Навскидку на ум приходит Apache Avro.

У нас в HDFS все данные хранятся в сжатом и криптованном виде. В одном файле — много XML документов.

Да, все промежуточные результаты хранятся в HDFS.

А вы используете BigTop/CDH или сами собираете конфигурацию?

Мы используем CDH3 Update 4 (cdh3u4).

Я потихоньку подбираюсь. Есть проект-прототип, в котором прогоняются десятки тысяч текстовых статей через nlp алгоритмы. Пока все сделано на монго и питоне, но скоро буду переносить на Hadoop, поскольку один комп такие объемы обрабатывает неделю(буквально).

А вот где есть ли где работа по такому профилю... Сам буду благодарен за наводку(Киев/Харьков) :)

Есть проект нового поисковика с социальной компонентой, Elasticsearch, Hadoop, Ruby.

Мне аж интересно стало, а вы Elasticsearch насколько плотно используете и как впечатления от данного инжайна?

Начали в первые и недавно, делаем конвертацию из MySQL Cassandra в Elastic для индексации, и поиска.

Я вот анализирую десятки миллионов статей на своем компе. Лучше начать с рук а не хадупа.

Угу... Последний раз один из алгоритмов работал около 150 часов. И оптимизировать особо нечего.

Ну можешь начать свою оптимизацию например с выбрасывания монго с ее write lock и питона который сливает по производительности джаве в 30 раз.

Чтение из монги занимает десятые доли процента от общего времени работы. Данные в нее читаются-пишутся в тестах за час. Основное — матрицы, которые кстати на С. Разве что можно перенести на GPU....

Сложно сказать где у тебя грабли, но однозначно если у тебя все в памяти тормозит на 10к документов, то для миллиона тебе хадуп не поможет

В том «забеге» было порядка 5 млн. статей, который обрабатывались в 20 или 30 проходов При отказе от некоторых фич время можно сократить в 5-10 раз. Короче говоря, пока играюсь и экспериментирую.

Можете описать свой алгоритм: что на вход, что на выход, какие действия, сколько проходов по данным?

Ничего особенного — двоюродные братья LSI. При небольшом урезании функционала время можно сократить в 5-10 раз, что более чем приемлемо. Пока провожу эксперименты, так что хз что в конечном счете понадобится :)

ISD в некторых проектах в Днепропетровске. В Киеве тоже целый ряд компаний.

Распределённые. :-)
По анализу больших объёмов данных.

Ciklum прошедшим летом устраивал доклад в Одессе на эту тему. Помимо Hadoop были и другие вещи.

Копают данные пользователей FaceBook. Так копают, что это получилась лучшая антиреклама FaceBook, которую я видел/слышал.

Они в Одессу недавно людей искали на Hadoop.

Искали с лета и ищут до сих пор. Потому что очень мало кто этой темой владеет.

Теперь параноики побегут удалить свои анкеты

Или просто не будут сорить данными о своей приватной жизни лишний раз. И правильно.

Параноя-параноей, но privacy никто не отменял. И никто не отменял желающих влезть в чужую жизнь без согласия человека.

Так копают, что это получилась лучшая антиреклама FaceBook, которую я видел/слышал.

эээмм... Не понял.

Прямым текстом откровенно рассказали, что по данным из FaceBook и из других источников (сопоставляя данные о личности) вычисляют примерный район проживания и уровень доходов человека.
Вам оно надо, чтобы о вас это знали неизвестно кто?

Это уже, конечно, край. Но я и без того дико сомневаюсь в том, что стОит какие-то данные о себе выкладывать в сеть.

Системы помнят всё. Мало ли как это захотят использовать через N лет, мало ли чего вы будете стыдиться через N лет (например, радикальных взглядов в молодости), мало ли что вам захотят припомнить такого, через что вы прошли и хотели бы умолчать. Люди меняются, а данные о прошлом остаются.

Социальные сети можно использовать с пользой для себя, если соблюдать осторожность. Не писать лишнего, не публиковать лишнего, не добавлять в друзья кого попало и прочее. Но обычно люди этого не понимают и сорят данными как только могут.

вы о продуктах или о программистах, которые пишут продукты с использованием map/reduce для иностранных заказчиков?

Підписатись на коментарі