BigData (Hadoop, Spark) — у кого какой опыт?

Всем привет, хотелось бы обсудить тему, причем не сколько технические аспекты, сколько задачи — кто с какими сталкивался.

Я, следуя моде на Big Data, развернул дома небольшой Hadoop-кластер:
www.yetanotherquant.com/hadoop
Но реальных задач под него пока не нашел.

Можно было бы за уши притянуть Monte-Carlo симуляцию — но ее проще и эффективнее делать на GPU/CUDA.
Вторая задача — анализ/кластеризация режимов потребления газа и электричества (на GPU не хватит памяти запихнуть). Но и тут (у меня примерно 100000 профилей * 24 часа * 365 дней) обычный мощный комп с 6ю ядрами вполне справился.

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Несмотря на то, что описание задачки начинается с «На „ты“ с Big Data?», где ж тут Big?
Всего-то по 50000 значений в train и test datasets. Даже в Excel’е открыть можно ;)

Внезапно, но в 20 мегабайтном файле стат данных намного больше БигДата чем в каком нибудь 100 терабайтном архиве видео =). Просто потому что на архиве врядли применишь какие-то методы по обработке больших данных, а вот на том файлике который в задании — вполне.

это смотря что вы с видео делать хотите дорогой вы мой )))

Но в чемто он прав. Задача достаточно сложная из-за того что данных не много.
Когда данных было бы не 20 мегабайт, а 20 терабайт допустим, модель была бы намного более гладкая. Случайных флуктуаций в ней был бы исчезающий мизер.

Эх, сделал решение, пытался отправить, при заполнении личных данных пролетел похоже с этим пунктом

Участниками Конкурса могут являться дееспособные лица, достигшие
возраста 21 год, студенты старших курсов и старше, граждане Российской
Федерации, зарегистрированные и постоянно проживающие на территории
Российской Федерации

Дальше поставил фейковые данные, чтобы хотябы проверить результат.
Сходу 80 строчный код набрал почти 50% попаданий.
Маловато, но дальше лень коефициенты подбирать и нормализировать данные.
Всёравно выиграшь не получить =)

UPD: Еще немного поигрался с отсечением случайных попаданий, получилось почти 65%

Честно говоря, и экономический смысл задачи не очень ясен.
«В этом задании вам предстоит попытаться определить возраст абонента по имеющимся данным.» — а разве при заключении договора на услуги мобильной связи паспорта (или хотя бы указать дату рождения) не требуют?!
«В качестве метрики качества модели будет использоваться Точность (Accuracy) на тестовой выборке. » Точность по какой метрике? Тупо угадал/не угадал возрастную группу? Ну, я думаю, есть разница в тяжести ошибки — записать ли 30-тилетнего в 35-ти летние или тинейджера в пенсионеры.

Там задача больше для конкурса. Специально для задачи данные обезличили по всем колонкам, чтобы исследующий не привязывался к реальным данным. Правильные ответы оставили, тоесть данные отображают реальную выборку. Осталось «обучить» алгоритм на этих данных и проверить, насколько точно он будет дальше «предсказывать» возрастную группу.

анализ/кластеризация режимов потребления газа и электричества (на GPU не хватит памяти запихнуть). Но и тут (у меня примерно 100000 профилей * 24 часа * 365 дней) обычный мощный комп с 6ю ядрами вполне справился.
реальный пример BigData из этой области
анализ характеристик потребителей электроэнергии (в Канаде)
изначально цель была другая, но в итоге научились находить подпольные лаборатории по выращиванию конопли :-)
это оказалось дешевле и быстрее vs. летные часы на вертолете с тепловизором
и без зависимостей от погоды

Классный пример! А ссылку можно? (гугл по запросам marijuana big data canada и cannabis energy big data не находит)
Хочу показать статью своему шефу и знакомому комиссару полиции :)

это не «из интернета»
просто когда-то был на форуме, где докладчик с реальным опытом рассказывал о BigData
и приводил примеры того, с чем работал

Пересчитать ассоциации на графе в несколько миллиардов вершин.
Обычный комп — месяц работы. Задача параллелится :)

(мне на почту пришел Ваш развернутый комментарий про использование на ЖД, а тут почему-то не отображается, только точку вижу).
Да, в Германии Даймлер и Фольксваген (БМВ почему-то нет, ну или я не в курсе) пытаются играться с bigdata (по моим сведениям, с переменным успехом). Однако тут препоны больше не технические а Datenschutzgesetzt — закон о защите личных данных — в Германии с этим очень строго.

Например, обработка данных из CommonCrawl — это «биг дата»

на GPU не хватит памяти запихнуть
ШО ? При чем тут ГПУ ? Ты изображения «газа и электричества» решил кластеризировать ?

Да и потом нужно понимать что такое «ОБД» (оху*енно большие данные). Например : в Украине живет не 45 М, а 45 триллионов людишек. Все заполнили анкеты на 10 вопросов (доход и т,д.) , база данных — несколько петабайтов. И надо узнать показатели типа средняя зп и т.д. Биг дата ? А хер там ! Хватит несколько долей секунды что бы узнать все показатели с незначительной ошибкой. Ведь, при правильном подходе, из 45 ТР надо будет обработать инфу у 50к людишек и все. Типа если данные уже представлены в таблице ( структурированы ) то это никак не может быть «ОБД».

И все вокруг будут понимать, какая сложная задача и как много денег для ее решения надо
А хоть бы и так. Крылатая фраза Кейнса «the market can stay irrational much longer than you can stay solvent» справедлива не только для рынка акций, но и для ИТ-рынка.

Реально компании не понимают, что такое это «ОБД».. Базу данных свою сделали человеческую и с детальной документацией, может и биг-дата-инжИнер непонадобился.

Hadoop — это не только big data, но и еще (а порой и прежде всего) — big computations.
И кста, hello world пример на хадупе — расчет числа pi через монте-карло в параллель.

Вот типа принцип «мап-редьюс», используется в большинстве для задач, которые понятны первокласнику — чето с агрегировать + чето на чето умножить ...... Короче задачи ETL с каким то более сложным преобразованием......

Я час писал тебе обьяснения, а потом стирал бекспейсом..... И так много-много раз....

ШО ? При чем тут ГПУ ? Ты изображения «газа и электричества» решил кластеризировать ?
Не в обиду будет сказано, Роммеля ты бы тоже спросил, «у англичан чё танки летают, что ты против них зенитки ставишь?» ;)

на www.kaggle.com можно что нибуть поискать интересное вам

Спасибо за ссылку, там много интересного материала.
Хотя меня, в первую очередь, интересует как с Big Data проектами именно в Украине.
(на dev.by — белорусском Доу :) - я видел по крайней мере одно объявление по поиске хадупщика).
Почему интересуюсь? — ну в том числе и потому, что если Big Data Jobs активно выводятся в аутсорс, то не стоит особо инвестировать в изучение нюансов. А вот если нет — то, наверное, стоит.

По-моему, на Доу главное — форум, а на dev.by он, похоже, отсутствует.

По посещаемости на ДОУ статистика такая:
jobs.dou.ua 1.8M pageviews
dou.ua/forums/ 1M pageviews
dou.ua/lenta/ 0.8M pageviews
dou.ua/calendar/ 0.2M pageviews

jobs.dou.ua 1.8M pageviews
dou.ua/forums/ 1M pageviews
Любопытно! Получается, ищут работу почти в 2 раза чаще чем участвуют в дискуссиях
(надо полагать, эти 1.8M за счет безработных джунов)

Там на самом деле нужно тоже смотреть детальнее, кроме вакансий на jobs есть много чего,
например 55 тыс. просмотров зарплат jobs.dou.ua/salaries или 55 тыс. просмотров фотографий компаний, типа jobs.dou.ua/...mpanies/datarobot/photos или 123 тыс. просмотров у рейтинга компаний, но у вакансий все равно получается больше миллиона.

См., например:
jobs.dou.ua/...es/?search=Hadoop&descr=1
49 вакансий по запросу “Hadoop”

Не все из них релевантны, во многих Hadoop / BigData — buzzwords или nice to have.
На беглый взгляд по заголовку точно релевантны вот эти:
Lead Java Developer with BigData
Site Reliability Engineer
Software Developer — Hadoop [EA- Hadoop]
Software Developer — BigData [HED — BigData]
Hadoop Software Engineer
Hadoop developer
Experienced Ruby on Rails developer with Big Data и BI experience
BigData developer
Ruby Team Leader (BigData startup with several online websites that have over 2 million monthly active users in the US.)

Т.е. 9 из 49 (допускаю, что что-то упустил, т.к. подробно не все читал)

Я честно говоря тоже детально не смотрел, увидел

на белорусском Доу — я видел по крайней мере одно объявление по поиске хадупщика

и решил проверить как с этим на украинском Доу :)

Вот, кстати, как на немецком Доу :)
www.stepstone.de/5/ergebnisliste.html?ke=hadoop
Всего лишь 107 результатов — смех на палке (для локомотива ЕС) — и это при том, что в Германии hype по Big Data еще тот.

да никакого хайпа тут нет ((( имхо спарк можно вполне себе неплохо и для вполне традиционных задач применять....
спарк скл в памяти может быть запросто быстрее оракла...

на джаве биг дата тяжела, на скала намного легче, на питоне вообще хорошо. ну разные пиги и жаклы — на любителя

есть чемпионат по биг дате, но там к спарку машин ленинг прикрутить нада. я парсил файл потребления електричества от розеток, на среднем кластере все работало медленно.

Может есть смысл допилить модуль сканирования бумажных носителей и обратиться в госструктуры? Правда вопрос осмысленной задачи остается открытым :)

Підписатись на коментарі