BigData (Hadoop, Spark) — у кого какой опыт?
Всем привет, хотелось бы обсудить тему, причем не сколько технические аспекты, сколько задачи — кто с какими сталкивался.
Всем привет, хотелось бы обсудить тему, причем не сколько технические аспекты, сколько задачи — кто с какими сталкивался.
Внезапно, но в 20 мегабайтном файле стат данных намного больше БигДата чем в каком нибудь 100 терабайтном архиве видео =). Просто потому что на архиве врядли применишь какие-то методы по обработке больших данных, а вот на том файлике который в задании — вполне.
Но в чемто он прав. Задача достаточно сложная из-за того что данных не много.
Когда данных было бы не 20 мегабайт, а 20 терабайт допустим, модель была бы намного более гладкая. Случайных флуктуаций в ней был бы исчезающий мизер.
Эх, сделал решение, пытался отправить, при заполнении личных данных пролетел похоже с этим пунктом
Участниками Конкурса могут являться дееспособные лица, достигшие
возраста 21 год, студенты старших курсов и старше, граждане Российской
Федерации, зарегистрированные и постоянно проживающие на территории
Российской Федерации
Дальше поставил фейковые данные, чтобы хотябы проверить результат.
Сходу 80 строчный код набрал почти 50% попаданий.
Маловато, но дальше лень коефициенты подбирать и нормализировать данные.
Всёравно выиграшь не получить =)
UPD: Еще немного поигрался с отсечением случайных попаданий, получилось почти 65%
Там задача больше для конкурса. Специально для задачи данные обезличили по всем колонкам, чтобы исследующий не привязывался к реальным данным. Правильные ответы оставили, тоесть данные отображают реальную выборку. Осталось «обучить» алгоритм на этих данных и проверить, насколько точно он будет дальше «предсказывать» возрастную группу.
анализ/кластеризация режимов потребления газа и электричества (на GPU не хватит памяти запихнуть). Но и тут (у меня примерно 100000 профилей * 24 часа * 365 дней) обычный мощный комп с 6ю ядрами вполне справился.реальный пример BigData из этой области
это не «из интернета»
просто когда-то был на форуме, где докладчик с реальным опытом рассказывал о BigData
и приводил примеры того, с чем работал
Пересчитать ассоциации на графе в несколько миллиардов вершин.
Обычный комп — месяц работы. Задача параллелится :)
на GPU не хватит памяти запихнутьШО ? При чем тут ГПУ ? Ты изображения «газа и электричества» решил кластеризировать ?
Да и потом нужно понимать что такое «ОБД» (оху*енно большие данные). Например : в Украине живет не 45 М, а 45 триллионов людишек. Все заполнили анкеты на 10 вопросов (доход и т,д.) , база данных — несколько петабайтов. И надо узнать показатели типа средняя зп и т.д. Биг дата ? А хер там ! Хватит несколько долей секунды что бы узнать все показатели с незначительной ошибкой. Ведь, при правильном подходе, из 45 ТР надо будет обработать инфу у 50к людишек и все. Типа если данные уже представлены в таблице ( структурированы ) то это никак не может быть «ОБД».
Реально компании не понимают, что такое это «ОБД».. Базу данных свою сделали человеческую и с детальной документацией, может и биг-дата-инжИнер непонадобился.
Вот типа принцип «мап-редьюс», используется в большинстве для задач, которые понятны первокласнику — чето с агрегировать + чето на чето умножить ...... Короче задачи ETL с каким то более сложным преобразованием......
Я час писал тебе обьяснения, а потом стирал бекспейсом..... И так много-много раз....
По-моему, на Доу главное — форум, а на dev.by он, похоже, отсутствует.
По посещаемости на ДОУ статистика такая:
jobs.dou.ua 1.8M pageviews
dou.ua/forums/ 1M pageviews
dou.ua/lenta/ 0.8M pageviews
dou.ua/calendar/ 0.2M pageviews
Там на самом деле нужно тоже смотреть детальнее, кроме вакансий на jobs есть много чего,
например 55 тыс. просмотров зарплат jobs.dou.ua/salaries или 55 тыс. просмотров фотографий компаний, типа jobs.dou.ua/...mpanies/datarobot/photos или 123 тыс. просмотров у рейтинга компаний, но у вакансий все равно получается больше миллиона.
См., например:
jobs.dou.ua/...es/?search=Hadoop&descr=1
49 вакансий по запросу “Hadoop”
Я честно говоря тоже детально не смотрел, увидел
на белорусском Доу — я видел по крайней мере одно объявление по поиске хадупщика
и решил проверить как с этим на украинском Доу :)
да никакого хайпа тут нет ((( имхо спарк можно вполне себе неплохо и для вполне традиционных задач применять....
спарк скл в памяти может быть запросто быстрее оракла...
на джаве биг дата тяжела, на скала намного легче, на питоне вообще хорошо. ну разные пиги и жаклы — на любителя
есть чемпионат по биг дате, но там к спарку машин ленинг прикрутить нада. я парсил файл потребления електричества от розеток, на среднем кластере все работало медленно.
Может есть смысл допилить модуль сканирования бумажных носителей и обратиться в госструктуры? Правда вопрос осмысленной задачи остается открытым :)
41 коментар
Додати коментар Підписатись на коментаріВідписатись від коментарів