👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Внезапно, но в 20 мегабайтном файле стат данных намного больше БигДата чем в каком нибудь 100 терабайтном архиве видео =). Просто потому что на архиве врядли применишь какие-то методы по обработке больших данных, а вот на том файлике который в задании — вполне.

это смотря что вы с видео делать хотите дорогой вы мой )))

Но в чемто он прав. Задача достаточно сложная из-за того что данных не много.
Когда данных было бы не 20 мегабайт, а 20 терабайт допустим, модель была бы намного более гладкая. Случайных флуктуаций в ней был бы исчезающий мизер.

Эх, сделал решение, пытался отправить, при заполнении личных данных пролетел похоже с этим пунктом

Участниками Конкурса могут являться дееспособные лица, достигшие
возраста 21 год, студенты старших курсов и старше, граждане Российской
Федерации, зарегистрированные и постоянно проживающие на территории
Российской Федерации

Дальше поставил фейковые данные, чтобы хотябы проверить результат.
Сходу 80 строчный код набрал почти 50% попаданий.
Маловато, но дальше лень коефициенты подбирать и нормализировать данные.
Всёравно выиграшь не получить =)

UPD: Еще немного поигрался с отсечением случайных попаданий, получилось почти 65%

Там задача больше для конкурса. Специально для задачи данные обезличили по всем колонкам, чтобы исследующий не привязывался к реальным данным. Правильные ответы оставили, тоесть данные отображают реальную выборку. Осталось «обучить» алгоритм на этих данных и проверить, насколько точно он будет дальше «предсказывать» возрастную группу.

анализ/кластеризация режимов потребления газа и электричества (на GPU не хватит памяти запихнуть). Но и тут (у меня примерно 100000 профилей * 24 часа * 365 дней) обычный мощный комп с 6ю ядрами вполне справился.
реальный пример BigData из этой области
анализ характеристик потребителей электроэнергии (в Канаде)
изначально цель была другая, но в итоге научились находить подпольные лаборатории по выращиванию конопли :-)
это оказалось дешевле и быстрее vs. летные часы на вертолете с тепловизором
и без зависимостей от погоды

это не «из интернета»
просто когда-то был на форуме, где докладчик с реальным опытом рассказывал о BigData
и приводил примеры того, с чем работал

Пересчитать ассоциации на графе в несколько миллиардов вершин.
Обычный комп — месяц работы. Задача параллелится :)

Например, обработка данных из CommonCrawl — это «биг дата»

на GPU не хватит памяти запихнуть
ШО ? При чем тут ГПУ ? Ты изображения «газа и электричества» решил кластеризировать ?

Да и потом нужно понимать что такое «ОБД» (оху*енно большие данные). Например : в Украине живет не 45 М, а 45 триллионов людишек. Все заполнили анкеты на 10 вопросов (доход и т,д.) , база данных — несколько петабайтов. И надо узнать показатели типа средняя зп и т.д. Биг дата ? А хер там ! Хватит несколько долей секунды что бы узнать все показатели с незначительной ошибкой. Ведь, при правильном подходе, из 45 ТР надо будет обработать инфу у 50к людишек и все. Типа если данные уже представлены в таблице ( структурированы ) то это никак не может быть «ОБД».

Реально компании не понимают, что такое это «ОБД».. Базу данных свою сделали человеческую и с детальной документацией, может и биг-дата-инжИнер непонадобился.

Вот типа принцип «мап-редьюс», используется в большинстве для задач, которые понятны первокласнику — чето с агрегировать + чето на чето умножить ...... Короче задачи ETL с каким то более сложным преобразованием......

Я час писал тебе обьяснения, а потом стирал бекспейсом..... И так много-много раз....

на www.kaggle.com можно что нибуть поискать интересное вам

По-моему, на Доу главное — форум, а на dev.by он, похоже, отсутствует.

По посещаемости на ДОУ статистика такая:
jobs.dou.ua 1.8M pageviews
dou.ua/forums/ 1M pageviews
dou.ua/lenta/ 0.8M pageviews
dou.ua/calendar/ 0.2M pageviews

Там на самом деле нужно тоже смотреть детальнее, кроме вакансий на jobs есть много чего,
например 55 тыс. просмотров зарплат jobs.dou.ua/salaries или 55 тыс. просмотров фотографий компаний, типа jobs.dou.ua/...mpanies/datarobot/photos или 123 тыс. просмотров у рейтинга компаний, но у вакансий все равно получается больше миллиона.

См., например:
jobs.dou.ua/...es/?search=Hadoop&descr=1
49 вакансий по запросу “Hadoop”

Я честно говоря тоже детально не смотрел, увидел

на белорусском Доу — я видел по крайней мере одно объявление по поиске хадупщика

и решил проверить как с этим на украинском Доу :)

да никакого хайпа тут нет ((( имхо спарк можно вполне себе неплохо и для вполне традиционных задач применять....
спарк скл в памяти может быть запросто быстрее оракла...

на джаве биг дата тяжела, на скала намного легче, на питоне вообще хорошо. ну разные пиги и жаклы — на любителя

есть чемпионат по биг дате, но там к спарку машин ленинг прикрутить нада. я парсил файл потребления електричества от розеток, на среднем кластере все работало медленно.

Может есть смысл допилить модуль сканирования бумажных носителей и обратиться в госструктуры? Правда вопрос осмысленной задачи остается открытым :)

Підписатись на коментарі