×Закрыть

Ищу единомышленников для командного решения задач на Kaggle

Привет всем!

Я за полгода поучаствовал в решении ряда конкурсных задач на Kaggle, но в принципе зная все методики никак не могу преодолеть рубеж в топ-10%, необходимый для получения мастер-ачивки. Естественно с прицелом на победы по мере накопления опыта. Камнем преткновения стал stacking, который я никак не могу подчинить себе без скатывания в бездну оверфита. В связи с этим, ищу каглеров, желающих порешать задачи в команде или просто для обмена опытом за рюмкой чая.

На данный момент для решения задач активно использую R и сервера на AWS. В ближайших планах переход на Python+Spark+MLLib. Гипотетически в будущем может интересовать Scala.

Мой профиль: www.kaggle.com/santyago
Для связи лучше всего Скайп: alexander.v.makeev

С наилучшими пожеланиями,
Александр

👍НравитсяПонравилось0
В избранноеВ избранном0
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

эх, а у меня как раз на работе проектов привалило! ну, может, давай начнем, сделаем команду — я хоть по мелочам помогать буду? я на каггле www.kaggle.com/motus2

Будет хакатон по The Allen AI Science Challenge и зимняя школа по deep learning 31.01-6.02 в Москве. Проживание они покрывают. Никто не едет?
Вот подробности:
qa.deephack.me
habrahabr.ru/post/274233

А ходить с флагом Украины можно будет?

Никто не смеялся.
Меня действительно интересует этот вопрос.

Если интересует, можно ходить.

— Алло! Здравствуйте! А Машу можно?
— Можно.
qa.deephack.me
Улыбнул отборочный тур : «Едут только ТОП-50 !!!»... Итого у них сабмитили только 34 человека :) Причем некоторым впадло было даже скопипастить готовое решение на 35% (на форуме есть и покруче ) - чисто рендомом фигачили. Короче, что то нима ажиотажа...

так еще ж не вечер 17 of January 2016 at 11.59 P.M. (Moscow time, GMT+3)

На недавнем DataScience хакатоне в Киеве эта задача немного решалась. Ввиду 24-часового формата правда использовали гугл как источник данных, без него за такое время ничего серьезного не сделать. Но результат был порядка 50%, на уровне топа компетишна в тот момент

Я б хотів спробувати, але багато досвіду не маю

Посоревноватся — прикольно. Когда, например, челов 5 соберется с ДОУ, то забурится в какой то компетишон не как тима, а как конкуренты (типа достали линейки и меряем у кого самый длинный), да и что б конкурс не требовал сверх ресурсов.
Типа конкурсы там где данных больше чем винчак раз в 5, про оперативу вообще молчу — ниподходят.
А если на лаве идти то тут фигня :
1. Это превратится в Работу причем нифиговую такую работу. Недаром там дают по полгода на серьезные компетишоны. Пол года готов потратить ?
2. За это ж не платят. А раз в пару дней желательно есть.
3. Ресурсы. Посотри кто там выигрует. Ну забурился ты на компетишон по разпознованию какой то болячки по снимку. У тя винчак на 100 Гб и радион 9200 + у тебя работа + у тя семья и т.д.
Ну и рядом забурилась команда из 20 «ПыАйчДы» из крутого буржуйского универа с «Теслами» вместо твоей «радионки», с собственной лабой, с непропитыми мозгами, задроченым многолетним опытом, полностью свободным временем и т.д. и т.п.
(ну вот типа такого — benanne.github.io/2015/03/17/plankton.html )
СМЫСЛ ?

На данный момент для решения задач активно использую R и сервера на AWS. В ближайших планах переход на Python+Spark+MLLib
А чого ? Пытон и 50% функционала «R» не перекрывает. Например попались цензурированные данные. Ищешm пакеты для регрессии :
www.google.com.ua/...=UTF-8#q=tobit model in R
Во. С десяток разных реализаций.
www.google.com.ua/...8#q=tobit model in python
Бл* ! В первой же ссылке R ! Про питон ни слова :(

А если серьезно то, конечно, лучше использовать и то и то :D

Посоревноватся — прикольно. Когда, например, челов 5 соберется с ДОУ, то забурится в какой то компетишон не как тима, а как конкуренты (типа достали линейки и меряем у кого самый длинный), да и что б конкурс не требовал сверх ресурсов.
Можно и так. Но главное потом — обмен опытом. Иначе теряется суть поста.
Типа конкурсы там где данных больше чем винчак раз в 5, про оперативу вообще молчу — ниподходят.
AWS решает. Прототип пилится на чём есть, потом поднимается на ec2 инстансе, вливаются полные данные и обсчитываются.
СМЫСЛ ?
Мотивация :) Не более того.
А чого ? Пытон и 50% функционала «R» не перекрывает.
Это факт. Но R — не продакш-рэди платформа. Поэтому нужно уметь ручками имплементить на Питоне/Скала/Джава алгоритмы, запрототипированные на R.

Если бы :)
Но меня успокаивает тот факт, что это прямые инвестиции в себя.

это прямые инвестиции в себя.
Это прямое пожертвование амазону :)
Если не секрет, за сколько и какие ресурсы выделили ?

HDD на 100Гб пока хватает. $10 в месяц. Сервера беру почасово в зависимости от задачи от $0.3 до $2.5. Чаще всего r-серии, оптимизированные под память. Но брал и 40 ядерный m-серии. Когда вопрос только в просчёте модели, такие сервера дают результат быстрее и по-факту дешевле за счёт того, что быстрее.

У нас девам у Украине совсем денег не платят, на AWS не хватает :)

Я бы хотел поучаствовать в кагле. Но с семантическим разбором вообще не сталкивался. Может быть на следующую задачку возьмете или же можно без знания семантического анализа попробовать поучаствовать?

По-поводу проблемы переобучение во стэкинга моделей: не пробовали кластеризацию входящих данных делать? Или же уменьшать размерность, например методом главных компонент?

Я тоже не сталкивался. :) Соревнования — отличный способ расширения кругозора.

Во время стекинга используются результаты работы пачки моделей. Там всё довольно тупо и нечего кластеризовывать или уменьшать разменость. Но, очевидно, я просто не знаю каких-то нюансов.

А вы как стэкинг делаете?

Вот тут человек подробно рассказывает как можно решить проблему overffitting (на примере neural netwrok).

www.youtube.com/...TqghAJ6NAPrNmUBH&index=53

делаю проект на питоне+спарк+млиб, нужно выделит ключевые слова в 10к+ статей. как закончу планирую на Kaggle завести аккаунт.

Сейчас идёт соревнование www.kaggle.com/...llen-ai-science-challenge
Большинство решает его методом «в лоб». Парсинг и вливание в lucene 30Гб Вики плюс учебники по теме и далее попытки найти ответы на поставленные вопросы. Я планировал влить тексты в небольшой кластерок из Elasticsearch и дальше python+mllib+что фантазия подскажет. Можем попробовать вместе. Задачу я пока не стартовал, заканчиваю диплом на Курсьере. Через неделю-две возьмусь за задачу.

Рекомендуете? Платите или financial aid?

Если найдутся желающие поучаствовать, знакомые с алгоритмами семантического разбора,- велкам. Попробуем раздерибанить 80К приза :)

Делаю похожую штуку.
Поиск ключевых слов,
генерация схожих по смыслу предложений, обзацев, текстов.

Тексты не генерирую, нада сделать что то типа ключевых слов для статей.

word2vec не решает поставленную задачу?

О, спасибо. Не знал об данной тулзе. Надо будет посмотреть.

слова должны быть выбранны по весу относительно всех 10к статей

tf-idf, только он на питоне криво написан както, он возвращает рдд в котором два массива — массив захешированных слов в виде чисел и второй массив ихний идф. теперь нада как то это все вернуть обратно к словам, вначале конечно повыбирать максимальные идф для каждой статьи.

Подписаться на комментарии