Золоті медалісти Kaggle — про потрапляння в топ на змаганнях з ML та чому в Україні проблеми з машинним навчанням

Ігор Крашений та Денис Саква наприкінці 2018 року здобули золото, увійшовши в десятку на змаганні Kaggle, платформи для людей, які цікавляться аналізом даних, машинним навчанням, прогнозуванням і суміжними напрямками. У ньому брали участь понад 3000 команд з усього світу. При цьому понад місяць українці трималися на другому місці.

Ігореві — 29 років, він Senior Research Engineer в компанії Ciklum. Закінчив КПІ за спеціальністю «Фізична та біомедична електроніка», а також був аспірантом університету в іспанській Гранаді.

Його напарнику по команді Денису — 42. Закінчивши економічну кібернетику у Запоріжжі, він пішов вчитися за спеціальністю «Public Policy» у місті Рочестер, США. Сьогодні працює старшим аналітиком інвестиційної компанії Dragon Capital.

Призовий фонд цьогоріч для першого місця складав 100 тисяч доларів. Хоча українська команда не отримала грошової винагороди, проте здобула статус майстрів Kaggle, а також досвід. В інтерв’ю для DOU Денис Саква та Ігор Крашений розповіли про шлях до топ-10 на Kaggle, чому в Україні складно з machine learning та кому воно потрібне.

Денис (зліва) та Ігор (справа) на Data Fest Kyiv 2017, де вони й познайомилися

— Ви не вперше брали участь у Kaggle. З чого усе почалось цього разу?

Денис Саква: Змагання тривають три місяці. Тому неможливо передбачити, як розвиватимуться події. В Kaggle вперше я взяв участь три роки тому у напрямі структурованих, тобто табличних, даних. Моє хобі — обробка зображень. Зрештою, з часом я перейшов на графічні дані.

На Kaggle є загальний рейтинг гравців — від новачка до гранд-майстра. Я вже мав бронзові, срібні медалі. Мені до майстра не вистачало одного золота. Пофартило, що найбільш інтенсивна частина змагань припала на мою відпустку. Я мав можливість приділити цьому більше уваги. При роботі з такими даними важливий комп’ютерний зір. Тобто дивитись на картинку, одразу читаючи її та підбираючи варіанти вирішення завдання.

Ігор Крашений: У мене схожа ситуація. Бувало, що закінчував у тридцятці, тобто не вистачало зовсім трохи до золота. А почалося все спонтанно. Познайомилися з Денисом на одній із лекцій. А коли побачили один одного у рейтингу змагання, подумали: чому б не об’єднатися? Списались, слово за слово — так і пішло.

Більш правильно казати, що ми отримали золоту медаль, а не перемогли. Оскільки платформа стала гуглівською, сюди вливають багато капіталу. Отримати золото зараз та п’ять років тому — це не одне й те ж саме. Сьогодні дуже багато досвідчених та серйозних учасників. Вони натреновані, мають готові рішення, під які потрібно просто підставити дані і завдання вирішуватиметься. В Ciklum я займаюся якраз deep learning. Такі змагання дозволяють прокачати себе в неробочий час. У сейсмологічних фотографій, які дають на Kaggle, зовсім інша природа на відміну від зображень з фотокамер. Інший сенс та специфічне оброблення.

Один з плюсів таких завдань — ти можеш подивитись на дані й зрозуміти, наскільки твоя модель відповідає реальності.

— Що вам вдалося зробити?

Саква: Легше сказати, чого ми не зробили. Наше завдання було — знайти сіль. Точніше знайти грань, де вона закінчується і починається порода. Сіль впливає на буріння. Під солевими лінзами може знаходитись газ, нафта. Це важливе завдання з точки зору пошуку корисних копалин. І так, вибірка у чотири тисячі картинок. Ми мали невеличкі картинки 100×100 пікселів з сейсмічними даними. Наприклад, їде машина, її двигун видає певні звуки, які проходять в ґрунт і перетинають різні матеріали — глину та гравій. Між цими шарами з’являється звуковий відголосок, який ловлять мікрофони. За допомогою нього можна отримати дані про структуру ґрунту пошарово у часі.

Крашений: Як працює Kaggle? Є тренувальна вибірка, є тестова. Тренувальна — розмічена. Ми знаємо, що там є і де воно знаходиться. В тестовій — не знаємо. Щоб отримати свій результат в підсумковій таблиці, ми готуємо певне вирішення, яке потім дає можливість згенерувати розмітку, подібну до тренувальної частини, — у тестовій. Ми відправляємо це на платформу, там оцінюють і дають нам проміжні бали, які відображаються в загальній публічній турнірній таблиці.

У нас була сейсмічна картинка, на якій були присутня як сіль, так і інша геологічна порода. Кожному пікселю у нас відповідав 0 або 1, тобто немає солі або вона є. Другий набір картинок — без розмітки. Наше завдання полягало якраз у тому, щоб зробити їхню розмітку і зазначити, в якому саме місці є сіль, а в якому немає. Ми зіштовхнулись з тим, що у нас була базова модель, яка дозволяє отримувати певний результат з визначення солі. А як отримати на 10% кращу модель — було складно й незрозуміло.

Саква: Наша модель передбачає, умовно, що в цьому пікселі є сіль, в наступному її нема, а в третьому знову є. Логічно передбачити, що сіль йде через усі три пікселі.

Крашений: Це актуальна тема і для Китаю, де часто пишуть наукові статті на тему розпізнавання облич в густонаселених місцях. Проте моделі не завжди справляються зі своїм завданням. Зараз також розвиваються машини на автопілоті. Є проблема густорозміщених об’єктів, наприклад, дерева, білборди, знаки. Їх треба знаходити й аналізувати. І одні знання, і другі можна використати у зовсім іншій галузі.

— Який у вас був найкращий результат під час конкурсу?

Крашений: Друге місце. На третьому ми були близько півтора місяця. За три тижні до кінця потроху почали сповзати. До багатьох команд підключились важковаговики, тобто ті, хто цим займаються професійно. У великих корпораціях є посади. Щоб на них потрапити, велику перевагу дає звання гранд-майстра з Kaggle. Якщо в компанії є такий співробітник — це велика промоція для неї. Наприклад, є така компанія з аналізу, як Н2О. У них лише одна вимога на посаду data scientist — мастер чи гранд-мастер на Kaggle.

— Що давалось найважче?

Саква: Нейронні мережі настільки добре вчаться, що можуть це робити навіть буквально на смітті. У мене на змаганнях був момент, коли я давав нейронці 15% сміття, тобто брудні дані, які давали нам організатори. Частину з них потрібно було викинути, адже моделі без них краще вчились. А вона все одно вчилась і працювала, хоча, звісно, не так добре, якби я давав їй правильні дані. Але сам процес тренування — довгий, тобто від доби і більше.

Проблема в тому, що мережа не говорить тобі, що дані неправильні. Тобто неможливо дізнатись, зробив ти помилку чи ні. А коли ти не бачиш покращення свого результату, то думаєш: це тому що неправильні дані чи просто мережа довго вчиться? Якщо вона не вчиться, можна змінювати імплементацію, налагоджувати доданий фрагмент коду, змінити крок навчання або ж взагалі змінити алгоритм навчання. Будь-які параметри можуть вести бо будь-яких результатів. До того ж, якщо ти робиш експеримент двічі й хочеш отримати однаковий результат — це неможливо.

Крашений: Коли помилка в коді, тобі пише: друже, так робити не можна. А тут буває, що все доводиться перероблювати, бо помилку не вдається так просто локалізувати.

Ігор Крашений розповідає про їхнє рішення із сегментації машин на першому тренуванні з ML

Саква: В останній день за кілька годин за завершення турніру, ми піднялись аж на четверте місце в рейтингу. Інші учасники почали робити щось, що дозволяло їм покращити свій результат. Ми тренували, але бачили, що в загальному рейтингу падаємо і наша робота нічого не дає. А конкуренція дуже велика. Різниця між першими п’ятьма місцями дуже мізерна. Деякі учасники навіть кидали в публічний досвід свої ідеї та напрацювання, щоб ними усі користувались, аби збільшити конкуренцію і шанси усіх.

Крашений: Ми навіть почали думати, як витрачатимемо гроші (сміється). В останній день змагання ми побудували обробку на основі сусідніх зображень. Виявилось, що деякі зображення з тренувальної вибірки та тестової можливо об’єднати в мозаїку і на основі цього побудувати евристики для покращення результатів. Але, як виявилось, це давало покращення тільки на публічній частині даних. На приватній такий трюк нам нічого не давав, оскільки компонентів мозаїк там не було.

— Як цей досвід вплинув на вас?

Крашений: Алгоритми роботи в команді дуже відрізняються від того, як ти працюєш самостійно. Якщо сам, то маєш усю інформацію, знаєш, як, коли і що використовував. Усе в голові. Натомість у команді з’являється багато нових факторів. Довелось підлаштовуватись.

— Наприклад?

Саква: Як обмінюватись даними. Ми спочатку навіть передбачення тримали в різних форматах. Мої займали кілька десятків гігабайтів, а Ігореві — близько 70 МБ. Є таке поняття, як локальна валідація, тобто перехресна. Тобто коли модель будується на одних даних, а передбачення роблять на іншому наборі даних. Далі йде перевірка того, наскільки твоя модель добре працює на даних, яких ця модель ще не бачила. І щось тут неможливо було валідувати, оскільки різні формати.

Крашений: Найголовніше — це швидко ітеруватись. Тут є два складника: залізо для навчання (наприклад, мій домашній ПК має 4 відеокарти та процессор з 12 ядрами) та швидко генерувати ідеї та їх випробовувати, а для цього — читати найновіші наукові статті та мати змогу їх випробовувати. У моєму рішенні, наприклад, були використані ідеї з 4 статей 2018 року, а на момент початку конкурсу найсвіжіший з них було кілька місяців.

— Скільки років ви в професії?

Крашений: Я почав цим займатися ще в Іспанії, тобто з 2013 року, куди я поїхав писати дисертацію. В останній рік магістратури я потихеньку почав вникати в картинки — двовимірні, тривимірні, багатоканальні. А deep learning почав займатись нещодавно, три роки тому на роботі в Ciklum.

Саква: Мене цікавили речі, які пов’язані безпосередньо з роботою. Наприклад, як покращити аналіз часових рядів, прогнозування абощо. Поступово вийшов на безпосередньо machine learning. Прийшов кілька курсів, перестрибнув на deep learning. Хоча це зовсім не те, чим я займаюсь на роботі. Machine learning — це для мене хобі.

— Які б порадили курси та літературу для тих, хто хоче глибше вникнути в тему?

Крашений: Курс cs231n Андрія Карпати, теперішнього голови Tesla АІ. Коли він його розробив, це був просто вибух у цій тусовці. Він побудований на дуже якісних матеріалах і дозволив демократизувати цю тему. Також є чудова книга «Deep Learning» Ієна Гудфелоу. Вона є своєрідною збіркою найбільш знакових статей за останні роки у галузі плюс база з лінійної алгебри, яка необхідна для розуміння матеріалу. Також є гарна книга «Глубокое обучение. Погружение в мир нейронных сетей» Сергія Ніколенка. Вона дуже доступно написана.

Саква: Також є сайт fast.ai Джеремі Ховарда, колишнього директор Kaggle. Він сам дослідник-практик machine і deep learning, який зробив курс про те, як швидко увійти в тему звичайним програмістам, які знають лише мову програмування.

Денис та Ігор на тренуванні з ML

— В Україні складно з deep learning...

Крашений: Так, спеціалістів мало, а сам ринок доволі монополізований великими компаніями, які скуповують професіоналів.

— Проблема університетів?

Крашений: Зараз багато людей хочуть працювати в ІТ лише заради грошей. Вони не розуміють, навіщо їм вчитися в університеті, бо є тримісячні курси. Проте машинному навчанню потрібні фундаментальні знання, й курсів для розуміння цієї роботи — мало. Пройшов ти курс Ендрю Енга, Карпати, а що далі? Чимало студентів намагаються потрапити в цю сферу через QA, Beck-end.

Є розробники, а є інженери. І між ними є велика різниця. Девелопер не будує мости, це робота інженера, він робить щось нове. Натомість розробник робить щось з того, що вже існує. Для deep learning якраз треба інженерів, науковців. Звісно, ти будуєш все з тих самих блоків: нейронних мереж, алгоритмів машинного навчання, але їх потрібно так тюнити, що це стає інженерною роботою. Це складний процес.

Саква: Інша проблема — це взаємодія ринку з навчальними закладами. Я працюю в промисловості і скажу, що майже ніхто не користується алгоритми машинного навчання. Фірми на це неорієнтовані, за винятком, наприклад, «Розетки».

— Як щодо грошей?

Саква: У нас дешева праця. Легше посадити 10 людей, дивитися вручну на цю всю сейсмічність, ніж наймати фірму, яка буде будувати рішення на довгострокову перспективу. Але це дорожче. Ось чому в нас ще є кондуктори та контролери. Дешевше платити бабці три тисячі гривень на місяць, ніж вкладати в незрозуміло що. Та і коли воно гроші принесе? Можливо, вони і не вірять, що це настане.

Стратегічне планування скасували. Якщо планують щось на рік-два — це дуже сміливі люди. Ми живемо від виборів до виборів. Хіба за винятком компаній, які живуть в більш-менш стабільних умовах, наприклад, оператори МТС, Vodafone, Київстар, Life або ж інші сайти, які чогось прагнуть у житті.

Водночас у нас залишаються великі промислові холдинги, для яких це питання може бути не настільки актуальне. Для них актуальніша ціна сталі, вугілля. Там займаються більш тактичними питаннями, ніж чимось, на їхню думку, абстрактним з незрозумілими результатами в майбутньому. Адже інвестувати потрібно навіть не в обладнання, а в дані.

Крашений: Ще одна проблема — освіта. Багато людей намагаються отримати саме диплом, а не знання. І найгірше — на це є попит. Зазвичай, у таких людей в голові пережиток Радянського Союзу, коли батьки говорили: «Іди в університет, а то будеш двірником чи в армію тебе заберуть». Або: «Якщо не вийдеш заміж до 25 років, то будеш старою дівою і тебе вже ніхто не візьме». Немає конкуренції за знання.

Наприклад, в Цюриху є Федеральна вища технічна школа (ETH). Це один з найкращих університетів у світі. З ним пов’язані понад 20 Нобелівських лауреатів. Google звідти скуповує випускників і тримає там один з найбільших своїх офісів після Маунтін-В’ю. Там працює майже чотири тисячі людей. Компанія може собі це дозволити, адже рівень освіти в університеті відповідає її потребам. А у нас? Ви бачили компанії, які приходять в університет й читають свої курси? Це дуже незначний відсоток.

Саква: У машинного навчання дуже велике майбутнє у сфері медицини. Воно може зробити високорівневу медицину доступною для країн третього світу, до яких, на жаль, відноситься Україна. Передусім це діагностика. Рання діагностика дозволяє вирішити купу проблем, пов’язаних і з раком, хворобою Альцгеймера та інших.

Крашений: В Україні навіть не діагностують хворобу Альцгеймера. Я з цим зіштовхнувся безпосередньо, коли писав дисертацію і збирав дані таких хворих. В Україні зазвичай говорять, що це старість. На захисті у мене запитали: «А чому у вас дані з Канади і США, а не наші?». І це хороше питання, пов’язане з обладнанням та фахівцями. У нас навіть немає державних програм з підтримки таких хворих. Зрештою, я запитав присутніх на захисті, скільки потрібно часу, щоб знайти таких пацієнтів в Україні і обробити їхні дані. Ніхто не відповів.

Хвороба Альцгеймера — лише один з багатьох прикладів підміни статистики медичних захворювань. Якщо людина мала грип і померла, найімовірніше, напишуть, що це щось серцево-судинне. Останнім часом ми навіть маємо суперечки щодо щеплень. Такого немає у просунутому світі. Діагностика хвороб за допомогою deep learning для таких країн, як наша, може дати недорогий і дуже швидкий результат.

Саква: До того ж, наприклад, щодо легеневих захворювань — вже є готові розмічені дані — тут пневмонія, а тут збільшене серце, ось тут рак. У таких випадках комп’ютер може визначати ймовірність захворювання набагато достовірніше, ніж досвідчені лікарі. Багато медичних навчальних установ мають великі бази даних, до яких дають доступ усім охочим, але не в комерційних цілях. Можна в такому випадку для початку зробити якийсь прототип моделі, а потім зібрати інвестиції. Але головне — бажання бачити трохи далі, ніж на рік вперед.

— У вас не було бажання поїхати з України?

Крашений: Технічно це не так складно, тим більше в цій сфері є багато пропозицій. Але дуже багато програмістів їдуть за кордоні і згодом повертаються, хоча зарплату там пропонують на 30% чи 50% більше. Але в чому проблема? Там витрати в рази більші, ніж ця надбавка. Тут навіть коли отримуєш в два рази менше, ти себе все одно почуваєш дуже комфортно і можеш собі багато чого дозволити.

Чимало програмістів їдуть у Сан-Франциско, Кремнієву долину абощо. Спочатку ти отримуватимеш там близько 120 тисяч доларів на рік. Для тої місцевості — це мізер. Ти будеш жити в собачій будці. Є й інший бік проблеми. Громадяни, які народилися в тих містах і не є програмістами, почуваються у складній ситуації. Кажуть, мовляв, ми тут все життя прожили, але не можемо дозволити собі нормально існувати. До прикладу, мій знайомий працює в компанії Lyft — це один з аналогів Uber. Він знімає здоровенну квартиру з трьома друзями. За неї вони платять 15 тисяч доларів на місяць. Це дуже багато.

Водночас я розумію людей, які погоджуються на невисоку зарплату і виїжджають. Це виклик самому собі і вихід із зони комфорту. І це круто. Я прожив рік в іспанській Гранаді, мені там дуже подобалося. Тим не менш, працювати там складно. Культура така: сонце, ти постійно розслаблений, о другій-третій дня вже хочеться спати. Виходиш на двір — спека, як в пеклі. І загалом життя дуже стабільне та спокійне. Так я і дисертацію написав.

— Коли варто їхати?

Саква: Коли молодий, не маєш сім’ї і тебе нічого не стримує.

— Які плани на майбутнє?

Саква: Я б дуже хотів почати застосовувати deep learning у своїй роботі, тобто причепити це до фондових ринків, змін вартості акцій тощо. У фондових ринках низьке співвідношення сигнал-шум. Але, на жаль, поки я не можу цього робити.

Крашений: Я б хотів більше займатися наукою і писати наукові статті в спеціалізовані журнали з machine learning, брати участь у конференціях, вчитися. Зараз я беру чиюсь роботу, мінімально покращую її, доводжу до робочого стану, який би комусь щось приносив. Мені хотілося б робити своє, наукоємне з користю для людей. Але на це не вистачає часу. Проте все ще попереду.

Теми: ML, інтерв’ю, змагання

Alex Mokin BA & AI/ML Researcher at AUG.global; Head of Department, Professor at VNTU 07.02.2019 01:04

Дякую за цікаве інтерв’ю та рекомендації! Успіхів з китами! Неймовірний score і дуже цікава боротьба :)

Відповісти

Підтримати

Igor Krashenyi Senior Research Engineer 07.02.2019 01:23

Спасибо большое! Стараемся :)

Alex Mokin

Vitaliy Bondarenko Працює в Amazon 06.02.2019 09:58

Дякую за цікаву статтю. Не хочу засмучувати, але переважна більшість програмістів не повертається, нажаль. І надбавка вище для якісних спеців, а потенціал так і взагалі не порівняти. До речі, я поїхав вже коли у мене були діти, і назад не зможу повернутися просто через ментальність оточуючих (про що, власне, трішки написано у статті).

AAAA 05.02.2019 23:15

залізо для навчання (наприклад, мій домашній ПК має 4 відеокарти та процессор з 12 ядрами)

А можете чуть больше рассказать о железе? Как такие компы собираются или возможно существуют уже готовые сборки, или может это просто все начинается со спец матиринки? Можете скинуть с чего начать\прочитать как такое собирать и сколько будет стоить?

Igor Krashenyi Senior Research Engineer 06.02.2019 01:05

Я свой комп собирал полностью сам. В интернете достаточно много статей по поводу сборок девбокса под ДЛ, большинство из них на Intel. Сейчас же оптимальным в плане платформы считается AMD Threadripper.
процессор: Threadripper 1920x
материнка: Gigabyte Designare EX x399
память: HyperX Fury 2666 4×16GB
карточки: 1080ti Turbo
питание: Corsair 1600i
процессорный куллер: Noctua NH-D14
жесткий: Samsung 970 Evo 1TB
жесткий: WD 2×6TB Gold
корпус: Corsair 540 Airflow
OS: Ubuntu 18.04

обошлось все в 5-5.5к$ где-то

AAAA

AAAA 06.02.2019 01:24

А облачные платформы использовали для тренировки сети? если да — то когда на ваш взгляд дешевле или удобней купить физическое железо вместо аренды в облаке?

Igor Krashenyi

Igor Krashenyi Senior Research Engineer 06.02.2019 11:13

Конечно использовал и использую на работе.
Если поиграться, то облако супер. Есть Colab от Гугла, где можно бесплатно потренить на старых карточках и с ограничением по времени, а если не поиграться, то выгоднее свое :) Сильно выгоднее.
Собрать свой простой ПК с 1-2 карточками уже хорошо для начала.

Vladimir Spasyonov 06.02.2019 14:00

А сразу купить сервер не судьба, а не городить майнинг платформу?

Bob Arch 06.02.2019 01:08

Почати можна з курсу CS231N, там підійде звичайний ноутбук. А далі, якщо більш серйозно займатися то рекомендую зібрати стаціонарник з потужним процесором таким як Intel I7/AMD ryzen і хоча би однією відеокартою Nvidia з підтримкою CUDA (наприклад GTX1080Ti)

Sergiy Korobov Qt C++ Developer 12.02.2019 23:27

А що на рахунок нових карток Nvidia RTX з тензорними ядрами які були раніше доступні тількі у професійних рішеннях? Згідно з цим devblogs.nvidia.com/...ming-tensor-cores-cuda-9 тензорні ядра дають не аби який приріст обчислень в порівнянні відеокартами, які не мають таких ядер.

Bob Arch

Bob Arch 13.02.2019 00:03

Принципова відмінність RTX серії — апаратна реалізація трасування променів. CUDA ядра були давно в не професійних рішеннях серії GTX, що власне, дозволяє використовувати їх для машинного навчання. Звісно, якщо купити там V100 чи P100 то тренування буде набагато швидше, сітки більші, але їх ціна для домашнього пк є неадекватно великою.

Sergiy Korobov

Sergiy Korobov Qt C++ Developer 13.02.2019 11:56

Звичайно, я в курсі про Ray Tracing в картах RTX. Але я мав на увазі, що окрім цього в них є тензорні ядра, які раніше були доступні тількі в професійних рішеннях. Наприклад найдоступніша карта Nvidia RTX 2060 має 240 тензорних ядер. А GeForce RTX 2080 Ti має вже 544 ядер, та ще їх можливо об’єднувати шиною NVLink. Ймовірно, що як раз завдякі тензорним + RT ядрамстав можливий Ray Tracing у реальному часі. Тож, може RTX карти краще підходять для ML ніж GTX, незважаючи на більш високу ціну?

Bob Arch 14.02.2019 19:33

Приріст буде в будь-якому випадку за рахунок більшої кількості ядер на визщій частоті. Ну якщо ви будете працювати з квантизованими моделями з INT 4, INT8 або FLOAT16 то додатковий приріст повинен бути від тензорних ядер. Але як правило навчають моделі з FLOAT32 змінними.

Igor Krashenyi Senior Research Engineer 17.02.2019 11:04

Там есть еще вопрос в поддержке фреймворками этих тензорных ядер.
Сейчас 1080ti можно купить меньше, чем за 20к, а 2080ti за 42к+, а прирост только 30-50% в зависимости от задач и архитектур. В интернете есть много бенчмарков по этому поводу.

С нвлинк там тоже есть нюансы. Например, 100 уе за нвлинк мост для двух карточек. А коннектор на 4 пока еще не сделали. Да и тестов для задач DL я все еще не видел :)

Лично для меня, единственная причина из-за которой стоит рассматривать покупку 2080ti — поддержка mixed precision training (больший батч можно впихнуть).
Но все зависит от кошелька :)

Andrii Podanenko gestalt therapist, team lead, architect, CEO в ITCare, LLC 05.02.2019 12:34

Молодці

Oleksandr Melnychuk Senior Software Engineer в Sigma Software 04.02.2019 22:24

Спостерігаючи за індустріалізацією DS і 90% типових ML задач для бізнесу, дуже смішно читати про вчених, інженерів і девелоперів. Можливо, з натяжкою, десь так і є. Але говорити про це в голос — уже моветон.

Alexander Konduforov Data Science Practice Leader в AltexSoft 04.02.2019 19:52

Жаль, что в интервью мало технических деталей о том, что именно ребята делали, чтобы выиграть золото. А есть видео выступления на митапе или хотя бы презентация?

Если кому интересно послушать про решение, которые позволило получить «золото» на другом CV соревновании, Дима Панченко рассказывал об этом на последней встрече харьковского клубе ИИ: www.youtube.com/watch?v=yTnidkt_35k

Igor Krashenyi Senior Research Engineer 04.02.2019 20:40

Видео, к сожалению, нет, но есть презентация с решением drive.google.com/...mt537Mux-X4UnmmMDsyOKlcNU

Alexander Konduforov

Olga Makarova Data Scientist 05.02.2019 13:21

Это вообще проблема статей о каггл. Часто они выглядят так:
1) пришел
2) что-то запилил
3) профит!

А потом оказывается, что там три недели 12-часовой работы и 100500 попыток и подходов к снаряду.

Alexander Konduforov Data Science Practice Leader в AltexSoft 05.02.2019 18:29

Ну да, в рамках интервью это не раскроешь особо

Olga Makarova

Dmytro Danevskyi ML engineer 05.02.2019 21:02

Никто не любит слушать про неудачи :)

Olga Makarova Data Scientist 06.02.2019 10:28

Ну не знаю, по-моему в них как раз вся польза, и практическая (как решать задачу), и психологическая (не я один лошара и неудачник, а все через это проходят)))

Dmytro Danevskyi

Юрій Ярош developer в bitsnap 04.02.2019 18:53

Мне вот, например, очень прискорбно что у нас товарищи не понимают мэма «Стакать XGBoost’ы» и выпячивают Kaggle как ачивку...

Igor Krashenyi Senior Research Engineer 04.02.2019 20:43

ни в одном соревновании ни один XGBoost не стакнул

Юрій Ярош

Юрій Ярош developer в bitsnap 04.02.2019 20:59

Тут вопрос об отсутствии понимания сабжа народом... я ж не с предъявами.

Igor Golodnitsky те самые 5k$ в PreciseQ 04.02.2019 17:54

Які б порадили куси та літературу для тих, хто хоче глибше вникнути в тему?

Опечтака

Alyona Luzan працює в DOU.ua 04.02.2019 18:30

дякуємо, виправили в тексті

Igor Golodnitsky

Sergiy Doroshenko 04.02.2019 17:12

Это все интересно, но не особо выгодно. Слишком большой порог входа, а отдачи нет. Гораздо надежней на javascript капусту рубить. Ну и ребята написали, что по большей части это хобби.

Victor Musienkо Senior Engineer в Noibu.com 04.02.2019 22:50

тенсорфлоу і на жс є ;)

Sergiy Doroshenko

Maksym Ganenko Computer Vision Engineer в Upwork 08.02.2019 22:06

Так и гвозди, говорят, можно микроскопом забивать.

Victor Musienkо

Игорь Смолянский Senior Java Developer 04.02.2019 15:49

По моему скромному мнению, наличие все более и более совершенных платформ и фреймворков сделают эту профессию примерно такой же инженерной как и программирование. И нужно будет знание кучи фрейморков и общей базы, без phd по математике .И я не согласен с тем что инженер изобретает новое. По моемому любой хороший кодер крудописатель как раз таки инженер,так как инженер, это человек воплощающий научные разработки на практике в промышленности, инустрии, используя известные, часто стандартные подходы(разработанные наукой) и как раз таки создание мостов хоть и требует высокой квалификации но в подавляющем большинстве случаев не требует никаких научных прорывов, а вот люди занимающиеся прорывными cutting edge разработками уже ближе к науке, то есть ученые.

Юрій Ярош developer в bitsnap 04.02.2019 18:56

любой хороший кодер крудописатель

CRUD копипаста — 99% украинского IT.
А ещё есть 1% без копипасты, который в Базы Данных нормально умеет...

Жаль конечно что у нас «Нормализация — это антипаттерн».

Игорь Смолянский

Olga Makarova Data Scientist 04.02.2019 14:25

Спасибо за статью. Интересно было бы понять, сколько времени ушло у ребят на соревнование

Igor Krashenyi Senior Research Engineer 06.02.2019 11:42

Сложно сказать :) Мы работали над конкрусом все 3 месяца. С небольшими перерывами, но думаю в среднем 4+ часа в день где-то

Золоті медалісти Kaggle — про потрапляння в топ на змаганнях з ML та чому в Україні проблеми з машинним навчанням

— Ви не вперше брали участь у Kaggle. З чого усе почалось цього разу?

— Що вам вдалося зробити?

— Який у вас був найкращий результат під час конкурсу?

— Що давалось найважче?

— Як цей досвід вплинув на вас?

— Наприклад?

— Скільки років ви в професії?

— Які б порадили курси та літературу для тих, хто хоче глибше вникнути в тему?

— В Україні складно з deep learning...

— Проблема університетів?

— Як щодо грошей?

— У вас не було бажання поїхати з України?

— Коли варто їхати?

— Які плани на майбутнє?

Схожі статті

Як проходить стажування у Facebook Reality Labs і чому наука буває цікавішою за інженерію — розповідь української дослідниці

Механічний Шевченко: чи здатні машини до літературної творчості?

Вступ до Machine Learning: знайомство з моделями

34 коментарі

Підписатись на коментарі

Новини

Радимо почитати