Де працювати NLP-engineer в Україні?

Привіт усім! Поділіться думками, що думаєте про професію Natural language processing engineer (сфера data science), де її можливо застосовувати в Україні, окрім Grammarly, і що робити, коли ти пройшов курси та знаєш теорію, але мало практики?

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Не варто слухати людей, які говорять, що без дискретки/матану/алгоритмів ви не зможете стати спеціалістом — це не так, принаймні для українського ринку. Добре, якщо ця база є, це відкриває певні двері, але для більшості компаній куди важливіше вміння вирішувати задачі, а не знання, яку матричну факторизацію використовує той чи інший алгоритм або вміння написати руками backpropagation.

Хорошим джерелом практичних скілів може бути Kaggle. От, наприклад, поточне змагання по NLP: www.kaggle.com/...​lassification/leaderboard.

Інший варіант — зробити пет проект. Це може бути імплементація статті, демка вже якоїсь готової моделі (можна щось звідси: github.com/huggingface/transformers) або просто аналіз якоїсь задачі різними методами.

“If you don’t understand, don’t worry about it” — Andrew Ng

Як можна вирішувати задачі, не розуміючи, що під капотом тих механізмів, якими користуєшся? Це все одно, що хірург буде оперувати, повторюючи за кимось, але не розуміючи де і які органи знаходяться. Якийсь сюр.

Ви описуєте ідеальну ситуацію. Звичайно, якщо в людини є можливість отримати хорошо вищу освіту по цікавому профілю, треба цим користатись. Але радити 20 повноцінних курсів людині, яка хоче змінити сферу і почати розвиватись як спеціаліст — це або троллінг, або снобізм.

Може людина попрацює півроку і зрозуміє, що ця сфера взагалі не для неї. У випадку, якщо сфера сподобається, то довчити теорію і розібратись в тому «що під капотом», можливість буде, але тепер це будуть не якісь абстракні формули чи алгоритми, а вже щось що напряму зв’язано з тим, з чим людина встигла попрацювати, і, відповідно, інформація буде засвоюватись набагато більш ефективно.

В текущих украинских реалиях чаще всего...
ВО даёт тебе понимание, что не важно как ты шаришь предмет по факту. Важно иметь сданные лабы, уметь отсидеть полторачасовую лекцию у пенсионера который рассказывает так, будто бы он сейчас умрёт у доски и подготовить рефератик на гуманитарные предмет. Несомненно, без этих знаний я бы не выжил, как же

P.S против самого фундаментального CS ниче не имею, сам трачу на это время. Но то как это дают в униках...

Ви завжди спершу ретельно розбираєтесь в принципі роботі алгоритму/моделі, а лише потім починаєте його застосовувати? Якщо так, то ви щаслива людина. Більшість фахівців з індустрії не мають такої можливості, адже на першому місці у більшості випадків стоїть практичний результат, а не спроможність розробника пояснити фундаментальні принципи.

Ніхто не каже автору завершувати 20 курсів, але все ж пройти базовий курс з лінійної алгебри та машинного навчання необхідно. Плюс людям з технічною освітою варто пройти курс з лінгвістики. Ви просто не уявляєте, яких «спеціалістів» з NLP я «повидала на своем жизненном пути». Часто це просто умільці завести бібліотеку та поміняти параметри моделі. Вибачте — але якщо це те, за що людина отримує зп в 3-5 тис баксів, то це смішно. І ще — як може людина справитися із, скажімо, оверфітінгом, якщо вона не знає, що це таке? Не знає, як готувати дані, як робити фіча інжиніринг і тд? Ну тикати пальцем в небо хіба і надіятись, що результати будуть на півпроцента вищі за попередні:) А чому вони вищі і може не треба, щоб вони були вищі, то мало кого хвилює.

Як можна вирішувати задачі, не розуміючи, що під капотом тих механізмів, якими користуєшся?

От і я думаю, як можна користуватись дійсними числами для розрахунку здачі в магазині і при цьому не усвідомлювати, що додаєш та віднімаєш класи еквівалентності фундаментальних послідовностей на раціональних числах, що є певними класами еквівалентності пар цілих чисел, що в свою чергу є класами еквівалентності пар натуральних чисел, що є найменшою індуктивною множиною в системі аксіом ZFC і все це надбудовано над логікою першого порядку. Ну їй-богу, темні люди. Я б їм заборонив користуватись табличкою множення доки не осилять перший том Бурбакі (бажано на мові оригіналу), чи хоча б «Mathematical logic with special reference to the natural numbers» Стіна.

Это здравый взгляд на ситуацию. С другой стороны, наблюдая такие вещи
youtu.be/rHBEvlEgFSE?t=1977
я утверждаюсь в мысли, что с этой индустрией глобально что-то не так. И это еще люди, которых считают лучшими датасаентистами.

Ну да, лекція так собі. Та й дата-сатаністам варто би знати що таке SVD. Ну але це відео швидше підтримує мою думку ніж заперечує, адже всі ці люди якось працюють в АІ та обходяться без знання про SVD. Я просто дуже скептично відношуся, коли в контексті ML/DataScience люди розповідають, що займаються Серйозною Наукою ™, там всмерть потрібне Глибоке Розуміння ™ і Справжня Вища Освіта ™. Вся наука закінчується на першому ж питанні «коли буде результат?». При тім «результат» в сенсі «коли працюватиме як у конкурентів». На цьому моменті починають «play safe»: беруть готову модель від схожої задачі і просто крутять параметри, в кращому разі ще можуть один-два шари накинути — раптом краще буде. От і виходить, що не треба в більшості випадків якихось надглибоких знань. Ну може в окремих випадках потрібна одна людина на групу рівня PhD, щоб генерувати «геніальні ідеї», і то залежить чим займатися. А утримувати групи, які щось таке досліджують або вкрай новаторське з якого невідомо чи щось буде, або фундаментальне щоб «ми почали краще розуміти нейромережі», можуть хіба що компанії де грошей кури не клюють типу Гугла. Вони можуть собі дозволити підхід «не вийшло — не дуже-то і хотілося», ну але там і відбір в таку групу мабуть як на посаду професора в МІТ.

P.S. До речі, сам я закінчував фізфак КНУ, в масштабах України і ВУЗ хороший і̶ ̶к̶о̶н̶к̶у̶р̶с̶и̶ ̶ц̶і̶к̶а̶в̶і̶, та й спеціальність передбачає ряд математичних курсів. Але SVD в програмі не було від слова зовсім. Вперше з ним зіткнувся значно пізніше в контексті якихось задач по image processing. Зате в курсі лінійної алгебри та аналітичної геометрії було 100500 форм запису рівняння прямої, хоча користь на практиці є аж від однієї — через вектори. Проте курс так побудовано, що студенти в цьому губляться і на виході залишаються з думкою, що раз все одно чим користуватися, то на всі випадки життя зійде шкільне y = kx + b. До речі, користуючись можливістю передаю привіт всім фанам цього рівняння. Особливо тій частині, яка не знає, що дані зазвичай _реальні_, а не сферичний кінь в вакуумі, завдяки чому їх код періодично генерує нескінченні значення для k (ну або падає, кидає exception, чи просто неправильні результати видає). Тій частині, яка про це знає і обв’язує 100500 іфами теж привіт.

Так же, как и не уметь применять весь этот ворох академических знаний — легко.
Любую сферу можно углублять до бесконечности, вопрос в том, надо-ли фронтенд-разработчику знать, как рендеринг всего этого реализован в браузере?

«Хочу в датасаенс/мл, учу питон. — Да, правильно, учи питон!» — стандартный паттерн общения во всех подобных темах. Люди учат тупо питон и фреймворки, как будто это может заменить понимание фундаментальных вещей, например умножить матрицу 5×5 на матрицу 8×8 или решить любое уравнение степени 5 в радикалах.

спасибо за комментарий, буду иметь в виду. Там ниже уже скинули огромный список курсов по математике)

там ще може бути кілька рівнів вкладеності ))

Ну как сказать, зная на достаточном уровне питон — ты не пропадешь даже если не сложится с DS/ML — поэтому подход имеет смысл с точки зрения снижения рисков

Через буткемп в граммарли.

да, я уже отправила тестовое задание туда) надеюсь, выйдет.

NLP это хорошо.

как у вас с классической базой в объеме политеха — дискретка, матан, линал, теорвер в нормальном объеме, мат. статистика?

и туда же вопросы общей инженерной культуры — основы data engineering (данные закверять и сложить нормально, простой пайплайн собрать, АПИ поднять простецкий, модель обученную задеплоить и т.д.).

если нормально шарите во всем вышеперчисленном, идите спокойно на миддла в любой DS проект. поверьте, многие Middle/Senior DS не могут cross product от inner product отличить или вывсети логарифм макс. правдоподобия биномаильного / Бернулли распределения без подглядывания в учебник.

будьте наглее, все будет хорошо :)

Дякую за крутий розгорнутий коментар. Але маю трохи не ту ситуацію, «классическую базу политеха» та основи engineering треба вчити майже з нуля. Тому бути більш наглим не вийде, треба сидіти вчитися та йти потім на трейні, думаю. Знаю лише основи пітона та структурну лінгвістику. Ідея з НЛП взялася з того, що Грамарлі проводили відбір у школу комп’ютерної лінгвістики серед філологів, взяла участь у відборі і дуже сподобалося робити тестове та складати тести з пітону — подумала, можливо варто загалом перевчитися.

Ну значит будете одним из

многие Middle/Senior DS не могут cross product от inner product отличить или вывсети логарифм макс. правдоподобия биномаильного / Бернулли распределения без подглядывания в учебник.

Я второе кстати тоже не могу если что :).
Если коротко — из за отсутствия той вот базы как и в девелопменте и в математике будет сложно, но если действительно хочется и стало интересно — дерзайте.

а мне вот интересно, как глубоко нужно нырять чтобы называть себя человеком который владеет базой?
если простой пример — допустим я понимаю что такое интеграл или производная, как мат инструмент я понимаю в каких задачах он нужен, какие есть ограничения, с помощью готовых либ я могу че-нить посчитать — но если мне дадут какой-нить замысловатый пример из универской программы решить руками на листике, я возможно не смогу сходу это сделать — это считается как «о да он шарит в базе»?

если провести аналогию с девами — у нас тыщи сеньйоров не отстреливают в деталях как под капотом работает компилятор или ОС, какой именно алгоритм лежит под методом sort системной сдк — но в то же время базовой интуиции и осведомленности хватает для того чтобы решать 99% задач бизнеса, строить тестируемые красивые архитектуры и вот это вот все

я уже понял шо вы походу лютый сноб и у вас все только черное или белое)

Можна подумать в разработке как-то по-другому.

спасибо большое за список! Будем заниматься. Правда, я сейчас и так каждый день по 3 часа питоном занимаюсь после работы

но если круто разобраться и начать практиковаться, то в итоге через 3-4 года можно в перспективе на совсем другой заработок выходить)

Я б сказав — викиньте той список. Візміть тільки курс по Data Science, і майте на увазі, що десь х2+ часу треба буде на довчити те, чого не знаєте. Коли у курсі зустрічаєте те, чого не розумієте — робите паузу і за допомогою гугла та підручників гарненько саме це вчите. Тільки саме те, але гарненько, тобто дійсно зрозуміти, що воно таке і якщо воно опирається на бозна шо — входіть у рекурсію і вчить вже це. Докази пам’ятати не треба, але один раз зрозуміти їх корисно. Бо у списку дофіга того, що потрібно не буде. Так ви, формально, вивчите матан-лінійку-діфури-теорвер. Але тільки те, що треба. Бо там, насправді, далеко не все потрібно буде. Це все одно не швидко, але таки значно менше.

Ну розкажіть, де використовуються підстановки Ейлера, або балабол.
Це усе із розряду «не сидів — не мужик». Хто захоче — вивчить, що треба, може пізніше.

Маленьке зауваження — комплінгвістика та дата саєнс-NLP — це дві великі різниці, в першому більше про лінвістику із застосуванням програмування, рідко коли машинного навчання, друге — вміння будувати статистичні моделі для вирішення навколомовних задач, причому найчастіше дата саєнтисти про лінгвістику не чули, а якщо чули — то на рівні, що таке частини мови. Переваги роботи датасаєнтистом в Україні — це те, що роботи багато — вже будь-яка поважаюча себе галєра шукає їх, бо це модно. А от комплінгвісту в Україні дуже важко — це Гремерлі і, напевно, усе — є ще така компанія Омілія, вони теж наче нещодавно шукали, але хз, що то за компанія така. За кордоном ситуація трошки краще. Вам в якому з двох напрямків розвиватися цікаво? Є схильність до математики/фізики чи все ж лінгвіст з уміннями кодити? Готові мучити себе тими матрицями та градієнт десентами, причому в deep learning ті алгоритми змінюються зі швидкістю вітра, чи ви лінгвіст до мозоку кісток і ви хочете вирішувати задачі із використанням парсингу, залежностей і тд?

Дякую за коментар! Я лінгвіст зі з базовими знаннями програмування (інтенсивно вивчаю). Не страшно, якщо лише Грамарлі, це компанія мрії — більше питання як туди попасти)) матрицями себе можу і помучати. Бачу, у вас опис як нлп-лінгвіста: можете трохи розказати, будь ласка, де застосовуєте знання та як вчилися?

Ну я закінчувала профільну магістратуру, але і з повноцінним навчанням всі ці алгоритми даються важкувато людині без гарної математичної підготовки, просто пітон — це зовсім не те, що машинне навчання. Я б вам радила дійсно почати курс по машинному навчанню, наприклад курс від Andrew Ng на Курсері та подивитися, як вам зайде, причому майте на увазі, що там будуть розказувати про базові речі. А там і вирішете — чи вам потрібен дата саєнс чи ні. Бо якщо ні і ви оберете комплінгвістику, то розраховувати тільки на одну компанію в країні — ну таке.

если нормально шарите во всем вышеперчисленном, идите спокойно на миддла в любой DS проект. поверьте, многие Middle/Senior DS не могут cross product от inner product отличить или вывсети логарифм макс. правдоподобия биномаильного / Бернулли распределения без подглядывания в учебник.

Если как вы говорите куча народа с опытом работает без этих знаний.
То возможно на джуна нужно что-то другое?
Толку если заучит этот чек-лист.

Ее ж банально рекрутер не пропустит.

смотрите: я не говорил что без мат. базы нельзя вкатиться в DS.

можно, дорогу осилит идущий.

но это дауншифтинг, имхо: очень грустно по финансам первые года два и в общем довольно унизительно — быть среди тысяч резюме таких же джунов и рассчитывать на стечение обстоятельств или собственную настойчивость.

вторая проблема — вот вы здобули, доборолись да самого middle DS. чтобы развиваться дальше надо читать эти самые статьи и толстые книги. и тут два варианта — быть просто хайпером (в лучшем случае это фактически сейлзом, который нахватался) или быть все-таки специалистом. второй вариант ведет нас опять к вопросу базы — если вы не понимаете тот же линал, для вас почти любая статья или книга по машинному обучению — это набор символов и прикольные графики.

вторая проблема — вот вы здобули, доборолись да самого middle DS. чтобы развиваться дальше надо читать эти самые статьи. и тут два варианта — быть хайпером или быть все-таки специалистом. второй вариант ведет нас опять к вопросу базы — если вы не понимаете тот же линал, для вас почти любая статья или книга по машинному обучению — это набор символов и прикольные графики.

Без линейной алгебры в мидлы DS? Это какая-то фантастика.

я бы с вами согласился, но я такую «фантастику» наблюдал дважды. оба ребята из deep learning, миддлы.

та не проблема трейни за еду, с чего-то начинать нужно. Потерпим. Лучше так, чем маркетологом выше 2к никогда не получать) Я не определилась еще даже с отраслью data science: рассматриваю nlp из-за знаний структурной лингвистики, как один из вариантов. Сижу учу питон.

на вот такой ахинее некоторые инфо-предприниматели зарабатывают и побольше data-синиоров, если что :(

было бы очень классно, спасибо)

Зато, если две эти «ахинеи» объединить, можно много интересного сделать (:

Мне одному плюсики кажутся крестиками?

Є, до речі, гарні курси по NLP prjctr.com.ua/...​-language-processing.html із захистом робіт в офісі Грамарлі і тусовкою. Жінка як із декретів виходила їх проходила і влаштувалась, але в неї до того теж досвід був. Ну і там і ціна і пахати і я б дуже радив таки навчитись програмувати більш-менш і якісь основи лінійної алгебри перед тим, бо зашиєтесь.

Також, якраз ще встигаєте до літньої бескоштовної онлайн школи по ML/DS в УКУ, але це не саме NLP apps.ucu.edu.ua/en/summerschool-ds

дуже дякую, я туди і планую піти, про вартість та умови знаю. Ще подала тестове завдання у літню школу грамарлі, але результатів ще не маю. Може пощастить)

дивилася, усюди питають лише сініорів. Та і вакансій небагато. Більше на загальний data science

Ну зате не тільки Grammarly :)

Можливо, ще такі статті будуть цікавими:
dou.ua/users/and13/articles

що думаєте про професію Natural language processing engineer

Э тут в нас один Віктор. Він може компетентніше розкаже.
Але, ти не НЛП інженер якщо не зїла на тому НЛП собаку а то і декількох. Для молодого спеціаліста без досвіду напевно мало б сенс дивитись на ринок білш широко.

де її можливо застосовувати в Україні, окрім Grammarly

В 100-500 інших стартапів. То тіпа популярна тема, і буває що вони готові брати толкову людину «на виріст». Але знову ж таки треба бути тою «толковою людиною» і бути готовим працювати і в білш широкому спектрі задач.

і що робити, коли ти пройшов курси та знаєш теорію, але мало практики?

Заробляти практику? ну логічно ж хіба ні?

ЗІ: все вищесказанне лише мої некомпетентні домисли

чорт

Chief marketing officer в Main Academy

А я відповідаю як живій людині.

я жива людина і можу змінювати професію. подивитеся через тиждень стрічку, тут не буде жодного посилання чи нагадування про якусь школу з вивчення хоч чогось)

я жива людина

Яка видає себе не за того ким вона є. Або питає не те що хоче спитати.

я це питаю, бо маю отримані в університеті знання зі структорної лінгвістики та базові навички пітону, які отримала на своєму місці роботи. Це хороше поєднання для того, что почати вчити natural language processing (очевидно, що ця професія більш затребувана та високооплачувана, ніж маркетолог). + я тут ніде не пишу про своє робоче місце, і не напишу (можете перевірити з часом). Це більше до вас питання «фейковості» — до людини, що навіть не подає своє ім’я та фото, мої ж дані відкриті та справжні.

Ок.. тоді не так зрозумів, думав Ви зібрались курси відкривати.
Тоді можу порадити крім НЛП качати ще й девелопмент скіли взагалі.

я вам на 100% заявляю, що не хочу тут нічого промотувати, а просто спитати поради у більш досвідчених людей. Мені не подобається наразі вид моєї зайнятості і я хочу його змінити.

качати ще й девелопмент скіли взагалі

 — так, багато хто радить, тому сиджу пітон далі вчу

создатъ стартапчик для отслеживания fake news. оч. модная нынче тема

Есть подозрение, что после применения работающей версии к укр. медиа сфере , новостей вообще не останется.

не лишиться взагалі. Це я вам як маркетолог/піарник кажу)

Подписаться на комментарии