Kyivstar Tech шукає спеціалістів для команди, що розробляє українську LLM

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Kyivstar Tech відкрила вакансії для фахівців, які працюватимуть над національною великою мовною моделлю (LLM). На зараз на DOU розміщені 6 вакансій.

Data Engineer (NLP-Focused)

Основні обов’язки:

  • Розробка та підтримка ETL/ELT-пайплайнів для збору, перетворення та зберігання великих обсягів текстових даних.
  • Впровадження сервісів вебскрейпінгу та збору даних для автоматизації отримання текстової та лінгвістичної інформації з вебу та інших зовнішніх джерел.
  • Реалізація специфічної обробки даних для NLP/LLM: очищення та нормалізація тексту, фільтрація токсичного контенту, дедуплікація, видалення персональних даних.
  • Формування спеціалізованих датасетів SFT/RLHF з наявних даних, включно з аугментацією та маркуванням за допомогою LLM.
  • Налаштування та управління хмарною інфраструктурою даних проєкту (data lakes, warehouses) та фреймворками обробки (AWS/GCP/Azure).
  • Автоматизація робочих процесів обробки даних та забезпечення їх масштабованості й надійності за допомогою інструментів, як-от Apache Airflow.
  • Підтримка та оптимізація аналітичних баз даних та шарів доступу до даних для ad-hoc аналізу та тренування моделей.
  • Співпраця з Data Scientists та NLP Engineers для створення наборів даних для моделей машинного навчання.
  • Впровадження перевірок якості даних, моніторингу, сповіщень та версіонування даних.
  • Управління безпекою даних, контролем доступу та відповідністю стандартам політики конфіденційності.

Вимоги:

  • 3+ роки досвіду на посаді Data Engineer або аналогічній ролі, пов’язаній зі створенням data-intensive пайплайнів.
  • Досвід роботи з лінгвістичними даними або підтримки NLP-проєктів (нормалізація тексту, робота з різними кодуваннями, стратегії токенізації). Розуміння підходу до обробки даних, подібного до FineWeb2.
  • Практичний досвід у розробці ETL/ELT-процесів та використанні фреймворків оркестрації, як-от Apache Airflow.
  • Впевнене володіння Python для обробки даних та розробки пайплайнів, досвід роботи з NLP-пакетами (spaCy, NLTK тощо) та SQL.
  • Досвід роботи з реляційними базами даних (PostgreSQL, MySQL), знайомство з NoSQL та технологіями великих даних (HDFS, Hive, Spark).
  • Практичний досвід роботи з хмарними платформами (AWS, GCP або Azure) для зберігання та обробки даних.
  • Знання практик забезпечення якості даних, досвід впровадження моніторингу для пайплайнів.
  • Здатність тісно співпрацювати з data scientists та розуміти вимоги ML-проєктів, хороші комунікативні навички.

Додаткові переваги:

  • Досвід роботи з фреймворками розподіленої обробки даних (Apache Spark, Databricks) та системами потокової передачі повідомлень (Kafka, Pub/Sub).
  • Глибокий досвід у вебскрейпінгу з використанням Scrapy, Selenium або Beautiful Soup.
  • Знання CI/CD для інженерії даних (GitHub Actions, Jenkins), досвід роботи з Docker та Kubernetes.
  • Досвід роботи з аналітичними платформами та BI-інструментами (Tableau, Looker).
  • Здатність самостійно вирішувати складні інженерні проблеми з даними та оптимізувати наявні пайплайни.

Senior Data Scientist/NLP Lead

Основні обов’язки:

  • Керування повним циклом розробки NLP та LLM моделей: від дослідження даних та прототипування до валідації та впровадження у продакшн.
  • Аналіз великих текстових наборів даних (українських та багатомовних) для виявлення інсайтів та створення якісних навчальних датасетів.
  • Розробка та впровадження NLP-алгоритмів для класифікації тексту, розпізнавання іменованих сутностей, семантичного пошуку та розмовного AI.
  • Створення метрик оцінки та фреймворків валідації для продуктивності моделей, включно з точністю, фактологічністю та упередженістю; проєктування A/B тестів.
  • Розгортання та інтеграція NLP-моделей у продакшн-системи у співпраці з інженерами, забезпечення їх масштабованості та ефективності.
  • Технічне лідерство та менторство для команди NLP/ML, перевірка коду та досліджень, підтримка найкращих практик в ML (версіонування, відтворюваність, документація).
  • Крос-функціональна співпраця з продакт-менеджерами та інженерами для узгодження NLP-рішень з цілями продукту та можливостями інфраструктури.

Вимоги:

  • 5+ років досвіду в data science або machine learning з сильним фокусом на NLP.
  • Підтверджений досвід розробки та впровадження NLP/ML моделей у продакшн-середовищі.
  • Глибоке розуміння технік та алгоритмів обробки природної мови, архітектур трансформерів, технік навчання та файн-тюнінгу LLM.
  • Досвід роботи з метриками оцінки мовних моделей (Perplexity, BLEU, ROUGE) та техніками їх оптимізації (квантизація, дистиляція знань).
  • Впевнене володіння Python та бібліотеками для data science (pandas, NumPy, scikit-learn), а також фреймворками глибокого навчання (PyTorch, TensorFlow).
  • Розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими датасетами (включно з SQL).
  • Досвід розгортання ML-моделей у продакшн, знайомство з MLOps-концепціями та інструментами (CI/CD, MLflow, Airflow).
  • Підтверджені навички технічного лідерства, менторства та ефективної комунікації.

Додаткові переваги:

  • Практичний досвід у створенні токенізаторів, техніках SFT та RLHF, а також оцінці токсичності, етичності та безпеки LLM.
  • Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
  • Розуміння української мови та культурно-лінгвістичних нюансів для навчання та оцінки моделей.
  • Практичний досвід роботи з Docker, Kubernetes та інструментами для ML-воркфлоу (MLflow, Airflow).
  • Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань у швидкозмінному R&D середовищі.

AI QA Engineer

Основні обов’язки:

  • Розробка та виконання комплексних стратегій оцінки AI-моделей (NLP/LLM) для перевірки їх точності, узгодженості та справедливості.
  • Аналіз бенчмаркінгових наборів даних, виявлення прогалин та розробка SOTA-фреймворку для бенчмаркінгу української мови.
  • Впровадження автоматизованого та ручного тестування для додатків на базі LLM, включно зі створенням скриптів та суб’єктивною оцінкою результатів.
  • Створення та підтримка якісних тестових наборів даних, що відображають реальні сценарії використання та культурний контекст української мови.
  • Проєктування та підтримка фреймворків для виявлення галюцинацій, упереджень та інших збоїв у відповідях LLM.
  • Визначення та відстеження ключових метрик продуктивності AI (точність, зв’язність, релевантність, затримка тощо).
  • Тісна співпраця з командою розробки AI для інтеграції QA в процес розробки та CI/CD пайплайни.
  • Аналіз та виявлення першопричин збоїв у роботі AI-моделей, надання детальних звітів про помилки.
  • Впровадження постійного моніторингу в продакшені для виявлення регресій та нових проблем.
  • Ведення вичерпної тестової документації, планів та звітів про результати оцінки кожної версії моделі.

Вимоги:

  • 3+ роки досвіду в QA/тестуванні, з яких частина зосереджена на AI/ML системах, та 2+ роки в аналізі даних.
  • Розуміння концепцій машинного навчання, специфічних викликів тестування AI-моделей та знайомство з фреймворками оцінки LLM.
  • Глибоке розуміння завдань NLP та поширених збоїв мовних моделей (галюцинації, упередження).
  • Впевнене володіння Python для автоматизації тестування; знайомство з фреймворками (PyTest) та бібліотеками (pandas, numpy, Hugging Face).
  • Досвід створення та управління тестовими наборами даних, включно з процесами анотації та маркування.
  • Сильні аналітичні навички та вміння виявляти закономірності в помилках моделей.
  • Відмінні комунікативні навички для документування помилок та обговорення проблем з розробниками.
  • Вільне володіння українською мовою є обов’язковим для оцінки коректності та нюансів відповідей.

Додаткові переваги:

  • Досвід роботи зі спеціалізованими інструментами для тестування AI та знайомство з техніками prompt engineering.
  • Вміння виконувати статистичний аналіз результатів продуктивності моделей (наприклад, для A/B тестів).
  • Досвід інтеграції тестів у CI/CD пайплайни для ML, знайомство з версіонуванням моделей.
  • Знання тестування AI-моделей на безпеку та відповідність стандартам (наприклад, атаки prompt injection).
  • Розуміння UX у контексті AI-продуктів та вміння передбачати нетипову взаємодію користувачів з AI.
  • Наявність сертифікатів у сфері QA, тестування ПЗ (ISTQB) або AI/ML.

Data Scientist (Benchmarking & Alignment)

Основні обов’язки:

  • Аналіз бенчмаркінгових наборів даних, розробка та підтримка комплексного фреймворку для бенчмаркінгу української мови.
  • Дослідження та інтеграція передових метрик для оцінки фактичної точності, логічного мислення, плавності мови, безпеки та узгодженості моделей.
  • Проєктування та підтримка фреймворків для виявлення галюцинацій, упереджень та інших збоїв у відповідях LLM.
  • Розробка пайплайнів для генерації синтетичних даних та adversarial-прикладів для перевірки надійності моделі.
  • Співпраця з анотаторами, лінгвістами та експертами для визначення завдань оцінки та збору якісного фідбеку.
  • Розробка інструментів та процесів для безперервної оцінки на етапах попереднього навчання, файн-тюнінгу та розгортання моделі.
  • Дослідження та розробка найкращих практик у пайплайнах навчання LLM.
  • Аналіз результатів бенчмаркінгу для виявлення сильних та слабких сторін моделі та можливостей для її покращення.
  • Документування методологій та поширення результатів серед внутрішніх команд.

Вимоги:

  • 3+ роки досвіду в Data Science або Machine Learning з фокусом на NLP.
  • Підтверджений досвід в оцінці ML-моделей та/або NLP-бенчмаркінгу.
  • Гарні знання технік та алгоритмів NLP, включно з embedding models, semantic search, transformers/LLMs, RAGs.
  • Впевнене володіння Python, бібліотеками для data science (pandas, scikit-learn) та фреймворками глибокого навчання (PyTorch, TensorFlow).
  • Глибоке розуміння концепцій RLHF та пов’язаних з ними технік.
  • Розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими наборами даних (SQL).
  • Досвід розгортання ML-моделей у продакшені, знайомство з MLOps-концепціями та інструментами (CI/CD, version control).
  • Досвід роботи в крос-функціональному середовищі та сильні комунікативні навички.

Додаткові переваги:

  • Досвід роботи над безпекою, справедливістю та зменшенням упередженості в LLM.
  • Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
  • Знайомство з українською мовою, її культурним контекстом та існуючими бенчмарками.
  • Практичний досвід роботи з Docker, Kubernetes та інструментами для ML-воркфлоу (MLflow, Airflow).
  • Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань.

Data Scientist (Data Preparation & Pre-training)

Основні обов’язки:

  • Проєктування, прототипування та валідація етапів підготовки та трансформації даних для навчальних датасетів LLM (очищення, нормалізація, фільтрація, дедуплікація, видалення персональних даних).
  • Формування спеціалізованих датасетів SFT/RLHF з наявних даних, включно з аугментацією та маркуванням за допомогою LLM.
  • Аналіз великомасштабних необроблених джерел даних (текст, код) на предмет якості, охоплення та релевантності.
  • Розробка евристик, правил фільтрації та технік очищення для максимізації ефективності навчальних даних.
  • Співпраця з data engineers для передачі прототипів на автоматизацію та масштабування.
  • Дослідження та розробка найкращих практик та нових технік у пайплайнах навчання LLM.
  • Моніторинг та оцінка впливу якості даних на продуктивність моделі за допомогою експериментів та бенчмарків.
  • Документування методологій та поширення результатів серед внутрішніх команд.

Вимоги:

  • 3+ роки досвіду в Data Science або Machine Learning з фокусом на NLP.
  • Підтверджений досвід у попередній обробці, очищенні та інжинірингу ознак для великих наборів неструктурованих даних (текст, код тощо).
  • Гарні знання технік та алгоритмів NLP, включно з embedding models, transformers/LLMs, RAGs, та вимог до даних для їх навчання.
  • Впевнене володіння Python, бібліотеками для data science (pandas, scikit-learn, spaCy) та фреймворками глибокого навчання (PyTorch, TensorFlow).
  • Глибоке розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими наборами даних (SQL).
  • Досвід розгортання ML-моделей у продакшені, знайомство з MLOps-концепціями та інструментами (CI/CD, version control).
  • Досвід роботи в крос-функціональному середовищі, сильні комунікативні навички та здатність до швидкого прототипування.

Додаткові переваги:

  • Знайомство з метриками оцінки мовних моделей (Perplexity, BLEU, ROUGE) та розуміння підходів до обробки даних, подібних до FineWeb2.
  • Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
  • Знайомство з українською мовою, її культурним контекстом та джерелами текстових даних.
  • Практичний досвід роботи з Docker, Kubernetes та інструментами для ML-воркфлоу (MLflow, Airflow).
  • Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань.

MLOps Engineer (LLM Infrastructure)

Основні обов’язки:

  • Проєктування та впровадження сучасної, масштабованої ML-інфраструктури (хмарної або on-premises) для підтримки експериментів та розгортання NLP/LLM моделей.
  • Розробка end-to-end пайплайнів для навчання, валідації та розгортання моделей; автоматизація ML-воркфлоу за допомогою Docker та CI/CD.
  • Співпраця з Data Scientists та ML Engineers для розробки MLOps-рішень, що відповідають вимогам до продуктивності та затримок моделей.
  • Впровадження найкращих практик в MLOps: автоматизоване тестування, CI/CD для оновлень моделей та версіонування коду, даних і артефактів.
  • Налаштування моніторингу та сповіщень для розгорнутих моделей та пайплайнів даних для відстеження продуктивності та виявлення аномалій.
  • Управління та оптимізація середовищ розгортання на базі Kubernetes; контейнеризація ML-сервісів та їх оркестрація.
  • Підтримка інфраструктури як коду (Terraform, Ansible) для налаштування хмарних ресурсів та ML-інфраструктури.
  • Проведення код-рев’ю, менторство інших інженерів та усунення несправностей у всьому життєвому циклі ML.

Вимоги:

  • 4+ роки досвіду на позиціях DevOps, MLOps або ML Infrastructure; глибокі знання принципів software engineering та DevOps у контексті машинного навчання.
  • Значний досвід роботи з хмарними платформами (AWS, GCP або Azure) та інструментами Infrastructure-as-Code (Terraform, CloudFormation).
  • Впевнене володіння технологіями контейнеризації (Docker) та оркестрації (Kubernetes); досвід роботи з Helm.
  • Досвід впровадження CI/CD пайплайнів для ML-проєктів з використанням Jenkins, GitLab CI або GitHub Actions.
  • Сильні навички програмування на Python для написання пайплайнів та скриптів автоматизації.
  • Глибоке розуміння життєвого циклу машинного навчання; досвід створення або підтримки ML-пайплайнів (Kubeflow, Airflow).
  • Досвід налаштування моніторингу для додатків та моделей (Prometheus, Grafana) та впровадження сповіщень.
  • Базове розуміння найкращих практик безпеки при розгортанні ML, включно з шифруванням даних та контролем доступу.
  • Відмінні навички співпраці для роботи в крос-функціональних командах.

Додаткові переваги:

  • Попередній досвід розгортання або файн-тюнінгу великих мовних моделей у продакшені.
  • Досвід роботи з фреймворками розподілених обчислень (Ray) та обробки великих даних (Spark, Hadoop).
  • Досвід роботи з інструментами для відстеження експериментів та реєстру моделей (MLflow, Weights & Biases, DVC).
  • Знайомство з векторними базами даних (Pinecone, Weaviate, FAISS).
  • Досвід роботи з HPC-середовищами або локальними GPU-кластерами для навчання великих моделей.
  • Актуальні знання про останні розробки в MLOps та LLMOps.

📌 Умови

Kyivstar.Tech пропонує роботу як у київському офісі, так і віддалено. Є бонуси за результатами, страхування здоров’я та життя, wellbeing-програми й корпоративний психолог, а також компенсація мобільного зв’язку від «Київстару». Додатково — доступ до бібліотеки знань, тренінгів та навчальних програм партнерів.

📌 Контекст

В середині червня Міністерство цифрової трансформації та компанія «Київстар» оголосили про партнерство задля створення національної великої мовної моделі (LLM) українською мовою. Цей проєкт має на меті розробку цифрових продуктів зі штучним інтелектом для держави та бізнесу.

Згідно з планом, Мінцифри відповідатиме за координацію, збір даних з відкритих джерел та формування експертних груп, що працюватимуть над технічними, етичними та мовознавчими стандартами. Водночас «Київстар» взяв на себе повне фінансування проєкту, забезпечення технічної інфраструктури та створення проєктного офісу, відповідального за безпосередню розробку моделі.

Першу версію української LLM планують представити до кінця 2025 року. Саме для формування цієї команди розробників «Київстар Тек», IT-підрозділ компанії, відкрив низку ключових вакансій для фахівців у сферах AI, NLP та MLOps.

Розроблена модель стане основою для створення нових державних цифрових сервісів, зокрема ШІ-помічника в застосунку «Дія» та інструментів для освітньої платформи «Мрія», і згодом буде доступна у форматі open source.

Нагадаємо, що Мінцифри та Київстар представили робочу групу з експертів, які розроблятимуть українську велику мовну модель. Також DOU публікував інтерв’ю з CTO AI Center of Excellence Дмитром Овчаренком про національну LLM.

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn



1 коментар

Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.

Забули вказати саме головне

Підписатись на коментарі