Big Data, Machine Learning, Data Science Digest #11: Machine Learning Systems, NLP, Data Labeling, Freelance in ML, Adaptive Algorithms

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.

У цьому випуску дайджеста, де я зібрав найцікавіше зі світу data science за останній час, ви дізнаєтеся про таке:

  • Системи машинного навчання та які проблеми вони вирішують.
  • Чи варто переосмислити встановлений підхід до NLP.
  • Маркування даних.
  • Масштабування АІ для бізнесу.
  • Фриланс у сфері ML.
  • Як приймати кращі рішення за допомогою статистики.
  • Адаптивні алгоритми машинного навчання.
  • Багато іншого.

Якщо ви проґавили мій попередній дайджест, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.

Свіжі статті та матеріали

Machine Learning Systems

Зростаюче значення машинного навчання для застосування у реальному світі призвело до появи нової сфери, орієнтованої на практичне застосування ML — систем машинного навчання (або, як деякі називають їх, MLOps). Ця галузь діє як сполучна ланка між сферами комп’ютерних систем і машинного навчання, що розглядає нові проблеми машинного навчання через призму традиційних системних досліджень. Стаття описує, що це за проблеми і як MLOps їх вирішує.

Complete guide to understanding Node2Vec algorithm

Все, що вам потрібно знати для розуміння алгоритму node2vec і його гіперпараметрів.

What Have Language Models Learned?

Цей інтерактивний пост відмінно пояснює, як працюють і навчаються мовні моделі.

Machine Learning Won’t Solve Natural Language Understanding

Стаття розглядає необхідність переосмислити принципи роботи мовних моделей, якщо ми хочемо домогтися прогресу в розумінні природної мови.

Data scientist’s guide to efficient coding in Python

Кілька порад з написання чистих скриптів на Python, які легко підтримувати і масштабувати з плином часу. Тут також надається доступ до Google Colab з прикладами.

The great misunderstanding at the core of facial recognition

За останні п’ять років розпізнавання облич стало полем битви за майбутнє штучного інтелекту. Ця суперечлива технологія втілює в собі побоювання громадськості з приводу неминучого спостереження, алгоритмічної упередженості і антиутопічного АІ.

How Big Data Carried Graph Theory Into New Dimensions

Усе більша кількість дослідників вважає, що, коли мова йде про пошук зв’язків у великих даних, теорія графів має свої межі. Саме тому математики, комп’ютерники і інші дослідники все більше уваги приділяють способам узагальнення теорії графів для вивчення явищ вищого порядку (higher-level interactions) та моделювання даних.

Nearest Neighbor Indexes for Similarity Search

Гарне введення в пошук за подібністю, включаючи огляд і порівняння основних його варіантів.

The one data platform to rule them all... but according to whom?

Відмінний пост, який детально розповідає про нові data science стартапи та систематизує їх за популярності серед кінцевих користувачів. Оскільки багато стартапів в галузі інструментів з роботи з даними в кінцевому підсумку хочуть стати «платформами даних», цей пост дозволяє легко зрозуміти, як саме вони вписуються у цю роль.

Data Quality Unpacked

Загальний огляд тенденцій, ринку праці та головних гравців у рішеннях з роботи з якістю даних.

Bootstrapping Labels

Більшість підручників і статей з машинного навчання припускають наявність промаркованих даних. Але що робити, якщо ваші дані непромарковані? У своїй останній статті Юджин Ян розглядає способи створення міток з нуля за допомогою напів-, активного і слабо контрольованого машинного навчання. Тут багато цікавого, включаючи приклади з DoorDash, Facebook, Google і Apple.

Making better decisions with statistics

Щоб приймати кращі рішення за допомогою статистики, ось три ключові принципи, про які слід пам’ятати.

Події, які варто відвідати

Webinar «Deploying deep learning models with Kubernetes and Kubeflow»

Про що: Деплой DL моделей за допомогою Kubernetes і Kubeflow

Коли: 8 вересня о 17:00

У цій доповіді ви дізнаєтеся про деплой Keras моделей. Спочатку ви побачите, як це зробити за допомогою TF-Serving і Kubernetes, а у другій частині виступу — за допомогою KFServing і Kubeflow.

Webinar «Re-usable pipelines for ML projects»

Про що: Повторне використання ML пайплайнів між проектами

Коли: 16 вересня о 19:00

На практиці часто зустрічаються випадки, коли хочеться застосувати напрацювання одного проекту в новому. Іноді, новий проект (модель) відрізняється тільки цільовою змінною. В таких випадках можна перевикористати до 95% напрацювань з попереднього проекту. У цій доповіді будуть розбиратися можливості організації та конфігурації ML пайплайнів за допомогою DVC, підходи до повторного використання пайплайнів, а також типові кейси, де це може стати в нагоді.

Webinar «From research to product with Hydrosphere»

Про що: Перетворення дослідження в продукт з використанням Hydrosphere

Коли: 22 вересня о 19:00

Дослідження і експериментування зазвичай є цікавою частиною проекту, проте на виході в продакшен найцікавіше закінчується. Найчастіше це виснажлива і проблемна частина проекту. І тут на допомогу приходить Hydrosphere. Платформа, яка бере на себе всю монотонну роботу по деплою, підтримці і менеджменту ваших моделей машинного навчання в продакшені. Приєднуйтесь до вебінару і дізнайтеся, що вам потрібно, щоб перетворити ваше дослідження в продукт, і як Hydrosphere може зробити це для вас.

Що нового у наукових працях

Pitfalls in Machine Learning Research: Reexamining the Development Cycle?

On the Opportunities and Risks of Foundation Models

AutoVideo: An Automated Video Action Recognition System

Do Vision Transformers See Like Convolutional Neural Networks?

Program Synthesis with Large Language Models

Що послухати

Scaling AI: Three Steps to Create Business Value | Data Futurology

Наразі все більша кількість компаній наполегливо працюють над створенням і розвитком своїх data-можливостей і ML-моделей, які забезпечать реальний позитивний ефект для своїх користувачів. Однак, багато з них стикаються з труднощами по отриманню ROI від свого АІ. Що ж робити, якщо ваші ML-моделі і зусилля в сфері АІ не виправдовують очікувань? У цій бесіді мова йде про те, як зробити так, щоб ваші АІ-проекти НЕ провалювалися, а дійсно приносили користь бізнесу.

Data Meshes and Data Reliability | SuperDataScience Podcast

Розмова з Барр Мозес, СЕО і кофаундер Monte Carlo, компанії по забезпеченню надійності даних про її роботу у компанії, високоякісні пайплайни даних, що таке надійність даних, як надійні дані можуть дозволити створити сітку даних, як створити команду data science і багато іншого!



Adaptivity in Machine Learning with Samory Kpotufe | TWIMLAI

У цій розмові Самора Кпотуфе, доцент Колумбійського університету обговорює свої дослідження на стику машинного навчання, статистики та теорії навчання, а також свою мету — досягти самоконтрольованих, адаптивних алгоритмів.

Building AI-powered primary care with Curai’s CTO, Xavier Amatriain | Gradient Dissent

Епізод присвячений впровадженню ML моделей в галузі охорони здоров’я, доповнення первинної медичної допомоги штучним інтелектом, проблемами «базової істини» в медицині і надійністю в ML.

Freelancing in Machine Learning | Datatalks.Club

Чи реально працювати на фрилансі у сфері машинного навчання? Цей випуск розповість про перехід з постійної роботи на фриланс, пошук клієнтів та важливість створення сильної мережі клієнтських зв’язків, як зрозуміти що потрібно клієнтам та що їм пропонувати, консалтинг як роботу і багато чого іншого.

An oscilloscope for deep learning | The Data Exchange

Дізнайтеся про те, як ідеї з фізики можуть бути використані для створення практичних інструментів для оцінки та налаштування нейронних мереж.

Building Machine Learning Models into Docker Images | MLOps Community

У цьому випуску детально розглядаються питання про створення ML-моделей в образах контейнерів для запуску їх в продакшені: хто і коли повинен створювати образи? Що вони повинні містити? Як команди data science і ML повинні взаємодіяти з командами DevOps? І т.д.

Що подивитися

Entropy (for data science) Clearly Explained!!!

Ентропія є фундаментальною концепцією в Data Science, тому що вона проявляється всюди. Вона також є надиво простою у розумінні, але часто погано пояснюється. Традиційно рівняння представляється з розрахунком на те, що ви запам’ятаєте його, не розуміючи до кінця, що воно означає і звідки взялося. У цьому відео використовується зовсім інший підхід: крок за кроком показується, звідки взялося це просте рівняння, що дозволяє легко запам’ятати (і вивести), зрозуміти і пояснити друзям на вечірках.

Bayes’ Theorem, Clearly Explained!!!!

Теорема Байєса є основою Байєсової статистики. У цьому відео ви крок за кроком дізнаєтеся, як її легко вивести і чому вона корисна.

The evaluation metric you’ve (probably) never heard of

Як оцінити рейтингову модель машинного навчання.

PonderNet: Learning to Ponder (Machine Learning Research Paper Explained)

Люди не витрачають однакову кількість розумових зусиль на вирішення всіх завдань однаково. Замість цього ми швидко вирішуємо легкі завдання і не поспішаємо обмірковувати важкі. PonderNet компанії DeepMind працює за тим же принципом, динамічно вирішуючи, скільки кроків на обчислення виділити для кожного окремого вхідного зразка. Модель добре справляється з динамічними обчислювальними завданнями і на диво стійка до різноманітних налаштувань гіперпараметрів.

Why AI is Harder Than We Think | Paper Explained

Штучний інтелект є активною сферою досліджень протягом десятиліть, але до сих пір не досяг священного граалю — штучного інтелекту загального призначення. У своїй статті Мелані Мітчелл досліджує історію розвитку штучного інтелекту (від перцептрону і експертних систем до сучасного глибокого навчання) і виявляє чотири помилки, які лежать в основі відсутності прогресу в дослідженнях АІ.

Tesla Autopilot Explained in 10 Minutes — Tesla AI Day Highlights

Доповідь Андрія Карпати про автопілот Tesla, пояснена менш ніж за 10 хвилин.

***

Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.

Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:

AI/ML Computer Vision Engineer | Creative analytics platform

Senior Java Engineer | Performance marketing platform

Full Stack Engineer (Node.js/React) | Marketing platform

Стежте за нашими новинами у соц-мережах — LinkedIn та Facebook.

👍НравитсяПонравилось14
В избранноеВ избранном6
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Подписаться на комментарии