Big Data, Machine Learning, Data Science Digest #8: прикладне NLP, що таке Data Mesh, робота з геоданими у R

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.

Привіт!

А ось і під’їхала свіжа добірка матеріалів із data-індустрії. У цьому випуску дайджеста поміж інших новин ви довідаєтеся про те, як підійти до пробем NLP, що таке data mesh, як більш ефективно використовувати і зберігати метадані, як працювати з геопросторовими даними за допомогою R, як навчити моделі на незбалансованих даних, GAN мережу, що відтворює оточення Grand Theft Auto 5 і в яку можна грати та багато інших цікавинок!

Якщо ви проґавили минулий випуск, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.

Свіжі статті та матеріали

1. What is a «data scientist» or «machine learning engineer», really?

Назви посад зазвичай занадто заплутані і не дуже допомагають зрозуміти суть роботи, яку виконує людина. Чим насправді займається «фахівець з роботи з даними»? Як щодо «аналітика даних»? Або «ML-інженера?» У цьому проекті Пейдж Бейлі використовує результати опитувань на Kaggle, Anaconda і Stack Overflow, щоб вивчити, хто і чим займається. На основі отриманих відповідей вона виявила 6 окремих кластерів; при цьому очевидної кореляції з назвою посади немає.

2. Understanding p-values

P-значення часто неправильно інтерпретуються або використовуються не за призначенням. Це чудовий інтерактивний інструмент для вивчення і / або пояснення того, як працюють p-значення.

3. Applied NLP Thinking: How to Translate Problems into Solutions

Прикладне NLP відрізняється від дослідницького NLP. У прикладному NLP ви ніколи не створите нічого цінного, якщо будете абстрагуватись від прикладних цілей і ставитися до роботи як до проблеми оптимізації. Цей пост — нетехнічне введення в роздуми про реальні проблеми NLP і про те, як до них підійти.

4. Using Geospatial Data in R

Відмінне керівництво по роботі з геопросторовими даними за допомогою R. Починається з огляду того, як геопросторові дані співвідносяться з місцями в реальному світі, а потім представляє робочий процес, що включає управління даними, роботу з даними за допомогою простих функцій і способи візуалізації геопросторових даних. Стаття добре організована і містить безліч фрагментів коду, посилань і зображень.

5. Predicting Consumer Contracts

У цій статті емпірично досліджується, чи може обчислювальна мовна модель читати і розуміти споживчі контракти.

6. Are Sophisticated Machine Learning Designs Your Go-To Solution? Here’s Why They Shouldn’t Be

У цій статті розповідається про те, як підходити до проблеми ATO (Account Takeover) і чому найновіше, найсучасніше або найскладніше рішення не завжди є кращим варіантом. Ви можете отримати більш прості, швидкі, але не менш якісні результати для вирішення багатокомпонентних проблем, не поспішаючи з розробкою складних рішень.

7. Don’t Feed the Thought Leaders

Це вигадана історія про програмне забезпечення, але легко зрозуміти, як вона може бути застосована в більш широкому сенсі. Годування всезнайків призводить до виникнення: 1) циклів хайпа і технічного боргу, і 2) захоплюючих виступів на конференціях.

8. What the Heck is a Data Mesh?!

Відмінне введення в сітки даних, що починається з ідеї «дані як продукт». Звідси випливає все — необхідність децентралізації, обслуговувати себе інфраструктури, федеративного управління і т.д.

9. The Rise of the Metadata Lake

Більшість організацій тільки доторкнулися до того, чого можливо досягти з метаданими. Але оскільки обсяг метаданих продовжує рости, стає все більш важливим подумати про те, як їх можна використовувати і зберігати більш ефективно.

10. These creepy fake humans herald a new age in AI

Потрібно більше даних для задоволення зростаючого апетиту алгоритмів глибокого навчання? Компанії, що займаються синтетичними даними, зроблять їх для вас. Такі фірми, як Datagen, пропонують переконливу альтернативу дорогому і трудомісткого процесу збору реальних даних.

Що нового у наукових працях

Thinking Like Transformers

Scaling Vision Transformers

Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning

DeepLab2: A TensorFlow Library for Deep Labeling

Do Transformers Really Perform Bad for Graph Representation?

Що послухати

1. Vector databases for machine learning | Practical AI

Pinecone — це перша векторна база даних для машинного навчання. Едо Ліберті, засновник і генеральний директор Pinecone, пояснює, як працює векторний пошук подібності, і його переваги перед традиційними підходами до баз даних для машинного навчання.

2. Performance Marketing Analytics | Super Data Science

В епізоді розповідається про те, що таке performance marketing, про мінливий світ цифрового маркетингу, про те, як дані і ML можуть знизити ризики в маркетингу, про маркетологів, що працюють з ML і про багато іншого!

3. A simple trick for very unbalanced data | Data Science at Home

Дані з реального світу ніколи не бувають ідеально збалансованими. У цьому епізоді пояснюється простий, але ефективний спосіб для навчання моделей на дуже незбалансованих даних.

4. Automatic Identification of Outlier Galaxy Images | Data Sceptic

Lior Shamir, доцент кафедри комп’ютерних наук Канзаського університету розповідає про свою недавню роботу Automatic Identification of Outliers in Hubble Space Telescope Galaxy Images.

5. Project/Product Management for MLOps | MLOps Meetup

Побудова, розробка або навіть просто створення концепції MLOps для вашої компанії, будь то велика корпорація або гнучкий старт-ап, не повинно бути нездійсненним завданням. На цій зустрічі MLOps обговорюються кроки, необхідні для розкриття потенціалу data science у вашій організації, незалежно від її розміру.

6. What Happens when Humanization Fails? | The Banana Data Podcast

Джеремі Харріс з Towards Data Science розповідає про те, що відбувається, коли гуманізація AI не вдається, і про наслідки, які можуть з цього виникнути.

Що подивитися

1. Ravin Kumar — Bayesian Decision Science

Рішення приймаються всюди: від вибору, що надягти, враховуючи прогноз погоди на кожен день, до рішення, скільки запасів тримати в багатомільйонному ланцюгу поставок. Беззаперечним є те, що інструменти в екосистемі PyData можуть допомогти вам або вашому бізнесу приймати такі рішення з більшою впевненістю. У цьому відео розповідається про те, що це таке і як цим користуватися.

2. A Gentle Introduction to Multi-Objective Optimisation

Багатоцільова оптимізація, також відома як оптимізація по Парето, — це метод оптимізації за кількома параметрами одночасно. Коли цей метод можна застосовувати, він дає кращі результати, ніж звичайна практика об’єднання декількох параметрів в евристику з одним параметром. Цей практичний урок призначений для всіх, хто зацікавлений в покращенні своїх навичок оптимізації.

3. [ML News] De-Biasing GPT-3 | RL cracks chip design | NetHack challenge | Open-Source GPT-J

Короткий огляд новин, публікацій та статей про машинне навчання за останні декілька тижнів.

4. Intro to graph neural networks

У цьому відео Machine Learning Tech Talks старший науковий співробітник DeepMind Петар Величкович представить вступну презентацію і вправу Colab по graph neural networks (GNNs).

5. This New Crazy Face Enhancer AI is MIND-BLOWING [GPEN]

У цьому відео розповідається про нове дослідження під назвою GPEN (GAN Prior Embedded Network). Воно може відновлювати, збільшувати і поліпшувати надзвичайно деградовані і піксельовані людські обличчя, за умови, що профіль має чіткий силует.

6. Playing a Neural Network’s version of GTA V: GAN Theft Auto

GAN Theft Auto — це генеративна адверсаріальна мережа, що відтворює оточення Grand Theft Auto 5. Вона створена за допомогою форку GameGAN, заснованого на дослідженнях NVIDIA GameGAN. В GAN Theft Auto нейронна мережа «є» оточенням, і ви можете грати в неї.

Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.

Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:

Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.

👍НравитсяПонравилось6
В избранноеВ избранном3
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Подписаться на комментарии