Big Data/Machine Learning/Data Science Digest #3: моніторинг якості даних, синтетичні дані, оновлення GPT-3, AI у розробці ігор

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.

Привіт!

А ось і під’їхала свіжа добірка матеріалів із data-індустрії. У цьому випуску дайджеста поміж інших новин ви довідаєтеся про те, як забезпечити якість даних у реальному часі, чи можуть штучно створені дані бути кращими за реальні, якими є останні оновлення платформи GPT-3, та як Google використав машинне навчання для тестування комп’ютерної гри на збалансованість.

Якщо ви проґавили минулий випуск, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.

Також радий повідомити, що Xenoss бере участь у цьогорічному Data Science Fwdays який відбудеться 19-24 квітня. Наш Data Scientist Сергій Коваленко буде розповідати про використання ML в high-performance системах — 21 квітня о 18:00. Приєднуйтесь до івенту!

Статті

1. Data Quality Monitoring At Scale With SQL And Machine Learning

Як ми можемо забезпечити виявлення та вирішення проблем якості даних в режимі реального часу. Барр Моузес і Райан Кернс пояснюють і показують, як команди, що працюють з даними, можуть створювати свої власні монітори спостережливості для даних виробничої якості, частково використовуючи SQL і деякі принципи ML.

2. Synthetic Data: Sometimes Better Than the Real Thing

Наявність великого запасу даних дотепер є необхідною умовою для передової аналітики та АІ. Але компанії, що створюють моделі АІ, все частіше приходять до висновку, що штучно створені дані можуть бути не гірше реальних. А в деяких випадках синтетичні дані є чудовою альтернативою, особливо коли мова йде про питання упередженості і етики.

3. GPT-3 Powers the Next Generation of Apps

GPT-3 був запущений всього дев’ять місяців назад і вже зараз підтримує більше 300 додатків з семантичним пошуком, сумаризацією, аналізом настрою, генерацією контента, перекладом і багатьма іншими функціями. У статті розглянуті оновлення по проекту, що включає в себе список вдосконалень платформи і добірку додатків, які показують його можливості.

4. R vs. Python vs. Julia. How easy it is to write efficient code?

Ця стаття не про те, яка мова краще. А про те, яку мову обрати якщо ви хочете писати ефективний код.

5. Mathematicians Inch Closer to Matrix Multiplication Goal

В нещодавно опублікованій науковій роботі було встановлено найшвидший рекорд по множенню двох матриць. Але ця робота також знаменує собою завершення існування методу, на який дослідники покладалися протягом десятиліть.

6. Trending Toward Concept Building — A Review of Model Interpretability for Deep Neural Networks

Пояснюваність є одним з принципів етичного штучного інтелекту. Сьогодні існують методи, зосереджені не тільки на витязі концепцій, важливих для існуючої моделі, а й на побудові моделі, яка прагне до того, щоб її концепції більш високого рівня були зрозумілі людині. І є вірогідність, що оптимізація інтерпретації також призведе до кращої точності прогнозування.

7. Rethinking Extract Transform Load (ETL) Designs

Стаття докладно описує стратегію по подоланню проблем, пов’язаних з процесом ETL.

8. Leveraging Machine Learning for Game Development

В майбутньому комп’ютерні ігри, перш ніж вони будуть випущені для людей, можуть бути протестовані АІ на збалансованість. Така ідея пропонується в новому блог пості від Google, в якому розповідається про те, як компанія використовувала АІ для симуляції мільйонів симуляцій віртуальної карткової гри під назвою «Chimera», а потім проаналізувала результати, щоб з’ясувати, як гейм дизайнерам зробити гру більш збалансованою, цікавою та відповідною до її задумки.

9. DeepMind, Microsoft, Allen AI & UW Researchers Convert Pretrained Transformers into RNNs, Lowering Memory Cost While Retaining High Accuracy

Команда дослідників з Університету Вашингтона, Microsoft, DeepMind та Інституту штучного інтелекту Аллена розробила метод перетворення готових трансформаторів в ефективні RNN. Transformer-to-RNN (T2R) прискорює генерацію і знижує кошти на використання пам’яті.

10. The ghosts in the data

Деяким речам ми вчимося тільки протягом нашої роботи, в незалежності від того, чи це робота з даними чи робота з людьми. Це ті знання, які книжки, блоги чи навчальні курси не надають. У цій статті автор ділиться своїми «привидними» знаннями, такими як степеневий розподіл чи підходи до очищення даних.

Наукові праці

  1. Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots
  2. Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets
  3. The Societal Implications of Deep Reinforcement Learning
  4. Should Graph Neural Networks Use Features, Edges, Or Both?
  5. StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

Подкасти

1. Landing Your Data Science Dream Job

Як знайти роботу своєї мрії у data science Епізод подкасту SuperDataScience, повний підказок і порад, як це зробити.

2. Existential risk from AI: A skeptical perspective

Мелані Мітчелл, письменниця і професор Інституту Санта-Фе та Університету Портленда, розповідає про те, чому надлюдський АІ все ж ще далекий від дійсності.

3. Next-gen voice assistants with Nikola Mrkšić from PolyAI

Нікола Миркшіч (Nikola Mrkšić), CEO та співзасновник PolyAI, докладно розповідає про розмовний АІ та технології, що лежать в його основі. А також говорить про нове поколінням голосових асистентів, які будуть здатні справлятися з розмовами на справжньому людському рівні.

4. MindsDB: Automated Machine Learning with Jorge Torres

Хорхе Торрес розповідає про прогрес, який був пророблений в AutoML для спрощення впровадження машинного навчання в організаціях.

5. Building an ML Platform @SurveyMonkey

В розмові йдеться про те, як точно визначити недоліки в вашому потоці даних ML, як компанія SurveyMonkey впоралась з цим, і як зробити ваші дані більш придатними для прискорення розробки моделі ML.

6. Avoiding Technical Debt and Adopting AI the Right Way — with Brian L. Keith of Microsoft

Гість подкасту Брайан Л. Кіт, радник з досліджень Emerj AI Research і Federal Azure Data, а також AI Leader в Microsoft, розповідає про деякі з основних проблем, які необхідно подолати великим компаніям, що впроваджують штучний інтелект. Він ділиться своєю думкою про ситуацію через призму технічного боргу.

7. Keep Your Code Clean And Maintainable Using Static Analysis With Flake8

Коли ви пишете код, досить легко залишити дрібні помилки або невикористаний код. При належній увазі і старанні ви зможете знайти ці проблеми самостійно. Але чи не в таких випадках нам мають допомагати комп’ютери? У цьому епізоді Ентоні Соттіль розглядає Flake8, один з найпопулярніших варіантів виявлення цих проблемних рядків коду.

Відео

1. Expected Values, Clearly Explained

Математичне сподівання є частиною основи статистики і причиною того, чому казино не банкрутують. У цьому відео надається два приклади, які пояснюють концепції, що лежать в основі математичних сподівань.

2. Should You Scale Your Data ??? : Data Science Concepts

Дізнайтеся, в яких сценаріях слід масштабувати ваші дані.

3. Deployment Of ML Models Using PyWebIO And Flask

Розгортання моделей ML з використанням PyWebIO і Flask.

4. PAIR AI Explorables | Is the problem in the data? Examples on Fairness, Diversity, and Bias.

В дебатах про упередженість в моделях машинного навчання все частіше йдеться про те, що «проблема не в даних». Часто це пояснюють впливом різних варіантів вибору, таких як функції втрати або мережева архітектура. У цьому відео розглядається AI Explorables від PAIR, через призму того, чи є проблема упередженості — проблемою даних або ні.

5. Can AI Learn to Cooperate? Multi Agent Deep Deterministic Policy Gradients (MADDPG) in PyTorch

Multi agent deep deterministic policy gradients (MADDPG) є одним з перших успішних алгоритмів для багатоагентного штучного інтелекту. Цей туторіал познайомить вас з створенням повного MADDPG алгоритма з нуля в Pytorch фреймворк.

Якщо ви бажаєте розробляти high load/big data/ML системи — приєднуйтесь до нашої команди.

Також додавайтеся у соціальних мережах — Xenoss у LinkedIn та Facebook.

👍НравитсяПонравилось8
В избранноеВ избранном6
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Подписаться на комментарии