Big Data/Machine Learning/Data Science Digest #6: теорія гри для аналізу даних, ймовірнісне програмування, синтетичні дані для вибору моделі

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.

Вітаю!

У цьому випуску ви дізнаєтеся про використання теорії гри для масштабного аналізу даних, синтетичні дані для вибору моделі, ймовірнісне програмування для розуміння неточності у передбаченнях моделі, чи може АІ створювати меми, яке майбутнє нас чекає з дешевими deepfakes, AI агент, що грає в CS:GO та купу іншого.

Якщо ви проґавили мій попередній дайджест, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.

Також радий повідомити, що я нещодавно брав участь у дискусії #DOULive, що була присвячена #ML, #AI та #datascience. Встигли обговорити багато корисних та важливих тем, як наприклад використання ML у складних data-проектах, коли варто використовувати ML, data science стек, прогнози на майбутнє індустрії та ще багато чого. Якщо зацікавило, запис розмови можна переглянути за посиланням.

Дякую #DOULive за запрошення, Дмитру Спорадцю та Михайлу Константінову за дискусії, і глядачам за питання.

Свіжі статті та матеріали

1. Game theory as an engine for large-scale data analysis: EigenGame maps out a new approach to solve fundamental ML problems

Часто системи штучного інтелекту підходять до вирішення завдань, як студент готується до іспиту, індивідуально тренуючись над проблемою знову і знову. Але спільний підхід до вирішення складних проблем, подібний до того, який використовується в теорії гри, може бути використаний для аналізу величезної кількості даних, які раніше були занадто вимогливі до обчислень.

2. DeepCheapFakes: What happens when deepfakes become cheap?

Всім нам знайома проблема ботоферм, проте їх часто легко відрізнити від справжніх коментарів та людей. Однак що, якщо технологія deepfake стане настільки дешевою, що її можна буде використовувати у багатотисячному масштабі? Чи зможемо ми тоді відрізнити фейки від справжніх коментарів та людей?

3. Sharing learnings about our image cropping algorithm

У 2018 році Твіттер почав використовувати saliency-алгоритм задля обрізання зображень автоматично. Проте нещодавно виявилося, що сам алгоритм має проблему упередження. Команда Твіттера вирішили поділитися, як саме вони підійшли до вирішення цього питання.

4. Fetching Better Beer Recommendations with Collie

У дорослому світі обирати, яке пиво випити, не так вже й просто. На щастя, існує машинне навчання, щоб нам з цим допомогти. Серія постів про те, як використати бібліотеку Collie для того, щоб побудувати та краще зрозуміти рекомендаційні моделі, які радитимуть користувачам пиво на основі попередньої історії чи вподобань.

5. Serving Uncertainty

На півдорозі між статистикою і ML ми маємо ймовірнісне програмування, що базується на методах байєсівського виведення. Стаття демонструє, як навчити таку прогностичну модель, використовуючи PyMC3 — a Probabilistic Programming Language (PPL) for Python.

6. Clustergam: visualisation of cluster analysis

Коли ви використовуєте кластерний аналіз для виявлення груп у ваших даних, ви, ймовірно, використовуєте алгоритм типу K-means, який вимагає зазначення кількості кластерів, які не завжди відомі. У цьому пості Мартін Флейшманн представляє пакет Python, який можна використовувати для визначення оптимальної кількості кластерів.

7. How image search works at Dropbox

У цьому пості команда Dropbox описує основну ідею їхнього методу пошуку контенту по зображеннях, що заснований на методах машинного навчання, а також обговорюють, як вони побудували продуктивну реалізацію на існуючій інфраструктурі пошуку Dropbox.

8. Synthetic Data for Model Selection

Чи можуть синтетичні дані бути корисними для вибору моделі? Розглядаючи завдання класифікації зображень, в статті демонструється, що при нестачі даних синтетичні дані можуть бути використані для заміни unhandled validation set, що дозволяє проводити навчання на більшому наборі даних.

9. Good Data Scientist, Bad Data Scientist — Ian Whitestone

Існує широкий спектр робіт, в які може бути залучений фахівець з аналізу даних. Мета цього посту — розглянути загальні елементи, які зроблять з вас відмінного або поганого ДС, незалежно від того, з якою частиною стека ви працюєте.

10. Be Careful When Interpreting Predictive Models in Search of Causal Insights

Дослідження підводних каменів при спробі витягти причинно-наслідкові висновки з сучасних моделей машинного навчання.

11. Automated Data Wrangling for Open Data

Усе більша кількість методів застосовує машинне навчання безпосередньо для вирішення проблем, пов’язаних з обробкою даних. Вони часто починаються як відкриті дослідницькі проекти, але потім стають власністю. Як ми можемо створити автоматизовані системи обробки даних для відкритих даних?

Що нового у наукових працях

  1. Are Convolutional Neural Networks or Transformers more like human vision?
  2. Momentum Residual Neural Networks
  3. Cross-validation: what does it estimate and how well does it do it?
  4. Scaling Scaling Laws with Board Games
  5. GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds

Що послухати

  1. The Future of Machine Learning Lies in Better Abstractions

Тревіс Аддаір, який раніше очолював команду Uber, що відповідала за створення deep learning інфраструктури Uber, розповідає про те, як більш високі рівні абстракцій дозволяють не спеціалістам будувати ефективні моделі машинного навчання.

2. Scaling AI in Production | MLOps Coffee Sessions #40

Дискусія про роль і необхідність MLOps, розгортання моделей і важливість K8s з Шріватсаном Шрінівасаном, який має більш ніж 20-річний досвід роботи в сфері науки про дані і машинного навчання і веде канал AIEngineering на Youtube, де розповідає про дані, АІ та MLOps.

3. Landing Your Data Science Dream Job | SuperDataScience

Епізод присвячений розвінчанню міфів, які заважають вам стати data scientist.

4. Automatically Generate Your Unit Tests From Scratch With Pynguin | Python Podcast

Юніт-тести — важливий інструмент для забезпечення правильного функціонування застосунку, але їх написання може бути трудомістким завданням. Стефан Лукашик хоче зменшити монотонність цього процесу для розробників Python. У рамках свого докторського дослідження він створив проект Pynguin для автоматизації створення модульних тестів. У цьому епізоді він розповідає про складнощі, пов’язаних зі створенням корисних тестів для динамічної мови, про те, як він розробив Pynguin для вирішення цих проблем, і про те, як ви можете почати використовувати його вже сьогодні в своїй роботі.

5. Causal Models in Practice at Lyft with Sean Taylor — #486

Обговорення з Шоном Тейлором, штатним фахівцем з даними в лабораторії Lyft Rideshare Labs про роль причинно-наслідкових зв’язків в роботі лабораторії, включаючи те, як система прогнозування будується на основі причинно-наслідкових моделей, чи більш ефективна розробка моделей з використанням бізнес-метрик, проблеми пов’язані з ієрархічним моделюванням, і багато іншого.

6. AI — The Meme Lord

Чи може АІ створювати меми? Бути смішним? Цей епізод досліджує світ мемного контенту створеного АІ.

Що подивитися

  1. Top 10 AI and ML developer updates from Google I/O 2021

У цьому відео провідний фахівець з АІ Лоуренс Мороні представляє 10 кращих оновлень для розробників АІ та ML з Google I/O цього року.

2. Is AI The Future Of Video Game Design? Enhancing Photorealism Enhancement

Опис АІ, який може бути застосований в реальному часі для відеоігор, перетворюючи кожен кадр так, щоб він виглядав якомога природніше.

3. Can You Solve the Google Problem?

Чому ніхто ніколи не дивиться на другу сторінку результатів Google ... і чому це створює цікаву проблему.

4. AI made this music video | What happens when OpenAI’s CLIP meets BigGAN?

Творче використання моделі CLIP від ​​OpenAI та BigGAN для створення музичного ролику. Текст пісні створюються з міток класів ImageNet, а сама пісня відтворюється на лупері.

5. AI Learns To Play CS:GO By Watching Humans Play!

У відеоролику розповідається про дослідницьку роботу, присвячену АІ агенту, який буквально спостерігає за реальними гравцями і вчиться у них. Буде дуже цікаво, якщо цей агент АІ зможе масштабуватися і дізнаватися ще більше деталей про гру.

6. Generative Python Transformer p.2 — Raw Data Cleaning

Друга частина серії роликів про те, як використовувати трансформери для написання коду на мові Python. А конкретно у цьому відео видалення non-python файлів для тренінгу data-моделі.

Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.

Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:

Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.

👍НравитсяПонравилось5
В избранноеВ избранном6
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Подписаться на комментарии