Розробка · 28 квітня 2021, 12:00 1447

Vova Kyrychenko, CTO в Xenoss.io

Big Data/Machine Learning/Data Science Digest #4: Time series forecasting, об’єктивність АІ, GAN для 3D-моделювання

Вітання!

Зібрав нову підбірку останніх новин і цікавих матеріалів із data-індустрії. У цьому випуску дайджеста ви дізнаєтеся про методологію Microsoft в оцінці точності моделей прогнозування, новий підхід до паралелізації потоків даних з високою пропускною здатністю, чи проблема необєктивністі АІ — справді тільки в даних, як можна створити 3D модель об’єкта лише з одного зображення, та як побудувати нейронну мережу у Minecraft.

Якщо ви проґавили мій попередній, третій дайджест, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.

Свіжі статті та матеріали

1. Time series forecasting: Selecting algorithms

Ознайомтеся з підходом Microsoft до оцінки точності моделей прогнозування та методом, при якому їхня команда дозволяє зацікавленим сторонам швидко реагувати на проблеми, пов’язані з таймсеріямі, і робити якісні прогнози.

2. Can you build a machine learning model to monitor another model?

Чи можете ви навчити модель машинного навчання передбачати помилки іншої моделі, і чи варто? Стаття описує саме такий експеримент.

3. Moving beyond «algorithmic bias is a data problem»

Багато людей вважають, що необ’єктивність — це проблема даних, але алгоритми також не є об’єктивними. Визнаючи вплив упередженості моделі на її розробку, ми можемо знайти нові методи зменшення негативних наслідків необ’єктивності.

4. Latest Neural Nets Solve World’s Hardest Equations Faster Than Ever Before

У статті розглядається два нових підходи, які дозволяють глибоким нейронним мережам вирішувати цілі сімейства часткових диференціальних рівнянь, полегшуючи і пришвидшуючи моделювання складних систем.

5. Shedding light on fairness in AI with a new data set

Facebook створив базу даних з 45186 відеозаписів 3011 різних людей, які спілкуються одне з одним. Ця база даних включає ярлики видимого відтінку шкіри мовців, а також дані про інші речі, які можуть вплинути на модель (наприклад, кількість використовуваного освітлення). Вона дає розробникам потужний тестовий майданчик для вивчення об’єктивності (або необ’єктивності) їхніх алгоритмів.

6. OpenAI-Powered Linux Shell

«Це як Alexa / Siri / Cortana для вашого терміналу!» Проста Python shell, яка обробляє запит і запитує у OpenAI, яку саме Linux bash-команду потрібно запустити, грунтуючись на вашому текстовому описі самої задачі.

7. NMF — A visual explainer and Python Implementation

Стаття допоможе вам розібратися у unsupervised алгоритмах, що дозволяють data scientists витягувати теми з текстів, фотографій та багато іншої інформації, а також будувати зручні рекомендаційні системи.

8. How to deploy Machine Learning/Deep Learning models to the web

З цієї статті ви дізнаєтеся, як розгорнути вашу модель глибокого навчання як REST API, а також додати форму, яка буде приймати вхідні дані від користувача, і повертати передбачення від моделі. Як приклад використовується FastAPI — для створення самого API і Heroku — для розгортання моделі.

9. NVIDIA, Stanford & Microsoft Propose Efficient Trillion-Parameter Language Model Training on GPU Clusters

Команда дослідників з NVIDIA, Стенфордського Університету і Microsoft Research пропонує новий підхід до паралелізації потоків даних, який збільшує пропускну здатність більш ніж на 10%. Це показує, що такий підхід може досягти високої сукупної пропускної здатності при навчанні моделей з трильйоном параметрів.

10. Artificial Intelligence, Facial Recognition Face Curbs in New EU Proposal

Європейський Союз хоче уникнути найгірших сценаріїв АІ-майбутнього — на кшталт моторошних технологій розпізнавання осіб і сюжетів серіалу «Black Mirror». Виконавча гілка Європейського союзу запропонувала законопроект, який створить список високо ризикових видів використання штучного інтелекту, в число яких увійдуть використання AI в критично важливій інфраструктурі, в аналізі заявок на отримання позик та вступу до коледжів. Такі використання будуть підлягати новому нагляду, регулюванню і стандартам.

Що нового у наукових працях

Що послухати

1. Building a data store for unstructured data and deep learning applications

Бесіда з Давидом Буніатяном, засновником і генеральним директором ActiveLoop, стартапом, що будує засоби управління даними для неструктурованих типів даних, які зазвичай асоціюють з deep learning. Він розповідає про tensorial сховища даних, що оптимізовані під deep learning.

2. Machine Learning in Production for Robots with Brandon Rohrer

Розмова з Брендоном Рорером, principal data scientist, який працював над низкою неймовірних data-проектів у Facebook, Microsoft, а тепер — в iRobot. Він має дуже популярний навчальний курс Machine Learning на e2eML, в рамках якого він створив кілька відеороликів про згорткові нейронні мережі і глибоке навчання.

3. What does your AI want?

АІ системи можуть мати стимули чи мотивації, які не обов’язково співпадають з їхнім первинним програмуванням. Райан Кері, дослідник АІ в області безпеки в Oxford University’s Future of Humanity Institute, розповідає про свої дослідження по виявленню і контролю цих випадкових стимулів.

4. AutoML for Natural Language Processing

Бесіда з Абхишеком Такур, ML інженер у «Hugging Face» і першим в світі чотирикратним гросмейстером Kaggle. Він розповідає про свій шлях на Kaggle і обговорює свою нову роль в HuggingFace, де він будує AutoNLP.

5. Time Series Analysis

В епізоді обговорюється екосистема modeltime для аналізу часових рядів, найбільш потужні моделі для прогнозування часових рядів, сучасні інструменти і методики і багато іншого.

6. Data science for intuitive user experiences featuring Nhung Ho, Director of Data Science at Intuit

Нхунг Хо, data science директор в Intuit, розповідає про те, як наука про дані надає краще уявлення про фінансові операції та економічні умови. Він заглиблюється в теми, що варіюються від прогнозного проектування для допомоги малим підприємствам і до економічних наслідків пандемії Covid-19.

7. Moving Machine Learning Into The Data Pipeline at Cherre

У цьому епізоді Таль Гальфскі розповідає, як він і команда Cherre вирішили проблему неякісних даних для адрес — побудувавши систему обробки природної мови та entity resolution, яка служила як API для їхніх інших каналів даних.

Що подивитися

1. James Landay: Smart Interfaces for Human-Centered AI

Запис щотижневого семінару HAI професора обчислювальної техніки зі Стенфорда Джеймса Ленді. Він пояснює три способи вирішення грандіозних проблем в області охорони здоров’я і освіти за допомогою будування систем, які поєднують в собі «розумність» та інноваційні інтерфейси.

2. Create 3D Models from Images! AI and Game Development, Design... GANverse3D & NVIDIA Omniverse

Вчені Nvidia розробили інструмент під назвою GANverse3D — розширення Nvidia Omniverse, яке обробити стандартне 2D зображення об’єкта, лише одну фотографію і створити реалістичну 3D модель. Ці повні 3D моделі потім можна візуалізувати і управляти ними в віртуальних середовищах в Omniverse. Nvidia вважає, що ця технологія 3D моделювання може стати знахідкою для архітекторів, творців, розробників ігор і дизайнерів.

3. You Describe & AI Photoshops Faces For You [StyleCLIP]

Ми наближаємося до того, що природна мова буде легко зрозумілою комп’ютеру. На відео обговорюється, як працює StyleCLIP (Text-Driven Manipulation of StyleGAN Imagery). Це нова технологія, яка має великий потенціал.

4. I BUILT A NEURAL NETWORK IN MINECRAFT

Аналогова нейронна мережа — в ванільному Minecraft, без будь-яких модів і командних блоків. Мережа використовує сильні сторони Redstone проводів для передачі сигналу через один прихований шар, включаючи нелінійності, а потім виконує автоматичне зворотне розмноження і навіть оновлення ваги.

5. Conversational AI w/ Jarvis — checking out the API

У Jarvis API є моделі практично для всього, що може знадобитися для штучного інтелекту, включаючи перетворення тексту в мову, перетворення мови в текст, розпізнавання іменованих об’єктів і багато іншого. Відео, в основному, розглядає можливості цього API.

Що почитати

The Atlas for the Aspiring Network Scientist

Якщо ви хочете розібратися в складних мережах, то вам необхідно освоїти великий аналітичний інструментарій: теорію графів і ймовірностей, лінійну алгебру, статистичну фізику, машинне навчання, комбінаторику і багато іншого. Мета цієї книги — надати загальне уявлення про всі ці підходи і інструменти.

2. The Data Detective: Ten Easy Rules to Make Sense of Statistics

Тім Харфорд є експертом в поясненні складних речей зрозумілою мовою для для мільйонів читачів. В The Data Detective він використовує нові дослідження в галузі науки і психології, щоб сформулювати десять нових стратегій використання і розуміння статистики.

3. Real World AI: A Practical Guide for Responsible Machine Learning

Більшість моделей АІ ніколи не проходять тестової стадії, але ці провали не є випадковими. У цьому практичному посібнику з розгортання АІ моделей викладається відповідальний підхід, який більш ніж в три рази перевищує рівень успіху розгортання моделей в порівнянні з середніми показниками в галузі.

4. Snowflake Cookbook: Techniques for building modern cloud data warehousing solutions

Розробляйте сучасні рішення з унікальною архітектурою і інтеграційними можливостями за допомогою Snowflake. Книга навчить вас як обробляти об’ємні дані і дані в режимі реального часу в data lake та використовувати функції переміщення в часі, клонування і обміну даними для оптимізації операцій з даними.

5. Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Детальний посібник для засвоєння ефективних способів і методів очищення даних. Книга містить цікаві практичні приклади з численних областей, таких як біологія, демографія, фізика, погодні дані, тимчасові ряди і обробка зображень.

Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.

Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:

Senior Front-End Engineer | Media network

Senior Java Engineer | Media network

QA Automation | Media network

Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.