Big Data/Machine Learning/Data Science Digest #4: Time series forecasting, об’єктивність АІ, GAN для 3D-моделювання
Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!
Вітання!
Зібрав нову підбірку останніх новин і цікавих матеріалів із data-індустрії. У цьому випуску дайджеста ви дізнаєтеся про методологію Microsoft в оцінці точності моделей прогнозування, новий підхід до паралелізації потоків даних з високою пропускною здатністю, чи проблема необєктивністі АІ — справді тільки в даних, як можна створити 3D модель об’єкта лише з одного зображення, та як побудувати нейронну мережу у Minecraft.
Якщо ви проґавили мій попередній, третій дайджест, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.
Свіжі статті та матеріали
1. Time series forecasting: Selecting algorithms
Ознайомтеся з підходом Microsoft до оцінки точності моделей прогнозування та методом, при якому їхня команда дозволяє зацікавленим сторонам швидко реагувати на проблеми, пов’язані з таймсеріямі, і робити якісні прогнози.
2. Can you build a machine learning model to monitor another model?
Чи можете ви навчити модель машинного навчання передбачати помилки іншої моделі, і чи варто? Стаття описує саме такий експеримент.
3. Moving beyond «algorithmic bias is a data problem»
Багато людей вважають, що необ’єктивність — це проблема даних, але алгоритми також не є об’єктивними. Визнаючи вплив упередженості моделі на її розробку, ми можемо знайти нові методи зменшення негативних наслідків необ’єктивності.
4. Latest Neural Nets Solve World’s Hardest Equations Faster Than Ever Before
У статті розглядається два нових підходи, які дозволяють глибоким нейронним мережам вирішувати цілі сімейства часткових диференціальних рівнянь, полегшуючи і пришвидшуючи моделювання складних систем.
5. Shedding light on fairness in AI with a new data set
Facebook створив базу даних з 45186 відеозаписів 3011 різних людей, які спілкуються одне з одним. Ця база даних включає ярлики видимого відтінку шкіри мовців, а також дані про інші речі, які можуть вплинути на модель (наприклад, кількість використовуваного освітлення). Вона дає розробникам потужний тестовий майданчик для вивчення об’єктивності (або необ’єктивності) їхніх алгоритмів.
«Це як Alexa / Siri / Cortana для вашого терміналу!» Проста Python shell, яка обробляє запит і запитує у OpenAI, яку саме Linux bash-команду потрібно запустити, грунтуючись на вашому текстовому описі самої задачі.
7. NMF — A visual explainer and Python Implementation
Стаття допоможе вам розібратися у unsupervised алгоритмах, що дозволяють data scientists витягувати теми з текстів, фотографій та багато іншої інформації, а також будувати зручні рекомендаційні системи.
8. How to deploy Machine Learning/Deep Learning models to the web
З цієї статті ви дізнаєтеся, як розгорнути вашу модель глибокого навчання як REST API, а також додати форму, яка буде приймати вхідні дані від користувача, і повертати передбачення від моделі. Як приклад використовується FastAPI — для створення самого API і Heroku — для розгортання моделі.
Команда дослідників з NVIDIA, Стенфордського Університету і Microsoft Research пропонує новий підхід до паралелізації потоків даних, який збільшує пропускну здатність більш ніж на 10%. Це показує, що такий підхід може досягти високої сукупної пропускної здатності при навчанні моделей з трильйоном параметрів.
10. Artificial Intelligence, Facial Recognition Face Curbs in New EU Proposal
Європейський Союз хоче уникнути найгірших сценаріїв АІ-майбутнього — на кшталт моторошних технологій розпізнавання осіб і сюжетів серіалу «Black Mirror». Виконавча гілка Європейського союзу запропонувала законопроект, який створить список високо ризикових видів використання штучного інтелекту, в число яких увійдуть використання AI в критично важливій інфраструктурі, в аналізі заявок на отримання позик та вступу до коледжів. Такі використання будуть підлягати новому нагляду, регулюванню і стандартам.
Що нового у наукових працях
- High-performance, Distributed Training of Large-scale Deep Learning Recommendation Models
- On Semantic Similarity in Video Retrieval
- Generative Adversarial Transformers
- Should Graph Neural Networks Use Features, Edges, Or Both?
Що послухати
1. Building a data store for unstructured data and deep learning applications
Бесіда з Давидом Буніатяном, засновником і генеральним директором ActiveLoop, стартапом, що будує засоби управління даними для неструктурованих типів даних, які зазвичай асоціюють з deep learning. Він розповідає про tensorial сховища даних, що оптимізовані під deep learning.
2. Machine Learning in Production for Robots with Brandon Rohrer
Розмова з Брендоном Рорером, principal data scientist, який працював над низкою неймовірних data-проектів у Facebook, Microsoft, а тепер — в iRobot. Він має дуже популярний навчальний курс Machine Learning на e2eML, в рамках якого він створив кілька відеороликів про згорткові нейронні мережі і глибоке навчання.
АІ системи можуть мати стимули чи мотивації, які не обов’язково співпадають з їхнім первинним програмуванням. Райан Кері, дослідник АІ в області безпеки в Oxford University’s Future of Humanity Institute, розповідає про свої дослідження по виявленню і контролю цих випадкових стимулів.
4. AutoML for Natural Language Processing
Бесіда з Абхишеком Такур, ML інженер у «Hugging Face» і першим в світі чотирикратним гросмейстером Kaggle. Він розповідає про свій шлях на Kaggle і обговорює свою нову роль в HuggingFace, де він будує AutoNLP.
В епізоді обговорюється екосистема modeltime для аналізу часових рядів, найбільш потужні моделі для прогнозування часових рядів, сучасні інструменти і методики і багато іншого.
6. Data science for intuitive user experiences featuring Nhung Ho, Director of Data Science at Intuit
Нхунг Хо, data science директор в Intuit, розповідає про те, як наука про дані надає краще уявлення про фінансові операції та економічні умови. Він заглиблюється в теми, що варіюються від прогнозного проектування для допомоги малим підприємствам і до економічних наслідків пандемії Covid-19.
7. Moving Machine Learning Into The Data Pipeline at Cherre
У цьому епізоді Таль Гальфскі розповідає, як він і команда Cherre вирішили проблему неякісних даних для адрес — побудувавши систему обробки природної мови та entity resolution, яка служила як API для їхніх інших каналів даних.
Що подивитися
1. James Landay: Smart Interfaces for Human-Centered AI
Запис щотижневого семінару HAI професора обчислювальної техніки зі Стенфорда Джеймса Ленді. Він пояснює три способи вирішення грандіозних проблем в області охорони здоров’я і освіти за допомогою будування систем, які поєднують в собі «розумність» та інноваційні інтерфейси.
2. Create 3D Models from Images! AI and Game Development, Design... GANverse3D & NVIDIA Omniverse
Вчені Nvidia розробили інструмент під назвою GANverse3D — розширення Nvidia Omniverse, яке обробити стандартне 2D зображення об’єкта, лише одну фотографію і створити реалістичну 3D модель. Ці повні 3D моделі потім можна візуалізувати і управляти ними в віртуальних середовищах в Omniverse. Nvidia вважає, що ця технологія 3D моделювання може стати знахідкою для архітекторів, творців, розробників ігор і дизайнерів.
3. You Describe & AI Photoshops Faces For You [StyleCLIP]
Ми наближаємося до того, що природна мова буде легко зрозумілою комп’ютеру. На відео обговорюється, як працює StyleCLIP (Text-Driven Manipulation of StyleGAN Imagery). Це нова технологія, яка має великий потенціал.
4. I BUILT A NEURAL NETWORK IN MINECRAFT
Аналогова нейронна мережа — в ванільному Minecraft, без будь-яких модів і командних блоків. Мережа використовує сильні сторони Redstone проводів для передачі сигналу через один прихований шар, включаючи нелінійності, а потім виконує автоматичне зворотне розмноження і навіть оновлення ваги.
5. Conversational AI w/ Jarvis — checking out the API
У Jarvis API є моделі практично для всього, що може знадобитися для штучного інтелекту, включаючи перетворення тексту в мову, перетворення мови в текст, розпізнавання іменованих об’єктів і багато іншого. Відео, в основному, розглядає можливості цього API.
Що почитати
Якщо ви хочете розібратися в складних мережах, то вам необхідно освоїти великий аналітичний інструментарій: теорію графів і ймовірностей, лінійну алгебру, статистичну фізику, машинне навчання, комбінаторику і багато іншого. Мета цієї книги — надати загальне уявлення про всі ці підходи і інструменти.
2. The Data Detective: Ten Easy Rules to Make Sense of Statistics
Тім Харфорд є експертом в поясненні складних речей зрозумілою мовою для для мільйонів читачів. В The Data Detective він використовує нові дослідження в галузі науки і психології, щоб сформулювати десять нових стратегій використання і розуміння статистики.
3. Real World AI: A Practical Guide for Responsible Machine Learning
Більшість моделей АІ ніколи не проходять тестової стадії, але ці провали не є випадковими. У цьому практичному посібнику з розгортання АІ моделей викладається відповідальний підхід, який більш ніж в три рази перевищує рівень успіху розгортання моделей в порівнянні з середніми показниками в галузі.
4. Snowflake Cookbook: Techniques for building modern cloud data warehousing solutions
Розробляйте сучасні рішення з унікальною архітектурою і інтеграційними можливостями за допомогою Snowflake. Книга навчить вас як обробляти об’ємні дані і дані в режимі реального часу в data lake та використовувати функції переміщення в часі, клонування і обміну даними для оптимізації операцій з даними.
Детальний посібник для засвоєння ефективних способів і методів очищення даних. Книга містить цікаві практичні приклади з численних областей, таких як біологія, демографія, фізика, погодні дані, тимчасові ряди і обробка зображень.
Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:
Senior Front-End Engineer | Media network
Senior Java Engineer | Media network
Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів