Big Data, Machine Learning, Data Science Digest #17: AI inpainting, труднощі масштабування моделей та етичні зрушення ШІ
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.
Привіт!
У цьому випуску дайджеста я знову збираю матеріали, новини та цікаві проєкти зі світу Machine Learning, Data Science та штучного інтелекту.
І ось про що ви дізнаєтеся в останньому осінньому дайджесті:
- про баг PyTorch, який сповільнює навчання моделей;
- етичні челенджі, пов’язані з розвитком AI;
- як
ML-інженеру почати власний бізнес; - як AI автоматизує рутинні операції з Photoshop;
- кар’єрний шлях технічного керівника PyTorch;
- як зменшити вартість
ML-розробки; - та чимало іншого.
Якщо ви ще не ознайомилися з моїм попереднім дайджестом, його можна знайти тут. Також я завжди радий коментарям та фідбеку!
Що почитати: нові статті
Finding why Pytorch Lightning made my training 4x slower
Пост розповідає про те, як
Considerations For Deploying Machine Learning Models in Production
У новій статті Towards Data Science описуються загальні міркування та поширені підводні камені щодо інструментів і найкращих практик, а також шаблонів обслуговування моделей машинного навчання.
Ethical AI Trained on Reddit Posts Said Genocide Is OK If It Makes People Happy
Стаття від Vice на прикладі кейсу Ask Delphi показує, чому штучному інтелекту ще зарано вирішувати етичні дилеми.
Why We Forgive Humans More Readily Than Machines
Пост аналізує, чому ми схильні довіряти людям більше, ніж алгоритмам штучного інтелекту на основі емпіричних доказів.
Why Zillow Couldn’t Make Algorithmic House Pricing Work
Пандемія суттєво вплинула на всі сфери нашого життя — у тому числі, як показує приклад Zillow, на точність рекомендаційних алгоритмів.
I asked AI to write the computer code to kill people with whom I disagree. Guess what happened
Автор статті попросив штучний інтелект закінчити комп’ютерний код, який вбиватиме людей, із якими автор не погоджується. З цих експериментів стало зрозуміло, що найкращі моделі штучного інтелекту демонструють сліди етичної поведінки, але вони не є послідовними та достатніми.
Introducing the Machine Learning Reproducibility Scale
Кількісна оцінка відтворюваності машинного навчання та представлення єдиної системи рейтингу для відтворюваності проєкту.
Що застосувати: корисні проєкти
Text Segmentation — Approaches, Datasets, and Evaluation Metrics
Публікація пропонує огляд найкращих підходів, наборів даних та показників оцінки, які зазвичай використовуються для завдання сегментації тексту.
Автоматичне позначення текстових даних або виведення теми з текстових даних.
Pip package for managed ML Training on AWS Spot Instances
Глибоке навчання коштує дорого, тому автор проєкту пропонує інструмент, щоб зробити навчання дешевшим та економніше використовувати кредити AWS.
PyTorch Implementations of 37 GAN papers
Вибухаючий градієнт у класифікаторі може спричинити небажаний колапс на початку навчання, а проєктування вхідних векторів на одиничну гіперсферу може вирішити проблему. На цій основі автори проєкту пропонують перезавантажену допоміжну GAN (ReACGAN).
Що подивитися: цікаві відео
This AI makes blurry faces look 8 times sharper! SwinIR: Photo Upsampling
Відео розглядає кейс підвищення роздільної здатності зображення в чотири рази (в чотири рази більше пікселів висоти та ширини для більшої детальності зображення).
AI Magic Removal — Removes ANYTHING & Inpaints For You
Що краще: подивитися
This AI Learned Some Crazy Fighting Moves!
У відео демонструється пояснення та практичне застосування концепцій зі статті «Neural Animation Layering for Synthesizing Martial Arts Movements».
PyTorch: Bridging AI Research and Production // Dmytro Dzhulgakov
Цікава розмова про PyTorch із Дмитром Джулгаковим, технічним керівником PyTorch. Відео розповідає про шлях Дмитра до посади інженера та технічного керівника у Facebook, а також про те, що передбачає його роль.
Що послухати: резонансні подкасти
Exploring Processing Patterns For Streaming Data Integration In Your Data Lake
Однією з постійних проблем, пов’язаних із Data Lake, є те, як підтримувати їх в актуальному стані під час збору нових даних. Орі Рафаель ділиться своїм досвідом роботи зі створення масштабованої обробки потоків для інтеграції та аналізу даних. Також ви дізнаєтесь про компроміси виходу з групового мислення.
Нікхіл Муралідар, Research Assistant в Virginia Tech College of Engineering розповідає про уроки, отримані при розробці та масштабному розгортанні моделей машинного навчання.
Machine Learning at GSK with Kim Branson
У розмові із Twimlai Кім Бренсон, віце-президент і глобальний керівник відділу штучного інтелекту та машинного навчання в GSK, розповідає про те, як ML/AI вписується в розробку фармацевтичного бізнесу та способи використання AI, які з’являються з використанням генетичних даних як джерела даних.
Chris, Shawn, and Lukas — The Weights & Biases Journey
Три співзасновники W&B — Кріс (CVP), Шон (технічний директор) та Лукас (генеральний директор) розповідають історії походження компанії, згадують злети та падіння та дають поради інженерам, які хочуть відкрити власний бізнес.
Що вивчити: інноваційні наукові статті
iBOT: Image BERT Pre-Training with Online Tokenizer
Наукова праця презентує самоконтрольований фреймворк iBOT, який може виконувати замасковані прогнози за допомогою онлайн-токенізатора.
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning
Стаття пропонує єдиний уніфікований трансформатор (UFO), здатний обробляти або унімодальні вхідні дані (наприклад, зображення чи мова), або мультимодальні вхідні дані (наприклад, конкатенація зображення та запитання), для навчання репрезентації мови зору (VL).
Masked Autoencoders Are Scalable Vision Learners
У цій статті показано, що замасковані автокодери (MAE) є масштабованими самоконтрольованими учнями computer vision.
Gradients Are Not All You Need
Диференційовані методи програмування широко використовуються в суспільстві і відповідають за ренесанс машинного навчання останніх кількох десятиліть. Цей звіт обговорює звичайний режим відмови, заснований на хаосі, який з’являється в різноманітних обставинах: від повторюваних нейронних мереж і моделювання чисельної фізики до навчання досвідчених оптимізаторів.
***
Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо ви бажаєте працювати у колі однодумців над складними data-centric проєктами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:
Lead Node.js Engineer
Team Lead Java Engineer
Senior Data Scientist/ML Engineer
Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів