Big Data, Machine Learning, Data Science Digest #1. Технології синтезу мови, neural scene representation, динамічні системи як алгоритми оптимізації

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.

Всім привіт!

Час минає, Data-індустрія розвивається, а матеріали з цікавих мені технічних тем, як і раніше, доводиться по крихтах збирати звідусюди.

Тож вирішив скласти свої знахідки за останні півтора місяця до структурованого дайджесту та поділитися зі спільнотою. Мабуть, пошук інформації — це не тільки мій біль, тож буду радий, якщо стане у пригоді.

Долучайтеся до обговорення і пишіть в коментарях, якщо є матеріали, які варто додати до підбірки.

Статті

  1. Decoding Netflix: Metaflow. Огляд Netlix Metaflow, бібліотеки Python з відкритим вихідним кодом, яка працює з управлінням даними і навчанням моделей.
  2. Deep learning is revolutionizing text-to-speech and speech synthesis technologies. Очікується, що TTS і синтез мови стануть рушійною силою наступної хвилі інноваційних голосових застосунків. У статті є огляд технологій синтезу мови і йдеться про зростання використання глибинного навчання для синтезу мови.
  3. Airflow vs. Luigi vs. Argo vs. MLFlow vs. KubeFlow: Choosing a task orchestration tool. Якщо ви не впевнені, який інструмент використовувати для забезпечення централізованого, повторюваного, відтворюваного і ефективного робочого процесу, ознайомтеся з цим порівнянням найбільш популярних інструментів.
  4. Telling a Great Data Story: A Visualization Decision Tree. Як побудувати візуалізацію даних, яка розповідає історію. У статті пропонується дерево рішень, яке допоможе вам вибрати, який тип візуалізації використовувати в залежності від історії, яку ви хочете розповісти.
  5. Aggressively Helpful Platform Teams: Stitch Fix Technology — Multithreaded. Як команда Stitch Fix Data Platform активно залучає нових користувачів і чому це необхідно для їх революційної технології.
  6. PyCaret 2.2: Efficient Pipelines for Model Development. Пакет, схожий на Caret, але для Python, що називається PyCaret. Він надає low code інструментарій для машинного навчання з використанням безлічі популярних бібліотек в бекенді. Це дозволяє швидко перейти від підготовки даних до розгортання моделі.
  7. Google AI, DeepMind And The University of Toronto Introduce DreamerV2, The First Reinforcement Learning (RL) Agent That Outperforms Humans on The Atari Benchmark. Перший агент Reinforcement Learning, заснований на світовій моделі, який досяг успіху на рівні людини за тестом Atari. DreamerV2 точно пророкує майбутні нагороди за виконання завдань на основі загальної інформації із зображень.
  8. The Hard Lessons of Modeling the Coronavirus Pandemic. Стаття про те, як у боротьбі з COVID-19 пара фахівців з моделювання захворювань, Найджел Голденфельд і Сергєй Маслов, боролися з непорозумінням і неправильним використанням своєї праці. Також у статті йдеться про неготовність теперішнього стану моделювання даних до цієї пандемії.

Наукові праці

Підбірка цікавих і найбільш обговорюваних наукових праць по Data Science і Machine Learning за останні півтора місяця.

  1. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
  2. Single Headed Attention RNN: Stop Thinking With Your Head
  3. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
  4. Language Models are Few-Shot Learners
  5. Generative Pretraining from Pixels
  6. On the Spectral Bias of Neural Networks
  7. Randomized Automatic Differentiation
  8. Transformer is All You Need:Multimodal Multitask Learning with a Unified Transformer
  9. Learning with User-Level Privacy
  10. Extracting Training Data from Large Language Models

Подкасти

  1. Datasceptic — Fault Tolerant Distributed Gradient Descent. Епізод Datasceptic з Нірупамою Гуптою, дослідником комп’ютерних наук в Університеті EDFL в Швейцарії, у якому він обговорює свою роботу «Byzantine Fault-Tolerance in Peer-to-Peer Distributed Gradient-Descent».
  2. Learning Machines 101 — How to Analyze the Behavior of Smart Dynamical Systems. У цьому епізоді Learning Machines 101 Річард Голден обговорює методи аналізу поведінки алгоритмів машинних висновків і алгоритмів машинного навчання як динамічних систем. Він розповідає про те, як динамічні системи можна розглядати як спеціальні типи алгоритмів оптимізації, та як можна аналізувати поведінку цих систем навіть при їх високій нелінійності і великій багатовимірності.
  3. Machine Learning Street Talk — Prof J. Mark Bishop — Artificial Intelligence Is Stupid and Causal Reasoning won’t fix it. Обговорення з професором Марком Бішопом його недавньої роботи «Штучний інтелект — це дурість, і причинно-наслідкове мислення цього не виправить». У своїй праці він чітко дав зрозуміти, що, на його думку, комп’ютери ніколи не зможуть все осмислити, зрозуміти або взагалі щось відчути.
  4. Chai Time Data Science — Emil Wallner: Art & ML, Being Internet Taught, Creating ML Content. У цьому епізоді Саньям Бхутані бере інтерв’ю у Еміля Вальнера, незалежного дослідника в області машинного навчання і резидента Google Arts & Culture Lab. Вони обговорюють шлях Еміля від свого роду села в Африці до подорожей по світу і його роботі зі штучним інтелектом. Також піднімають тему «штормів» Еміля в Твіттері, його шляху як самоучки і більше.
  5. Wierd AI — AI in Teaching & Learning. Вивчення нових ідей в школі може бути складним. Чи може АІ цьому допомогти? У цьому епізоді Wierd AI обговорюється, як ми можемо використовувати АІ для поліпшення освіти, і розповідається про автоматичні відео конспекти, політику АІ та багато іншого.
  6. Super Data Science — Commercial ML Opportunities Lie Everywhere. Епізод «Super Data Science» з гостем Майклом Сігалом, співзасновником і генеральним директором SFL Scientific. У цьому епізоді обговорюється, як GPU можна використовувати для прискорення всіх математичних операцій, data science в приватному секторі, які софт скіли важливі, найбільш комерційні можливості ML в найближчі роки і багато іншого.
  7. Data Science at Home — You are the product. Епізод «Data Science at Home» з гостем Джорджем Хоса з Cerebralab. Епізод розповідає про те, як небезпечно не платити за послуги, якими ви користуєтеся, і, як наслідок, як небезпечно дозволяти алгоритму вирішувати, що вам подобається, а що ні.
  8. Practical AI Low code, no code, accelerated code, & failing code. У цьому епізоді Practical AI ведучі обговорюють low code/no code розробку, жаргон GPU, плюс проблеми з витоком даних. Вони також діляться деякими дійсно крутими новими можливостями навчання для прокачки AI/ML навичок.

Відео

  1. The Other AI Alignment Problem: Mesa-Optimizers and Inner Alignment. Роберт Майлз говорить і пояснює статтю про ризики, пов’язані з оптимізацією навчання в передових системах машинного навчання. Чудові пояснення з реальними прикладами і крихтою гумору.
  2. ShaRF: A complete 3D Model of an object from a single image taken. Хочете сфотографувати предмет і одразу отримати його 3D модель? Запросто (майже). Огляд нещодавно опублікованих досліджень Google зі створення neural scene representation із одного зображення.
  3. The SoftMax Derivative, Step-by-Step. Покроковий гайд, який показує, як використовувати похідні функції SoftMax в якості кінцевого вихідного слою в нейронних мережах.
  4. Presenting... Determined AI. Огляд open-source платформи глибокого навчання, яка має вбудовану функцію налаштування гіперпараметрів і distributed training.
  5. How to Turn Photos into Paintings Using Contrastive Unpaired Translation. Назва відео говорить сама за себе. Пояснення нового методу unpaired image-to-image translation в порівнянні зі старим методом і кілька наглядних прикладів.
  6. Книги

  • Data Science. Наука о данных с нуля. Глибоке занурення в ідеї і принципи, що лежать в основі науки про дані і машинного навчання. Оновлена ​​для Python 3.6, ця книга покаже вам, як працюють інструменти і алгоритми збору даних, будуючи їх з нуля.
  • Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy . Дізнайтеся про темний бік Big Data. У книзі досліджується, як деякі алгоритми роботи з Big Data все частіше використовуються, щоб посилити існуючу нерівність у світі. Це більш освітня книга, ніж технічна.
  • Deep Learning for Coders with fastai and PyTorch . Книга з великою кількістю практичних прикладів про те, як тренувати моделі глибокого навчання за допомогою fastai і PyTorch.
  • The Hundred-Page Machine Learning Book. Must-read для будь-якого data scientist чи ML engineer. Найголовніше, що вам потрібно знати про машинне навчанні в одній книзі.
  • Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. Відмінний огляд машинного навчання з дуже хорошим балансом між теорією і практикою. Книга має простий для розуміння код на Python і охоплює все, від звичайної лінійної регресії — до RNN і CNN.
👍НравитсяПонравилось27
В избранноеВ избранном12
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Дуже дякую за дайджест!

Что больше всего понравилось?

Подписаться на комментарии