Big Data/Machine Learning/Data Science Digest #5: Open-source license у ML, сучасний data stack, аудіо Deepfake і новий MLP-mixer
Привіт!
Сподіваюся, всі гарно встигли відпочити за свята. Однак світ data-індустрії не відпочиває і продовжує підкорювати нові технологічні вершини. Вас чекає свіжа підбірка новин, статей, подкастів і відео!
У цьому випуску ви дізнаєтеся про підходи до open-source ліцензування у ML, АІ що сам пише код, чого не вистачає сучасному дата стеку, аудіо Deepfake, новий MLP-Mixer та купу інших цікавинок.
Якщо ви проґавили мій попередній дайджест, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.
Articles
1. Machine Learning, Ethics, and Open Source Licensing
Як нові підходи до ліцензування відкритих вихідних кодів можуть відобразитися на впливі систем ML на світ. Наприклад, ліцензії, специфічні для конкретного домену, особливо добре підходять для ML та дозволяють розробникам створювати чітки та контрольовані обмеження для їх використання.
2. The missing piece of the modern data stack
У сучасному стеці даних нам вистачає основоположних елементів, за винятком одного: шару метрик. Стаття розглядає можливі вирішення цієї проблеми.
3. Run Your Data Team Like A Product Team
Багато команд з роботи з даними застрягають у культурі, орієнтованій на обслуговування, де основне завдання полягає у тому, щоб відповідати на питання інших людей. У статті йдеться про те, як це марнує реальний потенціал команд і що варто робити замість цього.
4. Bayesian and frequentist results are not the same, ever
Дві різні інтерпретації ймовірності, два різних результати. Чи можливо їх порівняти? І чи потрібно? «Вся суть байєсівських методів полягає у тому, що апостеріорний розподіл більш корисний, ніж точкова оцінка або інтервал, через те, що ви можете використовувати його для прийняття рішень в умовах невизначеності». Питання полягає в тому, що саме вам потрібно? Точкова оцінка або апостеріорний розподіл?
5. Now for AI’s Latest Trick: Writing Computer Code
SourceAI використовує GPT-3 для перекладу простомовнх запитів в комп’ютерний код на 40 мовах програмування. Французький стартап є однією з кількох компаній, яка використовує штучний інтелект для облегчення кодирування.
6. Cooperative AI: machines must learn to find common ground
Група дослідників із Оксфордського університету, DeepMind, Університету Торонто та Microsoft вважає, що нам необхідно створити кооперативні системи АІ, щоб отримати максимальну кількість вигоди із технології, яка тільки зароджується. Ця думка підтримується створенням нового фонду Cooperative AI Foundation, первинний грант якого складає 15 мільйонів доларів США.
7. It Began as an AI-Fueled Dungeon Game. It Got Much Darker
Dungeon AI — гра, в якій використовується генератор тексту GPT-3 нещодавно викликала багато шуму навколо себе. Усе через те, що алгоритм почав створювати аморальні сцени, які викликають занепокоєння.
8. Understanding the differences between biological and computer vision
Рецензія на книгу «Biological and Computer Vision», в якій доступно розповідається про те, як люди та тварини відтворюють візуальні дані та як далеко ми просунулись у відтворенні цих функцій на комп’ютері.
9. Practical SQL for Data Analysis
У цій статті Хакі Беніта показує, як використовувати SQL для швидкого та ефективного аналізу даних. Складні таблиці, проміжні висновки, лінійна регресія, біннінг та інтерполяція — все це можна зробити за допомогою SQL та у багатьох випадках це є найкращим підходом.
10. How Airbnb Achieved Metric Consistency at Scale
Це перша частина нової серії статей про власну метричну платформу Airbnb під назвою «Minerva». Minerva використовується у компанії як єдине джерело достовірних даних для аналітики, звітності та експериментів. Стаття розглядає вирішені проблеми, основні можливості Minerva та екосистему інструментів, які вона створила.
Podcasts
1. a16z Infra #4: Segmenting the Data Analytics Stack | a16z Live
У цьому записаному обговоренні з Clubhouse генеральний партнер a16z Мартін Касадо разом з керівниками Starburst, Superset та Imply розглядає стек аналітики даних, майбутнє SQL та способи використання потокових даних.
2. From Idea to Production ML // Lex Beattie — Michael Munn — Mike Moran | MLOps Meetup #61
У цьому епізоді обговорюється основні перешкоди, на які ви можете натрапити при спробі впровадити data-продукти у виробничу середу. Розмова також торкається питання моніторингу ML та пояснюваності АІ.
3. Sergey Nazarov: Chainlink, Smart Contracts, and Oracle Networks | Lex Fridman Podcast #181
Вичерпне інтерв’ю з Сергеєм Назаровим, співзасновником Chainlink, децентралізованою Oracle мережею, що надає дані для смарт-контрактів.
Обговорення нормативно-правової бази США та ЄС щодо штучного інтелекту, які технології будуть заборонені та як це буде виглядати в майбутньому (з юридичної точки зору). Буде цікаво тим, хто орієнтується на західний ринок.
5. Create Technological Emotional Bonds w/ Creative Intelligence | The Banana Data Podcast
Цікава розмова про те, чому довгострокові цілі технологій не повинні полягати лише у ефективності, а також в емоційних зв’язках.
6. Making Analytical APIs Fast With Tinybird | Data Engineering Podcast
Створення API для даних у реальному часі — складний проект. А також зробити його надійним, масштабованим та швидким — це вже робота на повну ставку. У цьому подкасті, CEO Tinybird, Хорхе Санча, розповідає про те, як його команда спроектували свою систему, що може справлятися з високою пропускною здатністю даних та має швидкий час відгуку. А також про те, чому вони зробили ставку на Clickhouse як базу своєї платформи.
Studies
1. Why AI is Harder Than We Think
3. Scaling End-to-End Models for Large-Scale Multilingual ASR
4. MLP-Mixer: An all-MLP Architecture for Vision
5. The Modern Mathematics of Deep Learning
Vids
1. Realistic Lighting with Different Backgrounds
Новий піксельний спосіб передачі освітлення у зображеннях в рамках глибокого навчання, що чітко моделює дифузні та дзеркальні компоненти зовнішності, створюючи яскраві портрети з переконливо відтвореними ефектами, такими як дзеркальні блики.
2. How to Read Math as a Software Engineer
Читання математичних формул у ролі інженер-програміста може викликати занепокоєння у деяких. Це, звичайно, навичка, яка не є обов’язковою, однак вона допомагає при написанні коду. У цьому відео показується, як легко читати математичні формули.
3. MLP-Mixer: An all-MLP Architecture for Vision
Свертові нейронні мережі домінують у комп’ютерному зорі майже 10 років, проте цьому вже скоро може настати кінець. Відео надає огляд наукової статті, яка представляє MLP-Mixer, використовуючи MLP у певній схемі розподілу ваги для досягнення конкурентної, високопродуктивної моделі.
4. Learning to Rank — The ML Problem You’ve Probably Never Heard Of
Ви чули про регресію та класифікацію, але чи чули ви про машинне-навчання ранжуванню? У відео мова йде саме про це.
5. Healthcare’s AI Future: A Conversation with Fei-Fei Li & Andrew Ng
На цьому віртуальному заході співдиректор HAI Фей-Фей Лі та засновник DeepLearning.AI Ендрю Ин обговорюють, куди рухається галузь охорони здоров’я у найближчі
6. You Only Need Audio To Deepfake Now! Might look slightly cursed tho [PCAVS]
Тепер можна згенерувати Deepfake, маючи лише аудіозапис та одне єдине зображення для референсу. Проте сама візуалізація залишає бажати кращого.
7. Generative Python Transformer p.1 — Acquiring Raw Data
Трансформери глибоко розуміють мову та контекст. Чи можемо ми використовувати їх для написання коду Python? Відповідь так, і це відео навчить вас як.
Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss!
Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів