Big Data, Machine Learning, Data Science Digest #14: Attention-Based Infrastructures, інклюзивність візуалізації даних та низька специфікація AI-моделей
У цьому випуску дайджеста я знову зібрав новини та цікаві проєкти зі світу Data Science. Ось про що ви дізнаєтеся:
- Як штучний інтелект революціонізує освітній простір.
- Як впроваджувати Attention-based infrastructures.
- Інклюзивність у візуалізації даних.
- Як використовувати AI для копіювання голосів естрадних артистів.
- Як реагувати на проблему низької специфікації.
- Що таке ML Metadata Store.
- Та ще багато чого іншого.
Якщо ви проґавили мій попередній дайджест, його можна переглянути тут. Також я завжди радий коментарям та фідбеку!
Що почитати: свіжі статті
Back to school: Top 15 AI-driven EdTech startups in 2021
У новій статті я та команда Xenoss описуємо, як провідні стартапи сфери EdTech використовують штучний інтелект, щоб зробити навчальний процес більш прозорим, доступним і зручним.
Summarizing Books with Human Feedback
Цікавий кейс від OpenAI розповідає про підхід до масштабування людського нагляду за ефективністю AI-систем у задачі, ефективність якої складно оцінити — створення коротких версій книг.
A Tour of Attention-Based Infrastructures
Ця стаття доступно описує основні нейронні архітектури, які використовуються у ML разом із attention mechanism.
Underspecification Challenging Machine Learning Modeling
Стаття розглядає питання низької специфікації, яке вже близько року є предметом активних дискусій серед AI/ML-інженерів.
У сучасному світі контент-платформи мають перед собою дві несумісні задачі: з одного боку, вони повинні обмежувати свободу слова та вводити правила, що забороняють певні види контенту. З іншого боку, модерація контенту повинна бути нейтральною та поважати права творця матеріалів. Автор статті розмірковує про те, як знайти золоту середину за допомогою штучного інтелекту та алгоритмів.
ML Metadata Store: What It Is, Why It Matters, and How to Implement It
Нова стаття від Neptune.AI розповідає, що таке сховище даних ML, чим воно відрізняється від інших моделей і як це може допомогти інженерам із більшою впевненістю будувати моделі.
Making data visualizations more accessible
Нова стаття від MIT розповідає про особливості сприйняття контенту людьми із вадами зору та аналізує, як Data Science-інженери можуть адаптуватися до цих потреб.
Де взяти участь: івенти
Про що: цифрова трансформація, використання AI, ML і DS у медіа.
Коли:
На трьохденній конференції WSJ Tech виступатимуть керівники, регулятори та інноватори, які керують новою ерою цифрової трансформації.
Про що: впровадження технологічних інновацій серед власників бізнесів, урядів, та засновників громадських організацій.
Коли:
Триденна віртуальна програма побудована навколо ключових стратегічних опор (суспільство, економіка, стабільність, довіра й етика) і об’єднає світову технологічну спільноту, забезпечуючи платформу для різноманітних і прогресивних думок.
Про що: цифрова трансформація, використання AI, ML і DS у медіа.
Коли:
The AI Summit у Нью-Йорку — найвідоміша у світі подія зі штучного інтелекту для бізнесу, у якій беруть участь понад 700 компаній із списку Fortune 1000.
Про що: майбутнє роздрібної торгівлі з використанням behavioral data.
Коли: 21 жовтня.
Data Science Salon об’єднує найяскравіших лідерів рітейлу по всій країні в галузях науки про дані. Це одна з єдиних галузевих конференцій, яка збирає фахівців у галузі науки про дані, щоб навчати одне одного, висвітлювати найкращі практики та впроваджувати нові рішення у невимушеній атмосфері.
Про що: використання Graph у AI-моделях.
Коли: 19 жовтня.
Graph + AI Summit 2021 — єдина в галузі відкрита конференція із прискорення розвитку аналітики та штучного інтелекту завдяки Graph.
Що послухати: подкасти
Дизайнерське мислення, емпатія та аналітика з Хіларі Паркер
У цьому епізоді приєдналася Хіларі Паркер із подкасту Not So Standard Deviation. Вона обговорює, чого ми можемо навчитися під час процесу проєктування, коли мова йде про аналітику та науку про дані.
Цей епізод розповідає про кризу значення як повсюдне відчуття відчуженості від світу та одне від одного у контексті Data Science.
Ethical Implications of Humanizing Your Data
Новий епізод Banana Data Podcast фокусується на етичних наслідках гуманізації ваших даних.
Pieter Abbeel — Robotics, Startups, and Robotics Startups
Пітер аналізує стан галузі робототехніки у 2021 році, проблеми досягнення послідовності та надійності, та досліджує, що потрібно зробити, щоб робототехніка стала більш доступною.
Девід Борн, обчислювальний біолог, який використовує Python для автоматизації генетичних досліджень та допомагає перенести цю роботу на production, ділиться досвідом своєї роботи над проєктом із gene editing.
Як інноваційно використовувати 3D
Доктор Тайлер Морган-Уолл ділиться своїми останніми інноваціями та вражаючими варіантами використання свого пакета Rayshader у R для розробки 3D-рішень.
Deep Learning is Eating 5G. Here’s How
Подкаст обговорює використання машинного навчання та штучного інтелекту для впровадження 5G, а також сценарії, за допомогою яких ML дозволить ефективніше надавати комунікаційні послуги.
Що подивитися: відео
Це відео крок за кроком показує, звідки походить рівняння ентропії, полегшуючи запам’ятовування, розуміння і використання цієї концепції.
Using A.I to Collab with Legendary Rappers
Після перегляду цього відео ви дізнаєтеся як власноруч створювати реп-треки з легендарними реперами, такими як Дрейк, Кендрік та Playboi Carti за допомогою A.I.
Can a Reinforcement Learning Agent Learn with NO Rewards?
Чи можна навчити агента глибокого підкріплення орієнтуватися у своєму середовищі без використання винагород? Виявляється, що з модулем внутрішньої допитливості (ICM) це насправді можливо. Це відео — покрокове керівництво до використання Intrinsic Curiosity.
What does it mean to subtract one distribution from another?
У центрі уваги цього відео — відповідь на запитання: «Чому важливо обчислити різницю між розподілами?»
Grokking: Generalization beyond Overfitting on small algorithmic datasets
Гроккінг — це явище, коли нейронна мережа раптово засвоює шаблон у наборі даних і дуже раптово переходить від узагальнення за випадковим випадком до ідеального узагальнення. Наукова стаття, яку аналізує автор, демонструє грокінг на невеликих алгоритмічних наборах даних, де мережа повинна заповнювати двійкові таблиці.
Що вивчити: наукові статті
Стаття описує використання SHApley Additive ExPlanations (SHAP) для отримання нового уявлення про виявлення підробок контенту.
Deep Learning For Potential Outcomes
Дослідження надає інтуїтивне введення про те, як глибоке навчання може бути використано для оцінки/прогнозування неоднорідних наслідків.
WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition
Наукова робота представляє WenetSpeech, багатодоменний корпус китайськомовного контенту, що складається з 10000+ годин високоякісної поміченої мови, 2400+ годин слабко маркованої мови та близько 10000 годин без маркування.
Optimized U-Net for Brain Tumor Segmentation
Стаття пропонує оптимізовану архітектуру U-Net для завдання сегментації пухлин мозку BraTS21 Challenge.
***
Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо ви бажаєте працювати у колі однодумців над складними data-centric проєктами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:
Lead Java Engineer
General QA (Manual+Automation)
Middle Front-End (React) Developer
Стежити за новинами Xenoss можна у соцмережах — LinkedIn та Facebook.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів