Розробка · 1 квітня 2021, 12:00 1171

Vova Kyrychenko, CTO в Xenoss.io

Big Data, Machine Learning, Data Science Digest #2. Lakehouse Architecture, безпека ML DevOps систем, Reinforcement Learning

Вітаю!

Перший мій дайджест з Big Data, ML та Data Science набрав досить велику кількість переглядів, тож зрозумів, що є потреба і біль пошуку корисної інформації — не тільки мій.

Тож я вирішив зробити для вас ще одну добірку свіжих матеріалів зі світу Data Science за останні два тижні. Долучайтеся до обговорення і пишіть у коментарях, якщо я щось пропустив, що варто було б додати.

Приємного читання!

Статті

Formulating your problem as a reinforcement learning problem. Введення в тему «Reinforcement Learning» і те, як ми можемо сформулювати будь-яку обрану проблему як проблему reinforcement learning.
Is Lakehouse Architecture a Grand Unification in Data Analytics? Lakehouse Architecture — це цікава концепція, що з’явилася нещодавно. Вона була створена для уніфікації розрізнених досі областей класичних OLAP/warehouses та потокової, розподіленої аналітики в режимі реального часу. Якщо ця концепція буде реалізована так, як передбачається, це буде мати велике значення для аналізу даних.
Towards a Data Mesh (part 1) : Data Domains and Teams Topologies. У статті зроблена спроба проілюструвати шлях до Data Mesh. Автор додає командний напрямок до Data Mesh, використовуючи командну топологію, щоб «організувати бізнес та технологічні команди для швидкого процесу».
‘Big’ Data Can Be 99.98% Smaller Than It Appears. Інтуїція підказує нам, що більші вибірки даних є більш точними. Але ми не повинні забувати про важливість того, як саме було зроблено вибірку. Професор статистики Гарварда попереджає про невипадкові джерела даних.
The Growing Importance of Metadata Management Systems. У статті описується новий набір систем управління метаданими та досліджується, як вони впливають на рішення щодо управління даними, каталогами даних та іншими системами даних підприємства.
How to break a model in 20 days. A tutorial on production model analytics. Як ML-моделі потерпають невдачу у виробництві та як це виявити.
Uber’s Journey Toward Better Data Culture From First Principles. Команда інженерів Uber розповідає про деякі найбільш корисні та цікаві моменти з їхнього досвіду на шляху до ефективної «культури даних», починаючи з перших її принципів.
The Implications of Open-Source AI: Should You Release Your AI Source Code Publicly?. Стаття від VP of Product Delivery компанії Reface Олексія Чаплигіна про те, чому краще і безпечніше віддавати нову технологію в руки бізнесу, а не робити її open source.
The 2021 AI Index: Major Growth Despite the Pandemic (Stanford HAI blog). Доповідь AI Index 2021 є «найбільш надійним та авторитетним джерелом про дані та їх представлення у світі AI». У статті коротко викладені тенденції 2020 року та деякі прогнози на 2021 рік.
Never a dill moment: Exploiting machine learning pickle files. Стаття розглядає, що може трапитися, якщо завантажити ненадійний pickle-файл, і в процесі знайомить нас з новим інструментом — Fickling. Він може допомогти зробити зворотну інженерію, протестувати та навіть створити зловмисні pickle-файли. Для ML-фахівців буде корисно дізнатися про ризики безпеки у практиці машинного навчання.
Accelerating Neural Networks on Mobile and Web with Sparse Inference. Дослідження Google про те, як вони значно збільшили швидкість виводу, включивши додаткову sparse-оптимізацію у свою мобільну бібліотеку програмного забезпечення для ML — TensorFlow Lite та бібліотеку нейромережевої оптимізації виводу XNNPACK.

Наукові праці

Measuring Mathematical Problem Solving With the MATH Dataset

The Societal Implications of Deep Reinforcement Learning

Minimum-Distortion Embedding

Barlow Twins: Self-Supervised Learning via Redundancy Reduction

Zero-Shot Text-to-Image Generation

Подкасти

Brian Christian on the alignment problem — 80,000 Hours. Брайан Крістіан, автор таких бестселерів, як «Algorithms to Live By» та «The Most Human Human», розповідає про людей, що працюють над тим, щоб зробити АІ безпечнішим для використання.

Machine Learning Security — Andy Smith. Чат з експертом з кібербезпеки, Енді Смітом, про моделювання загроз і меж довіри для ML DevOps систем.

Recommender systems and high-frequency trading with David Sweet, author of Tuning Up (Practical AI #126). Девід Світ, автор «Tuning Up: From A/B testing to Bayesian optimization», розповідає про system tuning і A/B-тестування, методологію поверхні відгуку, контекстного бандита та баєсівську оптимизацію. Під час епізоду вимальовується гарне уявлення про рекомендаційні системи та високочастотний трейдинг.

How to Avoid Suffering in Mlops/Data Engineering Role — MLOps Meetup #55. Інтерв’ю з Ігорем Лущиком, Data Science Engineer компанії Adyen про те, як побудувати платформи Data Science та Machine Learning при масштабуванні та уникнути страждань у ролі MLOps/Data Engineer.

Big Global Problems Worth Solving with Machine Learning. У випуску йдеться про 10 глобальних проблем, які може вирішити машинне навчання. Розглядаються деякі технічні теми, як-от успішне введення моделей машинного навчання у виробничі системи.

Pandas vs Rust — Podcast Data science at home. Pandas є де-факто стандартом для завантаження даних і маніпулювання ними. Python є де-факто мовою програмування для таких операцій. Rust — це underdog. Чи так це?

Відео

This AI Reads Your Brain to Generate Personally Attractive Faces. Коли ви дивитесь на фотографію когось, ви знаєте, приваблива ця людина чи ні. Але як це відбувається? Чи можемо ми пояснити, що таке краса для нас? Короткий опис наукової праці про систему АІ, яка може зчитувати ваш мозок та дізнатися, які обличчя та типи візуалізації ви вважаєте найбільш привабливими.
Neural Networks Pt. 1: Inside the Black Box. Нейронні мережі є одними з найпопулярніших алгоритмів машинного навчання, але вони також є одними з найгірше вивчених. На відео розкривається ця тема і показується, як працюють нейронні мережі крок за кроком, використовуючи зрозумілу математику.
Reinforcement Learning: Machine Learning Meets Control Theory. Високорівневий огляд Reinforcement Learning, провідних алгоритмів та їх дивовижних застосувань.
Is Google Translate Sexist? Gender Stereotypes in Statistical Machine Translation. Короткий огляд гендерних стереотипів в Google Translate. Джерелом є твіт, що містив угорський текст. Угорська мова є гендерно-нейтральною, тому переклад гендерних займенників є двозначним. Виявляється, що Google Translate привласнює дуже стереотипні займенники.
Multi-Task Learning | Explained in 5 Minutes. Огляд багатозадачного навчання за 5 хвилин.

Книги

Descriptive Statistics for Data-driven Decision Making with Python. Глибокий огляд прийомів, які варто використовувати у Data Science та ML. Книга занурюється в описову статистику за допомогою Python та розповідає, що необхідно знати, щоб досягти переваги.

A Common-Sense Guide to Data Structures and Algorithms, Second Edition: Level Up Your Core Programming Skills . Гарний стартовий огляд структур даних та алгоритмів, який також може слугувати чудовим способом перевірки своїх знань, якщо ви вже це вивчали в минулому, але, можливо, забули деякі деталі.

Introduction to Computation and Programming Using Python, third edition: With Application to Computational Modeling and Understanding Data. Ще одна книга початкового рівня, яка відмінно справляється із завданнями навчання навичок з роботи з даними та машинним навчанням на Python.

Building Machine Learning Powered Applications: Going from Idea to Product. У цій книзі на практичному прикладі описується шлях від ідеї продукту до його розгортання. Вона відповідає на багато питань, які можуть з’явитися у переході від ML-експерименту у sandbox до створення продукту на базі ML.

Теми: AI, big data, Data Science, ML, ML дайджест, tech

👍ПодобаєтьсяСподобалось13

До обраногоВ обраному9

Facebook

Twitter

Схожі статті

Ctrl + Enter

Підписатись на коментарі

Ваша пошта

Не підписуватись