Big Data, Machine Learning, Data Science Digest #9: проблематика SQL, Modern Data Stack, ML в кібербезпеці, структуризація даних
Вітаю!
У цьому випуску ви дізнаєтеся про таке:
- Новий підхід до побудови data-інфраструктури.
- Проблематика SQL і що з цим робити.
- АІ та CLIP.
- Упередження в системах АІ.
- Як Tesla використовує камери для побудови АІ систем для самокеруючих машин.
- Глибоке навчання з синтетичними даними.
- Як використовують машинне навчання у кібербезпеці.
- Багато інших цікавинок.
Якщо ви проґавили мій попередній дайджест, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.
Приємного читання!
Свіжі статті та матеріали
1. Top 10 Ideas in Statistics That Have Powered the AI Revolution
Ендрю Гельман, професор статистики з Колумбійського університету, і Акі Вехтарі, професор інформатики з фінського університету Аалто, недавно опублікували список найважливіших ідей у науці про статистику за останні 50 років. Тут вони викладають їх в простих для розуміння термінах.
2. Roadmap: Data Infrastructure
Нова хвиля стартапів створює умови для наступного покоління бізнесу, що заснований на використанні даних. Вони пропонують більш досконалу і просту у використанні інфраструктуру для доступу до даних, їх аналізу та подальшого використання. Ось що думає команда Bessemer Venture Partners про цей новий простір і основні тенденції, які стимулюють інновації.
У цьому пості розглядаються численні недоліки SQL і те, як могла б виглядати його ідеальна заміна. Тут є над чим подумати. Чого і варто було очікувати, цей пост викликав бурхливе обговорення в Інтернеті.
Self-serve аналітичні інструменти можуть дати можливість бізнес-користувачам самим відповідати на свої питання, але що саме означає «self serve» («самообслуговування»)? І чим воно відрізняється між різних користувачів? Розуміння цього — ключ до створення дійсно корисних інструментів.
5. Building a data team at a
Це історія про те, як організована робота в команді по роботі з даними. Вона вигадана і не фокусується на якихось технологіях. Передісторія така: ви прийшли в middle-stage стартап (річний дохід ~ 10 млн доларів), щоб побудувати малесеньку команду по роботі з даними (~ 4 людини). Як би ви це зробили?
6. Alien Dreams: An Emerging Art Scene
CLIP — це новітній інструмент у світі мистецтва, створюваного штучним інтелектом. Ось поверхневий вступ про те, як ця технологія працює, зі скріншотами більше 20 недавніх шедеврів і безліччю невідомих ньюансів.
У статті описується, як перетворити неструктуровані дані в корисну інформацію за допомогою попередньо навчених моделей машинного навчання та семантичного пошуку.
8. Deep Learning on photorealistic synthetic data
Приклад застосування глибокого навчання на фотореалістичних синтетичних даних для визначення місцезнаходження і положення об’єкта на реальних фотографіях (і, можливо, навіть для сегментації і оцінки пози) без ручного анотування навіть одного тренувального масиву даних.
У статті розглядаються різні типи упереджень, які можуть виникати на різних етапах розробки АІ, і пропонуються чеклісти для попередження виникнення упереджень. Основна увага в статті приділяється не розробці об’єктивних алгоритмів, а практичним аспектам, яких можна дотримуватися для попередження і перевірки на упередженість АІ під час формулювання проблеми, створення даних, аналізу даних і оцінки.
10. On the «Usefulness» of the Netflix Prize
Десять років тому компанія Netflix запропонувала приз в мільйон доларів команді, яка зможе найбільш істотно підвищити точність алгоритму рекомендацій Netflix. У той час перетворення розробки алгоритму в публічний конкурс було новаторською ідеєю, але після його закінчення перемогло рішення, яке як відомо, так і не було запущено у виробництво. Ось що сталося і яким чином конкурс все ж мав величезний успіх.
Що подивитися
1. Cutting Edge: Artificial Intelligence for us and on our terms with Rohit Prasad
Віце-президент Amazon і головний науковий співробітник Alexa Рохіт Прасад розповідає про те, як ми знаходимося на роздоріжжі в області АІ та що ми повинні зробити, щоб АІ розвивався на наших умовах.
2. Thompson Sampling : Data Science Concepts
Відео пояснює вибірку Томсона. Це алгоритм для вирішення проблеми прийняття рішень в режимі онлайн, де дії робляться послідовно таким чином, що необхідно балансувати між використанням того, що відомо для максимізації негайної продуктивності і інвестуванням для накопичення нової інформації, яка може поліпшити майбутню продуктивність.
3. Recommendation systems overview (Building recommendation systems with TensorFlow)
У відео розповідається про те, що таке рекомендаційна система, чим вона цінна і з якими проблемами ви можете зіткнутися при її створенні. У ньому також коротко представлені кілька відкритих продуктів Google, пов’язаних з рекомендаційними системами: TF Recommenders, ScaNN, TF Ranking і модель рекомендацій для пристроїв TFLite.
4. Self-driving from VISION ONLY — Tesla’s self-driving progress by Andrej Karpathy (Talk Analysis)
Компанія Tesla просувається вперед в області повного самостійного водіння, і цікаво, що вони явно переходять від використання безлічі різних датчиків до системи, заснованої тільки на computer vision. У відеоролику обговорюються основні моменти виступу Андрія Карпати про систему FSD компанії Tesla, про те, як маркувати петабайт даних, як вибирати крайні випадки, як навчати нейронну мережу, яка повинна працювати в режимі реального часу, і чому перехід до використання тільки камер перевершує мультисенсорні підходи .
5. Interpretable Deep Learning for New Physics Discovery
У цьому відео Майлз Кранмер розповідає про метод перетворення нейронної мережі в аналітичне рівняння з використанням певного набору індуктивних упереджень. Метод заснований на рознесення латентних просторів в глибокій нейронній мережі з подальшою символьною регресією.
Наукові праці
1. How Much Can CLIP Benefit Vision-and-Language Tasks
2. Deep Neural Networks are Surprisingly Reversible:A Baseline for Zero-Shot Inversion
3. Evaluating Large Language Models Trained on Code
4. The Modern Mathematics of Deep Learning
5. Real-Time Super-Resolution System of 4K-Video Based on Deep Learning
Що послухати
1. Peering into Neural Nets for AI Safety | Towards Data Science
Деніел Філа, дослідник безпеки АІ в Берклі, обговорює інтерпретованість, безпеку АІ та те, як знайти важливі проблеми, яким потрібно шукати рішення.
2. Deep in the Mind of the Deepnote CEO | Ken’s Nearest Neighbors
Чудова розмова про управління проєктами в області науки про дані з Якубом Юровичем, засновником і генеральним директором Deepnote. Він також розповідає про деякі подібності та відмінності між наукою про дані і командами розробників програмного забезпечення.
3. From symbols to AI pair programmers | Practical AI
Як ми пройшли шлях від символьного АІ до моделей глибокого навчання, які допомагають вам писати код (наприклад, GitHub і новий Copilot від OpenAI)? Про це і піде мова в цьому епізоді про історію та майбутнє глибокого навчання (розмова посилається на нещодавно опубліковану статтю в ACM).
4. Machine Learning in Cyber Security | MLOps Meetup
Одна з сфер, яка в останні роки найбільше змінилася завдяки ML, — це кібербезпека. Але вся область кібербезпеки переживає брак талантів. Саме тут нам на допомогу приходить ML. Системи ML для кібербезпеки вимагають великого досвіду від фахівців, а також унікальних способів роботи з конфіденційними даними користувачів. У цій доповіді представляються різні способи використання ML в кібербезпеці і унікальні проблеми, з якими можна зіткнутися.
5. Financial Data Engineering | SuperDataScience
Досить технічна дискусія про комплексну інженерію даних для фінансових ринків, аналіз основних фінансових секторів, чому пошук даних складний в цій області, підходи до вирішення проблем, ща базуються на даних, і багато іншого.
6. Data Pipelines with Metaflow featuring Ville Tuulos — Adventures in Machine Learning
Віллі Туулос — колишній фахівець з аналізу даних і інженер компанії Netflix, який тепер допомагає людям застосовувати дані. Він є автором книги «Ефективна інфраструктура науки про дані» від видавництва Manning і творцем системи Metaflow для управління даними. У цьому подкасті він пояснює, як думати про дані і як планувати, збирати, управляти і перетворювати дані за допомогою такої системи, як Metaflow.
7. Exploring The Design And Benefits Of The Modern Data Stack | Data Engineering Podcast
З ростом популярності хмарних сервісів з’явилася нова модель дата інфраструктури, яку назвали «сучасним стеком даних». У цьому епізоді члени команди GoDataDriven, Гільєрмо Санчес, Брем Охсендорф і Хуан Перафан, пояснюють сервіси, що входять у цю архітектуру та діляться своїм досвідом роботи з клієнтами що використовують цей стек.
Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:
Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів