Big Data, Machine Learning, Data Science Digest #10: Language models, аргументи за SQL, проблематика Julia, паралелізм в мовних моделях, CLIP+VQGAN
Привіт!
Підготував новий випуск дайджесту, в якому зібрані свіжі новини та цікавинки зі світу Data Science та AI.
Ось деякі ключові теми, що розглядаються у цьому випуску:
- Як мовні моделі розуміють світ.
- Що такого поганого в Julia.
- Що робити з брудними даними.
- Нащо потрібен SQL.
- Паралелізм в мовних моделях.
- Використання CLIP+VQGAN для створення зображень.
- Використання GPT-J від Eleuther AI
та інші.
Якщо ви проґавили мій попередній дайджест, його можна переглянути за посиланням. Як завжди, фідбек та коментарі вітаються.
Приємного читання!
Що почитати
Як можна «зобразити» кодову базу, щоб з першого погляду побачити її структуру? Стаття розглядає способи автоматичної візуалізації сховища GitHub і чим це може бути корисним.
AI Doesn’t Have to Be Too Complicated or Expensive for Your Business
Для компаній, які зацікавлені у використанні АІ, але не мають доступу до величезних масивів даних, до сих пір не було зрозуміло, з чого почати. Але саме тому ці галузі мають багато невикористаних можливостей для АІ. У цій статті Ендрю Ин розглядає проблеми, можливості і те, чому зараз саме час почати використовувати АІ.
What Have Language Models Learned?
Відмінна інтерактивна стаття, яка показує, як мовні моделі розуміють світ. Обов’язковий до прочитання матеріал — особливо, якщо мовні моделі для вас є новинкою.
Цей пост про всі основні недоліки Julia, написаний знаючим користувачем і шанувальником Julia, який допоможе вам дізнатися, в яких випадках не слід використовувати Julia.
Machine-learning on dirty data in Python: a tutorial
Тут є два туторіала з Python для роботи з «брудними» даними. Перший підручник показує, як передбачати відсутні значення, а другий — як працювати з ненормалізованих рядками.
How to build an AI unicorn in 6 years
Сьогодні вартість компанії Tractable становить 1 мільярд доларів. Їхнім штучним інтелектом користуються мільйони людей в Америці, Азії та Європі, щоб швидше відновлюватися після дорожніх аварій. І все ж 6 років тому Tractable була всього лише стартапом, який заснували два випускники коледжу, що писали код в лондонському підвалі. Один з ко-фаундерів, Alex Dalyac, розповідає про пройдений ними шлях і як їм вдалося побудувати АІ-юнікорн за 6 років.
How PostgreSQL aggregation works and how it inspired our hyperfunctions’ design
Дізнайтеся про агрегацію PostgreSQL, про те, як реалізація PostgreSQL надихнула Timescale на створення гіперфункцій TimescaleDB, про її інтеграції з розширеними функціями TimescaleDB і про те, що це означає для розробників.
Tour of the Sacred Library — Ryan Moulton’s Articles
Проєкт «Мистецтво + AI», в якому автор представляє серію коротких абзаців і використовує CLIP + VQGAN для синтезу зображень, що супроводжують оповідання (прогулянку по бібліотеці).
Generally capable agents emerge from open-ended play
Препринт, в якому детально описані перші кроки Deepmind з навчання агента, здатного грати в безліч різних ігор без необхідності отримання даних про взаємодію з людиною. В результаті вийшов агент, здатний успішно вирішувати широкий спектр завдань — від простих завдань з пошуку об’єктів до складних ігор, таких як хованки і захоплення прапора, що не зустрічалися під час навчання.
На противагу популярній статті минулого дайджеста «Проти SQL» Педро Навід розглядає SQL під іншим кутом зору. SQL став універсальною мовою для даних, і багато людей, які працюють з SQL кожен день, виступають за SQL. Але статті, які нападають на SQL за його технічні недосконалості, підсилюють те, що стало класовим розривом між «інженерами-програмістами» і «фахівцями з даних». Де б ви не працювали з даними, тут назрівають важливі питання.
How to detect, evaluate and visualize historical drifts in the data
Стаття показує, як подивитися на історичний дрейф в даних, щоб зрозуміти, як змінюються ваші дані, і вибрати порогові значення для моніторингу. Вона надає приклад з використанням Evidently, Plotly, Mlflow і деякого коду на Python.
The Quick And Dirty Guide To Building Your Data Platform
Існує безліч технологій, які можна використовувати для створення платформи даних, але що вам дійсно потрібно?
Що нового у наукових матеріалах
Vision Transformer with Progressive Sampling
Solving Mixed Integer Programs Using Neural Networks
Persistent Reinforcement Learning via Subgoal Curricula
Language Grounding with 3D Objects
Що послухати
Charting A Path For Streaming Data To Fill Your Data Lake With Hudi
Data lake архітектури в основному орієнтовані на пакетну обробку робочих процесів через обсяг даних, для яких вони призначені. Зі збільшенням вимог до реального часу і зростанням використання потокових даних виникла проблема об’єднання швидких, інкрементних оновлень з великим історичним аналізом. Вінот Чандар допоміг створити проект Hudi під час роботи в Uber для вирішення цієї проблеми. У цьому епізоді Вінот розповідає про історію проекту, про те, як його архітектура дозволяє створювати більш часто оновлювані аналітичні запити, а також про роботу, яка ведеться для того, щоб надати парадигмі data lake більш відшліфований досвід користування.
Transformers and Attention in Machine Learning ft. Ekrem Aksoy
У цьому випуску Екрем Аксой, PhD, AI/ML дослідник, обговорює трансформери та метод, що допомагає алгоритмам машинного навчання зосередитися на важливих частинах зображення, щоб визначити, що робити з ним.
У цьому епізоді Кріс Бішоп, директор лабораторії Microsoft Research Cambridge і Макс Веллінг з керівник команди Microsoft Research в Амстердамі обговорюють кілька цікавих тем, включаючи майбутнє, в якому машинне навчання і квантові обчислення будуть використовуватися в тандемі для моделювання молекул, можливості машинного навчання для надання даних «по запиту» в цьому просторі, а також цілі на перший рік і майбутньому в лабораторії в Амстердамі.
Scaling AI: Three Steps to Create Business Value
Організації багато працюють над створенням і розвитком можливостей і моделей науки про дані, які забезпечать реальний позитивний ефект для їх користувачів. Однак, судячи з відгуків, які були отримані від аудиторії Data Futurology, вони відчувають труднощі з отриманням ROI від свого штучного інтелекту. Що ж робити, якщо ваші моделі і зусилля в області АІ не виправдовують своїх обіцянок? У цій бесіді розглядається, як зробити так, щоб ваші проекти АІ не провалювалися, а дійсно приносили користь бізнесу.
Parallelism and Acceleration for Large Language Models
Брайан Катанзаро, віце-президент з прикладних досліджень глибокого навчання в NVIDIA розповідає про свій інтерес до високопродуктивних обчислень і їх нещодавньому перетині з АІ. А також про свою поточну роботу над Megatron, фреймворком для навчання величезних мовних моделей, і про базовий підхід до розподілу великий мовної моделі на інфраструктурі DGX. Також обговорюється три різних види паралелізму, тензорний паралелізм, конвеєрний паралелізм і паралелізм даних, які Megatron забезпечує при навчанні моделей, робота над проектом Deep Learning Super Sampling і роль, яку цей проект відіграє в сьогоденні і майбутньому розробки ігор за допомогою трасування променів.
Enterprise-scale machine translation with Spence Green, CEO of Lilt
Спенс Грін, CEO Lilt ділиться своїм досвідом створення продукту, заснованого на машинному перекладі, і розповідає про те, як розвивався машинний переклад протягом багатьох років.
Що подивитися
Understanding the World Through Action
Розширена версія доповіді про self-supervised reinforcement learning, підготовленого для семінару ICML Self-Supervised Learning Workshop, 2021.
Reasoning with Language Models — Turning Tables
Розгорнутий аналіз статті про генерацію прикладів з напівструктурованих таблиць для наділення мовних моделей навичками міркування.
Best practices for ML product decisions (ML Tech Talks)
У цій сесії Machine Learning Tech Talks старший UX-дизайнер Ді Данг розповідає про кращі практики прийняття рішень по продуктах ML з використанням керівництва People + AI Guidebook. Ви дізнаєтеся як практики UX можуть вплинути на ваш АІ/ML продукт.
Image Synthesis from Hand-Drawn Sketches: SDEdit. No more tedious training is needed
Генеруйте нові зображення з будь-яких вхідних даних користувачів. Ви можете попрощатися зі складною архітектурою GAN і трансформерів для синтезу зображень. Новий метод генерування зображень використовує тільки шум.
[ML News] AI-generated patent approved | Germany gets an analog to OpenAI | ML cheats video games
Новини зі світу машинного навчання за останній тиждень — від патенту, згенерованого АІ, до німецького аналогу OpenAI та того як ML чітить у відео іграх.
Checking out a
У відео розглядається GPT-J, велика мовна модель з 6 мільярдами параметрів, яка може генерувати природну мову, програмувати, бути чат-ботом, робити переклади і багато іншого. Модель є у відкритому доступі та її можна завантажити і «погратися».
***
Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:
AI/ML Computer Vision Engineer | Creative analytics platform
Lead Java Engineer | Collaborative sales platform
Sr. Full Stack Engineer (React/Node.js) | Creative analytics platform
Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.
5 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів