Big Data, Machine Learning, Data Science Digest #10: Language models, аргументи за SQL, проблематика Julia, паралелізм в мовних моделях, CLIP+VQGAN

Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.

Привіт!

Підготував новий випуск дайджесту, в якому зібрані свіжі новини та цікавинки зі світу Data Science та AI.

Ось деякі ключові теми, що розглядаються у цьому випуску:

  • Як мовні моделі розуміють світ.
  • Що такого поганого в Julia.
  • Що робити з брудними даними.
  • Нащо потрібен SQL.
  • Паралелізм в мовних моделях.
  • Використання CLIP+VQGAN для створення зображень.
  • Використання GPT-J від Eleuther AI
    та інші.

Якщо ви проґавили мій попередній дайджест, його можна переглянути за посиланням. Як завжди, фідбек та коментарі вітаються.

Приємного читання!

Що почитати

Visualizing a codebase

Як можна «зобразити» кодову базу, щоб з першого погляду побачити її структуру? Стаття розглядає способи автоматичної візуалізації сховища GitHub і чим це може бути корисним.

AI Doesn’t Have to Be Too Complicated or Expensive for Your Business

Для компаній, які зацікавлені у використанні АІ, але не мають доступу до величезних масивів даних, до сих пір не було зрозуміло, з чого почати. Але саме тому ці галузі мають багато невикористаних можливостей для АІ. У цій статті Ендрю Ин розглядає проблеми, можливості і те, чому зараз саме час почати використовувати АІ.

What Have Language Models Learned?

Відмінна інтерактивна стаття, яка показує, як мовні моделі розуміють світ. Обов’язковий до прочитання матеріал — особливо, якщо мовні моделі для вас є новинкою.

What’s bad about Julia?

Цей пост про всі основні недоліки Julia, написаний знаючим користувачем і шанувальником Julia, який допоможе вам дізнатися, в яких випадках не слід використовувати Julia.

Machine-learning on dirty data in Python: a tutorial

Тут є два туторіала з Python для роботи з «брудними» даними. Перший підручник показує, як передбачати відсутні значення, а другий — як працювати з ненормалізованих рядками.

How to build an AI unicorn in 6 years

Сьогодні вартість компанії Tractable становить 1 мільярд доларів. Їхнім штучним інтелектом користуються мільйони людей в Америці, Азії та Європі, щоб швидше відновлюватися після дорожніх аварій. І все ж 6 років тому Tractable була всього лише стартапом, який заснували два випускники коледжу, що писали код в лондонському підвалі. Один з ко-фаундерів, Alex Dalyac, розповідає про пройдений ними шлях і як їм вдалося побудувати АІ-юнікорн за 6 років.

How PostgreSQL aggregation works and how it inspired our hyperfunctions’ design

Дізнайтеся про агрегацію PostgreSQL, про те, як реалізація PostgreSQL надихнула Timescale на створення гіперфункцій TimescaleDB, про її інтеграції з розширеними функціями TimescaleDB і про те, що це означає для розробників.

Tour of the Sacred Library — Ryan Moulton’s Articles

Проєкт «Мистецтво + AI», в якому автор представляє серію коротких абзаців і використовує CLIP + VQGAN для синтезу зображень, що супроводжують оповідання (прогулянку по бібліотеці).

Generally capable agents emerge from open-ended play

Препринт, в якому детально описані перші кроки Deepmind з навчання агента, здатного грати в безліч різних ігор без необхідності отримання даних про взаємодію з людиною. В результаті вийшов агент, здатний успішно вирішувати широкий спектр завдань — від простих завдань з пошуку об’єктів до складних ігор, таких як хованки і захоплення прапора, що не зустрічалися під час навчання.

For SQL

На противагу популярній статті минулого дайджеста «Проти SQL» Педро Навід розглядає SQL під іншим кутом зору. SQL став універсальною мовою для даних, і багато людей, які працюють з SQL кожен день, виступають за SQL. Але статті, які нападають на SQL за його технічні недосконалості, підсилюють те, що стало класовим розривом між «інженерами-програмістами» і «фахівцями з даних». Де б ви не працювали з даними, тут назрівають важливі питання.

How to detect, evaluate and visualize historical drifts in the data

Стаття показує, як подивитися на історичний дрейф в даних, щоб зрозуміти, як змінюються ваші дані, і вибрати порогові значення для моніторингу. Вона надає приклад з використанням Evidently, Plotly, Mlflow і деякого коду на Python.

The Quick And Dirty Guide To Building Your Data Platform

Існує безліч технологій, які можна використовувати для створення платформи даних, але що вам дійсно потрібно?

Що нового у наукових матеріалах

Vision Transformer with Progressive Sampling

Solving Mixed Integer Programs Using Neural Networks

Persistent Reinforcement Learning via Subgoal Curricula

Language Grounding with 3D Objects

Go Wider Instead of Deeper

Що послухати

Charting A Path For Streaming Data To Fill Your Data Lake With Hudi

Data lake архітектури в основному орієнтовані на пакетну обробку робочих процесів через обсяг даних, для яких вони призначені. Зі збільшенням вимог до реального часу і зростанням використання потокових даних виникла проблема об’єднання швидких, інкрементних оновлень з великим історичним аналізом. Вінот Чандар допоміг створити проект Hudi під час роботи в Uber для вирішення цієї проблеми. У цьому епізоді Вінот розповідає про історію проекту, про те, як його архітектура дозволяє створювати більш часто оновлювані аналітичні запити, а також про роботу, яка ведеться для того, щоб надати парадигмі data lake більш відшліфований досвід користування.

Transformers and Attention in Machine Learning ft. Ekrem Aksoy

У цьому випуску Екрем Аксой, PhD, AI/ML дослідник, обговорює трансформери та метод, що допомагає алгоритмам машинного навчання зосередитися на важливих частинах зображення, щоб визначити, що робити з ним.

Machine learning, molecular simulation, and the opportunity for societal good with Chris Bishop and Max Welling

У цьому епізоді Кріс Бішоп, директор лабораторії Microsoft Research Cambridge і Макс Веллінг з керівник команди Microsoft Research в Амстердамі обговорюють кілька цікавих тем, включаючи майбутнє, в якому машинне навчання і квантові обчислення будуть використовуватися в тандемі для моделювання молекул, можливості машинного навчання для надання даних «по запиту» в цьому просторі, а також цілі на перший рік і майбутньому в лабораторії в Амстердамі.

Scaling AI: Three Steps to Create Business Value

Організації багато працюють над створенням і розвитком можливостей і моделей науки про дані, які забезпечать реальний позитивний ефект для їх користувачів. Однак, судячи з відгуків, які були отримані від аудиторії Data Futurology, вони відчувають труднощі з отриманням ROI від свого штучного інтелекту. Що ж робити, якщо ваші моделі і зусилля в області АІ не виправдовують своїх обіцянок? У цій бесіді розглядається, як зробити так, щоб ваші проекти АІ не провалювалися, а дійсно приносили користь бізнесу.

Parallelism and Acceleration for Large Language Models

Брайан Катанзаро, віце-президент з прикладних досліджень глибокого навчання в NVIDIA розповідає про свій інтерес до високопродуктивних обчислень і їх нещодавньому перетині з АІ. А також про свою поточну роботу над Megatron, фреймворком для навчання величезних мовних моделей, і про базовий підхід до розподілу великий мовної моделі на інфраструктурі DGX. Також обговорюється три різних види паралелізму, тензорний паралелізм, конвеєрний паралелізм і паралелізм даних, які Megatron забезпечує при навчанні моделей, робота над проектом Deep Learning Super Sampling і роль, яку цей проект відіграє в сьогоденні і майбутньому розробки ігор за допомогою трасування променів.

Enterprise-scale machine translation with Spence Green, CEO of Lilt

Спенс Грін, CEO Lilt ділиться своїм досвідом створення продукту, заснованого на машинному перекладі, і розповідає про те, як розвивався машинний переклад протягом багатьох років.

Що подивитися

Understanding the World Through Action

Розширена версія доповіді про self-supervised reinforcement learning, підготовленого для семінару ICML Self-Supervised Learning Workshop, 2021.

Reasoning with Language Models — Turning Tables

Розгорнутий аналіз статті про генерацію прикладів з напівструктурованих таблиць для наділення мовних моделей навичками міркування.

Best practices for ML product decisions (ML Tech Talks)

У цій сесії Machine Learning Tech Talks старший UX-дизайнер Ді Данг розповідає про кращі практики прийняття рішень по продуктах ML з використанням керівництва People + AI Guidebook. Ви дізнаєтеся як практики UX можуть вплинути на ваш АІ/ML продукт.

Image Synthesis from Hand-Drawn Sketches: SDEdit. No more tedious training is needed

Генеруйте нові зображення з будь-яких вхідних даних користувачів. Ви можете попрощатися зі складною архітектурою GAN і трансформерів для синтезу зображень. Новий метод генерування зображень використовує тільки шум.

[ML News] AI-generated patent approved | Germany gets an analog to OpenAI | ML cheats video games

Новини зі світу машинного навчання за останній тиждень — від патенту, згенерованого АІ, до німецького аналогу OpenAI та того як ML чітить у відео іграх.

Checking out a 6-Billion parameter GPT model, GPT-J, from Eleuther AI

У відео розглядається GPT-J, велика мовна модель з 6 мільярдами параметрів, яка може генерувати природну мову, програмувати, бути чат-ботом, робити переклади і багато іншого. Модель є у відкритому доступі та її можна завантажити і «погратися».


***

Дякую за увагу! Щоб не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.

Якщо ви бажаєте працювати у колі однодумців над складними data-centric проектами — приєднуйтесь до команди Xenoss! Серед наших найгарячіших вакансій:

AI/ML Computer Vision Engineer | Creative analytics platform

Lead Java Engineer | Collaborative sales platform

Sr. Full Stack Engineer (React/Node.js) | Creative analytics platform

Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.

👍НравитсяПонравилось10
В избранноеВ избранном9
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Подписаться на комментарии