Розробка · 11 листопада 2022, 19:00 1422

Vova Kyrychenko, CTO в Xenoss.io

Big Data, Machine Learning, Data Science Digest #30: Google презентував TPUv4, Stability AI для біотеху, DeepMind, 5 трендів AI у 2023

Привіт! Я Вова Кириченко, і сьогодні вже звично порадую вас порцією цікавих та корисних новин у ювілейному, 30-му випуску дайджесту зі світу Big Data, ML та Data Science. Попередні тижні видалися насиченими на різноманітні публікації та події, тому буде багато цікавого.

Отже, детальніше читайте про наступне:

Google офіційно презентував TPUv4.
Президент США підписав AI Bill of Rights, як це вплине на регулювання AI?
Дифузійні моделі: комплексний огляд методів і застосувань.
Як Uber за допомогою ML оптимізує свої Push-нотифікації.
Stability AI фінансує застосування ШІ для біотехнологій.
І традиційна підбірка корисних подкастів та відео — куди ж без неї?

А якщо ви пропустили чи не мали змоги переглянути попередній випуск мого дайджесту — то можете надолужити, і переглянути його ось тут. Ваш фідбек, коментарі та поширення вітаються і дуже цінуються мною.

Статті про AI/ML

Deep Dive On Google’s Exascale TPUv4 AI Systems

У жовтні під час конференції Google Cloud Next 2022 компанія Google презентувала четверте покоління — найпотужніших і масштабованих — Tensor Processing Units. У статті дається огляд, що ж нового принесе нам TPUv4.

Stability AI backs effort to bring machine learning to biomed

Розробник відомої системи штучного інтелекту для перетворення тексту в зображення Stable Diffusion — стартап Stability AI, фінансує масштабні зусилля із застосування ШІ на фронтирах біотехнологій. Перші проєкти під назвою OpenBioML будуть зосереджені на підходах до секвенування ДНК, згортання білка та обчислювальної біохімії, заснованих на машинному навчанні.

DeepMind AI One-Ups Mathematicians at a Calculation Crucial to Computing

В центрі нашої уваги знову DeepMind. Після вирішення фундаментального завдання в біології — передбачення структури білка — і розв’язання математичної теорії вузлів, він націлився на фундаментальний обчислювальний процес, вбудований у тисячі щоденних програм. Від розбору зображень до моделювання погоди, чи навіть дослідження внутрішньої роботи штучних нейронних мереж, ШІ теоретично міг би пришвидшити обчислення в ряді сфер, підвищивши ефективність, скоротивши використання енергії та витрати. Детальніше про ці перспективи читайте у матеріалі.

WarpDrive v2 Release Supports Numba to Simplify Machine Learning Workloads and Make Building Simulations Easier on NVIDIA GPUs

Інженери Salesforce діляться новинами про свій реліз WarpDrive v2. Тепер він підтримує запуск симуляцій у Numba, яка замінює NumPy. Це означає, що користувачі можуть реалізувати симуляції набагато швидше, використовуючи високорівневе кодування для швидкого створення прототипів, а також мають гнучкість використання CUDA для досягнення найвищої продуктивності.

The White House just unveiled a new AI Bill of Rights
У жовтні президент США Джо Байден оприлюднив новий AI Bill of Rights, у якому окреслено п’ять засобів захисту, які повинні мати американці в епоху штучного інтелекту. Це бачення Білого дому того, як уряд США, технологічні компанії та громадяни мають працювати разом, щоб за потреби притягнути ШІ до відповідальності. Однак критики кажуть, що плану бракує зубів, і США потребують ще жорсткішого регулювання навколо ШІ.

Deloitte’s 2022 Report : State of AI in the Enterprise

Компанія Deloitte опублікувала п’яте видання звіту про стан штучного інтелекту в Enterprise, для якого вони опитали понад 2600 керівників у всьому світі щодо того, як компанії та галузі розгортають і масштабують проєкти штучного інтелекту.

Artificial Intelligence (AI): the coming tsunami

Попри те, що програмне забезпечення для дизайну та проєктування розвивається відносно невеликими кроками, з кожним роком зростають побоювання щодо темпів та масштабу цих вдосконалень. В процесі цього виникає запитання про те, наскільки добре workflows технологічного процесу BIM (Building Information Modeling) відповідають тому, як в реальності працює галузь. У своєму огляді Мартін Дей детальніше розглядає потенційний вплив штучного інтелекту на архітектуру.

How Uber Optimizes the Timing of Push Notifications using ML and Linear Programming

Push-сповіщення є невід’ємним каналом, за допомогою якого клієнти Uber Eats можуть дізнаватися про нові ресторани, акції, пропозиції. Push-повідомлення надсилаються різними внутрішніми командами, як-от відділ маркетингу, операції та команди продукту. У даному матеріали інженери Uber показують, з якими проблемами вони стикаються при цьому, і як AI/ML допомагає їм їх долати.

Наукові статті

Collective Intelligence for Deep Learning: A Survey of Recent Developments

У цьому дописі автор показує, що дослідження deep learning можуть отримати значну користь від розгляду систем нейронних мереж: їх побудови, навчання та розгортання як комплексних систем.

In-context Reinforcement Learning with Algorithm Distillation

У своєму дослідженні автори пропонують підхід Algorithm Distillation (AD) — метод дистиляції алгоритмів навчання з підкріпленням (RL) у нейронні мережі шляхом моделювання їхньої історії навчання за допомогою моделі причинної послідовності. Algorithm Distillation розглядає навчання з підкріпленням як проблему послідовного передбачення між епізодами.

Tackling Diverse Tasks with Neural Architecture Search

Минуле десятиліття було свідком стрімкого злету використання машинного навчання у вирішенні різноманітних проблем реального світу, від розпізнавання облич і машинного перекладу до діагностики захворювань і прогнозування послідовності білків. Однак прогрес у таких сферах потребує клопітких ручних зусиль у розробці та навчанні нейронних мереж для конкретних завдань, використовуючи людські та обчислювальні ресурси, до яких більшість практиків не мають доступу. Автори цього документу розробили метод NAS під назвою DASH, який генерує та навчає згорточні нейронні мережі (CNN) з високою точністю прогнозування.

Human-AI Coordination via Human-Regularized Search and Learning

А в центрі уваги авторів наступного дослідження — проблеми створення агентів штучного інтелекту, які б добре співпрацювали з людьми в частково доступних для спостереження середовищах, які повністю кооперативні, з урахуванням наборів даних про поведінку людей. Надихаючись piKL—методом регуляризованого пошуку на основі даних про людину, який покращує політику поведінкового клонування, і далеко не відхиляючись від неї, дослідники розробили триетапний алгоритм, який забезпечує високу продуктивність у координації з реальними людьми в тесті Hanabi.

Diffusion Models: A Comprehensive Survey of Methods and Applications

Дане комплексне опитування зосереджене навколо теми дифузійних моделей. Ці моделі, як клас глибоких генеративних моделей, показали разючі результати в різних задачах з міцною теоретичною основою. Та попри продемонстрований успіх порівняно з найсучаснішими підходами, дифузійні моделі часто передбачають дорогі процедури вибірки та неоптимальну оцінку ймовірності. У цій статті автори представляють комплексний огляд існуючих варіантів дифузійних моделей.

High Fidelity Neural Audio Compression

У цьому дослідженні автори представляють, за їх словами, найсучасніший високоточний real-time аудіокодек, що використовує нейронні мережі. Цей кодек складається з архітектури потокового кодера-декодера з квантованим латентним простором, що був навчений наскрізним способом. Також надано детальний опис ключових варіантів дизайну запропонованої моделі, включаючи: мету навчання, архітектурні зміни та дослідження різних функцій втрати сприйняття.

Подкасти

Private machine learning done right

У черговому епізоді Data Science at Home автор та гість випуску Деніел Хюйн, генеральний директор Mithril Security, випускник Політехнічної школи зі спеціалізацією в області ШІ та науки про дані, говорять про конфіденційні обчислення, SGX і приватне машинне навчання.

Hybrid computing with quantum processors

В центрі уваги цього епізоду подкасту — квантові обчислення. Автор розмовляє з Йонатаном з Quantum Machines про реальний прогрес, досягнутий у практичній побудові гібридних обчислювальних центрів з поєднанням класичних процесорів, графічних і квантових процесорів. Quantum Machines створює як апаратне, так і програмне забезпечення, щоб допомогти контролювати, програмувати та інтегрувати квантові процесори в гібридне обчислювальне середовище.

Data-Centric Computer Vision, Productizing AI, and Scaling a Global Startup with Hyun Kim

В гостях у автора подкасту Datacast Хюн Кім, котрий є співзасновником і генеральним директором Superb AI, платформи ML DataOps, яка допомагає командам комп’ютерного зору автоматизувати та керувати всім конвеєром даних: від прийому та маркування до оцінки якості даних і доставки.

The Data Science Skills Gap, Economics, And Public Health

Освіта в галузі науки про дані та безперервне навчання для людей, які працюють у сфері охорони здоров’я, а також міркування про демократизацію навичок науки про дані загалом — ці теми обговорює Хюго з Нормою Падрон, гостею чергового епізоду подкасту vanishing gradients.

Tesla Bot, Text-to-Video, Speech-to-Text, AI Voices Darth Vader

Традиційний учасник нашої добірки, подкаст Last Week in AI, у цьому епізоді розказує про таке:

прототип гуманоїдного робота на Tesla AI Day,
OpenAI відкриті вихідні коди багатомовної системи розпізнавання мовлення,
Голос Дарта Вейдера, що лунає з оповитою війною України/

The Rise of the Julia Programming Language

Доктор філософії Захаріас Вулгаріс приєднується до цього епізоду шоу, щоб розповісти про свій досвід роботи з мовою програмування Julia та своє бачення майбутнього широкого впровадження Julia.

Відео

The 5 Biggest Artificial Intelligence (AI) Trends In 2023

За останнє десятиліття штучний інтелект став тісно інтегрованим практично у кожен аспект нашого життя. Згідно з дослідженням IDC, у 2023 році витрати урядів і бізнесу на технології ШІ сягнуть $500 млрд у всьому світі. Але як це буде використано і який вплив матиме? Автор відео пропонує поглянути на перспективи та тренди розвитку ШІ у 2023 році.

Behavioral Data Creation for AI | Snowplow Co-Founder & CEO Alex Dean

Платформа поведінкових даних Snowplow створена для розширення можливостей команд обробки даних і вирішення найскладніших проблем сучасності з даними. Snowplow дає змогу створювати, використовувати та керувати наскрізною мовою даних у вашому бізнесі із загальною схемою даних, яку можна моделювати для BI та AI, потоково передавати для програм реального часу та збагачувати сторонніми даними. У цьому епізоді Data Driven NYC приймає співзасновника та генерального директора Snowplow Алекса Діна.

Is Stability turning into OpenAI?

Яннік Кілчер у властивій йому артистичній манері розмірковує про те, куди рухається Stability AI зважаючи на останні події навколо цього стартапу. Їх звинувачують у ворожому захопленні підпорядкованих ресурсів Reddits і серверів Discord, пошуках альтернативного вебінтерфейсу користувача та фальшивій розсилці повідомлень про видалення IP-адрес.

***

Наразі це ключове, чим я був радий з вами поділитися. А щоб ви точно не пропустили новий випуск мого дайджесту, пропоную вам клікнути «Підписатися на автора» одразу під текстом.

Користуючись нагодою нагадаю: якщо ви прагнете професійного зростання та знаходитесь у пошуку «своєї» компанії — долучайтеся до Xenoss!

З нас — робота у колі однодумців над складними та довготривалими data-centric проектами. Наші клієнти — провідні SaaS-компанії, всесвітньо відомі підприємства та стартапи, що активно розвиваються. А серед переваг Xenoss — цікавезні проєкти, гнучкий графік та повний ремоут. Сміливо надсилайте своє резюме!

Серед наших найгарячіших вакансій зараз:

Linux Embedded Developer

Cloud Ops Engineer

ML Engineer

Senior Frontend Developer

Запрошую вас стежити за останніми новинами Xenoss у наших соцмережах — LinkedIn та Facebook.

Дякую за увагу, коментуйте, поширюйте, і до нового випуску дайджесту!

Слава Україні!