Розробка · 25 травня 2022, 15:00 1264

Vova Kyrychenko, CTO в Xenoss.io

Big Data, Machine Learning, Data Science Digest #25: нейровізуалізація, No-Code Machine Learning, Gauss’s Divergence Theorem

Привіт!

Продовжую робити свою справу та відволікати вас від потоку новин чимось корисним. Тож з вами вже двадцять п’ятий випуск апдейтів, які трапилися зі світом Data Science в останні декілька тижнів. Сподіваюсь, буде корисно!

А конкретніше, у цьому випуску ви дізнаєтесь про таке:

як російський сектор ШІ різко втрачає таланти та інвестиції;
як працює структурна оптимізація;
чіп від Nvidia, який має потенціал для прискорення штучного інтелекту;
нова мовна модель від Facebook із 30 мільярдами параметрів;
звіт Стенфордського інституту штучного інтелекту, орієнтованого на людину (HAI) про стан ШІ у 2022 році;
інструменти no-code колаборації для Data Science;
FastAPI для Machine Learning та багато іншого!

Якщо ви проґавили мій попередній дайджест — не проблема, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.

Матеріали про використання ШІ у війні України з росією

Across Drones, AI, and Space, Commercial Tech Is Flexing Military Muscle in Ukraine

Стаття розказує про те, як завдяки винахідливості України нам вдається швидко перетворювати комерційні технології у військовий потенціал.

At war with facial recognition: Clearview AI in Ukraine

Інтерв’ю з Hoan Ton-That, CEO Clearview AI, у якому він обговорює діяльність компанії в Україні під час війни та суперечки, які переслідували найбільшу в світі мережу розпізнавання обличчя.

Russia’s AI Disconnect: The War in Ukraine and the Looming Collapse of Russia’s AI Industry

У цьому відео експерти обговорюють наслідки російсько-української війни для російської комерційної та військової індустрії штучного інтелекту та про майбутнє галузі.

Статті про AI/ML

AI’S INVISIBLE HAND ON DAILY LIFE

Стаття розкриває перелік сфер повсякденного життя, у яких вже застосовується машинне навчання та штучний інтелект.

The Importance of Data Splitting

У більшості контрольованих завдань машинного навчання найкращі практики рекомендують розділити ваші дані на три незалежні набори: training set, testing set та validation set. Автор статті пояснює чому так, використовуючи набір даних із двох типів домашніх тварин — котів та собак.

A Tutorial on Structural Optimization

Стаття дуже просто та елегантно описує як працює структурна оптимізація, застосовуючи отримані знання для написання власного коду структурної оптимізації з нуля до 180 рядків.

Hugging Face reaches $2 billion valuation to build the GitHub of machine learning

Компанія Hugging Face оголосила, що залучила венчурне фінансування в розмірі 100 мільйонів доларів. Наразі компанія коштує 2 мільярди доларів та дебютує в списку AI 50 Forbes. Hugging Face стала основним сховищем для всього, що стосується машинного навчання: можна знайти попередньо навчені моделі та набори даних для різних завдань, а також взяти участь у спільноті розробників із своєю власною моделлю. Вони мають намір додати більше ресурсів, щоб зробити машинне навчання доступним і продуктивним як для початківців, так і для експертів.

A quick guide to the most important AI law you’ve never heard of

Нещодавно ЄС запропонував новий амбітний закон про ШІ, який, у разі ухвалення, стане найповнішим законодавством про штучний інтелект. Законопроєкт вимагає додаткових перевірок для програм штучного інтелекту, які мають високий ризик заподіяння шкоди, наприклад, систем, які оцінюють іспити, наймають співробітників або ухвалюють рішення в системі правосуддя.

PostgresML

PostgresML — це наскрізна система машинного навчання, яка дає змогу навчати моделі та робити онлайн-прогнози, використовуючи лише SQL. Мета полягає в тому, щоб кожен, хто має базове розуміння SQL, мав змогу створювати, розгортати та підтримувати моделі машинного навчання у виробництві.

AI delivers real-time data for smarter farming

Платформа AI Solinftec під назвою ALICE.AI дозволяє клієнтам оптимально планувати свої сільськогосподарські операції та ухвалювати рішення щодо в реальному часі. ALICE.AI використовує алгоритми машинного навчання, щоб надавати клієнтам уявлення про обладнання, погодні умови та їхні врожаї в режимі реального часу, щоб допомогти фермерам краще розуміти свої врожаї та керувати ними.

Nvidia’s Powerful New Chip Aims to Help AI Understand You Better

Компанія Nvidia випустила новий чіп — H100 «Hopper», який має потенціал для прискорення штучного інтелекту, що охоплює індустрію технологій. Чіп допомагає закріпити лідерство Nvidia в технології, яка революціонізує все в обчислювальних машинах: від самокерованих автомобілів до мовного перекладу, яким говорять люди.

Deep Learning in Neuroimaging

Цей огляд глибоко пояснює деякі поширені методи нейровізуалізації та обговорює застосування глибокого навчання у поєднанні з деякими унікальними характеристиками даних нейровізуалізації. Ці унікальні характеристики пов’язані з більш широким рухом у глибокому навчанні, а саме, що розуміння даних має бути само по собі метою максимізації впливу прикладного глибокого навчання.

Наукові статті

Visualization using R for researchers who don’t use R

За лінкою знайдете практичний посібник, який є чудовим вступом до використання мови R для візуалізації даних.

WebFace260M: A Benchmark for Million-Scale Deep Face Recognition

Дослідники з Університету Цінхуа, XForwardAI (стартап із штучним інтелектом) та Імперського коледжу Лондона створили «WebFace260M» — широкомасштабний набір даних для розпізнавання обличчя. Моделі, навчені на отриманому наборі даних, досить вдалі — автори подають одну модель на складну задачу FVRT NIST і займають третє місце в загальному заліку.

OPT: Open Pre-trained Transformer Language Models

Facebook, в рамках дослідження сімейства мовних моделей, випустив мовну модель із 30 мільярдами параметрів у стилі GPT3, яка носить назву Open Pre-trained Transformer (OPT). Це набір попередньо навчених трансформаторів лише для декодера з параметрами від 125M до 175B та, у порівнянні із GPT-3, для її розвитку потрібно лише 1/7 вуглецевого сліду.

Multi-DNN Accelerators for Next-Generation AI Systems

Оскільки використання додатків на основі штучного інтелекту розширюється в кількох сферах, збільшуються й обчислювальні вимоги. Основним драйвером технології ШІ є глибокі нейронні мережі (DNN). Широкомасштабне розгортання служб штучного інтелекту та інтеграція в мобільні та вбудовані системи вимагають додаткових проривів на фронті архітектури комп’ютера, з процесорами, які можуть підтримувати високу продуктивність у міру збільшення кількості DNN, відповідаючи вимогам якості обслуговування, що створює тема проєктування мульти-DNN прискорювача.

Customizing ML Predictions for Online Algorithms

Стаття є посібником з останніх досліджень, які включають поради з ML у розробці онлайн-алгоритмів, щоб покращити їх продуктивність у типових випадках. Тут ви знайдете відповідь на питання: чи можемо ми перепроєктувати алгоритми ML, щоб забезпечити кращі прогнози для онлайн-алгоритмів?

Подкасти

Datacast Episode 90: Operational Analytics, Reverse Etl, And Finding Product-Market Fit

Розмова із Кашішем Гуптою, засновником і співкерівником Hightouch, у якій він ділиться тим, як його перший стартап пройшов через Y Combinator, як він створив платформу для активації даних, як живе у потоці розгортання різних ідей стартапів та багато іншого.

The Evolution Of Python For Data Science

Ведучий подкасту розмовляє з Пітером Вангом, генеральним директором Anaconda, про те, як Python став таким великим для галузей Data Science, Machine Learning та AI. Вони переходять до багатьох технічних і соціологічних початків Python, які використовуються для науки про дані, історії PyData, розподілу conda та NUMFOCUS.

State of Artificial Intelligence 2022

Нещодавно я ділився добіркою відео з виступів на весняній конференції HAI. Сьогодні пропоную прослухати епізод подкасту, який підсумовує довгий звіт Стенфордського інституту штучного інтелекту, орієнтованого на людину (HAI) про стан ШІ у 2022 році.

MLOps is NOT Real

Зірка епізоду — Luis Ceze, CEO компанії OctoML, долучається до авторів подкасту, щоб обговорити поводження з моделями AI/ML як із звичайними програмними компонентами. Вони розглядають тему оптимізації на різних видах обладнання та розгортання моделей на периферії.

New Google AI Features, Enzyme Discovery, Clearview AI Ban, Kendric Lamar Deepfakes

Новий епізод подкасту Lastweekinai з обговореннями останніх новин зі сфери ШІ. Цього разу будуть обговорювати такі апдейти, як:

вартість компанії Hugging Face досягла 2 мільярдів доларів;
Google підвищив ставку штучного інтелекту;
вихід посібника із найважливішим законом про штучний інтелект, про який ви ніколи не чули;
Кендрік Ламар використовує діпфейки в останньому музичному відео та багато іншого.

Collaborative, No-Code Machine Learning

У цьому епізоді співзасновник Einblick і доцент Массачусетського технологічного інституту Тім Краска приєднується до автора подкасту, щоб обговорити інструменти no-code колаборації для Data Science. Вони також розкривають розумні трюки з базою даних і машинним навчанням під капотом Einblick та обговорюють як no-code вплине на майбутнє галузі.

AutoML Discovery and Approach

За останні кілька років AutoML (автоматизоване машинне навчання) стало доволі гарячою темою. Герої подкасту діляться своїми підходами до AutoML, а саме коли і як його використовувати в порівнянні з класичними підходами.

Відео

Historical Thoughts on Modern Prediction

У цьому відео Бенджамін Рехт, професор кафедри електротехніки та комп’ютерних наук Каліфорнійського університету в Берклі, розкриває історію статистичного прогнозування, починаючи з Вінера і Розенблата та закінчуючи сучасним машинним навчанням.

Unlocking Data Observability with Monte Carlo’s Barr Moses

Оскільки все більше і більше компаній по всьому світу покладаються на дані для досягнення конкурентних переваг і критичних потреб, ставки надзвичайно зросли, а інфраструктура даних має бути абсолютно надійною. Barr Moses, Co-Founder & CEO компанії Monte Carlo розповідає, як вони створили наскрізну платформу для спостереження за даними, яка має на меті підвищити довіру до даних, усуваючи їх простої. Це дозволяє інженерам більше впроваджувати інновації, аніж виправляти помилки.

Advances in Neural Compression with Auke Wiggers

У цьому епізоді Auke Wiggers розповідає про нещодавнє дослідження його команди щодо стиснення даних за допомогою генеративних моделей. Він обговорює зв’язок між історичним дослідженням стиснення та поточною тенденцією нейронного стиснення, а також переваги нейронних кодеків, які навчаються стискати дані з прикладів.

FastAPI for Machine Learning

У епізоді йдеться про те, що таке Fast API, який перелік наступних великих проблем, що потребують вирішення завдяки ML, і як зосередитися на додаванні цінності там, де можна.

Gauss’s Divergence Theorem

Теорема про дивергенцію Гауса є одним з найпотужніших інструментів у всій математичній фізиці. Це основний будівельний блок того, як ми отримуємо закони збереження з фізики та переводимо їх у диференціальні рівняння в похідних.

Symbolic behaviour in AI

Зірка відео — Доктор Ендрю Лампінен, старший науковий співробітник DeepMind. Нещодавно Ендрю зі своїми співавторами опублікував роботу під назвою символічна поведінка в штучному інтелекті, у якій він висловлює думку про те, що здатність людини використовувати символи ще не відтворена в машинах.

[ML News] Meta’s OPT 175B language model | DALL-E Mega is training | TorToiSe TTS fakes my voice

Якщо ви шукали відео з узагальненням всіх топових новин зі світу ML, яки сталися за останні декілька тижнів — тоді це відео для вас. Все про реліз OPT-175B, DALL-E Mega, Hugging Face Deep RL та багато іншого!

***

На сьогодні це все, дякую за увагу!

Щоб не втрачати зв’язок та не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.

Якщо часом ви знаходитесь у пошуку «свого ідеального місця під сонцем» або втратили роботу через війну — долучайтеся до Xenoss, щоб працювати у колі однодумців над складними та довготривалими data-centric проєктами. Наші клієнти — провідні SaaS-компанії, всесвітньо відомі підприємства та стартапи, що активно розвиваються.

Працюємо worldwide та fully remote, тому де б ви не перебували — сміливо надсилайте своє резюме!

Серед наших найгарячіших вакансій:

Solution Architect (React, Node.js)

Lead Back-End SDE/Solution Architect (Java)

Lead Java Engineer

Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.

Слава Україні!