Big Data, Machine Learning, Data Science Digest #28: Sphere від Meta AI, Nimbus та Minerva від Google, та PanGu-Coder від Huawei
Привіт!
На вас чекає свіжа купа новин та апдейтів із data-індустрії. Нижче я поділюсь добіркою матеріалів, що справили на мене враження протягом останніх кількох тижнів.
Детальніше ви дізнаєтесь про таке:
- випуск вебкорпусу для кращого наукомісткого НЛП — Sphere від Meta AI;
- як саме NVIDIA оновила Nemo Megatron;
- деталі релізу «PanGu-Coder» від Huawei;
- Minerva — нова велика мовна модель Google (LLM), яка може вирішувати математичні запитання;
- як штучний інтелект пришвидшує виявлення сепсису, щоб запобігти сотням смертей;
- мегатренди, які формуватимуться наступні кілька років у напрямках Machine Learning, Data, & AI тощо.
Якщо ви проґавили мій попередній дайджест — не проблема, його можна переглянути тут. Як завжди, фідбек та коментарі вітаються.
Статті про AI/ML
Організація Північноатлантичного договору (НАТО), яка включає Сполучені Штати, Канаду та більшу частину Європи, оголосила про створення фонду венчурного капіталу в розмірі 1 мільярда євро, який буде зосереджуватись на технологіях, зокрема ШІ. Цей крок додасть зростаючого імпульсу ШІ, зокрема в питаннях ведення війни.
Introducing Sphere: Meta AI’s web-scale corpus for better knowledge-intensive NLP
Meta AI випускає Sphere — вебкорпус для кращого наукомісткого НЛП, і ось його репозиторій на GitHub. Набір даних підібраний як підмножина CCNet і спрямований на покращення досліджень на перетині обробки природної мови та пошуку інформації.
Documents reveal advanced AI tools Google is selling to Israel
Згідно з документами, отриманими The Intercept, Google надає уряду Ізраїля інструменти машинного навчання та ШІ, доступні через Google Cloud Platform. Проект Nimbus включатиме розпізнавання облич, категоризацію, відстеження об’єктів та аналіз настроїв.
NVIDIA AI Platform Delivers Big Gains for Large Language Models
NVIDIA оновила Nemo Megatron — програмне забезпечення для навчання великих мовних моделей. Оновлення: паралелізм послідовностей (SP) та повторне обчислення вибіркової активації (SAR), що роблять навчання великомасштабних нейронних мереж значно ефективнішим.
GLM-130B: An Open Bilingual Pre-Trained Model
Дослідники з китайського Університету Цінхуа створили та випустили GLM-130B — мовну модель, яка перевершує OPT (реплікація GPT3 ОС Facebook), BLOOM (реплікація GPT3 ОС HuggingFace) та оригінальний GPT3 OpenAI. Це досить велика річ як з огляду на необроблені можливості, які вона дає дослідникам, так і з огляду на той факт, що нині найефективнішою мовною моделлю ОС є китайська, а не зроблена на Заході. Модель навчили приблизно на 400 графічних процесорах A100, які вони змогли отримати завдяки пожертві від місцевого стартапу зі штучним інтелектом.
These 9 Research Papers are changing how I see Artificial Intelligence this year.
За посиланням знайдете список дослідницьких робіт, який допоможе вам передбачити майбутнє ШІ. Цей перелік не базується на кількості цитувань чи їх включенні до основних конференцій і журналів зі штучного інтелекту, але це особисті переваги автора, засновані на його щоденній взаємодії з ШІ.
31 Uniques Python Packages To Improve Your Data Workflow
Дані є величезним полем, яке підтримує розвиток технологій великою спільнотою. У свою чергу, Python допомагає світу даних стати більш доступним і приносить цінність робочому процесу даних. Ось чому автор цієї статті хоче познайомити нас із кількома унікальними пакетами Python, які багатьма способами допоможуть налаштувати робочий процес із даними.
Наукові статті
Masked Visual Pre-training for Motor Control
Ця стаття показує, що самоконтрольована попередня візуальна підготовка з реальних зображень є ефективною для вивчення завдань керування моторикою з пікселів.
Denoised MDPs: Learning World Models Better Than the World Itself
Ця робота формалізує проблему відокремлення «хорошої від нерелевантної інформації» в контексті навчання з підкріпленням шляхом ідентифікації інформації, яка одночасно контролюється агентом і має значення для винагороди.
Language Models (Mostly) Know What They Know
Калібрування — це концепція, яка використовується в машинному навчанні, щоб вказати, наскільки добре налаштована достовірність передбачення моделі. У цій роботі досліджується калібрування LM, що відповідають на запитання, формулюючи підказку в режимі множинного вибору, де результатом моделі є один маркер із відповіддю.
Towards Grand Unification of Object Tracking
Автори цього матеріалу пропонують єдину архітектуру моделі, яка конкурентоспроможна в 4 режимах відстеження об’єктів: відстеження одного об’єкта (SOT), відстеження кількох об’єктів (MOT), сегментація відеооб’єктів (VOS) і відстеження та сегментація кількох об’єктів (MOTS).
Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?
У цьому документі проводиться систематичне дослідження поведінки масштабування десяти різноманітних архітектур моделей, таких як трансформатори, комутаційні трансформатори, універсальні трансформатори, динамічні згортки, виконавці та нещодавно запропоновані MLP-мікшери. За допомогою численних експериментів автори показали те, що архітектура є справді важливим моментом під час виконання масштабування та те, що найкраща модель може коливатися в різних масштабах.
ZeroC: A Neuro-Symbolic Model for Zero-shot Concept Recognition and Acquisition at Inference Time
ZeroC — це метод представлення концепцій у вигляді графіків складових концептуальних моделей (тобто первинних форм). Основна мета цієї статті полягає в створенні системи, яка може розпізнавати невидимі концепції під час логічного висновку.
PanGu-Coder: Program Synthesis with Function-Level Language Modeling
Дослідники з Huawei створили «PanGu-Coder» — модель завершення коду. PanGu-Coder відноситься до PanGu також, як і Codex OpenAI до GPT3: необхідно сприймати його як наступну модель із використанням подібної процедури навчання, хоча й на іншому розподілі даних. Як і PanGu, PanGu-Coder було опубліковано приблизно через рік після публічного запуску Codex, що ілюструє напрочуд швидку швидкість, з якою китайські лабораторії здатні замінити великомасштабні моделі.
Подкасти
AUTOML, LITERATE PROGRAMMING, AND DATA TOOLING CARGO CULTS
Учасники подкасту занурюються в AutoML, обговорюючи, що слід автоматизувати в машинному навчанні, а що ні. Також вони розповідають про найкращі практики програмної інженерії та про те, які аспекти було б корисно знати науковцям із даних.
The geopolitics of artificial intelligence
Що означає контроль над ШІ для країн, корпорацій та університетів? Що означає контроль або доступ до ШІ для конфлікту та автономії? Світ швидко змінюється, і швидкість змін прискорюється. Тож учасники цього епізоду досліджують геополітику, економіку та вплив штучного інтелекту на ці сфери.
Sepsis Detection, Midjourney, Submarines, DALL-E 2 Food
До вашої уваги черговий епізод подкасту Lastweekinai. Цього разу будуть обговорюватись наступні теми:
- як штучний інтелект пришвидшує виявлення сепсису, щоб запобігти сотням смертей;
- що за новий метод, який дозволяє роботам навчатися в дикій природі;
- чи зможе штучний інтелект викрасти непомітність підводних човнів тощо.
Leveling Up in your Data Science Career
Гість епізоду ділиться своїми різноманітними стратегіями та підходами до того, як стати дата саєнтістом або внести серйозні зміни в кар’єру в галузі науки про дані.
Large Language Models in the Enterprise
Зірка епізоду — Марк Руссінович, технічний директор Microsoft Azure, у своїй бесіді зосереджується на великих мовних моделях і говорить про дві різні теми. По-перше, він обговорює фактичні польові застосування великих мовних моделей сьогодні. По-друге, Марк розповідає про те, що він би порекомендував керівникам підприємств, які хотіли б поглянути на власний бізнес і визначити, де вони можуть застосувати переваги великих мовних моделей у своєму підприємстві та конкретних робочих процесах, які можуть бути оптимальними для LLM.
How Salesforce Created a High-Impact Data Science Organization
Anjali Samani, директор відділу Data Science & Data Intelligence у Salesforce, ділиться тим, що потрібно, щоб стати зрілою організацією обробки даних, і як побудувати ефективну, різноманітну команду з обробки даних.
Data Infrastructure for Computer Vision
У цьому епізоді обговорюється стан інструментів для керування та роботи з даними комп’ютерного зору, а також поточну та найближчу роадмапу проекту fastdup — безкоштовного інструменту для виявлення дублікатів, аномалій та витоку візуальних даних.
Відео
Зірка подкасту — доктор Майлз Брандейдж, керівник відділу політичних досліджень в компанії OpenAI. В епізоді обговорюється виробництво, безпека та узгодження моделей ШІ. Також, Майклз ділиться власним баченням щодо GPT-3, DALL-E, Codex та CLIP.
Ми чуємо багато порад щодо застосування парадигм створення коду до машинного навчання, але що саме нам потрібно зробити? У цій відео презентації Laszlo Sragner представляє мінімальний набір прийомів, які допоможуть усунути технічний борг і зробити його більш продуктивним. Також він розповідає про чисту архітектуру, шаблони дизайну, рефакторинг, читабельність коду та те, як вони поєднуються в проекті Data Science.
Data-Centric AI: Why This Trend Is Here To Stay (Panel)
За посиланням ви знайдете відео з дискусії експертів, які досліджують, як спеціалісти з обробки даних і практики ML/AI можуть використовувати штучний інтелект, орієнтований на дані, щоб зробити моделі реального світу ефективними та масштабованими.
TensorFlow.js Community «Show & Tell» #7
Відео вбирає в себе виступи шістьох представників глобальної спільноти #MadeWithTFJS, які розширюють межі того, що можливо для машинного навчання Web MLv/на пристроях за допомогою JavaScript.
Discrepancy Modeling with Physics Informed Machine Learning
Steve Brunton розповідає, як поєднати машинне навчання з моделями класичної фізики, щоб виправити розбіжності в даних (наприклад, через нелінійне тертя, опір вітру тощо) .У цьому відео розглянуто кілька прикладів, від сучасної робототехніки до класичних зв’язків із Галілеєм vs Арістотеля та Кеплером vs Птолемея.
Google’s New Model Learns College-Level Math
Minerva — це нова велика мовна модель Google (LLM), яка може вирішувати математичні запитання. Вона створена на основі їхньої моделі PaLM, з найбільшим варіантом у 540 мільярдів параметрів. Відео є поясненням статті із блогу Google — Minerva: Solving Quantitative Reasoning Problems with Language Models.
The Next Layer of the Modern Data Stack
Відео з доповіді Трістана Хенді, засновника та генерального директора dbt Labs, яке він представив на Data Driven NYC — щомісячній події, присвяченій великим даним, продуктам і стартапам, що керуються даними. У цій розмові Трістан торкається теми еволюції сучасного стеку даних, а також розглядає мегатренди, які формуватимуться наступні кілька років у напрямках Machine Learning, Data, & AI.
***
На сьогодні це все, дякую за увагу!
Щоб не втрачати зв’язок та не пропустити мій наступний дайджест, клікайте «Підписатися на автора» одразу під текстом.
Якщо часом ви знаходитесь у пошуку «свого ідеального місця під сонцем» або втратили роботу через війну — долучайтеся до Xenoss, щоб працювати у колі однодумців над складними та довготривалими data-centric проектами. Наші клієнти — провідні SaaS-компанії, всесвітньо відомі підприємства та стартапи, що активно розвиваються.
Працюємо worldwide та fully remote, тому де б ви не перебували — сміливо надсилайте своє резюме!
Серед наших найгарячіших вакансій:
Senior DevOps Engineer| Media Network
Senior DevOps Engineer | Marketing Platform
Senior QA Automation | Marketing platform
Стежити за новинами Xenoss можна у соц-мережах — LinkedIn та Facebook.
Слава Україні!
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті
1 коментар
Додати коментар Підписатись на коментаріВідписатись від коментарів