Скільки коштує аналітика даних за допомогою штучного інтелекту на основі Google Cloud Platform

💡 Усі статті, обговорення, новини про DevOps — в одному місці. Приєднуйтесь до DevOps спільноти!

Вітання, шановна DOU-спільното! Мене звати Данило Кондюк, я — Team Lead та DevOps Engineer у компанії Cloudfresh, що є глобальним Google Cloud Premier Partner.

За інформацією Google Trends, наприкінці жовтня зацікавленість темою штучного інтелекту сягнула найвищого рівня за весь 2024 рік. Тож у сьогоднішньому матеріалі я хотів би зосередитися на структурі пов’язаних витрат у розрізі аналітики даних на Google Cloud Platform (або ж GCP) — одного з найбільших постачальників хмарної інфраструктури за часткою ринку.

Насамперед варто відзначити, що на всіх офіційних ресурсах Google Cloud штучний інтелект нероздільно пов’язаний із машинним навчанням — ці дві галузі утворюють єдину категорію. Кількість згаданих продуктів коливається від 17 до 27, а це своєю чергою означає, що компанія постійно розвивається та тримає руку на пульсі. Вона послідовно доповнює лінійку, щоб відобразити останні зміни в попиті на той чи інший функціонал.

Пропоную до розгляду ціновий компонент двох основних продуктів Google Cloud Platform, а саме Vertex AI та Gemini у поєднанні з BigQuery та Looker. Докладу зусиль, аби висвітлити такі питання:

  • Чи настільки ж дорогим є зберігання даних для навчання моделей пошуку нейронних архітектур за допомогою BigQuery, як використання Vertex AI NAS?
  • Якою є ціна використання BigQuery як офлайн-сховища централізованого репозиторію для керування вхідними даними машинного навчання та їхньої обробки (Vertex AI Feature Store)?
  • Скільки коштує впевненість? Моніторинг моделей Vertex AI на основі прогнозованих та навчальних даних, що розміщено у BigQuery.
  • Чи варта Enterprise-підписка на код-асистента Gemini своїх грошей? Огляд розмовної аналітики в Looker та оптимізація витрат на BigQuery.

Vertex AI

Neural Architecture Search (NAS)

Vertex AI Neural Architecture Search (NAS) — це оптимізаційний інструмент для пошуку найбільш точних нейронних архітектур, що надає можливість як враховувати, так і нехтувати обмеженнями на кшталт затримки, обсягу пам’яті чи будь-яких інших користувацьких метрик. Здатний досліджувати величезний простір розміром до 10^20, він сприяв створенню таких передових моделей комп’ютерного зору, як Nasnet, MNasnet, EfficientNet, NAS-FPN і SpineNet.

Однак NAS потребує виділеної команди для налаштування та тестування параметрів архітектури (наприклад, розмір ядра або кількість каналів) і найкраще підходить для випадків, коли можливості традиційних методів, як-от підбору гіперпараметрів, вже вичерпано. Не рекомендую використовувати NAS, якщо ви маєте обмежену кількість чи відчутний дисбаланс даних, оскільки цей інструмент потребує значних рівнів експериментування та доступності.

Для прикладу проведемо кілька тестових запусків із використанням попередньо налаштованого простору пошуку та тренера MNasNet.

На графіку можна побачити, що найкраща винагорода на етапі-1 починає зростати з ~0,30 у випробуванні 1 до ~0,37 у випробуванні 17. Ваш конкретний запуск може дещо відрізнятися через випадковість вибірки, але ви повинні помітити певне збільшення. Будь ласка, зверніть увагу, що це все ще тестовий запуск, і він не є доказом концепції (Proof of Concept) чи публічним бенчмарком.

  • Кількість випробувань: 25
  • Кількість GPU на випробування: 2
  • Тип GPU: TESLA_T4
  • Кількість CPU на випробування: 1
  • Тип CPU: n1-highmem-16
  • Середній час навчання одного випробування: 3 години
  • Кількість паралельних випробувань: 6
  • Залучена квота GPU: (num-gpus-per-trial * num-parallel-trials) = 12 GPU. Використовую регіон us-central1 і зберігаю навчальні дані в цьому ж регіоні. Додаткова квота не потрібна.
  • Час виконання: (total-trials * training-time-per-trial)/(num-parallel-trials) = 12 годин
  • Години GPU: (total-trials * training-time-per-trial * num-gpus-per-trial) = 150 T4 GPU годин
  • Години CPU: (total-trials * training-time-per-trial * num-cpus-per-trial) = 75 n1-highmem-16 годин

Отже, вартість складатиме приблизно 185 доларів США. Ми можемо зупинити роботу раніше, щоби зменшити витрати.

Широкі можливості кастомізації, які можна реалізувати за кілька днів, роблять NAS ефективним, хоча й дорогим рішенням, призначеним для підприємств, що готові масштабно інвестувати в дослідження інноваційних проєктів моделювання.

Окрім віртуальних машин, прискорювачів і дисків (залежно від типу та розташування), існує також обов’язкове використання Cloud Storage, що містить пункт, який нас цікавить найбільше — зберігання вхідних даних для навчання моделі. Задля цієї мети й можливе використання BigQuery, що має власну тарифікацію. Так, наприклад, перші 10 гібібайтів (GiB) щомісяця надаватимуться вам на безоплатній основі.

Feature Store

Vertex AI Feature Store є централізованим репозиторієм для керування та обробки вхідних даних машинного навчання, також відомих як ознаки. Сховища ознак є невід’ємною частиною E2E-MLOps-інфраструктури. Вони дають змогу Data Science- та Machine Learning-спеціалістам скоротити цикл розгортання, впорядковуючи ознаки для всіх відділів організації. Сховище ознак суттєво спрощує створення, зберігання, спільне використання, пошук та передачу даних до ML-застосунків.

Починаючи з жовтня 2023 року, BigQuery може слугувати офлайн-сховищем для ознак, що дозволяє організаціям використовувати наявну інфраструктуру, уникати дублювання даних та знижувати витрати. Компанії можуть також використовувати всю потужність і гнучкість BigQuery SQL для отримання й модифікації ознак разом із вже наявними налаштуваннями доступу та контролю.

Оскільки BigQuery використовується для офлайн-операцій, діє тарифікація для таких функцій, як завантаження даних в офлайн-сховище, виконання запитів до офлайн-сховища та зберігання в офлайн-режимі.

Припустимо, ви здійснюватимете операцію за допомогою BigQuery Storage Write API в регіоні europe-west4 (Нідерланди). У такому разі матимете право на використання 2 тебібайтів (TiB) щомісяця безплатно, надалі — 0,03 дол. США за кожен додатковий гібібайт.

Model Monitoring

Vertex AI Model Monitoring дозволяє запускати моніторингові завдання за потребою або за розкладом для відстеження якості табличних моделей. Якщо встановлено сповіщення, Vertex AI Model Monitoring інформуватиме вас, коли метрики перевищуватимуть заданий поріг.

Скажімо, у вас є модель для прогнозування Customer Lifetime Value (CLV) і ви вирішуєте запровадити програму лояльності. Тоді ознаки та їхні значення, використані для початкового навчання моделі, можуть стати нерелевантними для подальших прогнозів. Такі відхилення в даних називають зсувом.

Vertex AI Model Monitoring може відстежувати й сповіщати вас, коли відхилення перевищуватимуть заданий поріг. Тоді ви можете переоцінити або перенавчити свою модель, аби гарантувати належну роботу.

Вартість складає 3,5 долара за кожен ГБ даних, що аналізується, включно з даними для навчання та прогнозованими даними, записаними в BigQuery-таблицях. Також стягуються додаткові збори за інші продукти Google Cloud, які використовуються з Model Monitoring, такі як BigQuery-сховище.

Наприклад, Data Science-відділ запускає моніторинг моделі, що була навчена на даних із BigQuery. Розмір даних після конвертації у TfRecord становить 5,0 ГБ. Прогнозовані дані, записані між 10:00 та 11:00, складають 0,5 ГБ, а між 16:00 та 17:00 — 0,3 ГБ. Загальна вартість для налаштування моніторингу моделі:

(5,0 ГБ * 3,5 дол. США) + ((0,5 ГБ + 0,3 ГБ) * 3,5 дол. США) = 20,3 дол. США.

Стосовно інших складових Vertex AI, сумісних із BigQuery — до них входять Workbench, Deep Learning Containers, Deep Learning VM та AI Platform Pipelines. Плата стягується лише якщо ви здійснюєте SQL-запити всередині конкретного нотатника (notebook), який своєю чергою є засобом коду (code asset) в BigQuery Studio.

Gemini

BigQuery

Gemini у BigQuery — це система, яка поєднує штучний інтелект із вашим сховищем, забезпечуючи зручні інструменти для управління даними та оптимізації навантажень протягом усього життєвого циклу. Gemini стане в пригоді аналітикам, інженерам, Data Science-спеціалістам та адміністраторам баз даних, надаючи функції генерації та автозавершення коду на Python та SQL.

Завдяки підказкам природною мовою ви можете швидко формувати запити та спростити розробку й тестування. Також Gemini пропонує шляхи інтерпретації складних SQL-запитів, перетворюючи код у зрозумілі пояснення, що робить процес зручнішим і доступнішим.

Система також значно розширює можливості пошуку завдяки семантичній орієнтованості. Можна швидко знаходити необхідні таблиці й одразу отримувати актуальні запити та запускати їх в один клік. Для задач на зразок трансформації даних або їхньої міграції Gemini спрощує підготовку та допомагає з перекладом запитів, усуваючи потребу в складних додаткових налаштуваннях.

Інтерфейс Data Canvas надає новий підхід до візуалізації та дослідження даних. Це графічний робочий процес, що підтримує побудову аналізу за промптами, як, наприклад, «Допоможи знайти таблиці з продажів у Харкові». Такий підхід дає змогу легко виходити в прод або експортувати дані задля подальшого аналізу в BigQuery SQL, а також ділитися результатами через Looker, Looker Studio, Google Sheets або Google Slides.

Gemini у BigQuery також допоможе вам оптимізувати витрати й продуктивність на кожному етапі обробки даних. Ці покращення стосуватимуться всіх низхідних робочих потоків (downstream workflows), включно з інтеграцією інструментів зі створення дешбордів і моделей штучного інтелекту та машинного навчання.

Вплив розповсюджуватиметься не лише на робочі потоки в межах SQL та Python, а й на безсерверні Spark-пайплайни, дозволяючи оперативно викорінювати помилки в разі їх виникнення.

Looker

Gemini в Looker дозволяє швидко створювати звіти, включно з візуалізаціями, заголовками, темами та макетами, лише на основі короткого запиту. Це забезпечить базовою структурою, яку можна налаштувати за допомогою природної мови.

Розширений асистент допоможе вам створювати JSON-код для налаштування візуалізацій, що спростить модифікацію та генерацію кастомних графіків. Ще однією перевагою Gemini для Looker є автоматична генерація слайдів, завдяки якій можна експортувати звіти в Google Slides та супроводжувати графіки текстовими поясненнями, які підкреслять ключові висновки.

І наостанок ви можете створювати обчислювальні поля без необхідності запам’ятовувати складні формули, що невимовно полегшить ad-hoc аналіз.

Порівнюємо ціни

Gemini для BigQuery доступний лише в рамках підписки Gemini Code Assist Enterprise, яку випустили в середині жовтня цьогоріч. Ціна її складає 54 долари за користувача на місяць або ж 45 доларів за користувача на місяць в разі взяття на себе зобов’язання вносити оплату протягом 12 місяців.

Станом на зараз діє акційна пропозиція, за якою можливо оформити передплату Gemini для BigQuery лише за 19 доларів за користувача на місяць (знову ж таки, з обов’язковими внесками протягом одного календарного року). Скористатися необхідно до 31 березня 2025-го.

Gemini для Looker на разі надається безплатно, але це може змінитися будь-якої миті. Тож, як-то кажуть у нас в компанії, #keepITfresh! 🙂

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному1
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Коментар порушує правила спільноти і видалений модераторами.

Підписатись на коментарі