Чи зможеш типобудувати систему,
що не падає?

Fintech

Спробуй себе в ролі інженера у фінтеху разом із Solidgate

пройти гру

Коли система падає – бізнес зупиняється. Кожна хвилина простою означає втрату грошей, клієнтів і довіри. Завдання інженера — забезпечити безперервну роботу 24/7.

Інженери Solidgate дбають про стабільність системи, яка щомісяця обробляє десятки мільйонів транзакцій. В її основі – платформа для оркестрації та процесингу платежів. Вона дає бізнесам можливість підключати різних платіжних провайдерів і керувати ними так, щоб платежі проходили без збоїв. Якщо один провайдер «падає» – система автоматично переключає на резервний.

Крім цього, Solidgate розвиває й інші сервіси: менеджмент підписок, банкінг для бізнесу, захист від шахрайства тощо.

Клієнти Solidgate — компанії, що створюють продукти, якими щодня користуються мільйони людей. Для таких бізнесів навіть хвилина даунтайму платіжної системи може коштувати десятки тисяч доларів. Якщо процесинг зупиняється, тисячі транзакцій не проходять: хтось не може викликати таксі, отримати посилку чи взяти в прокат фільм для вечора із сім’єю.

Саме тому в Solidgate аптайм — не формальність, а питання ціни помилки, і вимоги до нього визначають роботу всієї команди.

У цьому матеріалі ми разом із Solidgate розбираємося, що стоїть за стабільним аптаймом. А ще пропонуємо тобі спробувати себе в ролі фінтех-інженера.

В інтерактивному симуляторі ти маєш тримати систему на плаву якомога довше та швидко реагувати на інциденти. Шукай його внизу сторінки й перевір свої навички.

  • Fintech

  • x

  • solidgate

  • x

  • game

Як великі збої впливають на сервіси та користувачів

  • Збій Cloudflare 

    У січні 2023 року під час оновлення, яке мало додати поле «last seen» у метадані «service-tokens», сталася помилка: важливі дані токенів перезаписалися. Через це частина токенів стала недійсною, і збої торкнулися внутрішніх акаунтів та сервісів.

    Близько двох годин (121 хвилину) окремі сервіси Cloudflare – зокрема Workers, Zero Trust і control plane CDN – працювали з перебоями або були недоступні. Це зачепило частину клієнтів компанії.

    01

  • Google Cloud Platform – глобальний збій API-сервісів 

    У червні 2025 року стався масштабний збій у Google Cloud. Постраждали основні сервіси – API Gateway, Apigee, BigQuery, Cloud Run, Cloud DNS, Compute Engine та інші.

    Інцидент тривав понад 7 годин і мав глобальний масштаб: сервіси були частково або повністю недоступні в усьому світі. Це спричинило помилки API, проблеми з деплоєм, запуском сервісів та логуванням.

    Так одна платформа зачепила десятки сервісів одночасно.

    02

  • Збій CrowdStrike – вплив на Delta Air Lines та інші сектори

    У липні 2024 року оновлення Falcon Sensor від CrowdStrike спричинило збій більш як на 8 мільйонах Windows-пристроїв. Це викликало глобальний даунтайм і серйозно вдарило по авіакомпаніях, банках, медичних закладах та медіа.

    Delta Air Lines, яка використовувала CrowdStrike, зазнала особливо великих втрат:

    • скасовано близько 7 000 рейсів;

    • постраждали 1,3 млн пасажирів;

    • збитки оцінили приблизно у $550 млн.

    03

Як не допустити фейлів:

що таке SRE-практики

Щоб система працювала стабільно і користувачі не бачили «помилку 500», у Solidgate застосовують SRE-практики. Це підходи, які допомагають командам тримати аптайм під контролем.

SRE (Site Reliability Engineering) з’явився в Google ще у 2000-х. Тоді потрібно було зробити сервіси і масштабованими, і надійними, не сповільнюючи розвиток. Замість класичної моделі «адміни підтримують, розробники пишуть код», Google поєднали інженерію з операційними процесами та автоматизацією.

Суть проста: стабільність сервісу вимірюють метриками, а інциденти й релізи обробляють за чіткими правилами. Так народилась ціла культура, і з часом SRE став стандартом для гігантів на кшталт Meta, Netflix, Amazon чи Cloudflare.

Ми підготували короткий чекліст із практиками, який стане у пригоді тим, хто будує надійні сервіси. І для тих, хто хоче краще пройти гру.

01.

Метрики та цілі

Щоб оцінити надійність системи, важливо визначити чіткі метрики та цілі.

Ми підготували короткий чекліст із практиками, який стане у пригоді тим, хто будує надійні сервіси. І для тих, хто хоче краще пройти гру.

  • SLI (Service Level Indicator) – те, як ми міряємо якість сервісу (наприклад, відсоток успішних запитів).

  • SLO (Service Level Objective) – яку ціль ставимо (наприклад, 99,99% аптайму).

  • SLA (Service Level Agreement) – що гарантуємо користувачеві.

02.

Error Budget

Це «допустимий запас» на помилки. Якщо ціль – 99,99% аптайму, то 0,01% збоїв ще ок. Але якщо цей ліміт вичерпано – нові фічі ставимо на паузу і працюємо над стабільністю.

03.

Моніторинг і алертинг

Щоб вчасно помітити проблеми, важливо відстежувати основні метрики:

  • latency – швидкість відповіді;

  • saturation – наскільки завантажені ресурси;

  • error rate – кількість помилок;

  • availability – доступність сервісу.

Алерти варто налаштовувати так, щоб вони спрацьовували лише в разі реальних проблем для користувачів, а не в разі незначних відхилень.

04.

Інцидент-менеджмент

Коли щось ламається – потрібен заздалегідь узгоджений та чіткий процес: 
хто on-call, як швидко реагувати, як відновлювати сервіс і що комунікувати назовні. Це зменшує хаос і час простою.

05.

Postmortems і навчання

Після інциденту варто робити його аналіз без пошуку винних. Головне завдання – знайти справжні причини його виникнення, зрозуміти, що можна зробити краще, та запобігти повторенню.

06.

Автоматизація і
стрес-тести

Менше ручної роботи – менше помилок. Тож варто застосовувати self-healing механізми, автоматичні деплої та скейлінг.

Через chaos engineering і стрес-тести система перевіряється на міцність – це дає впевненість, що вона витримає реальні навантаження.

SRE – доволі нова дисципліна, і для глибшого розуміння варто звернутися до фундаментальних текстів інженерів Google та практиків індустрії.

Вони пояснюють усе по-кроково: від базових принципів аптайму до побудови зрілих процесів у великих командах.

  • Fintech

  • x

  • solidgate

  • x

  • game

Як вимоги по аптайму впливають на роботу інженерів Solidgate?

  • Владислав Павленко

    Go Engineer

    Оскільки моя команда займається розробкою найбільш наближених до кінцевих користувачів платіж...

    читати повністю

  • Михайло Кратюк

    Backend Engineer

    Наші інженери думають не лише про те, як «пиляти фічі», а й про те, як робити це архітектурно. Я перевіряю к...

    читати повністю

  • Артем Полубок

    Senior Engineering Manager

    Щоб досягти високого uptime, потрібно прагнути не системи, яка ніколи не падає, а системи, яка вміє падати...

    читати повністю

  • Сергій Радиховський

    Tech Lead

    У своїй команді я налаштував duty-процес, під час якого відповідальний інженер реагує та опрацьов...

    читати повністю

Спробуй себе в ролі інженера у фінтеху разом із Solidgate.

почати

uptime

99.99%

Ти — інженер фінтех-компанії

Мета – утримати аптайм якомога довше, реагуючи на інфраструктурні інциденти. Після кожної відповіді з’являється новий інцидент. У тебе є до 12 секунд, щоб обрати одне з рішень. Якщо нічого не зробити – застосовується наслідок «за замовчуванням». Кожне рішення впливає на uptime %, який змінюється в реальному часі.

пройти гру

Uptime CTO

Система працює стабільно. Це зона високої надійності, де ви майже не втрачаєте контроль. Візуально – все спокійно, без тривожних сигналів.

01

Stripe заблокував платежі через підозру в фроді

 Перевірити транзакції вручну

-0,3% (безпечний, але повільний)

 Перевірити транзакції вручну

-0,3% (безпечний, але повільний)

 Перевірити транзакції вручну

-0,3% (безпечний, але повільний)

time

00:06

Система працює стабільно. Це зона високої надійності, де ви майже не втрачаєте контроль. Візуально – все спокійно, без тривожних сигналів.

Вітаємо, майстре стабільності!

Ви тримали систему на плаву як справжній SRE-інженер Solidgate. Жоден провайдер не "впав" надовго, транзакції оброблялися безперервно, а клієнти навіть не помітили потенційних інцидентів.

пройти ще раз