В світі масштабний технологічний збій. Попередня причина — в сервісах Microsoft та CrowdStrike

Повідомляють про серію технічних збоїв, які зачепила ОС Windows, Лондонську біржу, банки, сотні компаній, авіакомпанії, системи аеропортів Іспанії, Ірландії, Австралії та інших країн.

Перші збої з’явилися в США пізно ввечері в четвер, що пов’язано зі збоями в роботі сервісів Microsoft, включаючи Azure і 365. Представник Microsoft заявив, що компанія вивчає ситуацію.

Також кілька ЗМІ повідомили, що принаймні частина проблем була пов’язана з програмним забезпеченням компанії CrowdStrike Holdings Inc, що є розробником антивірусу.

Також про технічні проблеми повідомили такі українські компанії:

  • В «Нової пошти» виникли проблеми з «деякими програмними оновленнями», що вплинуло на систему обслуговування клієнтів. Збій вже усунули.
  • SenseBank тим часом повідомив, що не працюють відображення карток і рахунків, перекази та обмін валют, оплата послуг, покупка облігацій та автоцивілки, відкриття депозитів і кредитів, збірки та довідки. Банк працює над відновленням. Збій усунули: усі кошти та дані в повній безпеці, причиною інциденту справді є світовий IT-збій, пов’язаний із взаємодією антивірусу Crowdstrike та Windows.
  • Є також повідомлення про збій в роботі застосунку Vodafone. Сьогодні вранці протягом години спостерігались складнощі в отриманні послуг у частини абонентів в усіх регіонах України. З 9:20 надання усіх основних послуг поступово відновлюється.
👍ПодобаєтьсяСподобалось6
До обраногоВ обраному0
LinkedIn

Найкращі коментарі пропустити

Релізнули в прод в п‘ятницю

Скількі вінди на критичних сервісах.

Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

CrowdStrike
Engineer III, Network Reliability (Remote)
Denver, CO · 1 hour ago · 0 applicants

майкрософт каже що це наслідки угоди з євробюрократами, які винудили майкрософт дати привілеї ядра стороннім розробникам (так як монополія йопта), яких вони не можуть контролювати

Ну норм чьо, тепер хай страждають. Жаль що весь світ із-за них страждає.

ай біднесенькі. в 09 році їх примусили і вот страждають.

Может это проблемы дураков, которые автоадейты продакшн сервера делают?

А чому не можна було швидко повернутися до стану, який був до апдейта? Якщо це MS віртуалка, то там «винчестер» — це якийсь vhdx-файл. Зробили б копію цього файла до апдейта. Вибачте за тупе питання. Але ж образи дисків свого часу для цього робили, а для віртуалок це ще легше — скопіювати vhdx (vmdk, vdi, чи шо там).

Якщо це MS віртуалка, то там «винчестер» — це якийсь vhdx-файл.

А якщо хост?

Ось у vultr хост — Windows, судячи з того, що віртуалки детектують запуск під Hyper-V. Не падав. Мабуть, на хостах цей falcon не стояв.

А чому не можна було швидко повернутися до стану, який був до апдейта?

Тому що більшість вражених компів була у reboot loop, тобто навіть не «вмикалися» по нормальному: синій екран, ребут, синій екран, ребут.
У великих організаціях були вражені тисячі машин, їх усі потрібно було лагодити мануально. Швидко це не зробиш.

* за эти vhd нужно платить
* нужно знать как правильно это делать, а это не знает не только лишь все, мало кто может это делать
* может быть сильно много виртуалок чтоб делать вручную, а автоматизировать нет квалификации
* когда все сломалось, искать решение уже может быть поздно и проще дождаться когда все само поднимется (особенно если кто-то другой частично отвечает за работоспособность и активно пытается это пофиксить).

Итого:
в очередной раз подтверждается тезис, что какой бы ни был надежный поставщик ПО, надо:
— обновления ставим только руками
— предварительно надо проверить на тестовом стенде

Читаю коменты и дивуюсь, все винять CS в кривом обновлении, а почему никто не винит кривых админов, которые оставили политику обновления в дефолте (автоматически устанавливать обновления при релизе), когда там можно настроить установку вручную? В чем была проблема на определенном сегменте установить для теста обновления и если все ок то деплоить дальше? Однозначно проблема в кривизне админов, инженеров безопасников....

А именно этот ClownStrife позволяет такое? Это ведь не обычный канал обновлений от MS. (Я тут просто не в курсе, не видел их вживую.)

В консоли оркестрации cs все это можно настраивать.

Я не сисадмин и не девопс, объясните в чём проблема накатывать обновления с задержкой в n дней или порциями на n% парка машин?

конкретно cs тянет промежуточные обновы с облака самостоятельно
у нас как раз он

То есть даже если есть политики обновления — CS их игнорирует?

Наверное, не додумались разрабы.

може це і була перша група — авіакомпанії, лікарні, банки

Не, я имел в виду в рамках компании: у тебя парк на 1000 машин — поставь апдейт на 100, погоняй систему, если всё ок — ставь на следующие

это не тот апдейт о котором вы думаете
вы же не отвечаете за апдейты саас в ажуре, тут тоже самое

что касается «обычных виндовых», да, все так и делают
хороший пример с принтерами году в 2021 был,
когда кто его не тестил, тот и получил)

Я не сисадмин и не девопс, объясните в чём проблема накатывать обновления с задержкой в n дней или порциями на n% парка машин?

Обнови часто випускають дуже швидко, бо треба закрити діри. Там немає часу на багаторазове тестування :)

Дефолтные настройки этого могут не предполагать и ставить сразу как появилось без задержек.

Людей с квалификацией чтоб это правильно настроить мало, расходы на IT постоянно режут.

Там где есть люди с квалификацией, в дело может вступать «самоуспокоенность» (сто раз ставили, все работало, на стопервый раз не будут заморачиваться с задержками)

Тіки закрили команду з питань різноманітності, рівності та інклюзивності і ось вам «ответочка» )))

Питання в реальному рівні DEI в команді CrowdStrike, а також тих, хто приймав рішення встановити його на корпоративних компʼютерах.

Ібо нє*** класти свої яйця в одну чужу корзину

Іноватори х_єві

Інтернет став централізований
Проблеми клауда — 1% для майкрософт і 100% для всіх

МС робить красіву міну при поганій грі і спихує все на CS, при тому що саме сервіси МС лежать, і саме МС налажав

І все чого? Бо кляуд гайп

Те що CS викатило щось настільки масово без тестів і без canary це взагалі поза уявою

А всьо чо? Бо лемінги шукають в клауд срібну bullet і думають що клауд це якась shared model з паверпойнт

Ніяка це не модна shared model, це класика вендорства коли вендор ложить хер, бо проблеми ажур — 1% проблем для MS але 100% проблем для якоїсь лікарні

І не перший це далеко факап ажур, просто тепер епічного масштабу

і спихує все на CS,

але ж це cs
клауд не зробить твому ноуту блюскрін

то це виходить шо, лемінги шукають причину щоб спихнути на мс, хоча купа фактів вказує на cs?

Якщо ти лікарня чи банк і в тебе твоя іноваційна інфра в ажур, то в тебе контракт і SLA з ажур. А в медіа мона піску в очі насипати й тицьнути пальцем в краудстрайк. Але хто ж дозволив краудстрайк виливати апдейти куди і коли їм заманеться?

і шо? сьогодні конкретно хмари — тільки частина збою. Основна кількість — сині екрани на персоналках, робочих станціях і серверах, котрі сталися через криве оновлення cs.
А ви пишете «спихує на cs»
не спихує, cs — частина — а може й корінь — проблеми.

Основна кількість — сині екрани на персоналках, робочих станціях і серверах, котрі сталися через криве оновлення cs

🤣 та шо ти кажеш...
А що ще нада щось іще щоб положить ажур крім

сині екрани на персоналках, робочих станціях і серверах, котрі сталися через криве оновлення cs.

?

Проблема не в root cause

Проблема що орг типу мс не менеджить свою інфру як слід
А інша сторона проблеми, що «іноваційні» банки не менеджать ризики як слід, бо простіше спихнути це на мс

тобто причина — кс, але нє, ми кєкнимо і скажемо що винувати хмари і ажур. БО бачите ж — комп не працює. А якщо не працює комп, то — бадумс — не працює і ажур на цьому комлюхторі!
Так? я вірно зрозумів оце все ваше про лемінгів?

Ти не слухаєш?

Якщо в мене контракт з ажур — мені до лампочки яким там боком якийсь кс

Може ти і банк зрозумієш якщо вони тобі скажуть ну сорі твої гроші сьогодні недоступні бо у нас їх миші з’їли. Зайди завтра... але я от не з таких людей

яким боком твій контракт з ажур, якщо у тебе комп не включається?

Мій включається

Я до того що мс актівно спихує все вотетовсьо, але це їх не врятує. Плєбс схаває, а всякі VP в $insert_your_company> — ні

Якщо в мене контракт з ажур — мені до лампочки яким там боком якийсь кс

«Слышал звон, да не знаешь откуда он» ©
Может, ты даже скажешь, какие именно сервисы Azure были поражены? ;-)

Та там пів клауду галімих індусів, я працював з їхнім сапортом

У них там зара треш, регіони індії сруться за технарів і вводять прям якісь територіальні квоти на найм.
На подсосі у штатів сидіти ок, а в себе вдома бач можна вільний риночек й прикрити

Потрібна термінова деіндуізація. І чуствую дональду дуже легко буде на коника того сісти, враховуючи стони про вмираючий мідл клас

МС робить красіву міну при поганій грі і спихує все на CS, при тому що саме сервіси МС лежать, і саме МС налажав

Логика бредовая, тут явная ошибка CS, если бы ваша логика была правильная то когда рососия запускает ракету и попадает в электростанцию и пропадает свет то в пропаже света виновата не рососия которая запустила ракету а Украина, которая не сделала децентрализованную энергосистему

агага а українці звісно ні причомки, півкраїни за проффессора голосували ДВІЧІ

Не треба було з крокоділами в озері плавати, то й не треба було б відкушену ногу пришивать

Давайте от без абстрактних конєй у вакуумі, є SLA і є практики які в тебе питають на інтерв’ю

І з тим і тим у мс проблеми. Своїм RCA і відмазками вони можуть підтертися тепер

А при чому тут sla з ажуром якщо falcon agent це 3rd party software? Це те саме що винити ажур коли ти сам залив кривий білд своєї апки

Ну от коли в тебе буде лежати процесінг 6 годин то зрозумієш при чому і хто винуватий

Який сенс щось доводити

Тобто ви не розумієте різниці де sla провайдера, а де уже ваша відповідальність. Не працює megogo — подам в суд на інтернет провайдера

яка наша відповідальність? у мелкософта зі вчора onedrive став частково недоступний, тобто юзери не можуть отримати доступ до своїх файлів. де тут відповідальність мелкософта, а де відповідальність юзерів onedrive які підписку купили? як юзери можуть впливати на практику розкаток оновлень на серверах ажура на яких onedrive крутиться?

Ніяк, тут відповідальність мелкософта. А от віртуалки які не були доступні в ажурі на чкі клієнти самі встановили агентів, то проблема самих юзерів і тут не буде проблем с sla

ой та шо я справді розумію я ж просто чувак з інтернету, куди мені до аноніма з трьома коментарями

біжи постав сердечко наделі, такі як ти дерев’яні іноватори й переносять mission-critical в чужу інфраструктуру

світ блін лежить, майкрософт у нього не виноват, а тут якийсь чувак не по клауд-методічке дерзіт на майкрософт.

А от віртуалки які не були доступні в ажурі

кек
якщо для тебе ажур це віртуалки то з ким тут ще взагалі балакати про sla, пий далі свій cool-aid

якщо для тебе ажур це віртуалки то з ким тут ще взагалі балакати про sla

А какие именно сервисы Azure попадали, кроме клиентских виртуалок, конечно?

Ага, какой-то

просто чувак з інтернету

написал «many customers experienced issues with multiple Azure services in the Central US region». Так, всё же, какие сервисы лежали и, главное, почему?
З.Ы. Кстати, как этому

просто чуваку з інтернету

уже ответили,

If HA is that critical to you, then you need to set up an HA architecture.

(hint: проблемы были только в Central US и не затронули сервисы в других регионах и geo-resilient deployments). Так что ССЗБ, что

в тебе буде лежати процесінг 6 годин

— строй архитектуру хотя бы по мануалам вендора :-)

З.З.Ы. Проблемы с Azure в Central US, это, очевидно, проблемы Microsoft, но тупо строить критическую инфраструктуру без учёта выпадения региона — у всех вендоров бывают отключения дата-центров и у всех вендоров есть мануалы, как избежать неприятностей в этом случае.

Дада, канєш, пий кулейд тож

Так, всё же, какие сервисы лежали и, главное, почему?

Я тобі не нянька зайди в статус панель і почитай

строй архитектуру хотя бы по мануалам вендора

здається фанатізм зашкалює, може майкрософт спочатку сам по своїм мануалам будуватиме сервіси, а потім якийсь чел на доу буде розказувати який мелкософт пушистий.

Ad hominem тобі честі не робить, аеропорти, банки, лікарні, транспорт не працюють годинами, а майкрософт не винен. Не знаю шо ти куриш, але сорян це не моя проблема

и, главное, почему?

Уви нє, це нє главноє. Чи скоріше б сказати ми розходимось у понятті що тут главноє як причина

Главноє як причина — що мелкософт налажав по глобальному. А тобі очевидно главноє впертися і сказати так оні ж нє вінавати шо задеплоїли факап в свою інфраструктуру

тупо строить критическую инфраструктуру без учёта выпадения региона — у всех вендоров бывают отключения дата-центров

Ору

Ти навіть не відстрілюєш шо таке регіон? Там мінімум 3 датацентри в 500км один від одного. Не знаходиш що якось козирно на кожен сервіс планувати отключеніє регіона, а як випаде регіон то сидіти ровно на попє і слухати що сам дурак бо не запланував випадєніє регіона по мануалам вєндора?

Це сюр якийсь, яка любов до макрософт )) маркетологи недаром хліб їдять

Я тобі не нянька зайди в статус панель і почитай

Я то почитал, но кто-то, похоже, разносит непроверенные слухи :-)

може майкрософт спочатку сам по своїм мануалам будуватиме сервіси

Они и строят: остальные регионы не были затронуты.

Ad hominem тобі честі не робить, аеропорти, банки, лікарні, транспорт не працюють годинами, а майкрософт не винен.

Ты в слепом желании прикрыть задницу за лежавший 6 часов процессинг, несколько, скажем так, путаешься:
— «лежал» один регион Azure из множества (такое эпизодически бывает у всех вендоров)
— затронуло только те сервисы, которые были привязаны в этому региону
— если кто-то строит критически важные сервисы без geo-resilient, то он ССЗБ, потому что прямо и сознательно нарушает рекомендации вендора (это даже если не включать здравый смысл + мозг, чтобы для критической нагрузки строить multicloud-решения)
— большая часть неработавших

аеропортов, банков, лікарень, транспорту

не работала из-за кривого обновления CrowdStrike, а не проблем с сервисами Microsoft Azure

Збоїв було кілька і всієї інфи ніде нема

Я знаю факти
1) лежав регіон майкрософт, не факт що там мс сам не задеплоїв той CS на сервіси свої, ніхто крім команди в мс на інциденті не знає, моя думка просто прикриваються, збіг у часі занадто очевидний

2) вінда по всьому світу прийняла апдейт і впала тут ще можна сперечатись хто більше винен.

А ти вигоражуєш майкрософт, бо

ССЗБ

Сорян не прийнято

Вендор теж відповідає за власні сервіси й власні продукти. Це називається shared responsibility model

Можеш почитати ази тут

learn.microsoft.com/...​als/shared-responsibility

не работала из-за кривого обновления CrowdStrike, а не проблем с сервисами Microsoft Azure

Хоч на голові танцюй реально

The outage had widespread consequences, including the grounding of hundreds of flights from major aviation firms like American Airlines, Delta Airlines and United Airlines
www.techradar.com/...​ack-up-after-major-outage

Я втомився про святий майкрософт, вір у що хоч

всієї інфи ніде нема

Но ты утверждаешь, что

Збоїв було кілька

, да?

лежав регіон майкрософт

И они логично описали почему. Но предположим, что врут и

мс сам задеплоїв той CS на сервіси свої

. Лёг один регион, остальные даже не заметили этого. Отработала ли штатно инфраструктура Azure на выпадение целого региона? Да, вполне. Утверждает ли Microsoft, что весь регион не может упасть? Нет, наоборот.

major aviation firms like American Airlines, Delta Airlines and United Airlines

Ну если даже у тебя процессинг лежал 6 часов, то чего ожидать от IT-шников

American Airlines, Delta Airlines and United Airlines

? ;-)

Утверждает ли Microsoft, что весь регион не может упасть? Нет, наоборот.

Вообще утверждает.

learn.microsoft.com/...​s-overview?tabs=azure-cli

However, availability zones are far enough apart to reduce the likelihood that more than one will be affected by local outages or weather. Availability zones have independent power, cooling, and networking infrastructure. They’re designed so that if one zone experiences an outage, then regional services, capacity, and high availability are supported by the remaining zones. They help your data stay synchronized and accessible when things go wrong.

Это стандартный дизайн облачного провайдера: облако разбивается на регионы, регионы разбиваются на зоны доступности. Если в одной зоне начинаются проблемы, остальные зоны в регионе обеспечивают отказоустойчивость. Провайдет должен это корретно обеспечить, например, не делать обслуживание одновременно в нескольких зонах.

Любой адекватный дизайн системы поверх облака предполагет, что целый регион не выпадет, а если выпадет, то нужно ждать пока он поднимется.

Если у MSFT лежал целый регион, то сорян, это высокая степень некомпетентности со стороны MS и подстава для их кастомеров.

Вообще утверждает.

Не вижу в цитате чего-то типа «Risk: Region outage; Likelihood: Impossible». Наоборот, в руководстве «Azure Well-Architected Framework» прямо пишут:
Risk:
Region outage
Examples:
— Major natural disaster that affects a wide geographical area.
— Network or service problem that makes one or more Azure services unavailable in an entire region.
Likelihood:
Low

Любой адекватный дизайн системы поверх облака предполагет, что целый регион не выпадет, а если выпадет, то нужно ждать пока он поднимется.

Почитай же, наконец, мануалы построения надёжных систем хоть MS, хоть Amazon, хоть Google. :-)
Все вендоры пишут, что высокая надёжность обеспечивается только репликацией в другой регион. В зависимости от бизнес-требований, бюджета и возможностей приложений выбирается правильный дизайн. А после недавних серьёзных сбоев в облаках разных вендоров активно развиваются multicloud-решения.

Если у MSFT лежал целый регион, то сорян, это высокая степень некомпетентности со стороны MS

Очевидно, это серьёзный провтык, кто ж спорит. Некомпетентность? Вряд ли: потеря региона отработала штатно. Ни один мультирегиональный сервис не пострадал.

подстава для их кастомеров

Если кастомер не следует рекомендациям вендора, то он ССЗБ. Ну выпал бы регион из-за непреодолимых природных сил. Точно так же легли бы в нём сервисы. Тоже подстава от MS?
Подстава — это если кто-то что-то декларирует, но потом этого не выполняет. Вот недавнее удаление со всеми данными аккаунта автстралийского пенсионного фонда — это подстава.

Наоборот, в руководстве “Azure Well-Architected Framework”
Не вижу в цитате чего-то типа «Risk: Region outage; Likelihood: Impossible». Наоборот, в руководстве «Azure Well-Architected Framework» прямо пишут:

Когда читаешь то, что написано на microsoft.com, нужно понимать, что это пишут не совсем обязательно люди, у которых опыт посторения облачных решений, а группа людей, среди которых так же большой процент продажников, маркетологов, юристов, и «евангелистов», а специалистов по построению облачных решений на самом деле не так много, потому что они заняты собственно построением облачных решений.

И потом анализировать то, что ты читаешь, именно в этом контексте.

Например, открываем datacenters.microsoft.com/...​xplore?info=region_ukwest и видим: UK West, или, например, Canada East не имееют зон доступности (ака имеет только одну зону доступности вместо 3+ как должно быть в полноценном регионе). Упс, что делать? А давайте напишем, что так и должно было быть, и что на самом деле умные люди делают доступность деплойментом в разные регионы, это ж дешевлее, чем построить еще две зоны доступности в Канаде, и скажем хомячкам, чтоб читали что им умные люди написали и не задавали глупых вопросов.

Также накладывает отпечаток ранняя история самого Azure, в котором «зонами доступности» назывались разыне комнаты в одном здании, типа если в комнате сделать стену из гипсокартона, то это збс, уже две зоны доступности, что никто всерьез не воспринимал, и тогда пушили идею что «зона доступности не нужны, на самом деле умные люди деплоят в разные регионы (при том, что у других провайдеров в то время уже были реальные зоны доступности в разных датацентрах).

Также ни у одного вендора не будет проблем с тем, чтоб что-то продать кастомеру. Боишься, что наше облако упадет? Всего лишь за 80% к счету можешь купить воздуха в нашем облаке в другом регионе и все будет збс. А если и другой регион упадет, то вот тут вот несколько вендоров, которые всего лишь за немного $$$$ продадут тебе еще воздуха в малтиклауде. И вот почитай наш well architected framework, тут расписано, что это не мы косячим как провайдер, а ты неправильно читал.

Вряд ли: потеря региона отработала штатно. Ни один мультирегиональный сервис не пострадал.
On 18 July 2024, due to routine changes to the VM Host fleet, an update to the ‘Allow List’ was being generated for publication to Storage Scale Units. However, due to backend infrastructure failures, the address range information was missing for a significant number of VM Hosts. The workflow which generates the list did not detect the missing source data and published an ‘Allow List’ with incomplete information to all Storage Scale Units in the region. This caused Storage Servers to reject all VM disk requests from VMs running on VM Hosts for which the information was missing. Storage Scale Units hosting Premium v2 and Ultra Disk offerings were not affected by this problem.

Тебя это объяснение устраивает и типа тут все отработало штатно? Тот факт, что рутинное обслуживание было выполнено сразу во всем регионе вместо того чтоб сделать это в одной зоне или даже в маленькой части зоны это ок? Хорошо.

Читем дальше:

* Storage: Reduce batch size and increase inter-batch bake time for ‘Allow List’ deployment flow. (Estimated completion: 26 July 2024)
* Storage: Implement zone-aware safe rollout for the ‘Allow List’ deployment workflow. (Estimated completion: 15 August 2024)
* SQL: Zone redundant setup for metadata store as soon as additional capacity is available. (Estimated completion: November 2024)

т.е. оказывается что все пошло не штатно и по плану нужно делать по-другому, а именно не деплоить сразу весь регион, а деплоить отдельно зоны маленькими батчами, чтоб если что-то сломается, то что упала зона, а не весь регион.

Ок

How can customers make incidents like this less impactful?

* Consider Geo-resilient deployments

или другими словами «поскольку мы за 15 лет так и не усвоили, что делать обслуживание всех зон одновременно нельзя, дайте нам больше денег и делайте мультирегион.»

А что будет когда ты сделаешь мульти регион читай в следующей части.

А давайте напишем, что так и должно было быть, и что на самом деле умные люди делают доступность деплойментом в разные регионы, это ж дешевлее, чем построить еще две зоны доступности в Канаде, и скажем хомячкам, чтоб читали что им умные люди написали и не задавали глупых вопросов.

Давай ты не будешь выдумывать, но таки прочтёшь мурзилки? Можно даже и не от Microsoft :-)

Вряд ли: потеря региона отработала штатно. Ни один мультирегиональный сервис не пострадал.
What happened?

Between 00:00 UTC and 20:20 UTC on 13 July 2024, a platform issue resulted in an impact to the Azure OpenAI (AOAI) service across multiple regions... in the following regions — Australia East, Brazil South, Canada Central, Canada East, East US, East US 2, France Central, Korea Central, North Central US, Norway East, Poland Central, South Africa North, South India, Sweden Central, UK South, and West Europe

Збс, запилили мультирегион, но и он тоже упал, что же случилось? Неужели непреодолимая сила или природное явление? Метеорит размером с Техас упал на планету и разрушил всю инфраструктуру?

Нет:

The Azure OpenAI service has an automation system that is implemented regionally but uses a global configuration to manage the lifecycle for certain backend resources. A change was made to update this configuration to delete unused resources in an AOAI internal subscription.

Ок, как же пофиксить? Может быть сделать межпланетарный деплоймент?

How are we making incidents like this less likely or less impactful?

* We have changed the configuration policy to be regional
* We have tightened the regional makeup of workloads to less regions to further prevent widespread issues in the event of similar unintentional deletion or comparable scenarios.

Если облако ложится из-за того, что кто-то случайно что-то нажал, то не важно, ты делешь региональный депломент или межрегиональный — исходный риск остается. Тот, кто случайно ломает несколько зон за раз будет так же случайно ломать несколько регионов за раз. Но про это не напишут в Azure Well Architected Framework, до этого надо дойти самому.

(такое эпизодически бывает у всех вендоров)

Бывает, и каждый такой случай — это огромный про*б, который наносит непоправимый ущерб репутации облачного провайдера.

— затронуло только те сервисы, которые были привязаны в этому региону

логично

— если кто-то строит критически важные сервисы без geo-resilient, то он ССЗБ, потому что прямо и сознательно нарушает рекомендации вендора (это даже если не включать здравый смысл + мозг, чтобы для критической нагрузки строить multicloud-решения)

Как ты думаешь, сам Microsoft строит multicloud решения, или пользуется одним Azure?

не работала из-за кривого обновления CrowdStrike, а не проблем с сервисами Microsoft Azure

А сами сервисы Microsoft Azure почему не работали?

Как ты думаешь, сам Microsoft строит multicloud решения, или пользуется одним Azure?

Я — ХЗ. Но мануалы и ссылки на решения партнёров уже стали появляться и у AWS, и у MS.

А сами сервисы Microsoft Azure почему не работали?

Вот тут — https://azure.status.microsoft/en-gb/status/history ты всё сам найдёшь (Tracking ID: 1K80-N_8, What went wrong and why?).

Я — ХЗ.

Как же так, про это не написали в Azure Well Architected Framework?

Вот тут — https://azure.status.microsoft/en-gb/status/history ты всё сам найдёшь (Tracking ID: 1K80-N_8, What went wrong and why?).

Збс, т.е. это не crowdstrike поломал Azure, а сама MS.

500км

Тут в принципі мабуть набрехав щось з голови це скоріше про регіони, дистанцію мс не публікує, суті особо не міняє

Не знаходиш що якось козирно на кожен сервіс планувати отключеніє регіона

Цитирую мануал, который ты не читал: It would be ideal to mitigate every possible risk for every workload, but it’s not practical or cost effective to do so. It’s important to have an open discussion with business stakeholders so you can make informed decisions about the risks that you should mitigate.
Бизнес сам осознанно должен принять решение: платить намного больше денег за несколько более устойчивое решение или забить и смириться с потерями с случае маловероятного события. Это всегда работает :-)

а як випаде регіон то сидіти ровно на попє і слухати що сам дурак бо не запланував випадєніє регіона по мануалам вєндора?

Да, именно сам дурак ибо (тот же нелюбимый тобой мануал): Regardless of reliability targets, all workloads must have some mitigation for disaster recovery. If your workload demands high reliability targets, then your mitigation strategies should be comprehensive and you should reduce the risk of even low-likelihood events.
Поэтому, как выпал регион, ты должен был открыть готовый чек-лист и пошагово восстановить сервис в другом регионе или в облаке другого вендора.

Справді?

Ну так я почав з

Ібо нє*** класти свої яйця в одну чужу корзину

Іноватори х_єві

Так що не знаю що ти хочеш довести :)

Логика бредовая, тут явная ошибка CS

Я не знаю чи люди тут пам’ятають ті давні часи, але у віндовсі 98, XP та 2000 частенько віндовс падав з «синім екраном». Виною тому був не сам віндовс, а криві сторонні драйвери. Особливо часто падали драйвери відеокарт, бо більше всіх намагалися вимахуватися, женучись за фпс-ами. І на тому етапі розвитку людства вважалось «ну а що ж ти зробиш, драйвери ж мають мати доступ до заліза, а значить можуть крешити вінду».

Але ні, виявилось, що можна збудувати кращу архітектуру для драйверів, що Microsoft і зробив у Windows Vista (en.wikipedia.org/...​dows_Display_Driver_Model). NVidia та AMD тоді довго плювалися і плакали, бо то відклало реліз їхніх нових карт на рік, і дещо обмежело можливості робити дурнувані речі. Але, от чудо, ніхто не вмер і виявилося, що драйвер може падати менше, просто через правильну нову архітектуру. Більше того, навіть якщо драйвер падає, ОС може його перезапустити, і дуже швидко — найчастіше юзер навіть не розуміє, що відбулося.

Так от, Майкрософт додумався це зробити для драйверів відеокарт 15 років назад. Але досі, блін, не придумав схожого механізму для ізоляції ядерних компонентів антивірусів? Ну от якого чорта?

Але ні, виявилось, що можна збудувати кращу архітектуру для драйверів, що Microsoft і зробив у Windows Vista

Ну по тому, що пишуть в статті, виглядає, що попередня архітектура була просто дірявою — юзерські процеси могли шкодити один одному. Так що тут навіть не проблема виробників заліза була.

Але досі, блін, не придумав схожого механізму для ізоляції ядерних компонентів антивірусів? Ну от якого чорта?

Це суттєво складніше. Або антивірус суттєво обмежений у діях — не може зупиняти погані дії в ядрі, або він може зламати ядро.

Зберегтись від цього можна тільки запускаючи саме ядро під віртуалізацією, під якимось security manager-ом. Але і зараз процесори нижнього рівня не вміють віртуалізацію, і вона жере якісь ресурси.

Що відомо про ситуацію станом на зараз, думка експертів та рішення, як виправити проблему, — в матеріалі на DOU.

І так, CrowdStrike все ж задеплоїли на прод апдейт без тестування 🙄

Схоже зачепило усі країни «британського економічного альянсу».

Схоже зачепило усі країни «британського економічного альянсу».

Зачепило сервіси MS 365, їх багато хто використовує, і VPN не працював.

Тобто комерційні підприємства. І на мою думку це не випадковість. Особливо коли мова йдеться про Лондонську біржу та банки...

Є декілька факторів які вказують на те, що це може бути цілком спрямована акція, та можливо дірка у ситемі безпеки від Micrososft. Наприклад, я нещодавно виявив, що браузер Edge (Win 10) копіює кукі та усю історію з Google Chrome (а також можливо і з інших браузерів). В історіі Edge показує навіть кількість листів у Gmail (вхідні, віправлені, сміттєвий кошик та ін.), хоча не має доступу до акаунту Google та я користуюсь здебільш Chrome.

Edge (Win 10) копіює кукі та усю історію з Google Chrome

— Це означає, що система Micrososft, може мати доступ до різних систем з різним рівнем безпеки, не кажучи про конфіденційність особистої інформації...

Браузери вміли копіювати конфігурацію конкурентів ще в 00-х якщо не раніше. В цьому немає нічого несекьюрного

Копіювати конфігурацію браузера і формувати швидкі посилання з історії переглядів — це не одне й те саме. Це як мінімум фішинг. Веб-сервіси розглядають таку діяліьність як CORS шахрайство.

Це як мінімум фішинг.

Фішинг — це форма атаки з використанням соціальної інженерії, в ході якої зловмисник, маскуючись під надійний суб’єкт, виманює конфіденційну інформацію жертв. (ц)
Яким чином імпорт закладок чи історії з публічного профіля є фішингом?

Веб-сервіси розглядають таку діяліьність як CORS шахрайство.

Яким чином використання закладок чи навіть кук є Cross-Origin Resource Sharing шахрайством?

Яким чином імпорт закладок чи історії з публічного профіля є фішингом?

Які закладки?! — Історія перегляду сайтів це конфіденційна інформація між сервісом, який надає інформаційні послуги, та відвідувачем. Саме тому законодавство ЄС та інших держав вимагає повідомляти при використанні cookies на сайтах.

Яким чином використання закладок чи навіть кук є Cross-Origin Resource Sharing шахрайством?

Я не буду тут писати вам лекції по безпеці в інтернеті. Та не треба мені робити «копі-паст» витримки з укр. Вікіпедії, в якій дано визначення у дуже вузькому значенні. Фішинг це насамперед вид інтернет-шахрайства, метою якого є отримання доступу до конфіденційних даних користувачів — логіни та паролі. Копіювання історіі браузера (запитів за адресою), це один з векторів CORS атак.

історія перегляду — це інформація, що зберігається локально в профілі користувача. і від того, що її буде скопійовано в інший локальний профіль користувача жодна приватність не порушується.

копіпаст був не з вікіпедії, а з сайту есет.
не треба мені читати лекції «по безпеці в інтернеті», бо лекція, де змішується корс, фішинг, локальна історія відвідувань буде фіговою.

Ви займаєтесь виправданням помилки, яка є фактом: В світі масштабний технологічний збій. Windows — дирява... І я навіть на 99% впевнений, що цей збій винек саме із-за copy-past діяльності Microsoft. Бо не тільки Windows працює з алгоритмами SHA, тим паче з оновленими, що при копіюванні даних призводить до їх пошкодження в пам’яті. Це стосується різних електронних підписів, ключей, та ліцензій.

І я навіть на 99% впевнений, що цей збій винек саме із-за copy-past діяльності Microsoft.

Вже купу разів публікували посилання на таку ж саму проблему із CrowdStrike в Linux. Але ж ні, haters gonna hate...

Додайте посилання. Що CrowdStrike оновлює в Linux? Навіщо ви тут «..gonna hate..»? Вам за це платить амереканський госдеп, чи компанія Microsoft? Ви знаєте що таке Хост та клієнт-серверний додаток? — Це саме те, про що я писав вище... Під час обміну даними використовуються алгоритми SHA, де будь-яка несумісність чи заміна алгоритмів призводить до ушкоджень (змінює біти у пам’яті).

Про лінукс news.ycombinator.com/item?id=41018029

+ чувак шо рулить CS, ще колись рулив McAfee, і там були схожі факапи

Ну а так да, якийсь нездоровий пієтєт до майкрософта тут в налічії.

Мабуть коли їх раптом бабахне струмом, то вони порадять з собою мультіметр завжди носити і завжди заземлятись при включанні ноутбука

Одна з особливостей Linux: Це ОС яка нічого сама не встановлює та не оновлює.

якийсь нездоровий пієтєт до майкрософта тут в налічії

— Виправдання фішингу під брендом «Microsoft».

Мабуть коли їх раптом бабахне струмом...

— Їх не бабахне. Проблеми будуть у клієнтів, а для майкрософта та партнерів, це додаткова робота. Від них залежить робота решти...

Скурвився й лінукс, вибішує часом автоматичний апгрейд в убунті, коли забуваю вимкнути

Я ж казав, казав — не можна росіянам довіряти, то їхні ДрВеб та Касперський усе поломали!
Як кажете? Не росіяни, а американська CrowdStrike? Ну... Ну... Ну, то з ким не буває. Усі помиляються. Треба день-два почекати і усе налагодиться. Дякуємо за розуміння ))

Не росіяни, а американська CrowdStrike
Dmitri Alperovitch co-founded and became the chief technology officer of CrowdStrike,
Born in Moscow in the Russian SFSR, a constituent republic of the Soviet Union

Бля і тут кацапи. Вже нічого поламати без них не можна?

як скрізь можан росіян бачити?)
чувак же мігрував ще дитиною після розвалу совка..та і сама фамілія натякає..

То сарказм був на тему що усюди бачать руський слід

чувак же мігрував ще дитиною

Дима! Да, Алперович ты, не оборачивайся — за нами могут следить...
помнишь, как в 13 лет ты хотел стать разведчиком?

сама фамілія натякає..

на що саме?
на історію такого собі Рудольфа Івановича Абеля, він же Мартін Колінз, він же Еміль Голдфус, він же Вільям Генріхович Фішер?
Лейб Лазаревич Фельдбін?
великий нелегал Арнольд Генріхович Дейч? останній до речі плив до Америки на пароплаві Донбас, але не доплив — торпедувала німецька субмарина

помнишь, как в 13 лет ты хотел стать разведчиком?

Я космонавтом хотів бути. Але то таке. Як то кажуть «И шо?». Не здається що такі закидони це і є расизмом проти якого ми наче боремось?

Зранку:

згадую, що в мене також стоїть Crowdstrike на робочій машині 🫨
згадую, що в мене mac 😌

Скількі вінди на критичних сервісах.

Ви так кажете ніби сервер на ніксах кривий сторонній софт не зможе покласти

Ну там складніше все-таки.

Хіба? В того ж crowdstrike на той же лінукс цілком собі kernel module, якщо там виявиться баг — наслідки будуть ідентичні, кроки для виправлення теж плюс-мінус ідентичні.

Цікаво, і багато є таких, хто поставить собі левий kernel module на критичні сервери?

Ну так на вінду теж всяку фігню можна було б і не ставити. Але ж це нікого не зупиняє. Плюс в корпораціях принцип простий — що біг секуріті бос скаже те і стоятиме.

Більше, ніж Вам здається! Дійде софт до якоїсь там сертифікації, аудиту чи комплаєнсу, прийде державний регулятор, суворо подивиться і спитає «а де тут у вас антивірус?». І йому до лампочки, що у вас Лінукс, що питання дебільне і писали його обмежені люди. Йому треба або поставити, або не поставити галочку. І заставить вас бізнес поставити лівий kernel module на критичний сервер.

Після останніх галерних проєктів скажу — не складніше.
Копрорації зіпсують все, і з Linux це зробити навіть простіше.

Ось-ось, треба боротися за різноманітність і інклюзивність ОС! Іноді зоопарк систем тільки а плюс.

Ти навіть не уявляєш. Слава Богу що ще більше на критичних сервісах застарілої вінди яка не оновлюється

Не стільки на вінді, скільки на голці AD сидять.

Скількі вінди на критичних сервісах.

Так у цьому році cs лінукс теж поклав. І теж у ядрі.
access.redhat.com/solutions/7068083

Скількі вінди на критичних сервісах.

Дик, а які саме критичні сервіси впали? Системи реєстрації у парі аеропортів? Чи нова пошта це критичний сервіс?

CrowdStrike Engineering has identified a content deployment related to this issue and reverted those changes.

Workaround Steps:

Boot Windows into Safe Mode or the Windows Recovery Environment

Navigate to the C:\Windows\System32\drivers\CrowdStrike directory

Locate the file matching “C-00000291*.sys”, and delete it.

Boot the host normally.

той момент коли «а нашо нам той сисадмін на постійній основі? воно ж і так працює? за шо йому гроші. платити, за те що він сидить цілий день?», а потім такі «аааа, всі адміни зайняті і морозяться, хто ж нам допоможе нажати ті кляті 3 кнопочки?»)))

Те-саме з програмістами. Зараз багатьох звільняють бо завдяки АІ вони стали більш еффективні. Ок... Подивимося якої заспівають через якийсь час, коли виявиться що то було фатальною помилкою.

INVESTIGATING: Access to IBM Cloud Services
Component: IBM Cloud
Location: Washington DC, Osaka, Sao Paulo, London, Dallas, Sydney, Tokyo, Frankfurt, Madrid
Start time: 19 Jul 2024, 8:20 AM local time
Update time: 19 Jul 2024, 9:57 AM local time
Severity: Severity 1
— 2024-07-19 06:56 UTC — INVESTIGATING — We are aware of the issue and are currently investigating. More information will be provided as it becomes available.

видно зрозуміли, що проблема на стороні клієнтів з Win+CrowdStrike і просто цей інцидент прибрали, без будь-яких коментарів

Нарешті відділ інклюзивності дав свої плоди

Релізнули в прод в п‘ятницю

Ще не вечір)

гірше ніж p1 бо через сраку релізнуте може бути тільки p1 бо попередній p1 був через сраку мітігований ))

У нас в Австралії ця ***ня почалася якраз під вечір, десь о 3-4рм. Співчуваю нашому ІТ сапорту, кілька сот машин потрібно вручну починити.

ого! як там у Австралії? правда що дівчат мало? розкажіть як там жити

як там у Австралії?

Крокодили в туалетах, павуки в тапках, кенгуру забирають їжу на вулиці

правда що дівчат мало?

Та ні, досить багато, особливо наших після повномасштабного приїхало. В цілому якщо не дурень, слідкуєш за собою і маєш хоч якісь соціальні хобі, то все знайдеться. Все це ниття в інтернеті про те що тут самотні чоловіки з відчаю стіни їбyть то висери ображених на життя двачерів.

розкажіть як там жити

Мені подобається в цілому.

дякую, я б туди поїхав чисто заради віндсерфінгу бо Крим накрився, в Одесі у морі міни а Київське море закрито для катання, сукабля

а двач я не читаю, я читав соціальні дослідження про гендерний перекос у країні

соціальні дослідження про гендерний перекос у країні

я його не читав. знайшов собі дівчину тут, живемо разом зараз. до цього зустрічався з декількома тут, один раз з австралійкою.
все можливо.

Підписатись на коментарі