Що відомо про глобальний ІТ-збій, спричинений оновленнями CrowdStrike. Реакція компанії, наслідки та що робити (UPD)

19 липня у світі стався глобальний збій комп’ютерів з Windows, які під час завантаження видавали «синій екран смерті» (BSOD). Про проблеми в роботі повідомляли авіакомпанії, банки, мобільні оператори та інші компанії по всьому світу. Наприклад, Федеральне управління цивільної авіації США повідомило, що всі рейси авіакомпаній Delta, United і American Airlines скасовані через «проблеми зі зв’язком».

В Україні сьогодні сталися збої в сервісах Нової Пошти, Sense Bank, Vodafone та інших компаній. На разі повідомляють про відновлення «Нової пошти».

Проблема викликана невдалим апдейтом від компанії CrowdStrike, який спричинив проблеми із пристроями Windows, викликаючи «синій екран смерті» на ПК.

Що за компанія CrowdStrike

CrowdStrike — це кібербезпековий провайдер, сервіси якого використовують компанії в усьому світі. Компанія пропонує рішення з захисту з 2012 року.

У 2023 році CrowdStrike посіла третє місце в рейтингу Fortune Future 50 і стала єдиною компанією з кібербезпеки, яка увійшла до топ-20 у списку Fortune Future 50 2023. У фінансових результатах станом на 31 жовтня 2023 року, компанія зазначила, що її кінцевий ARR (річний відсоток доходу від інвестицій, який базується на початкових грошових витратах) перевищив 3 мільярди доларів.

Також на сайті компанії йдеться, що CrowdStrike посідає 298 місце у списку Fortune 500.

Що відбулося

«Розробники опублікували оновлення, яке не до кінця протестували, і у всіх кінцевих системах Windows під час завантаження вийшов глобальний збій», — розповіли DOU фахівці з кібербезпекової компанії UnderDefense.

У CrowdStrike вже підтвердили проблему і відкотили несправне оновлення.

CrowdStrike визнала проблему і працює над її вирішенням, радячи користувачам не відкривати індивідуальні тікети в службу підтримки через масштабність проблеми.

Оновлення значно вплинуло на корпоративних клієнтів, повідомляється про тисячі постраждалих пристроїв, включаючи критичні сервери і вузли SQL. ІТ-відділи зменшують шкоду, видаляючи файли, пов’язані з CrowdStrike, — йдеться на Reddit.

Водночас журналіст і редактор The Verge Том Уоррен на своїй сторінці в Х зазначив, що виправлення цієї проблеми може затягнутися. І пояснив причину: комп’ютери, на яких стався збій, мають бути в режимі онлайн, але вони офлайн — власне, через проблеми з CrowdStrike.

Microsoft також повідомила про проблеми з роботою сервісів Microsoft 365. Зараз користувачі можуть не мати до них доступу. Поки що причиною збоїв називають «зміну конфігурації в частині внутрішніх робочих навантажень Azure».

«Спостерігаються проблеми в Windows, Microsoft 365, Microsoft Defender, XBOX тощо. Оскільки на цьому софті працює багато критичних сервісів, то маємо такий глобальний збій. Питання, чи це пов’язані кейси, чи ні. Тут пишуть, що це пов’язано.

Сама Microsoft вказує технічну проблему, але звідси не зрозуміло, чи це внутрішня проблема, чи викликана іншими факторами. У будь-якому випадку, це не виглядає як кібератака.

Такі збої періодично трапляються у всіх. Не всі вони такі жорсткі, як сьогодні, але будь-яка сучасна ІТ-інфраструктура працює на великій кількості пов’язаних між собою сервісів та апаратного забезпечення», — коментує Олександр Краковецький, CEO DevRain, Microsoft Regional Director.

UPD від 18:40: У пресслужбі Microsoft на запит DOU надали таку відповідь:

«Нам відомо про проблему, яка впливає на Windows девайси через оновлення від сторонньої програмної платформи. Ми очікуємо усунення проблеми найближчим часом».

Що радять робити

У коментарі для DOU фахівці з кібербезпекової компанії UnderDefense поділилися таким алгоритмом:

  • Необхідно зайти у Windows в безпечному режимі
  • Перейти до C:\Windows\System32\drivers\CrowdStrike
  • Знайти файл «C-00000291*.sys», і видалити його.
  • Перезавантажити комп’ютер у звичайному режимі.

Також можна почекати кілька годин і перевантажити CrowdStrike.

️У Держспецзв’язку опублікували інструкцію для тих, хто працює на Windows.

UPD від 18:40: Денис Несін, CEO & Founder cybersecurity-компанії DarkCloud з екосистеми Genesis, у коментарі для DOU розповів деталі про збій та надав поради, як компаніям покращити свою кібербезпеку.

«На нашу думку, причина сьогоднішнього збою в бізнес-операціях багатьох компаній світу, полягає в недотриманні безпеки ланцюга постачання всіма його учасниками. На жаль, це призвело до болючих наслідків для компаній — як репутаційних, так і фінансових втрат.

Для підвищення безпеки ланцюга постачання необхідно:

  • системно аналізувати ризики безпеки для виявлення слабких місць і потенційних вразливостей в ланцюзі постачання;
  • обирати надійних постачальників та проводити регулярні перевірки їхньої безпеки;
  • перевіряти, чи є висновки незалежних аудиторів щодо відповідності окремого розробника вимогам міжнародних стандартів безпеки;
  • тестувати оновлення програмного забезпечення і систем безпеки та аналізувати їх вплив перед впровадженням в прод;
  • постійно моніторити й аналізувати події інформаційної безпеки, а також робити аудит дотримання безпекових стандартів всіма учасниками ланцюга постачання;
  • використовувати стійкі алгоритми шифрування для захисту даних від несанкціонованого доступу;
  • впроваджувати ефективні механізми ідентифікації та автентифікації для обмеження доступу до критичних систем і даних;
  • розробляти й впроваджувати плани реагування на інциденти безпеки — для своєчасної реакції, швидкого та ефективного вирішення інциденту;
  • підвищувати обізнаність співробітників компанії через регулярні тренінги, внутрішню комунікацію та проходження сертифікації в спеціалізованих інститутах та залучення фахівців.

Суворе дотримання всіх кроків, рекомендованих фахівцями з кібербезпеки, допоможуть запобігти виникненню таких інцидентів, як сьогодні, і забезпечити безперервність бізнес-операцій».

UPD від 20 липня: Sales Engineer у BAKOTECH Олександр Шаруєв у коментарі для DOU проаналізував імовірні причини збою та поділився думками, як ця ситуація може вплинути на репутацію CrowdStrike.

«Найкритичнішим у цій ситуації є те, що кожну уражену систему необхідно відновлювати вручну, тоді як організації можуть мати 1 000, 10 000 або навіть понад 100 000 кінцевих точок. Це значно сповільнює процес повернення систем до робочого стану та збільшує невдоволеність користувачів.

Цікаво, що не так давно, 26 червня, була помічена схожа ситуація з Falcon Sensor: після чергового оновлення модуль виявлення загроз навантажував ядро процесора на 100%, що могло призвести до сповільнення або повного збою роботи системи.

З цього я можу зробити висновок, що CrowdStrike має проблеми з процесом розробки та впровадження оновлень своїх продуктів, що підриває довіру до неї як до компанії-виробника критично важливого програмного забезпечення.

На мою думку, однією з можливих причин таких проблем може бути прагнення CrowdStrike впроваджувати нові, не до кінця перевірені технології, задля збереження статусу інноватора та лідеру ринку. Щоб відповідати очікуванням інвесторів та замовників, компанія обрала постійно додавати нову функціональність, нехтуючи при цьому стабільністю продуктів.

Як це вплине на користувачів CrowdStrike Falcon? Рано чи пізно всі системи будуть відновлені, CrowdStrike вже виправив помилку в оновленнях, тому конкретно ця проблема більше не має повторитися. Чим швидше користувачі відновлять роботу систем — тим менше збитків вони понесуть.

Як це вплине на компанію CrowdStrike? Репутація компанії, що забезпечує кібербезпеку мільйонів користувачів, є її найціннішим активом. Цей інцидент — серйозний удар по репутації, який може відвернути деяку частину замовників від поновлення ліцензій, а ті, хто мали намір вперше придбати рішення безпеки від CrowdStrike, двічі про це подумають.

CrowdStrike знадобиться значна кількість зусиль і часу, щоб виправити свою помилку і повернути репутацію привабливого виробника рішень кібербезпеки».


Матеріал доповнюється...

👍ПодобаєтьсяСподобалось10
До обраногоВ обраному0
LinkedIn



45 коментарів

Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.

Цікаво які відчуття у того чувака з CrowdStrike, який закомітив ті ченжи..його ж потім колись на співбесіді запитають про челенджи, досягнення і тд.

Використає Нюрнберзький захист звісно!

Йому одна дорога — в тестіровщики :))

Йому одна дорога — в тестіровщики :))

— а мой друг — сервер сломал!
— он хакер?
— он мудак!

Причина була — помилка з ділення ну нуль, яка траплялась ядрі Windows.
P.S. 98 вінда вилітала з синім екраном стабільно два рази на день, усі матюкались і роками усе було як було. Навіть отаке було www.youtube.com/watch?v=yeUyxjLhAxU Сьогодні пів дня збій, раз на 10 років, тобто бігом зафікстили відкатили і т.д. — караул на усю планету. Індустрія працює зовсім з іншими вимогами до якості : тестування, розгортання і тощо. Проблеми з uniatialized ponter access та division by zerro і т.д. як були з 50-тих так і є.

Проблема в тому, що тод системи примусово не оновлювались і як ніде працювало правило «працює — не чіпай». Плюс, залежність від систем була менш критичною і менше ланцюгових залежностей в самих системах.
Я зараз взагалі не знаю, чи можна користуватись віндою без інтернету.

Win98 была кажуальная версия для нетребовальных товарищей, где стабильность была принесена в угоду максимальной совместимости с MS-DOS

к тому моменту на рынке была NT 4.0 для другой целевой аудитории и намного более защищенная и стабильная

Да паралельно с 98-й была и двушка, Windows 2000 это следующая на ядре NT, но поскольку надо было работать с софтом под DOS не все могли поставить. Только с пришествием XP народ реально стал переходить на NT ядро или на UNIX : Linux, Mac і т.д. До распространения Pentium 4 и AMD Atlon тоесть финансово доступного железа которое это все тянуло, с по-сути пришествием современной еры — синий экран был злободневной особенностью. Как и создание бакапов в ручную переводческой записью на пару дискет и т.д. Перспектива потерять дни, а то и месяцы работы была вполне реальной. Навернется и форматируй диск по новой.
Уже XP можно было практически не переустанавливать, кроме как после абгрейда оборудования.
Сейчас один такой злой — караул на всю планету, юзера расслабились.

еще раз, не надо валить в кучу «народ», которому важно, чтобы его любимая досовская игрушка шла в винде со звуком, и теми, кто работу работал

особенно смешно, если «народ» в данном случае это Украина после приобретения незавимости, где все поголовно были нищими, а 99.9% софта пиратили

Да при чем там любимая игрушка. Была куча скажем бухгалтерского софта, с разными трюками типа статического оверлея как и в игрушках — которые на ядре NT не работали (хотя в емуляторах DOS на Linux работало как тогда так и по сегодня т.к. там контейнеры по сути). Мне в Универе кучу разнообразного DOS софта приходилось пользовать и т .д. Года до 2003 DOS софт еще массово применялся и не весь шел на на ядре NT потому что это защищённое ядро.

Денис Несін, CEO & Founder cybersecurity-компанії DarkCloud з екосистеми Genesis, у коментарі для DOU розповів про імовірні причини збою та надав поради, як компаніям покращити свою кібербезпеку.

І все сказане далі — високорівневий копроративний© бла-бла-бла, який не може бути забезпечений навіть монстрами розміром з Microsoft і нічого не робить крім реклами його компанії.

Здається, я зрозумів один з пунктів сучасної стратегії редакції DOU — імітувати LinkedIn якомога ближче. Щоб рецепти «успішного успіху» лізли зі всіх дір, підтримані самими підписниками.
Але є проблема: LinkedIn вже є і повторити не вдасться.

Гарний маркетинговий рух, по-перше, показали, що Windows ще хтось користується, по-друге, що дуже багато залежить від Windows, по-третє, хакерам підсвітили, й тепер можна продати ще якусь додаткову функцію «SafeUpdate» корпоративним клієнтам

по-друге, що дуже багато залежить від Windows

І треба зменшувати цю залежність.

й тепер можна продати ще якусь додаткову функцію «SafeUpdate» корпоративним клієнтам

Які вже побігли в Apple з питанням «а що у вас замість Active Directory?»

Можливо я вас здивую, але «Windows ще хтось користується» — так, майже всюди. Це можливо побачити коли працюєш на government сектор, і це я не про український.

Проблема в тому, що саме корпоративні люди побачать все що завгодно, але не сарказм. Як у історії:

— Шефе, у нас проблема...
— Скільки раз повторювати: у нас нема проблем! У нас є чудові можливості.
— Шефе, у нас є чудова можливість відновити знищену базу даних проду.
— %ля...

А ловити треба можливості бо CrowdStrike відкрили вакансію з Go

Не хо розчаровувати але на подібні вакансії щас черга до ченная ;)

Після збою навіть більшою стала, але тоді треба шукати їх конкурентів, може там черга зменшилась

А чому мовчить Microsoft? Не сервіси CrowdStrike впали — впала вінда через помилку в одній з програм.

Питання чому вінда так легко падає

Все що завгодно можна уронити кодом, що лізе у первооснови рантайму.
Врятуватись від цього можна тільки допоміжним рівнем емуляції і контролю — це як вся Windows працювала б в окремій віртуалці.

Все що завгодно можна уронити кодом

Це не годна отмазка. Звісно все можна уронити кодом, але для того щоб що завгодно критичне не падало існують процеси тестування, релізу й чендж менеджмента

Проблема на в коді і не в клаудстрайк.

Проблема в тому що клауд вендор, який на сікундочку має 30% ринку, ложить болт на ці процеси і релізить шо попало наприклад в той же managed Exchange чи скл сервер.

І абсолютно неважливо де і як це вилізло. Це в них не вперше. Процеси штука така, що якщо роблять на от’єбісь в одному місці — роблять на от’єбісь усюди

Це не годна отмазка.

А я і не пропонував це за одмазку.

Звісно все можна уронити кодом, але для того щоб що завгодно критичне не падало існують процеси тестування, релізу й чендж менеджмента

+100.

Проблема в тому що клауд вендор, який на сікундочку має 30% ринку, ложить болт на ці процеси і релізить шо попало наприклад в той же managed Exchange чи скл сервер.

Це про MS? У них теж із тестуванням погано.

Процеси штука така, що якщо роблять на от’єбісь в одному місці — роблять на от’єбісь усюди

Тоді це загально-цивілізаційна криза, не находите? ;)

Але навіть при цьому я бачу місця, де якість підтримують.

Тоді це загально-цивілізаційна криза, не находите? ;)

Так enshittification же! )

Питання чому вінда так легко падає

Бо cs встановлює драйвер, і впал саме драйвер.

чому вінда

Це не перший раз. Ось для лінукса у цьому ж році:
access.redhat.com/solutions/7068083

QC не потрібні!

Інженери повинні відчувати відповідальність за код, котрий вони пишуть!

:)

Недарма кажуть, що пʼятниці тільки RO. Поспішили релізнутися, от і мають :)

вони не протестили апдейт це по-перше, і по-друге що не накатили апдейт спочатку для малої групи користувачів і не моніторили проблеми — а всім одразу залили.
Якісь рукожопи, цікаво дізнатися результати post mortem інциденту

Теж здивований, така серйозна контора, і що, оновлення не згруповані, скажімо 10 груп, і оновлення через годину кожній групі, після успіху попереднього оновлення.

Там не годину, там дві доби треба.

Ну подивимось, чи почнуть робити так.

я б ще вмакнув венду яка чомусь не вміє після кількох падінь вимкнути фейлений драйвер при наступному завантаженні.
і мелкософт вцілому, який в своєму клауді дає вендорам можливість розливати апдейти в ріалтаймі, без власного канарі.

я б ще вмакнув венду яка чомусь не вміє після кількох падінь вимкнути фейлений драйвер при наступному завантаженні.

Ну і як ви пропонуєте це зробити, коли система в стані, що навіть записати щось кудись вже не може?

Щоб це спрацювало, треба 1) енергонезалежний лог, 2) запис в ньому всеї процедури старту, 3) порівняння записів, що саме викликано і не завершилось, і все це так щоб під керівництвом окремого secure-шара. А де його взяти?

все вона може раз вже читає файли драйверів для завантаження в памʼять.

Я так розумію, досвіду програмування під ядро у вас ноль, і не розумієте навіть частково, де можуть бути проблеми.

я так розумію досвіду адміністрування вінди у вас нуль і ви не знаєте ні про банальний boot log, який саме для цього і створений, ні про WPA але не розумієте де закінчується ваша експертиза коли дуже хочеться написати токсичний комент

я так розумію досвіду адміністрування вінди у вас нуль і ви не знаєте ні про банальний boot log, який саме для цього і створений

Покажіть мені, о досвічений колего, як цей boot.log:
1) Пишеться в сховище, яке захищено від всіх проблем ядра, включаючи ті, при яких структура памʼяті розбита вщент і нема доступу до стеку драйверів диску (тобто зкомандувати щось записати вже неможливо).
2) Аналізується автоматично якимось засобом, який стартує ще до проблемних security-драйверів і детектує, що для драйвера XXX помітка starting зʼявилась, а started — ні.
3) Цей засіб, який працює на рівні «над» всім процесом запуска, детектує проблемний компонент і робить відповідну дію (відкотити оновлення, пнути адміна, і т.п.)

Вангую — не розповісте, бо його нема. Це хіба що в підході IBM це існує на рівні якогось LPAR manager чи як там його звуть сьогодні, і то — їм керує людина. Або окремий security CPU, як в одній залізяці, що мав в проєкті в [censored]. Ще є IPMI і інші засоби віддаленного керування, але про них ви навіть не намагались згадати, але чомусь згадали WPA, який тут ніяким боком. Що у нас, наприклад, ArsTechnica пише?

> The first and easiest is simply to try to reboot affected machines over and over, which gives affected machines multiple chances to try to grab CrowdStrike’s non-broken update before the bad driver can cause the BSOD. Microsoft says that some of its customers have had to reboot their systems as many as 15 times to pull down the update.
> If rebooting multiple times isn’t fixing your problem, Microsoft recommends restoring your systems using a backup from before 4:09 UTC on July 18 (just after midnight on Friday, Eastern time), when CrowdStrike began pushing out the buggy update. Crowdstrike says a reverted version of the file was deployed at 5:27 UTC.
> If these simpler fixes don’t work, you may need to boot your machines into Safe Mode so you can manually delete the file that’s causing the BSOD errors.

І все це вже ручні операції, які вимагають особистої присутности, чи хоча б віддаленного керування як в IPMI. І, на щастя, тут хоча б Safe Mode працює. Іноді (з іншими проблемами) бувало, що і воно не дало раду.

А так — да, в простих випадках boot.log може підказати:) досвідченому адміну з локальним доступом:)

ні про WPA

А ще ви знаєте карате, кунфу і багато інших слів.

А ще мені цікаво, як ви спочатку лаяли вінду, а потім, коли я вказав, що в поточній інфраструктурі її роботи просто нема засобів такої надійности, почали ревностно її захищати ;\

але не розумієте де закінчується ваша експертиза коли дуже хочеться написати токсичний комент

Вам таки треба в дзеркало дивитись перед тим, як писати такі коменти. Бо «експертиза» щодо серйозних проблем не просто з драйвером якоїсь миші, а того, що лежить в самій основі процесу функціонування ядра — а такий security driver мусить влазити геть усюди — у вас і не починалась.

Про «токсичний комент»... ви почали першим, коли написали повну маячню про «все вона може».

Покажіть мені, о досвічений колего, як цей boot.log:
1) Пишеться в сховище, яке захищено від всіх проблем ядра, включаючи ті, при яких структура памʼяті розбита вщент і нема доступу до стеку драйверів диску (тобто зкомандувати щось записати вже неможливо).
2) Аналізується автоматично якимось засобом, який стартує ще до проблемних security-драйверів і детектує, що для драйвера XXX помітка starting зʼявилась, а started — ні.

наскільки я памʼятаю вінда вміла це робити і пропонувала ребутнутись в safe mode коли кілька разів не змогла завантажитись нормально. ця фіча потребує допилювання і буде робити те про що я казав

наскільки я памʼятаю вінда вміла це робити і пропонувала ребутнутись в safe mode коли кілька разів не змогла завантажитись нормально

Навіть з одного разу було.
Да, це як раз робиться методом близьким до того, що я описував. Просто на початку завантаження ставиться прапорець dirty boot (назва умовна, не памʼятаю точної), а в кінці — знімається. Або невеличкий лічильник, одного байту досить, в safe при досягненні, наприклад, 4. На першому етапі для читання-писання диску досить BIOS, чи аналогу з EFI.

Але розширяти цей механізм на конкретні деталі, вміст boot.log, ніхто поки не робив.

На перший погляд писати історію таких boot.log у якомусь машинно-читовному вигляді у маленький окремий розділ — нема заборони. Але я тут можу чогось не знати. А якщо не можна писати... то тоді вже зовсім складно, я не знаю, де його накопичувати. (Віддавати по мережі у центр?)

(NB1: І якщо це просто битий драйвер, то спрацює. А якщо коварний вірус, він може і в окремому розділі витирати дані.

NB2: Я розмірковую в варіанті, що один останній запис в лог робиться коли ще драйверний стек живий.)

От і маємо зараз, що для більшости систем або ходи по IPMI/AMT/etc. (включаючи варіанти remote KVM), або ногами.
Готових рішень не зробили, або зробили дуже локально.

Клауд окремо, CrowdStrike окремо
>> We are aware of an issue that started on July 18, which resulted in customers experiencing unresponsiveness and startup failures on Windows machines using the CrowdStrike Falcon agent, affecting both on-premises and various cloud platforms (Azure, AWS, and Google Cloud).It’s important to clarify that this incident is separate from the resolved Central US Azure outage (Tracking Id: 1K80-N_8).

Не вистачає примітки про те, що ці зміни безпосередньо зачеплять тих кінцевих користувачів, які мають на своїх ПК встановлений софт від КраудСтрайку.

Яка прикрість.
Через 50 років таких збоїв будуть боятися більше ніж війни. Бо ні в туалет не сходиш — ні з квартири не вийдеш)))

або взагалі твоя секс-іграшка вирішить закосплеїти анігдот про +2/-2

Такі збої періодично трапляються у всіх.

Ахаха топ реакція 🤣 хто винуват? невістка
Ще гірше що це від майкрософт лунає

Таких збоїв у всіх не трапляється

Підписатись на коментарі