Глобальний збій. Знову. На цей раз Cloudflare

Чверть Інтернету знову «лягла» — цього разу через масштабний збій у Cloudflare. Недоступним був навіть DOU, і доволі довго.

До цього падали AWS, а потім і Azure. Тепер настала черга Cloudflare. Якщо так піде й далі, то окрім графіків відключення світла у нас будуть ще й графіки відключення Інтернету 😁

Ось що пишуть користувачі Reddit про причини та масштаб події:

azthal

Справжня відповідь у тому, що для більшості клієнтів використання Cloudflare все одно вигідніше, ніж утримувати власну інфраструктуру. Реальний аптайм буде вищим, не кажучи вже про економію коштів. Це як авіаперельоти: один із найбезпечніших способів подорожувати — але якщо катастрофа все ж трапляється, наслідки катастрофічні. Онлайн-сервіси добре масштабуються, і чим вони більші, тим дешевшими стають послуги, тому новим конкурентам дуже складно зайти на ринок.

chemchris

Подумайте про це як про дороги. Усі користуються трасою I-95, бо це зручно, швидко, добре обслуговується і є найшвидшим маршрутом. Але коли вона «лягає», ми всі опиняємося в скрутному становищі й мусимо шукати об’їзди. Чи стали б ви щодня їхати об’їзним шляхом, жертвуючи всіма цими перевагами, лише щоб уникнути заторів у разі аварії?.

summonsays

Інтернет — це величезна гра в Дженгу. Мільйони людей намагаються втримати всю конструкцію, щоб вона не впала. Подібні інциденти трапляються раз на кілька років (згадайте хоча б історію з left-pad). Просто цього разу «лузером місяця» став Cloudflare.

Як думаєте, що могло стати причиною збою цього разу?

👍ПодобаєтьсяСподобалось5
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Корінь інциденту — зміна прав доступу в ClickHouse.
.unwrap()

здається цей код писали справжні ООПшники..
напевно вони там знатно погоріли всі коли розібрали деталі і збіги, і не стидно викладати таке в паблік(вон ж тех компанія з типовими атрибутами здається?)

зы: комментарі нижче з відсалками до AI якийсь сором, типова людьска безолаберність, але винен AI..

От пішли наслідки массових лейофів, які ще і робили умовним «рендомайсом», хоча там звільняли людей скажімо через вік і що вони занадто довго про працювали на конкретній поизиці і мають занадто багато бенефітів через це — що дорого для бюджету, також і тих кого найняли занадто дорого в ринок работодавця, емігрантів за яких треба платити стало багато за візу і т.д. тобто чисто з міркуваня скорочення витрат ігноруючи питання прибутків і стабільності надаваємих послуг. Це ще не враховуючи Big Tech до цього багато років працювали над створенням іміджу роботодавців «компанії мрії», тобто похерили багаторічні маркетингові наробки на ринку праці — щоби людина приймала рішення не по обьєективним обставинам які формально можна оцінити в числах в тому числі, а просто тому що Big Tech має сильний престижний бренд работодавця. Це було повністю розрушено, тепер усі знають — що там просто ІТ работа, така сама як і в будь якій іншій ІТ організації.
Слухи були що AWS впав, бо новичок який нормально не пройшов онбордінг зробив пуш, що пішов одразу на продакшн.

новичок який нормально не пройшов онбордінг зробив пуш, що пішов одразу на продакшн.

Я вот онбординг прошел нормально, и я не самый последний человек в конторе, но прежде чем мой код попадёт на прод — из меня еще 3 человека минимум вынут душу — а я их не люблю, они меня терпеть не могут — и поблажек не дают.
как так «новичок пушнул на прод»?

как так «новичок пушнул на прод»?

мож у них там «пушнуть на прод» — как «пёрнуть в стул» — не запрещено, главное делать это тихонько

они меня терпеть не могут

чомусь я не здивований)

чомусь я не здивований)

Ну я же не доллар, чтобы всем нравиться.

Запитали у компаній, як збій вплинув на їхню роботу — dou.ua/...​-outage-and-it-companies

Cloudflare офіційно назвала причину збою

Change in the underlying query behaviour resulted in the feature file containing a large number of duplicate rows

blog.cloudflare.com/18-november-2025-outage

Конфіги треба таки верифікувати перед тим як завантажувати...

Нафіга? В тому ж Нагіосі задовго до всіх цих агентів була прекрасна фіча — preflight check. Він завантажував новий конфіг, а він там великий, і перевіряв чи все ОК. А не — рестарт і бабах «ой, файл кривий я не можу працювати, прощавайте». І все лежить як у CF вчора.

конфиг как раз был правильный. неправильные были права доступа к БД из-за чего они получили фактически две копии того конфига. и дальше пошла цепная реакция.

конфиг как раз был правильный. неправильные были права доступа к БД из-за чего они получили фактически две копии того конфига. и дальше пошла цепная реакция.

Я могу себе представить, когда из-за недостатка прав ті не можешь получить из БД то, что должен
но какие права надо дать, чтобі получить что-то два раза?
т.е. как бі да, может єто какие-то внутренние системніе пермишені, типа «такой-то агент имеет правоа получать данніе из такого-то списка арий» — и в єтом списке біли дубликаті (откуда вопрос: а где мать их юники?)

Ні. Якщо конфіг крешить програму то цей конфіг неправильний. Навіть якщо він синтаксично, граматично і філософськи правильний :).
Я взагалі не розумію — у вас є ліміт на розмір конфігу. Чому б не взяти і не перевірити розмір файлу ДО спроби його всосати?

Щось вони всі показилися

То чувство когда разрешил ии агенту коммитить прям в мейн

Цікаво чи може бути, що це пов’язано з відходом від NGINX на Pingora?

знову хтось кусок коду, згенерованого ШІ втулив на прод

Вони, напевно, найняли того адміністратора з CrowdStrike.

Коли ці компанії вже будуть брати відповідальність за це, то ж конфіг менеджмент еррор, капець. Треба нам за це братись, бо то вже дуже великі компанії, там вже нічо не буде.

Коли ці компанії вже будуть брати відповідальність

Ніколи.

Наприклад, AWS ризикує лише на ту суму, яку ви йому сплачуєте на місяць, і то за умови, що він не буде працювати 40 годин на місяць. (І то ця сума буде повертатися у вигляді «кредитів».)

Те що там хтось не міг зайти на сайт і щось зробити — це вже взагалі їх не бентежить.

Reference: aws.amazon.com/compute/sla

От що за день сьогодні) Дякую, має працювати тепер

нєнє, сікундочку

у кого шось сьогодні впало — кидає донат :)

Як думаєте, що стало причиною збою цього разу?

Централізація.

Cloudflare це навпаки децентралізація. І тому це а) дорого самому б) складно робити disaster recovery.

Як децентралізація, якщо впав Cloudflare — а не працювали міліони інших сайтів?

Cloudflare децентралізований сам по собі. CDN це децентралізація. Як я написав побудувати свій CDN чи робити failver на інший сервіс дорого і технічно складно. Тому, як хтось написав, це як авіакатастрофа — вона дужу помітна, але насправді надійність набагато вища за інших.

Децентралізація — це коли сервіс падає, та про це знають користувачі або одного застосунку або в одному регіоні. Що падіння AWS, що падіння Cloudflare вказує на те, що цей збій вплинув на різні застосунки (від DOU до Grindr), та у багатьох регіонах. Тобто що я з України, що Джон з Нью-Йорку не змогли зайти на певні сайти.

З цього я можу зробити висновок, що якийсь компонент Cloudflare, який впав, — централізований (в AWS вони самі розповіли, який компонент централізований).

В одночасне падіння N розподілених та незалежних компонентів Cloudflare я не вірю, тому що ймовірність цього P ** N, де P — ймовірність падіння одного незалежного компонента.

З цього я можу зробити висновок, що якийсь компонент Cloudflare, який впав, — централізований

Або централізовані апгрейди — на сторінці статусу сьогодні перед і після інциденту нотифікації про плановий maintenance в різних локаціях.

централізовані апгрейди

Що таке централізовані апгрейди?

Коли всі вузли апдейтяться одним і тим самим кодом з одного і того ж репозиторію в певний час?

Blue-green deployment винайшли вже ось як 20 років назад.

І тим не менш всі падають. Почекаємо RCA від них.

Не всі. Децентралізований Bitcoin вже більше 10 років не падав.

Нічого що трошки різні сервіси?

Дійсно різні. Cloudflare — централізований, Bitcoin — децентралізований. :)

🤦‍♂️🤦‍♂️🤦‍♂️🤦‍♂️🤦‍♂️🤦‍♂️🤦‍♂️🤦‍♂️🤦‍♂️

централізовані апгрейди

Ви були праві — централізований апдейт одразу на усі сервери.

🤷‍♂️ Знання принципів та досвід заміняють знання прямих фактів :).

нужно больше AI

походу треба шукати екзешник DC++

В торрент-клієнтах давно навіть децентралізовані чати є)

Підписатись на коментарі