Cloudflare впав. Знову

💡 Усі статті, обговорення, новини про DevOps — в одному місці. Приєднуйтесь до DevOps спільноти!

Нещодавно, 18 листопада, стався масштабний збій в роботі Cloudflare. І, не пройшло і місяця, як збій повторився. Наскільки мені відомо, то вже лежать Hubspot, Buffer, LinkedIn та безліч інших популярних сервісів. Навіть DownDetector не працює :)

Поки очікуємо на офіційний пост-мортем і розв’язання ситуації, можемо пригадати, в чому була причина попереднього збою, як він вплинув на українських айтівців і чи є альтернативи Clouflare.

А що відвалилося у вас? Як думаєте, що зламали в цей раз?

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Офіційний постмортем від Cloudflare: blog.cloudflare.com/5-december-2025-outage

просто валяюсь

тестова тулза не підтримувала бафер, ну так ми її виключили просто

ой і напоролись на ще одну багу

ой і ще наша SOP процедура не була протестована

кароч, це просто якийсь порножурнал dirtyops

Це ж вже було...

Та вже всьо ок, не очкуй, то джун за кавой вийшов

лоадбалансили лоадбалансили й недовибалансили лоадбаланс

Понаймають вайбкодерів, а потім отаке

більшості байдуже. Користувачі уже спокійно ставляться до цього. Якщо також лежить сайт конкурентів, то для бізнесу також це не є катастрофою. Люди більше витратять часу на обговорення цього, ніж на очікування коли CloudFlare виправлять проблему

повір якомусь магазу, вітрина якого падає в сайбервік — не байдуже

у цьому є свій плюс. Сайт лежить пів години. Зате потім люди йдуть і пишуть, що у них от цей сайт лежав. Вони хотіли там щось зробити, а сайт лежав. Інші навіть не знали про такий сайт, а тепер знають

Ну так, в принципі, коли таке лягає — всі задовольняються відмазкою про тещо впало не через нас. Але це вже з розряду як грамотно вирулить

даунтайм — неотримані замовлення

Толку ці вибачення через лінкедін якщо замовлення просіли, як цей цео вибачався недавно

якщо замовлення просіли

замовлення не працюють таким чином. Якщо не працює сайт або у користувача не було доступу до інтернету, це не значить, що він не зробить замовлення. Якщо рейс літака запізнюється, то люди не скасовують подорож

Десь було дослідження, що користувачам важливіше мати новий функціонал ніж 100% стабільності. Більшість дуже толерантно ставляться до багів. Це глобальна тенденція. Операційні системи з багами, ігри з багами, соц мережі з багами. І що? хтось стане менше користуватись чимось, бо там є баги? Статистика говорить, що нові функції збільшують аудиторію, а баги практично не впливають. Нічого не зміниться найближчим часом

рейс літака запізнюється, то люди не скасовують подорож

якщо рейс запізнюється то ти або чекаєш на літак або скасовуєш усю подорож

Якщо ти хочеш гаджет на крісмес і якийсь інтернет кіоск не працює — ти не чекаєш а йдеш купляєш у конкурентів

хтось стане менше користуватись чимось, бо там є баги?

Звісно. Якщо хабспот лягає двічі на місяць, то рано чи пізно виникне питання або хабспот шось робить, або я шукаю щось інше, бо страждає ж мій бізнес. В цьому рівнянні неважливо чому і через який клаудфлер воно лягає. Клаудфлер може хоч конфетами обсипати лінкедін, але МЕНІ звонить клієнт а ХАБСПОТ лежить

у першому своєму повідомлені я написав

Якщо також лежить сайт конкурентів, то для бізнесу також це не є катастрофою.

Тому перший аргумент не валідний. По тій самій причині другий аргумент також не валідний. Не буде користі від переходу на інший інструмент, якщо там такі ж проблеми

Аа ну сорі не все ж лежить, клаудфлер може й півінтернета але не весь

Той же амазон, ну от і всьо — кросовки купили не у тебе а у безоса (ну чи то кіосків на мазон). Як приклад. Це твій аргумент не валідний

сьогодні лежить CloudFlare, завтра AWS. Бізнес навіть не бере до уваги, те що CloudFlare лежав пів години. Наприклад я спілкувався з представниками бізнесу. З 48 людей, 0 людей згадало або задало питання на цю тему. Коли я згадав за це, попросили перейти до більш важливіших тем

Потрібно щоб CloudFlare лежав весь день, щоб на практиці була реальна користь від пошуку альтернативи. Підтримувати запасний варіант для перенаправлення трафіку може бути дорожче ніж прибуток за той час, коли основні сервери лежать

Навіщо гадати, коли можна почитати відгуки компаній про ці випадки?

Це скоріше характеризує 48людей

Про що ми балакаємо? Про індіфірентних десіжен мейкерів які забули за кофе як працює інтернет-комерція?

Розумієш закони економіки не зважають на те що 48 людей думають чи не думають про аптайм як щось важливе і що їх закони економіки не стосуються

На кладовищі капіталізму досить ноунейм трупів щоб не було про що тут далі навіть балакати. Та і бігнейм трупів там досить

Якщо комусь пофіг на даунтайм бо «ми не здатні ні на що краще» — ну то їх проблема, зʼявиться хтось краще і зʼїсть їх на сніданок

В когось лежить вітрина, а в когось працює. Хтось переживає за лежачу вітрину, хтось ні.

це більше характеризує тих, хто робить гучні заяви, котрі далеко виходять за межі його професійної діяльності. Те що з технічної сторони краще, далеко не завжди є кращим зі сторони чистого прибутку

Легко заявляти, що всі дурні і не бачать одного фактора, котрий ти розглядаєш відірваним від контексту реальності.

Спробуй назвати більш фінансово вигідну альтернативу. Це загальна тенденція, що інструменти швидко додають новий функціонал і мають баги. Потрібно значно більше багів у CloudFlare, щоб люди почали реально розглядати цю проблему

Я втомився товкти одне й те ж. З якого бодуна я тепер ще маю щось зара предявляти й називати якісь альтернативи. Пошукай по буквах CDN в гуглі, без моєї допомоги справишся

і які собсно гучні заяви тобі не подобаються? Здається я просто з тобою не погодився що

більшості байдуже. Користувачі уже спокійно ставляться до цього.

Це ти доводиш що більшосі пофіг. Чому це я маю переконувати тебе що ні? Тобі й твоїм 48и оточення пофіг мені й моєму оточенню ні. Далі очевидно сенсу нема, ці світи не перетинаються

гучні заяви про значний вплив, про закони економіки, про втрату прибутку котра є настільки значною, що на цю проблему потрібно реально звернути увагу.

На основі чого такі заяви? Щоб робити такі заяви потрібно бути впевнений, що витрати на вирішення цієї проблеми реально будуть вигідними. Без аргументації це лише емоції людини далекої від розуміння того як порахувати вигоду від ідеї.

Тепер зрозуміло, тобі не байдуже чисто емоційно, але це не твоя сфера діяльності і ти не рахуєш вигоду від своїх ідей і не хочеш цього робити. В такому плані це можна зрозуміти. Прагнення до ідеалу це логічно

Лол слухай це дуже філософськи кучеряво але чомусь винен в твоєму пофігізмі я

> Без аргументації

Зато в тебе аргументації повний вагон і все дуже пораховано, тільки невідомо що там і ким пораховано що більшості пофіг, а розжовувати чомусь повинен теж я

На основі чого такі заяви?

Here’s a breakdown by industry:
Automotive: Extremely high, around $2.3 million per hour, due to complex, interconnected production lines.
Finance & Healthcare: Can reach $5 million per hour, driven by regulatory fines, lost transactions, and severe trust erosion.
Manufacturing (General): Averages around $260,000 per hour, with figures ranging from thousands to millions depending on complexity.
Fast-Moving Consumer Goods (FMCG): Lower than automotive but still significant, around $36,000 per hour, notes Quanos.
Oil & Gas: Costs have risen, with figures around $460,000 per hour, and can be millions annually per platform.
E-commerce & Retail: During peak times, can lose $1 to $2 million per hour, highlighting IT dependency, notes Gartner.
Data Centers (IT): Around $8,300 per minute, or over $498,000 per hour, showing IT’s critical cost, says Quanos.

Хочеш про це поговорити? Чи не варто звертати увагу?

та я зрозумів, що у тебе посада дуже далека від теми. Можу порекомендувати почитати статті котрі описують скільки компанії зекономили коштів, коли перейшли на викориcтання CloudFlare. І тоді порівняти результати, щоб думати обʼєктивно, а не на емоціях

Компанії котрі є користувачами, не переживають не тому що їм байдуже чи вони тупі. Вони не переживають, бо на ринку немає більш вигідного рішення на даний момент і ці зброї закладені у бюджет. Вони були у 2024, є у 2025 і будуть у 2026

Люди не витрачають час на те, щоб переживати через речі, котрі вони не мають змоги покращити. Це буде просто зайва витрата часу і нервів, якщо змін у результаті не буде

Якщо у тебе переживання мають обʼєктивну основу, тоді опиши як краще. Всім буде цікаво. Основне, що це дійсно було вигідніше фінансово, а не просто технічно стабільніше за значно більші кошти

не переживають не тому що їм байдуже чи вони тупі.
більшості байдуже

по темі щось буде? Чи й далі будем переливати з пустого в порожнє?

. Можу порекомендувати почитати статт

Я так і зрозумів що ти говориш з свого досвіду читання статей

По темі, слова про значний вплив, про необхідність реагувати і щось змінювати. Це неправда і погана ідея, котра приведе до ще більших фінансових втрат

Стаття у котра пише про фінансові втрати допускає, що існує 100% стабільна інфраструктура за таку ж вартість. І от якби нею користуватись, тоді цих фінансових втрат не було

Суть думаю уже очевидна, цього ідеалу не існує. І відсоток збоїв врахований і закладений у вартість послуг.

Я почав відповідати бо зацікався, що є якась ідея тієї самої ідеальної інфраструктури. Її немає. Тому якщо хтось має настільки багато вільного часу, що читає це. Рекомандує не звертати увагу на зайві переживання і користуватись CloudFlare спокійно. Це все ще кращий варіант на ринку

Я почав відповідати бо зацікався, що є якась ідея тієї самої ідеальної інфраструктури. Її немає.

Тобто сам собі видумав свій уявний світ з уявною ідеєю, і сам щось доводиш? І виказуєш своє розчарування приписуючи свою уявну ідею тепер мені?

Це все ще кращий варіант на ринку

Справді? А щось конкретне крім гучних заяв у тебе буде?
Кращий для кого? Для тебе й твоїх 48 друзів?

Бо здається цього року навіть тостер має кращий аптайм ніж клаудфлер. То з якого такого дива він найкращий?

Ти головне не переживай, всім же навколо байдуже, то й тобі можна

у статті котру ти наводиш як приклад результат CloudFlare порівнюється з іншим уявним варіантом інфраструктури у котрому немає цього збою.

Та я не критикую тебе. У перших коментарях написав, що ці збої це частина бізнес моделі котра перемогла сьогодні на ринку. Вони враховані і компанії до них готові

Круто, що ти прагнеш ідеалу і переживаєш, що щось не 100% стабільне. Хороший технічний виконавець так і повинен думати. Але кожен займається своєю зоною відповідальності. Є ще речі у котрих враховується фінансова вигода і не завжди рішення обирають те, що тобі подобається з чисто технічної сторони

Можливо ти придумаєш нову ідею, котра буде більш вигідною. Але поки цього не сталось, ситуація з залежністю від глобальних сервісів і збоями є найвигіднішим варіантом. Завжди можеш написати свої ідеї і переконати, що переживання виправдані

Конкрєтікі нуль одна вода

В інтернет даунтайм і є гроші і упущена фінансова вигода якщо не дошло, і ціна залежить. А в тебе світ помальований в кольори клаудфлер бо там найкращий в світі сдн з тих сдн які ти знаєш, а навколо стільки важливіших проблем ніж якийсь даунтайм твого сервіса. Клаудфлер же найкращий йопта!

це блін як горохом опстєну, бувай здоровий не хворій

це нормально, технічні люди ніколи не розуміли того як працює бізнес. З часом багато людей змінюють чисто технічні посади на ті, де вони бачать бюджети і обговорюють рішення котрі стосують грошей

Є великий шанс, що уже ти обереш аналог CloudFlare, а тобі будуть говорити, що потрібно переживати. В цей момент основне відрізнити тих хто має ідеї, від тих хто просто незадоволений

Зараз це справді інші світи і як горохом об стіну. Тільки різниця у тому, що колись я був на твому місці, а ти на моєму ще не був

Немає сенсу переходити на щось інше, адже любий фейл — це плюс до стабільності. Дивлячись як довго існує Cloudflare — то там норм плюсів.
Молодий аналогічний сервіс, є шанс, буде сипатись значно частіше.

Але є сенс диверсифікувати ризики. Щоб, умовно, коли cloudflare впаде знову і щоб не було довгого downtime, трафік переспрямовувався на інший сервіс або просто йшов напряму на сервери (підхід не дуже хороший звичайно, але краще, аніж простоювати)

Не все так просто, кожен даунтайм має тайм ту рекавері

Питання не зовсім в тому чи може інший сетап (будьякий) мати кращий аптайм, бо даунтайми всюди є, а чи може інший сетап забезпечити кращий TTR

Грубо кажучи, якщо я не можу пофіксити інфраструктуру швидше за клаудфлер — я все одно буду жити з клаудфлер, навіть якщо я буду дути щоки що мій сервер/датацентр/мільтіклауд солюшен падає маргінально рідше

Ну і це ми не говоримо про критичну інфраструктуру, де аптайм в топ пріорітеті, а просто про якісь хабспоти й кіоски де аптайм — просто обіцянка карамельних маркетологів, і наслідок — може якісь непродані кросовки

диверсифікувати — означає автоматично ускладнити, а ускладнити означає внести ЩЕ більше елементів в інфраструктуру, через які буде потенційний даунтайм

Спасибо чату ГПТ за наше счастливое детство!

ну да на да, чатгпт винуватий

Cloudflare’s Web Application Firewall (WAF) provides customers with protection against malicious payloads, allowing them to be detected and blocked. To do this, Cloudflare’s proxy buffers HTTP request body content in memory for analysis. Before today, the buffer size was set to 128KB.

As part of our ongoing work to protect customers who use React against a critical vulnerability, CVE-2025-55182, we started rolling out an increase to our buffer size to 1MB, the default limit allowed by Next.js applications, to make sure as many customers as possible were protected.

This first change was being rolled out using our gradual deployment system. During rollout, we noticed that our internal WAF testing tool did not support the increased buffer size. As this internal test tool was not needed at that time and had no effect on customer traffic, we made a second change to turn it off.

This second change of turning off our WAF testing tool was implemented using our global configuration system. This system does not perform gradual rollouts, but rather propagates changes within seconds to the entire fleet of servers in our network and is under review following the outage we experienced on November 18.

Unfortunately, in our FL1 version of our proxy, under certain circumstances, the second change of turning off our WAF rule testing tool caused an error state that resulted in 500 HTTP error codes to be served from our network.

не цікавився що зламалося, 15 хвилин тому Клод лежав... була така сама картинка...

зараз наче вже працює

Ну в мене бафер як лежав з Downdetector, так і лежать
res.cloudinary.com/...​/ocxqg3snmusgov1gn6jq.png

Підписатись на коментарі