Глобальний збій: Facebook, Instagram та WhatsApp не працюють, ціни на акції FB падають

По всьому світу стався збій у роботі сервісів, що належать компанії Facebook. За даними Downdetector, на збій у роботі скаржилися користувачі Facebook та його Messenger’у, Instagram та WhatsApp.

На момент написання новини від старту збою пройшло вже понад 3 години.

Представники Facebook повідомили у своєму твіттері про те, що вони працюють над розв’язанням проблеми.

Що стало причиною такого масштабного збою поки що невідомо. Коли саме все полагодять — теж.

UPD: Інцидент із недоступністю Facebook, Instagram і WhatsApp по всьому світу тривав близько 6 годин. У компанії пояснили, що аварія сталася через зміну конфігурації магістральних маршрутизаторів, які координують мережевий трафік між центрами обробки даних Facebook. Більше деталей в окремій новині.

На момент написання новини акції Facebook Inc. впали в ціні на понад 5%.

Інтернетом вже поширюються чутки про витоки даних користувачів Facebook, але підтверджень цьому поки що немає.

Про причини збою роботи сервісів Facebook написали окремою новиною.

👍ПодобаєтьсяСподобалось6
До обраногоВ обраному0
LinkedIn

Найкращі коментарі пропустити

Слава труженикам литкода и переворачивателям деревьев !

А ведь есть же этот мем, что куда Зеленский ни приедет, у страны проблемы. Ну так вот...
dou.ua/forums/topic/34892

Щастя — це дізнаватись про багатогодинне падіння соцмереж типу Фейсбуку аж на наступний день із новин.
Як ото я сьогодні.

Подождите. То есть только недавно у них был Зеленский, а уже весь фейсбук лег?

кроме прикола с попаданием в здание, еще пишут что и с коммуникацией у них траблы, так как вся коммуникация сотрудников была через мессенджер и ватцап :)

Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Зашел в ФБ после сбоя и вылазить реклама :
"
📣SlotsCity першими впровадили верифікацію гравців за допомогою цифрових документів у застосунку Дія!"

Как то много за сутки прошло, что ли ?

Супер, надо брать акции!

Кастуються чіф-архітекти.
Чому в фб немає такої очевидної речі як автороллбек конфігурації при відсутності підтвердження? Поясніть

Это для слабаков!! Там ребята бинарные деревья переворачивают, им не нужен авторолбэк!

twitter.com/...​tatus/1445156376934862848
FB нужен свой Гордон Фримен.

що вам в тому фб треба? зайшоов туди. зарегався. це ж якийсь треш і дурдом. ФБ постійно пропонує якусь рекламу, зафрендіть якихось чуваків з Сум/Ізраїля/Дрогобича, яких я ніколи не бачив і не знав, навіть фамілій...в ленті — тупі відосики, якісь випуски новин, які я уже тричі натиснув «не показувати більше», але все одно...навіщо це все?

oculus quest 2 без нього не працює
власне це все на що він треба

але ж лежали wрatsapp та інстаграм

і в ТГ +70 МІЛІОНІВ сайн апів за добу. атас, да?

Скоро запись «веслал в фейсбуке» будет черной меткой рекрутинга, и тамошние весляры стыдливо убирая его из св, будут говорить «а в этот период я в сабатикле подрабатывал в макдональдс»

Зато когда рекрутерша на интервью задаст популярный вопрос: «Какие у Вас были факапы?», им будет что ответить.

А колись же запросто жили тижнями без FIDO :)

блін провтикала момент докупити акцій

Астрологи объявили неделю комментариев про литкод

Щастя — це дізнаватись про багатогодинне падіння соцмереж типу Фейсбуку аж на наступний день із новин.
Як ото я сьогодні.

Добре тобі. А мені подзвонили четверо і питали як ввімкнути, тижпрограміст

До речі, як вимкнути? Мені сподобалося, хочу ще. Тільки треба ще Nasdaq Composite в SELL кинути.

саме так, я десь опіночи по Києву прочитав про це на Реддиті

Вот что Facebook первым показал. Видимо админам глаз на жопу натянули m.facebook.com/...​h/?v=170527021694738&_rdr

Цікаво, що зроблять винному? :-)
Якщо виживе, зможе заробити на темі «Як я зупинив світ?», книжку там видати...

Так он молодец — нашел узкое место для последующей автоматизации, чтобы Strong AI нужно было меньше человеков в будущем

Если все сделано без злого умысла, и есть минимальные основания полагать, что сотрудник действовать in a good faith, ничего не будет.

Чувак (чувиха) стал знаменитостью и его кейс будут крутить по всем внутренним треннингам на тему «смотрите, мы не кровавый энтерпрайз, мы не караем анально за ошибки» для поднятия морали и создания нужного имиджа.

Попадался в твиттере типа инсайдерская инфа, что это вообще был авто-мердж бота.

Золоті наручники, золоті кайдани на ноги, золотий ланцюг на пояс (кріпити наручники), золотий конвой ;-)

Цікаво, що зроблять винному? :-)

blameless — т.е. ничего, вернее наградят медалью за сражение с п****цом, как и всех остальных.

Почитал коменты, капец какой то :-)

Литкодщики не смогли в сиздиз
А всего то, днс упал
Где же их хваленые архитекторы

И все это от тех кто ничего тяжелее круда и веб формошлепства на аутсорсе не писал :-)

Никто не дизайнит систему на случай «все датацентры пропадут из интернета из-за ошибки оператора».
Если контора боится такого сценария, они отбирают доступ к продакшну у людей и максимально его размазывают по персоналу, чтоб ущерб, который один человек может причинить по ошибке, был минимизирован. В результате любые изменнеия делаются гораздо медленнее, но риск что-то катастрофически положить снижается.
У ФБ с культурой «move fast on stable infrastructure» такого страха нет, все делается на грани YOLO.

Да, я знаю это. Им надо релизить побыстрее и быть первыми. Что, впрочем, наши тоже делать не умеют :-)

Если бы FB был 100% таким, он бы даже на github ничего не постил. А они публикуют всякие zstd.

Вот то, что для сети такого размера обязательны защитные меры вплоть до отдельных каналов к раутерам со служебным доступом, а где-то даже диалап модемам(!) на устройство, откуда есть консольный шнурок — вот об этом они, мягко говоря, не подумали (а может, и не знали).

о, так і є — я пам’ятаю про ділапний резервний канал зв’язку до нашого серверу в одній конторі)))) з великим індівідуальним УПСом ... мені казали що за п’ять років цим каналом користувалися цілий один раз (працював десь у 2006-2008 роки)

В результате когда что-то надо быстро исправить, доступ размазан по максимальному количеству людей, каждый из которых имеет власть ЗАПРЕТИТЬ, но разрешить... не могут, даже если всех вместе собрать. Потому что для этого надо выяснить зоны ответственности, а на границах всегда появляются участки, за которые не отвечает никто.

У ФБ с культурой «move fast...

Що ж у них там такого «move fast», цікаво? Згадаєте за останні 10 років ну хоча б три нові мажорні фічі фейсбука, які вони от прямо зробили самі і викотили, а не просто купили вже готову компанію з певною технологією?

Ти їх і не побачиш — бо 99% це підлаштування параметрів AI для вибору реклами.

Никто не дизайнит систему на случай «все датацентры пропадут из интернета из-за ошибки оператора».

к.м.к. здесь 2 фактора № 1 если такая возможность чисто вероятно вообще рассматривается № 2 если сеть и система имеет уже достаточно большие размеры и потенциально относительную сложность

здесь приписка об относительной сложности важна потому как относительно простую систему практически не возможно разрушить кроме как уничтожив полностью все узлы кстати интернет таким и задумывался пока не начались сложности с dns и прочими bgp ))

лично я на что надеюсь что по факту этого «факапа» современный тренд «всё в облаках» по крайней мере хоть как-то будет пересмотрен и что люди которые выделены решать обратят на это внимание но не сказал бы б что лично 146% в этом уверен не сказал бы б даже что 50/50 селяви

современный тренд «всё в облаках» по крайней мере хоть как-то будет пересмотрен

для этого надо чтоб AWS и Azure одновременно прилягли на недельку-другую. Иначе никто даже не почешется.

ирония в том, что надежность того же ажура или авс выше, чем собственного датацентра. Во всяком случае для подваляющего количества компаний, хостящихся в клауде.
Тут именно вопрос в том, что если лег амазон, то легла половина интернета. То же самое будет с каким-нибудь cloudflare

Так у FB как раз свои ДЦ, они не пользуются услугами сторонних клаудов.
В конечном итоге ретроспектива будет приблизительно такой:

Root cause: Инцидент произошел из за человеческого фактора.
Вывод: убрать всех человеков из системы управления инфраструктурой.

дверь в ДЦ вообще заварить

А всего то, днс упал

вообще-то — нет, они BGP у себя везде поломали, выпав из глобальной сети, поэтому — ни DNS, ни удаленного доступа, ни авторизации по картам на месте в ЦОДах, ...

Все вже полагодили. Усі атомні реактори зупинились — а космічні станції зійшли з орбіти, бо без соціальних мереж — всесвіт у небезпеці.

Рассказ «я видел, какой ужас, дом соседа горел» это тупо ни о чём.

в stackoverflow.com на макбуці закінчився CA сертифікат. Всі статті як поправити на stackoverflow.

Все, сервисы уже поднялись. Мир спасен! Недолайканные котики в безопасности.

Не везде, у меня все еще „Sorry, something went wrong.”

Долайкайте пошвидше, поки знову не почалось.

Никто ничего сразу не заметил — работники были на грумингах и прочих пеггингах.

некроманты таки добрались до сервачков. Мордокнига поднимается. Еще не способна принимать спамо-ссылки, но уже можно текстом что-то ворочать.

Все эти фильмы про апокалипсис от нашествия инопланетян — фигня. Вот если весь AWS навернется подобным же образом, вот тогда и правда человечеству конец.

У них несколько датацентров, но все же факт — почти монополия хостинга, при не самых низких ценах.

Да ну. Уже давно под десяток альтернатив с широким набором сервисов в стиле S3, и в два раза больше без них. Всякие куберы имеют автоматизацию для размещения в нескольких облаках. Многие конторы действуют по принципу «кто угодно, но не AWS».

А теперь продай эти сервисы клиентам. Там как с iPhone — и Android, фу фу фу — не хочу не модно.

Ваш почти однофамилец Андрей Губский, например, не согласится — у него наверняка тотальный Azure. Тоже вполне модно. А у наших клиентов, как я вижу, основная мода — Oracle Cloud.

Почему же фигня, найти какую-то информацию 5 или 10-летней давности в фейсбуке или ютуб — почти нереальная ситуация.

По сути Фейсбук и Гугл — это два ключевые департаменты министерства правды, которое занимается постоянным обновлением истории, подгоняя ее под современные обстоятельства и изменения на политической арене.

Было уже в 2017, опечатка в команде
aws.amazon.com/message/41926

Если есть AWS вдруг ляжет, то да, это будет хаос.

А если лягут сразу амазон, гугл клауд и майкрософт... то да, это апокалипсис. Называется «День без интернета». Можно кино снимать.

Я б не только посмотрел, но и поучаствовал.
И не на день, а на неделю хотя бы.
Через 9 мес после того дня будет апокалипсис во всех роддомах планеты.

Я должен был сегодня выйти из очередного 30-тидневного бана. Но не успел...

Так тебя ж стопудово правильно забанили. Ты плохо расизм разжигал и нацыков не лайкал. И нацыкинь.

Я должен был сегодня выйти из очередного 30-тидневного бана. Но не успел...

Ходи на форум через впн

Ніби Дональд Трамп зараз пише власний «Tramp the Twitter».

Певно, без AWS — вже все пропало, не можна навіть власну стійку із блейдів встановити. І взагалі ринок хостингів — помер.

Haugen is a former product manager on Facebook’s civic misinformation division who left the company in May and made copies of numerous internal files before departing the company. Haugen accused Facebook of prioritizing its “own profits over public safety — putting people’s lives at risk.”
www.cnbc.com/...​stleblower-interview.html

тепер крім літкоду будуть питати основи tcp/ip і що таке BGP ;)

Скорее «какой у вас план на случай отключения ДНС».

Решать задачи с литкода и искать новую работу)

Email із інструкцією як відредагувати host file :)

Теперь свой литкод могут в зад засунуть, рукожопы.

кроме прикола с попаданием в здание, еще пишут что и с коммуникацией у них траблы, так как вся коммуникация сотрудников была через мессенджер и ватцап :)

А діди попереджали, що тільки пошта підходить для нормальної комунікації.

Причём хардовая почта, а не эти всякие хипстерские «вася.пупкин@фейкбук.ком»

Так dns-и легли. Тож, і пошта на домени FB теж не ходила :)

Не удивлюсь, если и телефоны со списком сотрудников где-нибудь в фейсбучной группе лежат.
А бекап — в сейфе в закрытом ДЦ.

через мессенджер и ватцап

Пусть используют голубиную почту

Типовая манера линейных сотрудников сотовых операторов — иметь телефоны от конкурентов, чтобы иметь связь во время решения проблем с собственной сетью.
Сотрудники Мегафона рассказывали, как очередной «эффективный менеджер» запретил платить за такие телефоны и не слушал никакие уговоры. Скорость восстановления сбоев закономерно упала.

я думал они по старинке используют танкинговую связь

Ну если тебе надо строить параметры оптического конвертера на волокне в соседний район, транкинг не добьёт.

А про голубей и QoS?

Бедные фейсбукеры как американские солдаты на войне — кончилась кола, погибают от жажды.

How many times did you reboot?
Three man, you always tell me to do three.

процент рукожопов везде примерно одинаков, но в больших компаниях их соответственно и количественно больше, а ведь достаточно всего одного

и куда-то резко исчезли архитекторы, с рассказами о том, что им платят больше потому, что они берут на себя ответственность перед бизнесом
совпадение?

Всегда интересуюсь куда они деваются когда настает время отвечать :)

Радует, что так нагнулся лишь фейсбук, а не какой-нибудь AWS или другой большой клауд. Вот это было бы и правда апокалиптичненько

Безос один из самых топовых спонсоров дем. партии США. С ним ничего не случиться.

ну ти ж в курсі, що проблема технічно-рукожопна, а не злі рептілоїди фісбучек відключили?

Цукер тоже исправно банил и цензурил (+ делает это и сейчас) всё, что не укладывается в концепты амерских социалистов (т.н. «демократов»).
А вона, как оно вышло...

Сомневаюсь что это ему это как то поможет против того же SARS-COV-19.

ну здрасті, і AWS, і в інших провайдерів шось час від часу лежить. вон тут сторінка на статус сервісів: status.aws.amazon.com

не помню такого, чтобы он прямо весь лежал несколько часов

Весь, чи ні, але памятаю, як Ажур зліг через заекспайрений сертифікат :) www.computerworld.com/...​ired-ssl-certificate.html

Было. особенно эпичный сбой начался с выхода из строя одного из ДЦ, по моему затопления ...

Это ещё сколько всего на ту страницу не попадает)

Недоступний і в торі
http://facebookwkhpilnemxj7asaniu7vnjjbiltxjqhye3mhbshg7kx5tfyd.onion/

главное что бы люди не пользовались facebook openid на порносайтах, а то давление может подняться

Подождите. То есть только недавно у них был Зеленский, а уже весь фейсбук лег?

Он как царь Мидас наоборот.

Ломанули DNS-сервера ФБ и А рекорды удалили. По ходу или хакеры или инсайдеры.

Есть конспирологическая версия, что это сделали спецслужбы США чтобы поставить big tech гиганта на место, потому что совпало что:

1) NASDAQ обьявил о увеличении процентов по treasury yields (аналог нашего ОВГЗ) и инвесторы начали шортить big tech стоки.
2) Будет слушания в конгрессе по facebook papers.
3) Собственно сами утечки внутренних документов из ФБ.

Возможно, что на ФБ прошел «заказ» от кого-то серьезного в правящих кругах.

по другим данным — там проблемы с BGP, что-то переконфигурировали и понеслось ... из-за этого перестали анонсироваться в том числе блок DNS
Насколько я вижу сейчас, то там даже SOA запись домена даже не отдается, то есть если и был взлом DNS, то грохнули все полностью

Насколько я вижу сейчас, то там даже SOA запись домена даже не отдается, то есть если и был взлом DNS, то грохнули все полностью

Это кастомные сервера под лоад-балансинг, насколько я понимаю.
Добавлять authority народ обломился — нафига, если и так работает через предыдущий уровень...

Если там настроен DNSSEC, то при невозможности проверить подлинность записи (любой), ничего отдаваться и недолжно.
Я не проверял наличие DS и RRSIG, но был бы очень удивлен что в компании таких размеров не настроен DNSSEC для такой зоны.

Если там настроен DNSSEC, то при невозможности проверить подлинность записи (любой), ничего отдаваться и недолжно.

Я плохо знаю DNSSEC. Если я даю простой запрос ANY обозначенному авторитетному серверу, он же должен выдать все записи, включая DNSSEC специфичные, если они есть?

$ dig facebook.com any @129.134.30.12 | less
;; ANSWER SECTION:
facebook.com.           3600    IN      MX      10 smtpin.vvv.facebook.com.
facebook.com.           3600    IN      SOA     a.ns.facebook.com. dns.facebook.com. 1633431117 14400 1800 604800 300
facebook.com.           7200    IN      TXT     "google-site-verification=wdH5DTJTc9AYNwVunSVFeK0hYDGUIEOGb-RReU6pJlY"
facebook.com.           86400   IN      TXT     "v=spf1 redirect=_spf.facebook.com"
facebook.com.           7200    IN      TXT     "google-site-verification=A2WZWCNQHrGV_TWwKh6KHY90tY0SHZo_RnyMJoDaG0s"
facebook.com.           172800  IN      NS      d.ns.facebook.com.
facebook.com.           172800  IN      NS      c.ns.facebook.com.
facebook.com.           172800  IN      NS      b.ns.facebook.com.
facebook.com.           172800  IN      NS      a.ns.facebook.com.
facebook.com.           3600    IN      CAA     0 issue "digicert.com"
facebook.com.           300     IN      A       157.240.224.35
facebook.com.           300     IN      AAAA    2a03:2880:f165:81:face:b00c:0:25de

не вижу ни одной по теме.

И они должны были перечислить все свои NS в authority секции, но она пустая.

Ломанули DNS-сервера ФБ и А рекорды удалили. По ходу или хакеры или инсайдеры.

Никто A-записи не удалял, не несите чушь.
Если протрейсить DNS, то GTLD сервера передают на FB так:

$ dig @f.gtld-servers.net facebook.com a
;; AUTHORITY SECTION:
facebook.com.           172800  IN      NS      a.ns.facebook.com.
facebook.com.           172800  IN      NS      b.ns.facebook.com.
facebook.com.           172800  IN      NS      c.ns.facebook.com.
facebook.com.           172800  IN      NS      d.ns.facebook.com.

;; ADDITIONAL SECTION:
a.ns.facebook.com.      172800  IN      A       129.134.30.12
a.ns.facebook.com.      172800  IN      AAAA    2a03:2880:f0fc:c:face:b00c:0:35
b.ns.facebook.com.      172800  IN      A       129.134.31.12
b.ns.facebook.com.      172800  IN      AAAA    2a03:2880:f0fd:c:face:b00c:0:35
c.ns.facebook.com.      172800  IN      A       185.89.218.12
c.ns.facebook.com.      172800  IN      AAAA    2a03:2880:f1fc:c:face:b00c:0:35
d.ns.facebook.com.      172800  IN      A       185.89.219.12
d.ns.facebook.com.      172800  IN      AAAA    2a03:2880:f1fd:c:face:b00c:0:35

Вот все авторитетные сервера, указанные этими 4 A-записями и 4 AAAA-записями начиная с 129.134.30.12 были недоступны, их IP-блоки не были в глобальном раутинге.

Локальные резолверы выдавали соответственно ошибку механизма резолвинга (в DNS это называется SERVFAIL). Если бы записи были действительно были _удалены_ (авторитетные сервера отвечали бы отсутствием записи), код результата был бы NXDOMAIN, или (если говорится про facebook.com, а не www.facebook.com и т.п.) пустой answer-секцией.
И именно SERVFAIL и выдавался всё это время.

Если бы TTL был повыше, то оно прожило бы тоже дольше, но они ограничивают его 5 минутами:

$ dig @129.134.30.12 facebook.com a

;; QUESTION SECTION:
;facebook.com.                  IN      A

;; ANSWER SECTION:
facebook.com.           300     IN      A       31.13.65.36

соответственно максимум 5 минут от потери доступа и у всех всё исчезло.

(Хм, это странный сервер, какой-то самопал — нет authority секции. Оно конечно допустимо, но на грани. Видимо, один из элементов load balancerʼа входной нагрузки.)

Вот почему потеряны анонсы блоков — тут уже могут быть и хакеры. Но по бритве Хэнлона скорее всего (>90%) что просто какая-то тупость или коллизия.

Я описывал аналогичную историю из жизни Lucky.Net:

> Жил-был на edge раутере (с BGP fullview) redistribute map BGP->OSPF, прикрытый redistribute list’ом с deny any. В один сильно не прекрасный момент один из нокеров решил устранить лишнюю сущность в виде list’а.:) Тот из закрытого превратился в пустой и потому открытый.

> Дежурный удивлённо наблюдал как NAS’ы (которые были от 2511 до 5300) по очереди пропадали из видимости.:) Половина кошек просто перезагрузилась. Другая половина осталась в ROMMON’е, и канальщикам до конца дня была работа ездить по площадкам дёргать anykey.

(ROMMON — аналог BIOS для Cisco раутеров — то есть они зависли в ожидании рывка питания или нажатия Reset.)

Но у нас при этом не было завязки доступа в помещения на ту же сеть ;\

Вчера всю ночь чинил бро ? :)

Я FB, к счастью, не чинил — не моя задача. А вот узнать реальную картину, видимую со стороны, на всех уровнях (тут хватило двух — BGP и DNS) — да, изучил (только не ночь, а вечер).

Как-то негоже для президента постить фейки с 4чана

Есть конспирологическая версия, что это сделали спецслужбы США чтобы поставить big tech гиганта на место, потому что совпало что:

1) NASDAQ обьявил о увеличении процентов по treasury yields (аналог нашего ОВГЗ) и инвесторы начали шортить big tech стоки.
2) Будет слушания в конгрессе по facebook papers.
3) Собственно сами утечки внутренних документов из ФБ.

Возможно, что на ФБ прошел «заказ» от кого-то серьезного в правящих кругах.

Просто залишу собі тут лінку, щоб під рукої були ці пояснення. Можут ще стати в нагоді — ніколи не знаєш, коли через тебе впаде прод..

Бусичка сглазил. Хомячки страдают

Так же рядом с ним были найдены подписанные Марком договора и манифесты(меморандумы) между президентом Украины Зеленским, минцирком об открытии офиса R&D фейсбук в Украине.

Астрологи оголосили вечір (поки що) збою ФБ. Кількість політичних, воєнних, економічних та інших експертів скоротилась на 73%.

Ну це ж чудово. І на доу тут їх нема. рідко так буває)

Ще твіттер треба покласти відпочити і тоді буде мир і спокій))
Згадалася реклама епла, де вимкнули «сервер з додатками» і почався хаос.

В астрологів зараз, скоріш за все, багато замовлень, період ретроградного Меркурію до 18 жовтня.

Це якщо б тільки інста або тг. В них приблизно однакові частки

CNN напишет ещё одну статью, что тут уж точно Трамп виноват.

І Порошенко

Тепер доведеться виходити протестувати проти свавілля на вулицю. Страйки (срачі) в фейсбуці зачинено на невизначений час. Ще й ярмарку хвастощів та понтів відключили. Як тепер жити в модерному світі?
ukrreporter.com.ua/...​ploads/2021/10/tsuker.jpg

та нифига. как результат падения ФБ — в июне будет всплеск рождаемости..

Звоните Федорову и в держспецсвязь, они помогут. Они же Байдена вывели на чистую воду.
кибербезопасность немного преувеличена

aleto: из Германии сообщают:
«у меня упали все мои сервисы кроме тг...
на 20минут упал вайфай и мобильная сеть германского водафона
это будто апокалипсис..»
alexs: В куче мобильных приложений же телеметрия от Фейсбука. И они все как дятлы долбится в DNS
alexs: У знакомого оператора прилегли резолверы под толпой запросов по поводу Facebook, Instagram и WhatsApp
pavell: У оранжа видимо тоже. Прилечь не прилегли, но страдают, видимо
netch: Поставить звезду на 127.0.0.2 им полиси не даёт?
alexs: Так и сделали, разумеется. Только на .1

Лежить тільки днс який резолвить фб. Самі сервери фб живі і можна навіть норм логінитися.

Я спробував. Воно подумало і сказало «ні, в мене тяжкі проблеми».

ага. зараз саме так. мені видало сторінку з ерором і копірайтом 2020)

Слава труженикам литкода и переворачивателям деревьев !

звісно київські формошльопи справились би краще

Порівняно з фейсбуком, який для відображення маленької стрічки тупих меседжів с котиками жере вп′ятеро більше оперативи та в 40 разів більше процесорного часу, аніж операційна система разом з усіма іншими програмами — навіть КПІшники 2 курсу зробили б краще.

Їх може виправдати лише зізнання, що вина майнять крипту на пристроях користувачів. Довести просто: якщо так, після збою майнитимуть вдвічі інтенсивніше.

Так вони ж на клієнті майнять, а не на сервері.

Тобто формочки студенти ліпше би наклєпали, а бекенд таки би не потянули? :) А стільки пафосу... :)

А якщо взяти групу КПI, то хана ФБ

> As many of you know, DNS for FB services has been affected and this is likely a symptom of the actual issue, and that’s that BGP peering with Facebook peering routers has gone down, very likely due to a configuration change that went into effect shortly before the outages happened (started roughly 15:40 UTC). There are people now trying to gain access to the peering routers to implement fixes, but the people with physical access is separate from the people with knowledge of how to actually authenticate to the systems and people who know what to actually do, so there is now a logistical challenge with getting all that knowledge unified. Part of this is also due to lower staffing in data centers due to pandemic measures.

> Was just on phone with someone who works for FB who described employees unable to enter buildings this morning to begin to evaluate extent of outage because their badges weren’t working to access doors.

Was just on phone with someone who works for FB who described employees unable to enter buildings this morning to begin to evaluate extent of outage because their badges weren’t working to access doors.

Это капец товарищи ...

І все через банальну днс проблему)

І все через банальну днс проблему)

DNS это не ерунда. Это Tier 0 зависимость практически для любой системы, и если DNS ляжет, то минут через 10 все ляжет вместе с ней.

Давно понятно, что цифровизация всего сыграет злую шутку со всеми при глобальных катаклизмах. По этой ситуации можно прекрасно видеть масштабы возможного п**ца в локальном формате.

Надеюсь хоть ядерные чемоданчики еще остались аналоговыми)

Redundancy, recovery, про масштабування на системному дизайні навіть джунів питають... Ну-ну :-)

похоже, что архитекторы, которые отвечают в том числе за проектирование систем доступа и так далее набраны из той-же публики, что и основой персонал. Им просто в голову не пришло, что их и-ра может перестать работать на уровне TCP/IP. к примеру — из-за проблем с анонсами BGP все может раком стать и надо будет бегом физически спасать ситуацию ...

FAANG-овци мне доказывали что главное уметь решать Литкод, а идеально знать языки и технологии не обязательно, так как все баги если что поймают юнит тесты.

Так не соврали — поймали!
Только не юнит, а бета тестеры.

Им просто в голову не пришло, что их и-ра может перестать работать на уровне TCP/IP.

Как по-вашему должен вести себя сканер карт и замок у входной двери если он не может достучаться до своего дата-центра?

Как по-вашему должна вести себя система доступа, когда не может достучаться до удаленной базы?
Использовать локальную устаревшую копию.

Есть много вариантов, котоыре зависят от того, какие требования к системе и как много денег хочется на нее потратить.

Fail close и ждать пока поднимется вполне нормальное решение, если это турникет в офисе (а не, например, дверь в ядерный бункер).

Система доступа к ДЦ, это сложный программно-аппаратный комплекс.
Где сканер карт — один из множества компонентов
Он конечно же должен не пускать — это штатный механизм

НО .... Архитектура которого должна учитывать ситуации, когда случился масштабный форс-мажор и необходимо обеспечить физический доступ доверенных инженеров к оборудованию.
И если случился такой сбой, то немедленно должен быть активирован протокол аварийного доступа, который позволит получить доступ ответственному или ответственным дежурным сетевым инженерам — счет идет на минуты.

Конечно же это также должно учитывать серьезно вопросы безопасности — чтобы не стало дырой для ушлых ребят типа Митника, которые любят именно физ. каналы взлома

к примеру выглядеть это может так:
— система дверей, открыть которые можно с помощью независимых пар аппаратных ключей только совместным доступом ключей только в аварийной ситуации и так далее

все эти вопросы описаны в теории строительства и эксплуатации ДЦ
в том числе и необходимость аварийного доступа, и ситуации разрушения, затопления и иные ...

Есть разница между датацентром и офисом фейсбука (о котором шла речь). Для разных кейсов используются разные решения.

Ситуация когда датацентр заперся изнутри и ничего нельзя сделать недопустима, но, как вы видите, все поднялось, так что в этом проблемы не было.

Ситуация когда сотрудник фейсбука не может открыть дверь в офис — это ерунда. Стучишься, тебе открывает изнутри охрана, проверяет кто ты и впускает.
Интернет упал — это один из плохих сценариев. Точно так же, например, замок может просто заглючить, или может пропасть свет в здании, или чувак мог просто забыть бейджик дома. Под все эти кейсы не будут делать дорогую архитектуру, резервирование и т.п., когда есть рабочий shortcircuit — постучал или позвонил охране, тебе открыли дверь изнутри и впустили.

— система дверей, открыть которые можно с помощью независимых пар аппаратных ключей только совместным доступом ключей только в аварийной ситуации и так далее

Чем сложнее делаешь систему (для предотвращения какого-то очень редкого критического сценария), тем больше шансов, что что-то накосячишь, и она будет просто глючить и падать на ровном месте не из-за критических сценариев, а из-за сложности, и в итоге bottom line будет хуже, чем если б не пытался ничего предотвращать. Есть какой-то предел, где надо остановиться и сказать — если эта штука сломается, то будет жопа, и это ОК.

Под все эти кейсы не будут делать дорогую архитектуру, резервирование и т.п., когда есть рабочий shortcircuit — постучал или позвонил охране, тебе открыли дверь изнутри и впустили.

И почему это не сработало как минимум 4 часа в данном случае?

Что именно не сработало?
Фейсбук лежал 4 часа потому что единственный человек, который бы мог их починить, стоял под дверью и ждал пока его впустят?

Примерно так, хотя сложнее. Точную картину узнаем позже, но по имеющимся описаниям было несколько человек, которые не могли попасть в ДЦ.

Ну и, повторюсь, сама необходимость физического доступа для сети такого масштаба и значения это позор.

Есть разница между датацентром и офисом фейсбука (о котором шла речь). Для разных кейсов используются разные решения.

люди пишут, что проблема была именно с доступом к ДЦ.
Надо было руками подключаться к оборудованию и .... и потому так долго все лежало.

Есть какой-то предел, где надо остановиться и сказать — если эта штука сломается, то будет жопа, и это ОК.

Я работал длительное время в телекомах, знаю отлично что сети, ДЦ и что сценарий полного падения совсем не есть что-то совсем невозможное — в сети постоянно что-то происходит от воровства оборудования, пожаров в колодцах и энтузиастах экскаваторщиков и до ошибок инженеров.

В любой момент может пропасть все. вот совсем все и нужно будет бежать бегом все спасать.

И на эту ситуацию обязан быть аварийный работающий протокол.
вариантов реализации там может быть тьма.
От спец. систем доступа до консольных серверов с подключение к к ним через PSTN и другие варианты.
И время простоя четко показало, что его или не было или он был не работающий.

В любой момент может пропасть все. вот совсем все и нужно будет бежать бегом все спасать.

Объясните зачем кому-то куда-то бежать? Это не центр управления полетами. Это сайт, на котором продается реклама и распространяются разные теории заговора.

В любой момент может пропасть все. вот совсем все и нужно будет бежать бегом все спасать.

И на эту ситуацию обязан быть аварийный работающий протокол.
вариантов реализации там может быть тьма.
От спец. систем доступа до консольных серверов с подключение к к ним через PSTN и другие варианты.
И время простоя четко показало, что его или не было или он был не работающий.

Все это работает немного по-другому в мире, где в датацентрах нет системы пожаротушения.

Так у этого сайта с продажей рекламы убытки от простоя могут быть такого уровня, что перекроют убытки от большинства гипотетических неудачных запусков из-за сбоя ЦУПа.
И ситуация, когда люди, могущие восстановить сервис, не могут несколько часов попасть в помещение, откуда его можно восстановить, из-за падения самого сервиса — это однозначный факап архитектуры.

Так у этого сайта с продажей рекламы убытки от простоя могут быть такого уровня, что перекроют убытки от большинства гипотетических неудачных запусков из-за сбоя ЦУПа.

Надейся, что у людей, которые строят ЦУП, мотивация отличается от «заработать больше денег»

В чат идеалистов завезли?
Я как раз надеюсь, что в том числе и ЦУПы строят умные люди с мотивацией «заработать больше денег». Потому что больше всего денег зарабатывается тогда, когда построено что-то качественное, что может долго приносить доход и параллельно улучшает репутацию строителя. И умные люди это понимают. Дураки да, считают что прямо сейчас распилить и построить говно выгоднее.

ЦУП

На цуп есть различные сейфети процессы и метрики, которые и вывозят в 100% качество любой говнокод.

Doubt. Пам’ятаємо код Боінга.

Черри пикинг
Можно для подтверждения — самому оценить % факапов софта safety vs non-safety

Що таке safety soft?

Те системы, отказ/глюки/промедление которых — может нанести урон окружающей среде и/или живым существам. Пример с боингом это чери пикинг, его не вывезли на высокий уровень качества, не потому что процессы кривые, а потому что люди этим процессам не следовали.

там в том и нюанс, что проблемное решение с кривой архитектурой было в самолете. который НЕ прошел все проверки регуляторов
Они хотели сэкономить время и порешали, чтобы самолет приняли как «улучшенную версию прошлой серии»
именно потому, видимо, и была спрятана информация про MCAS

Позднее выяснилось, что FAA значительно расширило[31] полномочия инженеров корпорации «Боинг» при тестировании на безопасность и сертификации Boeing 737 Max 8, фактически разрешив «Боингу» самой сертифицировать свой продукт, что ставит под сомнение объективность этих тестов. Объясняясь на слушаниях в Сенате, исполняющий обязанности администратора FAA Даниэль К. Элвелл заявил, что во время сертификации 737 Max инженеры по безопасности полётов и лётчики-испытатели FAA отработали 110 000 часов, и они провели или поддержали 297 испытательных полётов.

На фоне скандала с запретом на эксплуатацию в прессе появились сообщения, что «Боинг» проигнорировал неоднократные просьбы со стороны профсоюзов создать необходимый тренажёр для подготовки пилотов[32]. В результате некоторые лётчики были вынуждены осваивать новую модель, тренируясь на планшете iPad [33]. По данным газеты New York Times, Федеральная прокуратура США также расследует версию о том, что пилот компании «Боинг» Марк Форкнер, который тестировал новую модель 737 Max, умышленно ввёл в заблуждение Федеральное управление гражданской авиации США (FAA) относительно нового программного обеспечения для самолётов этой модели[34].

ru.wikipedia.org/...​_737_MAX#Запрет_на_полёты

В данном случае вопрос не в этом, а в том, что дизайн оказался сам на себя рекурсивно завязан.
В ДЦ нельзя войти, пока сеть лежит. Сеть лежит, пока не вошли в ДЦ и не сделали какое-то исправляющее действие. Рекурсия — см. рекурсия.
Для сервиса такого масштаба даже отдельная резервная сеть — не проблема, и она должна была быть сделана.

В данном случае вопрос не в этом, а в том, что дизайн оказался сам на себя рекурсивно завязан.

Дизайн, вероятно, завязан на себя сам рекурсивно, например, в смысле если все датацентры уйдут в офлайн, то инженеры, не смогут подключиться к своим виртуалкам, чтоб выполнить запустить скрипты, или найти нужную документацию/протоколы, но не в смысле «датацентры оказались заперты изнутри физически и люди не смогли открыть двери».

В ДЦ нельзя войти, пока сеть лежит. Сеть лежит, пока не вошли в ДЦ и не сделали какое-то исправляющее действие. Рекурсия — см. рекурсия.

Откуда инфа? В вашем исходном сообщении написано, что какой-то сотрудник не смог зайти в «building», под этим может подразумеваться что угодно, например, что он не смог зайти в свой кубикл в менло парк (который не является датацентром), что наиболее вероятный сценарий.

Далее ваша цитата:

people with physical access is separate from the people with knowledge of how to actually authenticate to the systems and people who know what to actually do

говорит о том, что были люди с физическим доступом в датацентр, но они не знали что там делать, так не имели нужной экспертизы, а люди с нужной экспертизой не работали в датацентре (обычные инженеры, которые работают из офиса/дома). Потребовалось время, чтоб разобраться и объяснить кому что делать в нестандартной ситуации.

Для сервиса такого масштаба даже отдельная резервная сеть — не проблема, и она должна была быть сделана.

Проблема в том, что это никогда не будет использоваться (т.е. вероятно оно даже не будет работать когда все сильно сломается), будет стоить денег и не принесет новых денег, и перетянет ресурсы с других направлений, которые бы принесли больше денег.

Проблема в том, что это никогда не будет использоваться (т.е. вероятно оно даже не будет работать когда все сильно сломается)

Для этого нужно его регулярно проверять, да.

будет стоить денег

Как известно, сисадминам лучше платить за то, чтобы не ломалось или быстро чинилось, а не за то, что надо что-то чинить.
Полные потери от вчерашнего инцидента превосходят стоимость создания и поддержания такой отдельной управляющей сети на порядки. Говорю это как человек, когда-то строивший и поддерживающий как раз сети узлов.
К подобным вещам надо относиться как к оплате страховки. На неё уходят деньги, которые были бы потрачены на что-то иное, да, но первый же инцидент обычно показывает оправдание этим затратам.

говорит о том, что были люди с физическим доступом в датацентр, но они не знали что там делать, так не имели нужной экспертизы

Это один вариант комментария о происходящем, были и другие, я их не постил, потому что более туманно и менее похоже на прямые источники.
Для окончательных данных подождём неделю-две.
Но если и так, то это опять же показывает, что персонал на местах был просто не обучен, не инструктирован или не адекватен, не готов к решению такой ситуации.

Дизайн, вероятно, завязан на себя сам рекурсивно, например, в смысле если все датацентры уйдут в офлайн, то инженеры, не смогут подключиться к своим виртуалкам, чтоб выполнить запустить скрипты, или найти нужную документацию/протоколы

Это тоже должно отрабатываться — в организации такого масштаба и значимости. Как именно — хоть на бумаге распечатать...

Вон народ из Амстердама пишет «как привыкнуть к сиренам в первый понедельник месяца?» Это проверка оповещения про наводнение. Когда последний раз было неостановленное наводнение? А готовность всё равно есть.

Как известно, сисадминам лучше платить за то, чтобы не ломалось или быстро чинилось, а не за то, что надо что-то чинить.
Полные потери от вчерашнего инцидента превосходят стоимость создания и поддержания такой отдельной управляющей сети на порядки. Говорю это как человек, когда-то строивший и поддерживающий как раз сети узлов.
К подобным вещам надо относиться как к оплате страховки. На неё уходят деньги, которые были бы потрачены на что-то иное, да, но первый же инцидент обычно показывает оправдание этим затратам.

Наличие независимой управляющей сети не предотвратило бы сам инцидент (как я понимаю, ошибка оператора, сделанная на большом масштабе). Все равно все бы упало, и пришлось бы потратить N часов, чтоб поднять. Возможно, вместо 6 часов понадобилось бы немного меньше, но все равно деньги бы были потеряны. Или еще хуже, эта сама сеть станет причиной падения (как случилось когда-то у одного облачного оператора).

Обосновать такого рода проект с аргументацией «если когда-то в будущем кто-то сильно накосячит BGP, мы сможем подняться немного быстрее» не получится в компании, где основные цели — быстрый запуск фич, которые приносят трафик и рекламу, и выжимание из инфраструктуры больше, делая меньше затрат.

Но если и так, то это опять же показывает, что персонал на местах был просто не обучен, не инструктирован или не адекватен, не готов к решению такой ситуации.

Это не удивительно, никто не будет отправлять сверхквалифицированных специалистов дежурить в датацентрах и никакие сверхквалифицированные специалисты на это не согласятся даже за Facebook money

Наличие независимой управляющей сети не предотвратило бы сам инцидент (как я понимаю, ошибка оператора, сделанная на большом масштабе). Все равно все бы упало, и пришлось бы потратить N часов, чтоб поднять.

Сравните два варианта:

1. Испорченный конфиг раутера не позволяет целевой транспорт данных и даже доступ к нему для управления. Требуется, чтобы кто-то пришёл на место, вооружённый адекватно технически (если нет локальных готовых средств, то это лаптоп с COM-портом, как минимум через USB-COM переходник, также хоть какой-то навык запустить Terminal/minicom/etc. и отдавать команды, а также телефон для передачи этих команд, пусть даже через Telegram/etc.). Заметьте, не через штатный Whatsapp, который тоже упал. Человек, набирающий команды, должен также уметь выполнить какие-то банальные для тренированного админа, но неподъёмные для неспеца действия правильно влогиниться, получить админ. права (root на Unix называется enable на Cisco), зайти в режим конфигурации в правильную секцию, набрать нужные команды...
Возможно, местный сотрудник просто включит видео. Но не во всех ДЦ доступна сотовая связь; во многих она принципиально заэкранирована.

2. Стоит пусть даже домашнего уровня раутер (ok, пусть не TP-Link, но что-то хотя бы уровня Cisco 8xx). Он в отдельной сети на отдельных кабелях, связанных с одной ниткой оптики между ДЦ (скорее, одной лямбдой (D)WDM, но всё-таки отдельный поток L1). Его AUX выход воткнут в Console вход управляемого раутера, обеспечивая... ну кто с компортом не работал — считаем, это как ssh.
Админ логинится (ssh/telnet/etc.) на этот микрораутер, проходит последовательным портом на большой раутер и делает сам необходимые настройки, в удобной обстановке и видя все необходимые параметры. Ему даже доступна заливка файлов через xmodem (или что там сейчас посовременнее), чтобы залить целиком корректную версию конфига.

Ваша оценка времени на исправление проблемы в каждом из двух случаев?
У меня получилось часа 3 в первом, с учётом поиска человека, втыкания в порты, и отработкой всех команд через какую-то разновидность испорченного телефона — и минут 15 во втором.

По-моему, разница колоссальна.

Возможно, вместо 6 часов понадобилось бы немного меньше, но все равно деньги бы были потеряны.

Разница между 15-30 минут и 6 часами — это радикальная, качественная разница. В первом варианте вообще половина земли могла ничего не заметить и не поверить.

(Ещё стоит подумать, насколько вообще надо было сводить обе сети с DNS под одно администрирование. По нормативам DNS это некорректно. Им вообще стоило бы разнести эти ответчики на разные берега США, как минимум.)

Или еще хуже, эта сама сеть станет причиной падения (как случилось когда-то у одного облачного оператора).

Просветите, что и как. Но я слабо верю, что именно вспомогательная сеть могла такое дать.

не получится в компании, где основные цели — быстрый запуск фич, которые приносят трафик и рекламу, и выжимание из инфраструктуры больше, делая меньше затрат.

Да, вот это может быть как раз принципиальным моментом во всей истории.

Это не удивительно, никто не будет отправлять сверхквалифицированных специалистов дежурить в датацентрах и никакие сверхквалифицированные специалисты на это не согласятся даже за Facebook money

Вот потому такой спец должен суметь рассказать, какие лампочки горят, и максимум — воткнуть шнурок в консольный порт, если он по регламенту обычно отключен.
Хотя, если в ДЦ будет помещение — нормальный офис, в котором будет сидеть спец свои 8*5, и только на нештатные ситуации уходя в гермозону — почему бы и нет? Не всем же давиться в центральный опенспейс...

минут 15 во втором.

Вася выполняет неправильную команду, которая ложит фейсбук, подключается к «управляющий сети», и откатывает свои изменения, это заняло 15 минут, никто почти ничего не заметил. Збс?

Оk, can we get serious now?

Вася собирается выполнить рутинную безопасную с его точки зрения операцию в продакшене (которая, возможно, напрямую даже не связана с BGP). Сидит дома на диване в халате с ноутом на коленях, в одной руке бутерброд, другой он лениво копирует комнады из одной консоли в другую, попутно прямо в консоли что-то исправляя и отправляя их исполниться. Збс, готово. Проверить сработало или нет? Делал уже 100 раз, конечно, сработало. Вот. пинганул ФБ, все работает.

Теперь можно пойти чайку заварить и сходить в туалет.

Я хз сколько времени нужно, чтоб BGP перестал анонсироваться, и чтоб остальной интернет подхватил, но чисто для примера допустим, что минут 10 нужно, чтоб интернет начал чувствовать боль.

Дальше нужно было бы еще минут 5, чтоб системы мониторинга подхватили, что что-то не так и начали отправлять оповещения. А вот в качестве бонуса эти системы мониторинга тоже упали, т.е. никаких оповещений не будет. Нужно чтоб ответственные люди заметили, что FB лежит, исключили варианты типа «мой comcast опять глючит» это легко еще минут 10.

После этого несколько людей найдут способ связаться и начать решать проблему.
— Что случилось?
— Попингуй Facebook
— DNS не резолвится.
— Быстро ищем DNS людей.

Сколько времени займет поиск нужных DNS людей, сколько они будут ковыряться у себя внутри, пока выяснят, что DNS лежит, но проблема еще более глубоко?

Вася мог уже вернуться из туалета, увидеть, что ФБ лежит, но тут же увидеть, что все обсуждают DNS. У любого человека будет bias найти что причина проблемы у кого-то другого, а не у него, и сигнала «DNS не работает» будет достаточным, чтоб успокоиться и пойти дальше пить чай пока остальные будут пытаться поднять DNS.

Через 15 минут выяснили, что DNS лежит, но лежит он по какой-то другой причине, ищут дальше.

Кто-то обнаружит, что связи с каким-то датацентром вообще нет, DNS не при чем. Что случилось, может что-то связанное с электричеством. Найдут нужные телефоны в датацентре (при том что все внутренние ресурсы лежат), выяснят, что электричество есть, люди в датацентре знать не знают о каких-то проблемах.

И т.п.

Потом кто-то вспомнит, что Вася собирался что-то делать с BGP, выйдут на него, и далее вероятно все пойдет более шустро и прийдут к выводу, что его команды положили BGP.

Надо все откатить. В этот момент бы «управляющая сеть помогла», но что в ней делать? У Васи есть команды, которые он выполнял? Уже нет, они остались в его виртуалках, к которым уже не подключиться, так как они были на «обычной сети». У него были готовы команды для ролбека? Нет. Ну вернее были, но эти команды были написаны год назад кем-то другим и он их копипастил из одного тикета в другой для галочки, они уже не рабочие.

Все это будет растягиваться на часы, особенно если инфраструктура в компании обычно работает как часы, и команды тупо не готовы работать в «военном режиме» и эффективно использовать имеющиеся человеческие ресурсы.
В какой-то момент на телефоне появятся большие шишки и начнут на всех орать и пытаться рулить процесом, что еще больше задержит разрешение.
Если в компании естьбыла куча хороших внутренних средств для диагностики и мониторинга инфраструктуры и они враз все пропали, то все еще хуже, людям будет сложнее найти выход на нужные диагностические данные, это займет еще больше времени.

Конечно, если в компании сидит 100 человек, готовых в любой момент броситься на такой пожар как десант, которые учавствовали в таком регулярно по несколько раз в неделю (как в реальных ситуациях, так и в симуляциях/треннингах), для которых это рутина, все будет двигаться быстрее. Можно так же предположить, что если компания так сильно инвестировала в подготовку персонала, то этот персонал не выполнит деструктивную команду во всех датацентрах одновременно и не положит их все, и вся эта подготовка и резервные сети вообще не понадобятся.

2. Стоит пусть даже домашнего уровня раутер (ok, пусть не TP-Link, но что-то хотя бы уровня Cisco 8xx). Он в отдельной сети на отдельных кабелях, связанных с одной ниткой оптики между ДЦ (скорее, одной лямбдой (D)WDM, но всё-таки отдельный поток L1). Его AUX выход воткнут в Console вход управляемого раутера, обеспечивая... ну кто с компортом не работал — считаем, это как ssh.

Реальность такова, что компании дешевле поставить в датацентре 10 лишних стоек с серверами, чем один раутер TP-Link. Первое оптимизировано и делается на потоке тысячи раз в день, второе — уникальная операция, которая делается несколько раз в год, которую может сделать только несколько человек в компании и т.п.

Просветите, что и как. Но я слабо верю, что именно вспомогательная сеть могла такое дать.

Рассказывали байку, как кто-то случайно что-то сделал и весь трафик датацентра пошел в эту «управляющую сеть», которая, разумеется, не была на это рассчитана. Это привело к фактически пропаданию связи во всем датацентре и триггернуло много нехороших вещей в разных местах, которые были готовы к единичным и частичным отказам в связи (типа неколько кабелей или несколько серверов), но не к тому, что пропадет 100% коммуникации.

Хотя, если в ДЦ будет помещение — нормальный офис, в котором будет сидеть спец свои 8*5, и только на нештатные ситуации уходя в гермозону — почему бы и нет? Не всем же давиться в центральный опенспейс...

Наверное, потому что компания хочет, чтоб был один такой спец на всю компанию, а не по одному спецу на каждый датацентр.
Плюс сидеть 8*5 == вообще там не сидеть. А сидеть 24 часа в сутки такие спецы не согласятся.

Оk, can we get serious now?

Я был вполне серьёзен. 15 минут — масса юзеров заметит, да, но меньше, чем за 6 часов, и не в 24 раза, как просто соотношение по времени, а сотни и тысячи раз.

Вася собирается выполнить рутинную безопасную с его точки зрения операцию в продакшене (которая, возможно, напрямую даже не связана с BGP). Сидит дома на диване в халате с ноутом на коленях, в одной руке бутерброд, другой он лениво копирует комнады из одной консоли в другую, попутно прямо в консоли что-то исправляя и отправляя их исполниться. Збс, готово. Проверить сработало или нет? Делал уже 100 раз, конечно, сработало. Вот. пинганул ФБ, все работает.

Кто-то собирался быть серьёзным?

Как операция на edge router может проводиться в таких условиях? Неважно, они строили BGP или какой-нибудь IS-IS. Это операция на граничном раутере, точка.
В идеале она проводится в разделяемом экране, где ещё минимум один инженер смотрит на проходящее и критически всё комментирует (см. XP: pair programming — а парное администрирование возникло ещё раньше).

Я хз сколько времени нужно, чтоб BGP перестал анонсироваться, и чтоб остальной интернет подхватил, но чисто для примера допустим, что минут 10 нужно, чтоб интернет начал чувствовать боль.

Потеря анонса одного блока в результате улетевшего соседям update — секунда. Расползание по США — 10 секунд максимум, обычно быстрее.

Дальше нужно было бы еще минут 5, чтоб системы мониторинга подхватили, что что-то не так и начали отправлять оповещения. А вот в качестве бонуса эти системы мониторинга тоже упали, т.е. никаких оповещений не будет.

Я в 2008-2011 участвовал в разработке мониторинга, который 1) имеет секундную реакцию на критические события, 2) имеет выделенный контур, который контролирует основной, 3) постоянно моделирует реакцию на разные события, используя метки подсистемы (реальная/тестовая, причём отдельный компонент не знает, какая метка чему соответствует), и то это была уже не передовая идея, были конкуренты. И это 10 лет назад.
Вы хоть что-то кроме nagios с доморощенным конфигом видели? «ещё минут 5», смешно.

Нужно чтоб ответственные люди заметили, что FB лежит, исключили варианты типа «мой comcast опять глючит» это легко еще минут 10.

Отсутствие сквозного прохождения пакетов (хоть пингом) к ключевым точкам сети — пара секунд и загорается красная лампочка и раздаётся сигнал. Главный по смене видит сигнал у себя и запускает проверку.

— Попингуй Facebook
— DNS не резолвится.

Нет, нормальный мониторинг скажет «нет доступа к раутеру сети». Собственно DNS как причина заглушится более важной — это я видел у мониторингов ещё в 1990-х, причём часто с автодетектом иерархии алармов.

Потом кто-то вспомнит, что Вася собирался что-то делать с BGP, выйдут на него, и далее вероятно все пойдет более шустро и прийдут к выводу, что его команды положили BGP.

Список текущих, недавних и будущих работ вывешен на стене в помещении NOC и анонсирован (да хоть в гуглокалендаре!) всем ремотным сотрудникам. «8:30 обновление конфига граничных раутеров» будет ярко видно.

У Васи есть команды, которые он выполнял? Уже нет, они остались в его виртуалках, к которым уже не подключиться, так как они были на «обычной сети».

Это работает не так. При качественной дисциплине работы с такими раутерами:

1. Есть на локальной флэшке набор конфигов, включая последний сохранённый. С перезагрузки взлетит последний сохранённый.
2. Есть конфиг в памяти.
3. Раутер умеет команды «сейчас стартовать отсчёт заданного времени, если не было сказано commit до таймаута — вернуться к последнему сохранённому». Альтернативно — «ребут через заданное время, если не отменили».
Это было так ещё у Nortel. Это так у Cisco, Juniper, десятков прочих. Админ начинает что-то делать, неважно, что случилось — он не сказал commit (write, copy run sta, whatever) и все изменения откатываются.

Вы ни разу не имели дело с подобными устройствами и задачами, иначе я не могу объяснить уровень чуши, которую вы тут несёте.

Вот в гипотезу с автомержем (где-то рядом писали) я больше поверю. Там могут и наплевать на все эти защиты ради скорости и автоматизации правок.

особенно если инфраструктура в компании обычно работает как часы, и команды тупо не готовы работать в «военном режиме» и эффективно использовать имеющиеся человеческие ресурсы.

Потому что тренироваться надо. Регулярно.

Реальность такова, что компании дешевле поставить в датацентре 10 лишних стоек с серверами, чем один раутер TP-Link. Первое оптимизировано и делается на потоке тысячи раз в день, второе — уникальная операция, которая делается несколько раз в год, которую может сделать только несколько человек в компании и т.п.

Bus factor менее 4 для таких задач — безответственность.
В любом ДЦ много уникальных компонентов, начиная с системы электропитания. Один раутер и один канал ничего не ухудшат по сравнению с остальными затратами.

Рассказывали байку, как кто-то случайно что-то сделал и весь трафик датацентра пошел в эту «управляющую сеть», которая, разумеется, не была на это рассчитана.

Потому что она не была толком отделена. Верю. Я не зря поэтому рассказываю про связь этой сети с основной через консоли.

Наверное, потому что компания хочет, чтоб был один такой спец на всю компанию, а не по одному спецу на каждый датацентр.
Плюс сидеть 8*5 == вообще там не сидеть. А сидеть 24 часа в сутки такие спецы не согласятся.

Там их сотни, на все ДЦ хватит.
Физического присутствия достаточно на время регламентных работ на L1-3 и пару часов после этого. Это с любым можно договориться.

Повторюсь, я бы в итоге винил 1) автоматику, 2) того, кто не поставил ограничители на эту автоматику. Ну и опять же отсутствие выделенной сети для управления.

Как операция на edge router может проводиться в таких условиях?

Осторожно (но не всегда)

Неважно, они строили BGP или какой-нибудь IS-IS. Это операция на граничном раутере, точка.
В идеале она проводится в разделяемом экране, где ещё минимум один инженер смотрит на проходящее и критически всё комментирует (см. XP: pair programming — а парное администрирование возникло ещё раньше).

Возможно, первые несколько раз так и делалось, когда была одна стойка.

Потом когда инфраструктуру начали считать датацентрами, все стали самодовольными, скорость изменений возрасла. Да, можно делать парное администрирование, но с большой вероятностью твоя пара просто будет сидеть рядом и пассивно учавствовать в процессе, потому что
1) не поспевают даже читать все что происходит
2) не понимают что происходит, потому что третий месяц на работе
3) хотят поскорее закончить обозрение и вернуться к решению своих задач (за которые можно получить плюшки на перф ревью), а не чужих задач (за которые кто-то другой получит плюшки)

Чем чаще эта процедура делалась, и чем чаще она успешно работала, тем более самодовольными становятся люди, планка паранойи падает, и в какой-то момент ты говоришь «кто-то может посмотреть как я команды вбиваю», и кто-то идиотским голосом с другого конца комнаты скажет «я смотрю, поехали, YOLO!».

Я в 2008-2011 участвовал в разработке мониторинга, который 1) имеет секундную реакцию на критические события, 2) имеет выделенный контур, который контролирует основной, 3) постоянно моделирует реакцию на разные события, используя метки подсистемы (реальная/тестовая, причём отдельный компонент не знает, какая метка чему соответствует), и то это была уже не передовая идея, были конкуренты. И это 10 лет назад.
Вы хоть что-то кроме nagios с доморощенным конфигом видели? «ещё минут 5», смешно.

Почему вы ее не продали ФБ?

Разработать мониторинг, работающий с секундной точностью не проблема, проблема сделать чтоб он работал с миллиардом разных метрик и при этом ничего не стоил и не создавал больше проблем из-за ложнопозитивных срабатываний.

Например, Azure до сих пор работает с минутной точностью. Другому облачному провайдеру секундную точность завезли совсем недавно, но счет там такой что его лучше не трогать.

Вы ни разу не имели дело с подобными устройствами и задачами, иначе я не могу объяснить уровень чуши, которую вы тут несёте.

Мне не нужно иметь дело с конкретной технологией или девайсом, чтоб знать как и кем вцелом делаются operations на масштабе, когда датацентры считаются десятками, и когда их постройкой рулят люди, у которых в резюме написано «жил на одном этаже с Марком».

Когда ожидания, что все все делают осторожно и вокруг стопицот систем автоматизации, которые помогут системе восстановиться, в реальности все сделано достаточно надежно для того, чтоб не развалиться в ближайшие пол года, и основной механизм надежности — возможность переключить трафик из пострадавших датацентров в оставшиеся рабочие.
Этот сценарий, кстати, FB даже постоянно тестирует в продакшене — вывод датацентра полностью в офлайн — en.wikipedia.org/...​ngineering#Facebook_Storm. Он защищает от большого класса проблем дизайна, которые нельзя дешево и быстро решить.
Увы, он не страхует от ситуации, когда кто-то по ошибке выполняет деструктивные команды во всех датацентрах сразу.

Чем чаще эта процедура делалась, и чем чаще она успешно работала, тем более самодовольными становятся люди

Уж поверьте, что в действительно больших конторах есть люди, которые знают эти проблемы и решают их соответствующими мерами. Надо только им не мешать.

Собственно об этом у нас похоже и дискуссия — я настаиваю, что это можно решить и задача вполне подъёмна, а вы ищете, почему она не может быть выполнена:) Я при этом не говорю, что в FB, например, все эти меры применялись — бо скорее таки нет. Я говорю о том, что их принять возможно и не так уж сложно.

Почему вы ее не продали ФБ?

Хотя бы потому что она для HPC, а не для условий FB.
Но это не значит, что единичные особо важные места инфраструктуры не могут мониториться с такой же оперативностью. Могут, и это банально.

Например, Azure до сих пор работает с минутной точностью.

Для себя или для клиентов? Охотно верю, что клиентам они не будут давать секундную реакцию.

Разработать мониторинг, работающий с секундной точностью не проблема, проблема сделать чтоб он работал с миллиардом разных метрик и при этом ничего не стоил и не создавал больше проблем из-за ложнопозитивных срабатываний.

«Ничего не стоит» — не бывает. Закладывайте на него навскидку 2-3%, не ошибётесь.

Про «ложноположительные» в контексте FB смешно — у них и в нормальном рабочем режиме в ленту случайная половина постингов просто не грузится. Но хотя бы управляющую инфраструктуру могли отделить во что-то надёжное.

Facebook_Storm.
Увы, он не страхует от ситуации, когда кто-то по ошибке выполняет деструктивные команды во всех датацентрах сразу.

А почему собственно? Не предусмотрели быстрого восстановления? Кто виноват?

в Швеции такие же проверки сирен раз в месяц, но насколько мне известно это все в рамках военной подготовка при бомбардировках. Детям со школы рассказывают где бомбоубежища. При этом Швеция последний раз воевала когда еще и самолетов-то не было.

надо будет бегом физически спасать ситуацию ...

Теперь добавят к уровням собеседования норматив на бег с ноутбуком. Лесон лернд как говориться.

На твіттері кажуть, що співробітники не можуть потрапити в датацентр, бо їх бейджі перестали працювати через збій

people with physical access is separate from the people with knowledge

Звучить як початок фільму-катастрофи

Понабирали кодерков по объявлениям литкодам...

А ведь есть же этот мем, что куда Зеленский ни приедет, у страны проблемы. Ну так вот...
dou.ua/forums/topic/34892

Бідоносець

Долго объяснять, отправьте его в Россию. Он на рояле умеет

Там есть кто-то умный и его не пускает.

В те должности, где имеется власть не пускать, умных не берут. Там отсев ещё на уровне профессии.

Тогда есть надежда!

Тримаємо кулачки щоб не піднялись

Ага, fuck fb. Одна з найгидкіших з Big Tech

Ну, zstd таки гарна штука. (А більше не памʼятаю великих досягнень)

Не происходит разрешение имен. Уже 4-й час. Многовато
ИМХО: Или на инфраструктуре что-то случилось или же сервис гео. распределения DNS ... будем посмотреть.

А тич часом...
Personal Information of More Than 1.5 Billion Facebook Users Sold on Hacker Forum
www.privacyaffairs.com/...​ata-sold-on-hacker-forum

Так это та база, которую собрали сильно ранее. Я так понимаю они решили попиариться и подзаработать сейчас, на фоне сбоя, мол да мы ...

Фондовий ринок вже пройшов максимальні розміри мильних бульбашок чи ще надувають?

То ще тільки приказка. Як падатиме, ти помітиш. Побачивши армію ватішників, що шукають роботу в таксі.

Акції падають по всьому ринку.

Підписатись на коментарі