День, когда упал Amazon

Не весь конечно, но тоже больно.
Плохая тенденция, gitlab, cloudflare, amazon,...

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn

Найкращі коментарі пропустити

Да. Жулянский путепровод упал. Може как-то связано?

Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Читаю официальную версию. «Это наша вина, прокол сотрудника, мы получили урок, хотя система мегастабильна, но если убить половину серверов, то она перестанет работать. Но ее можно будет восстановить что мы и сделали. Примите наши извенения за причиненные убытки». Читаю комменты человека, у которого в профиле указано, что он работает в амазоне «Специалисты по иконкам, сколько таких систем построил ты. Толпы повелись на баззворд, а умные бекапили». Понятно теперь почему штабквартира Амазона в США, а у нас максимум трактор заводят. Ребята, с таким отношением к кастомерам слепить что-нибудь свое будет проблематично.

Руслан, вы врядли что-то знаете про мое отношение к кастомерам. Если внимательно посмотреть на мои ответы, то станет ясно, что меня не беспокоит падение, обсуждение/критика падения или проблем Амазона/облаков в целом — это нормальная реакция и я сам долго смеялся, читая твиттер. Меня раздражают абсолютно бессмысленные комментарии про иконки, банки, суды и надежность собственных серверов от людей, которые явно не понимают, что происходит, но им важно отметиться. Именно поэтому и заводят трактор, потому что вместо того, чтобы попытаться подумать и ответить/написать что-то разумное или промолчать/пошутить, люди пытаются выставить себя ну очень умными экспертами до того момента, пока их носом не ткнут. Разницу между англоязычным и русскоязычным форумом помните? Ну так оно и на DOU и везде по стране. Не то, чтобы в Европе или США было совсем без этого, но как-то чувствуется намного меньше.

Иногда по привычке захожу посмотреть, что происходит, почитать икспертов по reliability своих серверов, где «можно организовать работу так, чтобы не падало», посмеяться и всё такое. Чем дальше, тем реже.

Не совсем в тему, но по поводу наших форумов и работе с кастомерами :)

Вот как нужно работать с клиентами, приведены ответы владельца форума продающего свой продукт:
Q: А если я оплачу лицензию на 1 сайт на 1 DNS, но затем перееду на другой домен. Это возможно?
A: Нет. Слишком много в последнее время появилось «ездящих». За каждый домен надо платить.

A: Вообще, отжать что-то дешево, оставив меня голодным — не получится, тратить время на это и придумывать хитроумные варианты, чтобы заплатить мне как можно меньше — не стоит.

Особенно прикололи ответы о нарушении правил на вопросы. Как в советской столовке на любой вопрос носом в меню тыкали :)
Q: Встанут ли на немецкую версию русскоязычные модули и будут ли нормально работать?
A: Нарушение пункта 3 правил публикации сообщений.

A: Очень глупо сначала принимать правила форума, и потом буквально тут же (через 2 минуты) не считать нужным их соблюдать.

magento-forum.ru/topic/756

Не совсем в тему
Ээээ. Я с трудом вижу связь :D

Хм. А ещё там дальше в данных автора одного вопроса написано «Бесплатный Баран Михаил Доронин» (и дальше email)
М-да, я бы такому не просто денег не давал... вообще его надо на прекрасное.it разрекламировать.
Но сосед по ветке прав — для этого тут на форуме есть более адекватные темы.

Согласен. Просто у автора поста промелькнула фраза по поводу наших русскоязычных форумов. Вот и привел пример на который наткнулся недавно )

Американский форум. Задаёшь вопрос, потом тебе отвечают.
Израильский форум. Задаёшь вопрос, потом тебе задают вопрос.
Русский форум. Задаёшь вопрос, потом тебе долго рассказывают,
какой ты муд*к.

Тут хуже. На том классическом русском форуме хотя бы «предлагают» альтернативу. А тут ничего, кроме тупых оскорблений.

нагадує дєвачкові правила для анкет
всіх посилає на пункт 3
magento-forum.ru/topic/729

Поисковый запрос в гугле:
«баран site:magento-forum.ru»
Там целый зоопарк бесплатных, лживых и отпердоленых баранов ))))
Может конечно это специфика кастомеров, я уже что-то начал сомневаться ))

С какого момента быть SDE в Амазоне, с шифтами и пейджером стало престижно?

Ну это смотря с чем сравнивать — ясно дело, что работать на украинских галерах или стартапах за мивину намного престижнее.

Действительно, престиж работы SDE вообще переоцененная штука. Все эти ваши вайтивайти...

Ну и мне за oncall платят дополнительно и дают выходные. Жаловаться как-то не приходится. Что подразумевается под шифтами хз. Есть пара команд с жестким графиком, но это чаще даже не sde.

Есть телефон на андроиде с аппликухой от Амазона. Пейджеры вымерли уже почти везде.

В Сиэтле пейджеры живее всех живых

Ну, это разве шо если какой нибудь хипстер себе специально попросит пейджер, чтобы выглядеть как в девяностых.

Вам правда за онкол доплачивают?

Столько всего передумал. Как могут доплачивать за онкологию. :)

В Ирландии/Европе такой закон.

Я бы сказал Galway Bay Brewery для старта. Brew Dog, если дружить с другими кельтами.

Ну да, процессы недоработаны. На хабре недавно была статья с тем, как где-то в другом месте (vk? dropbox?) команды подобных действий специально доработаны так, чтобы ничего опасного без особых дополнительных опций и подтверждений не сделать.

в основном упал s3, но тот же SES тоже отвалился, короче накрылось кучу всего, вчерашнее падение принесло нам кучу проблем, теперь будем ломать голову как дублировать хранилища и в случае чего переключаться очень быстро, а это лишнее издержки

Большинство команд наверное думало, что если уж S3 упадет, то обо всем другом точно думать не будут? Они в чем то оказались правы.

в том то и дело, что никто вообще не думал что S3 может упасть, а если упадет то это будет больше чем 30 минут :)

об этом надо было думать на этапе проектирования.

Консоль S3 залежить від S3, EBS теж залежить від S3, EC2 залежить від S3, внутрішні тулзи залежать від S3 і в результаті все посипалось.
Це як outage DynamoDB від якого виявляється теж купа всього залежить, в тому числі і EC2 і SQS.

«Глобально и надежно»

Понабежали эксперты по судам, банкам, хайлоаду и хостингу иконок. DOU как он есть.

ну потрібно ж про щось тріпатись, доки всі в очікуванні весняного загострення і нових топіків, як і де знайти тян/кун

Оно упало experienced elevated error rates. ©
Виновные будут четвертованы и высланы обратно в страну происхождения для прохождения исправительных работ в бодишопах.

Ну это был провал, конечно. Они достаточно быстро повесили заметку про проблему вверху, но не проапдейтили остальное, т.к. не могли.

Типа с дипломом только можно коментить? Я не эксперт по бигдате — просто у нас на проекте редшифт перешел в ридонли стейт и посыпались таски в емр кластере, которые с s3 взаимодействовали . Ну теперь то мы поняли, что делать вендор лок решения — не самая хорошая идея. Повезло, что это было вечером, а не в разгар дня. Кстати чтобы судить о вкусе колбасы не нужно быть начальником колбасного цеха. Эксперты по иконкам амазону денюжку несут, так что и право голоса имеют

Начальником быть не нужно, нужно не нести чушь. Да, посыпались многие системы и всё, что работало с S3 в us-east-1. Да, это плохо и для самого Амазона и для репутации в целом. Вендор лок — это риски, так всегда было и так будет. Но даже в пределах AWS можно было работать, если данные были дублированы в других регионах. Да, это стоит денег, но, подозреваю, что заметно дешевле, чем дублирование на других платформах.

это такой флешмоб новый
интересно только кому теперь амазон эстафету передаст...

Не отсудят, у них по контракту что-то вроде часа оффлайна в год

Время реакции хеопдеска на бизнес критикал фейл до 15 минут. Но если ты платишь от 15к у.е. в месяц только за техподдержку. Ну таким клиентам, я уверен , перезвонили личные консультанты, которые положены в указанное в договоре время

Ага. И я об этом — там оговорено только скорость, с какой ты услышишь сочувствие

Выдыхай. Ну или не несли откровенный бред при нулевом понимании предметной области.

Вопрос куда свалят? какие альтернативы облакам?

А что железо свое не падает? Те же яйца, только в профиль )
Конечно, если резкое масштабирование не нужно, то и облако может быть лишним.
Но для больших сервисов, ничего лучше облака пока ничего не придумали.

www.abc.net.au/...e/7797710-1×1-940×940.jpg

Виктор, сколько вы таких систем организовали сами или хотя бы видели?

у большого количества людей была вера в абсолютную надежность облаков
Кто это большое количество? Толпы велись на баззворд и «облако — решение всех проблем», но для таких облако даже лучше, т.к. свое завалят.

Те, кто делал резервные копии в другие регионы S3 могли спокойно переключиться. Включается в несколько кликов, но стоит денег за хранение, разумеется (хотя там в основном копейки, если разумно подойти).

не знаю кто там в два клика перешел куда, но у нас с 3 аккаунтов невозможно было получить доступ к s3 ни в одном датацентре

Я не знаю, работал UI или нет, но в остальных регионах (не us-east-1) S3 работал спокойно через API.

Просто «облако» выходит дешевле в, наверное, большинстве случаев.

Как только доходит до того, что системы требуются 24*365, чужое облако (стиля Амазона) становится дороже, чем dedicated сервера. А следующим уровнем становится покупка своих серверов, но до этого уже действительно доходят только крупные.

Для предвиденных апгрейдов — заказывается новое железо, для непредвиденных — можно временно и Амазон применить, пока своё не приедет, или на время пика.
«Собственное железо» я на этом уровне воспринимают в первую очередь как наёмный dedicated. В простых случаях VPS — он может быть всё равно дешевле, чем облако Амазона или аналога.

Упал с3 . И потянул часть за собой.
Если вы думаете что АВС падает редко — вы сильно ошибаетесь. Это ситуация регулярная. Другое дело что реданденси обеспечивает обычно ксстомер сам , а вот реданденси С3 — сам Амазон. И все верили что ничего не может с ним случится.
А это всего лишь большое объектное хранилище. Причем очень дешевое. По этому многие и пользуются.

Да, многие пострадали из-за них, не только сам амазон.

был такой банк, банк оф америка, или как то так. ну очень большой. и этот большой банк упал и так не смог подняться и были большие разборки. Так президент банка через 3и года сказал что исследования рут-коса показали — мы стали настолько большими что просто не могли этим всем управлять в условиях изменений на рынке и со временем разные мелкие косяки привели к тому что все упало. Такая история переодически повторяется в разных индустриях.

Но здоров’я напевно вже не те ... :)

помню гитхаб недавно тоже падал

Да. Жулянский путепровод упал. Може как-то связано?

Точно. Упал ведь.

Вроде работает.

status.aws.amazon.com
Там половина сервисов в регионе желто-красные.

ЦРУ устроила маски-шоу и серверы вынесла?

Там поначалу даже статус не менялся потому что иконки хостились на S3 который упал. twitter.com/...status/836656664635846656

иконки хостились на S3 который упал
Это несколько некорректная интерпретация, которую придумал кто-то в комментариях к твиту и понеслась. Я не знаю что там произошло, но как веб-программист скажу следующее: если у тебя есть файлs «cross.png» и «check.png», а на странице код <img src="cross.png«>, то при недоступности файла cross.png браузер отобразит пустоту, а не check.png. Разве что если иконка была фоном, и по дефолту фон check.png, а при ошибке в стилях меняется на cross.png, и то я не уверен как себя поведет браузер в такой ситуации (это проверять надо, а мне лень). По идее должен быть пустой фон у элемента, по-крайней мере это логично. Но если иконки делают фоном — используется спрайт, а не куча мелких изображений. Поэтому такую теорию тоже можно отбросить. Так что про «иконки хостились на s3» — это с 99% вероятностью бред.

Вариант, когда картинка статуса меняется джаваскриптом не рассматривался? Изначально загружается «зеленая» иконка, потом скриптом по таймеру она обновляется в соответствии с текущим статусом сервиса. Скрипт на обновлении завис (не может получить статус) иконка продолжает светиться дефолтная?!

Да, такой вариант очень вероятен. Но это никак не

иконки хостились на S3 который упал
, как решили твиттер-эксперты.

Підписатись на коментарі