странно вообще как вы не мониторили рестарт подов. Незапланированный рестарт пода за исключением деплоя это краш, его убил OOM либо из-за хелсчеков и должно расследоваться командой.
Это часто считают антипаттерном. И в этом случае вряд ли помогло бы, потому что сервис крешился с OOMKilled.
Обычно это детектися и решается алертами на K8s events.
Залежить від того, як той аларм задефайнений: Могли вибрати якусь банальну метрику і вікно відпрацювання тригера було занадто широким: В ідеалі, повинен був бути задефайнений хелз чек, який би включав у себе перевірку доступу до усіх зовнішніх застосунків...
Є простіше рішення. Якщо система ще в активній розробці і є супорт інженери — не включати «container restart». Тоді при падінні ви зразу знаєте де проблема.
Цікаво, але «такое». Тобто у вас один із сервісів знаходився у постійному циклі народження-смерті не встигаючи навіть працювати, але ви цього не помічали поки меседж брокер не всрався )
Коментарі