Яка причина помилки Redis та як її впіймати?
Підписуйтеся на Telegram-канал «DOU #tech», щоб не пропустити нові технічні статті.
errorMessage: Timed out attempting to find data in the correct node!,
errorType: Object RedisClusterException,
Всім привіт. Зіштовхнулися з командою з досить рідкісною помилкою Redis й зараз шукаємо ідеї як її розв’язати. Можливо ви вже стикалися з цим і зможете поділитися досвідом або ідеями?
Продукт
Додаток для знайомств, 30 млн користувачів.
Проблема
Помилка виникає в рандомний час, в різних місцях, з різними даними — тобто це різні івенти. Немає якоїсь характерної залежності. В пікові навантаження, проблема ескалюється, нам прилітає пачка помилок вище, яка говорить про втрачені івенти*, які недоотримали аналітики. Останнім часом таких кейсів стало доволі багато — наприклад, за вчора втратили майже 25 тис.
За добу, в середньому, транспортуємо 500 млн івентів, тож поки 25 тис не виглядають критично, але для аналітиків, втрачені івенти можуть бути важливі, плюс раніше таких втрат в нас не було.
Питання:
- Яка причина помилки Redis — чому він тут не може знайти запис у ноді?
- Як зрозуміти де саме проблема та як піймати цю помилку?
Гіпотеза
Ми з командою думаємо, що можливо це щось на інфраструктурному рівні й вже готуємо середовище навантажувального тестування.
Буду вам вдячний за ваші ідеї щодо відповідей на ці питання.
*Івенти — дії користувачів в додатку або відпрацювання якоїсь логіки після дії користувачів.
Redis ми використовуємо у якості черг для обробки наших івентів.
19 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів