Пороговые значения метрик по уровням системы

Пороговые значения метрик по уровням системы#

Формат: Приемлемо / Проблема
CPU/Memory - относительно лимитов pod/VM (requests/limits). При отсутствии лимитов - оценка по тренду и корреляции с другими метриками.

1. HAProxy#

Метрика

Приемлемо

Проблема

Источник (дашборд)

Утилизация памяти pod/OS

< 70% лимита

> 90% или рост + OOM/рестарты

System overview → Container memory usage

Утилизация CPU pod/OS

< 70% лимита

> 85% устойчиво

System overview → CPU Usage Cores

HTTP request rate / response rate

Стабильно, без аномальных всплесков

Резкие пики или падение rate при неизменной нагрузке

HAProxy → HTTP response / request

HTTP 5xx / ошибочные ответы

0 или единичные

Устойчивые 5xx, рост доли ошибок

HAProxy → HTTP response / request

Session rate (ops)

Стабильно коррелирует с нагрузкой

Падение сессий при неизменной нагрузке

HAProxy → Sessions

Latency (время ответа через HAProxy)

< 500 мс

> 1–2 с устойчиво или монотонный рост

System overview → Среднее время отклика

Backends в состоянии UP

Все бэкенды UP

Один и более бэкенд DOWN

HAProxy → Status UP

Frontends в состоянии UP

Все фронтенды UP

Один и более фронтенд DOWN

HAProxy → Status UP

Uptime процесса HAProxy

Без незапланированных рестартов

Внезапный рестарт / сброс uptime

HAProxy → Uptime

RTT / throughput к бэкендам (сеть)

Стабильный throughput, нет потерь

Устойчивый рост latency к бэкендам или признаки насыщения канала

HAProxy → Back - Data transfer

TLS-сертификат (дней до истечения)

> 30 дней

< 30 дней (предупреждение), < 7 дней (критично)

Checklist → HAProxy cert days till expire

2. Поды серверов приложений (App Server Pods)#

Метрика

Приемлемо

Проблема

Источник (дашборд)

Утилизация памяти JVM

Used < 70–75% heap limit; after-GC < 60%

Used > 85–90%; after-GC > 80% или рост без стабилизации

VM memory → JVM memory committed / used; JVM memory after last GC

Утилизация CPU JVM

Стабильно

JVM CPU высокий

VM memory → JVM CPU utilization ratio

Утилизация памяти pod/OS

< 70% лимита

> 90% или рост + OOM events

System overview → Container memory usage

Утилизация CPU pod/OS

< 70% лимита

> 85% устойчиво (5–10 мин) + деградация latency

System overview → CPU Usage Cores

JVM GC duration

< 100–300 мс

> 1 с

VM memory → JVM GC duration

JVM threads count

Стабильно

Монотонный рост без возврата

VM memory → JVM threads count

JVM after-GC memory

< 60%

> 80% устойчиво

VM memory → JVM memory after last GC

OOM events

0

≥ 1 события

System overview → OOM events

Рестарты pod

0

≥ 1 за прогон

Checklist → Restarts count

Среднее время отклика (latency)

< 500 мс

> 1–2 с устойчиво или монотонный рост

System overview → Среднее время отклика

Active sessions

Стабильно коррелирует с нагрузкой

Аномальные скачки/падения

System overview → Active sessions

DB pool: used connections

< 70% от max

> 90% от max

Database client connections → Connection count

DB pool: pending requests

0

> 0 устойчиво (≥ 1–2 мин)

Database client connections → Pending requests

DB pool: wait time

< 50 мс

> 200 мс

Database client connections → Pool wait time

Disk read/write rate (pod)

Без аномальных пиков

устойчиво высокий I/O + деградация

Pod HDD read write rate → HDD read / write rate

Network rx/tx (pod)

Стабильно

Пики + рост ошибок; признаки насыщения канала

Pod network read write rate → Receive / Transmit rate

3. Scheduler#

Метрика

Приемлемо

Проблема

Источник (дашборд)

Утилизация памяти pod/OS

< 70% лимита

> 90% или рост + OOM/рестарты

System overview → Container memory usage

Утилизация CPU pod/OS

< 70% лимита

> 85% устойчиво

System overview → CPU Usage Cores

Доступность (healthcheck)

UP

DOWN или эпизодические провалы

Checklist → Component availability

Рестарты pod

0

≥ 1

Checklist → Restarts count

RTT / throughput до БД и RabbitMQ

Стабильный, < 10 мс

> 50 мс или нестабильность

Pod network read write rate → Receive / Transmit rate (косвенно)

4. RabbitMQ#

Метрика

Приемлемо

Проблема

Источник (дашборд)

Утилизация памяти pod/OS

< 70% лимита

> 85–90% или рост без стабилизации

System overview → Container memory usage

Утилизация CPU pod/OS

< 70% лимита

> 85% устойчиво

System overview → CPU Usage Cores

Доступность ноды (node health)

Все ноды UP

Нода DOWN или недоступна

Checklist → Component availability

Throughput сети (rx/tx pod)

Стабильно

Насыщение канала + деградация очередей

Pod network read write rate → Receive / Transmit rate

5. Prometheus + Grafana + Loki#

Метрика

Приемлемо

Проблема

Источник (дашборд)

Утилизация памяти pod/OS

< 70% лимита

> 85–90% или рост без стабилизации

System overview → Container memory usage

Утилизация CPU pod/OS

< 70% лимита

> 85% устойчиво

System overview → CPU Usage Cores

Доступность компонентов

Все UP

Любой компонент DOWN

Checklist → Component availability

Рестарты pod

0

≥ 1

Checklist → Restarts count

6. Сервер БД (PostgreSQL)#

Метрика

Приемлемо

Проблема

Утилизация памяти ОС

< 70% лимита

> 85–90% или рост без стабилизации

Утилизация CPU ОС

< 70% лимита

> 85% устойчиво

СХД: скорость чтения (read throughput)

Соответствует профилю нагрузки, без аномальных пиков

Устойчиво высокая

СХД: скорость записи (write throughput)

Соответствует профилю нагрузки

Устойчиво высокая

СХД: IOPS

Без роста; нет признаков очереди на I/O

Рост IOPS

СХД: I/O latency

< 5–10 мс

> 20–50 мс устойчиво

Активные соединения

< 70–80% от max_connections

> 90% от max_connections

Pending / блокированные запросы

0 или единичные

Устойчивый рост блокировок

Долгие транзакции

Отсутствуют

Наличие длительных транзакций или deadlock

Replication lag

< 1–5 с

> 30 с или разрыв репликации

Доступность (healthcheck)

UP

DOWN

Свободное место на диске

> 20%

< 20% (предупреждение), < 10% (критично)

RTT / throughput от приложения до БД

< 5–10 мс, стабильно

> 50 мс или нестабильность

7. NFS#

Метрика

Приемлемо

Проблема

Источник (дашборд)

Занятое / свободное место NFS volume

< 80% занято / > 20% свободно

> 80% занято (предупреждение), > 90% (критично)

Checklist → NFS Volume space used