Пороги метрик

Содержание

Пороги метрик#

Страница помогает интерпретировать значения метрик и отличать нормальное состояние от проблемного. Список метрик, которые собирает кластер Global ERP в Kubernetes, приведён отдельно в разделе Kubernetes: метрики кластера.

Формат: Приемлемо / Проблема
CPU/Memory - относительно лимитов pod/VM (requests/limits). При отсутствии лимитов - оценка по тренду и корреляции с другими метриками.

1. HAProxy#

Метрика	Приемлемо	Проблема	Источник (дашборд)
Утилизация памяти pod/OS	< 70% лимита	> 90% или рост + OOM/рестарты	System overview → Container memory usage
Утилизация CPU pod/OS	< 70% лимита	> 85% устойчиво	System overview → CPU Usage Cores
HTTP request rate / response rate	Стабильно, без аномальных всплесков	Резкие пики или падение rate при неизменной нагрузке	HAProxy → HTTP response / request
HTTP 5xx / ошибочные ответы	0 или единичные	Устойчивые 5xx, рост доли ошибок	HAProxy → HTTP response / request
Session rate (ops)	Стабильно коррелирует с нагрузкой	Падение сессий при неизменной нагрузке	HAProxy → Sessions
Latency (время ответа через HAProxy)	< 500 мс	> 1–2 с устойчиво или монотонный рост	System overview → Среднее время отклика
Backends в состоянии UP	Все бэкенды UP	Один и более бэкенд DOWN	HAProxy → Status UP
Frontends в состоянии UP	Все фронтенды UP	Один и более фронтенд DOWN	HAProxy → Status UP
Uptime процесса HAProxy	Без незапланированных рестартов	Внезапный рестарт / сброс uptime	HAProxy → Uptime
RTT / throughput к бэкендам (сеть)	Стабильный throughput, нет потерь	Устойчивый рост latency к бэкендам или признаки насыщения канала	HAProxy → Server - Data transfer И Server - Average response time
TLS-сертификат (дней до истечения)	> 30 дней	< 30 дней (предупреждение), < 7 дней (критично)	Checklist → HAProxy cert days till expire

2. Поды серверов приложений (App Server Pods)#

Метрика	Приемлемо	Проблема	Источник (дашборд)
Утилизация памяти JVM	Used < 70–75% Xmx limit	Used > 85–90%; или рост без стабилизации	VM memory → JVM memory committed / used
Утилизация CPU JVM	Стабильно	JVM CPU высокий	VM memory → JVM CPU utilization ratio
Утилизация памяти pod/OS	< 70% лимита	> 90% или рост + OOM events	System overview → Container memory usage
Утилизация CPU pod/OS	< 70% лимита	> 85% устойчиво (5–10 мин) + деградация latency	System overview → CPU Usage Cores
JVM GC duration	< 100–300 мс	> 1 с	VM memory → JVM GC duration
JVM threads count	Стабильно	Монотонный рост без возврата	VM memory → JVM threads count
JVM after-GC memory	< 60%	> 80% устойчиво	VM memory → JVM memory after last GC
OOM events	0	≥ 1 события	System overview → OOM events
Рестарты pod	0	≥ 1 за прогон	Checklist → Restarts count
Среднее время отклика (latency)	< 500 мс	> 1–2 с устойчиво или монотонный рост	System overview → Среднее время отклика
Active sessions	Стабильно коррелирует с нагрузкой	Аномальные скачки/падения	System overview → Active sessions
DB pool: used connections	< 70% от max	> 90% от max	Database client connections → Connection count
DB pool: pending requests	0	> 0 устойчиво (≥ 1–2 мин)	Database client connections → Pending requests
DB pool: wait time	< 50 мс	> 200 мс	Database client connections → Pool wait time
Disk read/write rate (pod)	Без аномальных пиков	устойчиво высокий I/O + деградация	Pod HDD read write rate → HDD read / write rate
Network rx/tx (pod)	Стабильно	Пики + рост ошибок; признаки насыщения канала	Pod network read write rate → Receive / Transmit rate

3. Scheduler#

Метрика	Приемлемо	Проблема	Источник (дашборд)
Утилизация памяти pod/OS	< 70% лимита	> 90% или рост + OOM/рестарты	System overview → Container memory usage
Утилизация CPU pod/OS	< 70% лимита	> 85% устойчиво	System overview → CPU Usage Cores
Доступность (healthcheck)	UP	DOWN или эпизодические провалы	Checklist → Component availability
Рестарты pod	0	≥ 1	Checklist → Restarts count
RTT / throughput до БД и RabbitMQ	Стабильный, < 10 мс	> 50 мс или нестабильность	Pod network read write rate → Receive / Transmit rate (косвенно)

4. RabbitMQ#

Метрика	Приемлемо	Проблема	Источник (дашборд)
Утилизация памяти pod/OS	< 70% лимита	> 85–90% или рост без стабилизации	System overview → Container memory usage
Утилизация CPU pod/OS	< 70% лимита	> 85% устойчиво	System overview → CPU Usage Cores
Доступность ноды (node health)	Все ноды UP	Нода DOWN или недоступна	Checklist → Component availability
Throughput сети (rx/tx pod)	Стабильно	Насыщение канала + деградация очередей	Pod network read write rate → Receive / Transmit rate

5. Prometheus + Grafana + Loki#

Метрика	Приемлемо	Проблема	Источник (дашборд)
Утилизация памяти pod/OS	< 70% лимита	> 85–90% или рост без стабилизации	System overview → Container memory usage
Утилизация CPU pod/OS	< 70% лимита	> 85% устойчиво	System overview → CPU Usage Cores
Доступность компонентов	Все UP	Любой компонент DOWN	Checklist → Component availability
Рестарты pod	0	≥ 1	Checklist → Restarts count

6. Сервер БД (PostgreSQL)#

Метрика	Приемлемо	Проблема
Утилизация памяти ОС	< 70% лимита	> 85–90% или рост без стабилизации
Утилизация CPU ОС	< 70% лимита	> 85% устойчиво
СХД: скорость чтения	Соответствует профилю нагрузки	Устойчиво высокая
СХД: скорость записи	Соответствует профилю нагрузки	Устойчиво высокая
СХД: IOPS	Без роста; нет признаков очереди на I/O	Рост IOPS
СХД: I/O latency	< 5–10 мс	> 20–50 мс устойчиво
Активные соединения	< 70–80% от max_connections	> 90% от max_connections
Pending / блокированные запросы	0 или единичные	Устойчивый рост блокировок
Долгие транзакции	Отсутствуют	Наличие длительных транзакций или deadlock
Replication lag	< 1–5 с	> 30 с или разрыв репликации
Доступность (healthcheck)	UP	DOWN
Свободное место на диске	> 20%	< 20% (предупреждение), < 10% (критично)

7. NFS#

Метрика	Приемлемо	Проблема	Источник (дашборд)
Занятое / свободное место NFS volume	< 80% занято / > 20% свободно	> 80% занято (предупреждение), > 90% (критично)	Checklist → NFS Volume space used