Пороговые значения метрик по уровням системы#
Формат: Приемлемо / Проблема
CPU/Memory - относительно лимитов pod/VM (requests/limits). При отсутствии лимитов - оценка по тренду и корреляции с другими метриками.
1. HAProxy#
Метрика |
Приемлемо |
Проблема |
Источник (дашборд) |
|---|---|---|---|
Утилизация памяти pod/OS |
< 70% лимита |
> 90% или рост + OOM/рестарты |
System overview → Container memory usage |
Утилизация CPU pod/OS |
< 70% лимита |
> 85% устойчиво |
System overview → CPU Usage Cores |
HTTP request rate / response rate |
Стабильно, без аномальных всплесков |
Резкие пики или падение rate при неизменной нагрузке |
HAProxy → HTTP response / request |
HTTP 5xx / ошибочные ответы |
0 или единичные |
Устойчивые 5xx, рост доли ошибок |
HAProxy → HTTP response / request |
Session rate (ops) |
Стабильно коррелирует с нагрузкой |
Падение сессий при неизменной нагрузке |
HAProxy → Sessions |
Latency (время ответа через HAProxy) |
< 500 мс |
> 1–2 с устойчиво или монотонный рост |
System overview → Среднее время отклика |
Backends в состоянии UP |
Все бэкенды UP |
Один и более бэкенд DOWN |
HAProxy → Status UP |
Frontends в состоянии UP |
Все фронтенды UP |
Один и более фронтенд DOWN |
HAProxy → Status UP |
Uptime процесса HAProxy |
Без незапланированных рестартов |
Внезапный рестарт / сброс uptime |
HAProxy → Uptime |
RTT / throughput к бэкендам (сеть) |
Стабильный throughput, нет потерь |
Устойчивый рост latency к бэкендам или признаки насыщения канала |
HAProxy → Back - Data transfer |
TLS-сертификат (дней до истечения) |
> 30 дней |
< 30 дней (предупреждение), < 7 дней (критично) |
Checklist → HAProxy cert days till expire |
2. Поды серверов приложений (App Server Pods)#
Метрика |
Приемлемо |
Проблема |
Источник (дашборд) |
|---|---|---|---|
Утилизация памяти JVM |
Used < 70–75% heap limit; after-GC < 60% |
Used > 85–90%; after-GC > 80% или рост без стабилизации |
VM memory → JVM memory committed / used; JVM memory after last GC |
Утилизация CPU JVM |
Стабильно |
JVM CPU высокий |
VM memory → JVM CPU utilization ratio |
Утилизация памяти pod/OS |
< 70% лимита |
> 90% или рост + OOM events |
System overview → Container memory usage |
Утилизация CPU pod/OS |
< 70% лимита |
> 85% устойчиво (5–10 мин) + деградация latency |
System overview → CPU Usage Cores |
JVM GC duration |
< 100–300 мс |
> 1 с |
VM memory → JVM GC duration |
JVM threads count |
Стабильно |
Монотонный рост без возврата |
VM memory → JVM threads count |
JVM after-GC memory |
< 60% |
> 80% устойчиво |
VM memory → JVM memory after last GC |
OOM events |
0 |
≥ 1 события |
System overview → OOM events |
Рестарты pod |
0 |
≥ 1 за прогон |
Checklist → Restarts count |
Среднее время отклика (latency) |
< 500 мс |
> 1–2 с устойчиво или монотонный рост |
System overview → Среднее время отклика |
Active sessions |
Стабильно коррелирует с нагрузкой |
Аномальные скачки/падения |
System overview → Active sessions |
DB pool: used connections |
< 70% от max |
> 90% от max |
Database client connections → Connection count |
DB pool: pending requests |
0 |
> 0 устойчиво (≥ 1–2 мин) |
Database client connections → Pending requests |
DB pool: wait time |
< 50 мс |
> 200 мс |
Database client connections → Pool wait time |
Disk read/write rate (pod) |
Без аномальных пиков |
устойчиво высокий I/O + деградация |
Pod HDD read write rate → HDD read / write rate |
Network rx/tx (pod) |
Стабильно |
Пики + рост ошибок; признаки насыщения канала |
Pod network read write rate → Receive / Transmit rate |
3. Scheduler#
Метрика |
Приемлемо |
Проблема |
Источник (дашборд) |
|---|---|---|---|
Утилизация памяти pod/OS |
< 70% лимита |
> 90% или рост + OOM/рестарты |
System overview → Container memory usage |
Утилизация CPU pod/OS |
< 70% лимита |
> 85% устойчиво |
System overview → CPU Usage Cores |
Доступность (healthcheck) |
UP |
DOWN или эпизодические провалы |
Checklist → Component availability |
Рестарты pod |
0 |
≥ 1 |
Checklist → Restarts count |
RTT / throughput до БД и RabbitMQ |
Стабильный, < 10 мс |
> 50 мс или нестабильность |
Pod network read write rate → Receive / Transmit rate (косвенно) |
4. RabbitMQ#
Метрика |
Приемлемо |
Проблема |
Источник (дашборд) |
|---|---|---|---|
Утилизация памяти pod/OS |
< 70% лимита |
> 85–90% или рост без стабилизации |
System overview → Container memory usage |
Утилизация CPU pod/OS |
< 70% лимита |
> 85% устойчиво |
System overview → CPU Usage Cores |
Доступность ноды (node health) |
Все ноды UP |
Нода DOWN или недоступна |
Checklist → Component availability |
Throughput сети (rx/tx pod) |
Стабильно |
Насыщение канала + деградация очередей |
Pod network read write rate → Receive / Transmit rate |
5. Prometheus + Grafana + Loki#
Метрика |
Приемлемо |
Проблема |
Источник (дашборд) |
|---|---|---|---|
Утилизация памяти pod/OS |
< 70% лимита |
> 85–90% или рост без стабилизации |
System overview → Container memory usage |
Утилизация CPU pod/OS |
< 70% лимита |
> 85% устойчиво |
System overview → CPU Usage Cores |
Доступность компонентов |
Все UP |
Любой компонент DOWN |
Checklist → Component availability |
Рестарты pod |
0 |
≥ 1 |
Checklist → Restarts count |
6. Сервер БД (PostgreSQL)#
Метрика |
Приемлемо |
Проблема |
|---|---|---|
Утилизация памяти ОС |
< 70% лимита |
> 85–90% или рост без стабилизации |
Утилизация CPU ОС |
< 70% лимита |
> 85% устойчиво |
СХД: скорость чтения (read throughput) |
Соответствует профилю нагрузки, без аномальных пиков |
Устойчиво высокая |
СХД: скорость записи (write throughput) |
Соответствует профилю нагрузки |
Устойчиво высокая |
СХД: IOPS |
Без роста; нет признаков очереди на I/O |
Рост IOPS |
СХД: I/O latency |
< 5–10 мс |
> 20–50 мс устойчиво |
Активные соединения |
< 70–80% от max_connections |
> 90% от max_connections |
Pending / блокированные запросы |
0 или единичные |
Устойчивый рост блокировок |
Долгие транзакции |
Отсутствуют |
Наличие длительных транзакций или deadlock |
Replication lag |
< 1–5 с |
> 30 с или разрыв репликации |
Доступность (healthcheck) |
UP |
DOWN |
Свободное место на диске |
> 20% |
< 20% (предупреждение), < 10% (критично) |
RTT / throughput от приложения до БД |
< 5–10 мс, стабильно |
> 50 мс или нестабильность |
7. NFS#
Метрика |
Приемлемо |
Проблема |
Источник (дашборд) |
|---|---|---|---|
Занятое / свободное место NFS volume |
< 80% занято / > 20% свободно |
> 80% занято (предупреждение), > 90% (критично) |
Checklist → NFS Volume space used |