2024-11-12 · 윤 대호
SLO·에러버짓을 모니터링 루프에 넣는 법
모니터링SRE팀 루트
팀 루트(온콜·에스컬) 문서는 “누가, 언제, 어떤 채널로”에 그치는 경우가 있습니다. SLO는 서비스 경계에서 지연·가용에 숫자를 붙이는 절차로, “측정할 것”이 생기면 트리거의 소음이 줄기 시작합니다. 본 짧은 글은 제품·라이선스 락인을 배제한 개념 정리이며, 실제 지표는 팀이 정한 상한/하한에 맞게 조정하시기 바랍니다.
Zabbix 아이템을 임의의 시계열에 매핑할 때, 1분·5분 롤업을 혼용하면 “한 번 뜨고 사라짐”이 반복될 수 있습니다. 팀 루트(1p)와 함께 “5분에 한 번, P95만”과 같은 룰을 문서에 적어두는 것이 좋습니다. Grafana의 변수는 host 한 줄로 끝내지 말고, env·team 등 태그를 2개 이상 둡니다.
마지막으로, SLO는 약속이 아니라 “투명한 목표”에 가깝습니다. “숫자가 나빠질 수 있다”는 전제를 공유하지 않고선, 알림만 늘어나고 책임만 모호해질 수 있으니, 포스트모텀 한 장과 함께 읽는 것이 좋습니다. 이코메타의 “관측성: Zabbix·Grafana” 랩은 위 절차를 6주에 압축한 예시로 참고하시기 바랍니다.