이 문서는 시스템 운영에 필요한 주요 절차와 가이드라인을 제공합니다.
일상 운영
1. 모니터링
- 시스템 상태 확인
- CPU, 메모리, 디스크 사용량
- 네트워크 트래픽
- 애플리케이션 응답 시간
- 로그 모니터링
- 에러 로그 확인
- 성능 로그 분석
- 보안 로그 검토
- 알림 관리
- 알림 임계값 설정
- 알림 에스컬레이션
- 알림 이력 관리
2. 백업
- 데이터베이스 백업
- 전체 백업 확인 (매일)
- 증분 백업 확인 (매시간)
- 백업 복구 테스트 (월 1회)
- 설정 백업
- 쿠버네티스 설정
- 애플리케이션 설정
- 인프라 설정
- 로그 백업
장애 대응
1. 장애 레벨
| 레벨 | 설명 | 대응 시간 | 에스컬레이션 |
|---|
| P1 | 서비스 중단 | 즉시 | 즉시 CTO/팀장 |
| P2 | 주요 기능 장애 | 30분 이내 | 1시간 후 팀장 |
| P3 | 부분 기능 장애 | 2시간 이내 | 4시간 후 팀장 |
| P4 | 경미한 문제 | 1일 이내 | 필요시 |
2. 장애 대응 절차
- 장애 감지
- 초기 대응
- 장애 영향도 파악
- 담당자 할당
- 임시 조치 검토
- 장애 해결
- 사후 관리
- 장애 보고서 작성
- 재발 방지 대책
- 프로세스 개선
3. 주요 장애 시나리오
- 데이터베이스 장애
- Slave 장애
- Master 장애
- 복제 지연
- 애플리케이션 장애
- 메모리 누수
- CPU 과부하
- 응답 지연
- 네트워크 장애
- 연결 끊김
- 지연 발생
- 패킷 손실
변경 관리
1. 변경 프로세스
- 변경 요청
- 변경 검토
- 변경 승인
- 변경 실행
2. 긴급 변경
- 정의
- 서비스 중단 위험
- 보안 취약점
- 데이터 손실 위험
- 절차
- 긴급성 평가
- 최소 승인자 확인
- 신속 실행
- 사후 문서화
3. 인프라 변경 관리
- Terraform을 통한 인프라 변경 관리
- 코드형 인프라(IaC) 원칙
- PR 기반 검토 절차
- 자동화된 검증 및 적용
- 참조 문서
TBD
보안 운영
1. 접근 관리
2. 보안 모니터링
3. 보안 사고 대응
- 탐지
- 분석
- 봉쇄
- 제거
- 복구
- 사후 관리
성능 관리
1. 성능 모니터링
- 시스템 성능
- 애플리케이션 성능
- 데이터베이스 성능
2. 성능 최적화
- 시스템 튜닝
- 애플리케이션 튜닝
- 데이터베이스 튜닝
문서화
1. 운영 문서
- 운영 절차서
- 장애 대응 매뉴얼
- 모니터링 가이드
- 백업/복구 절차
2. 기술 문서
- 시스템 구성도
- 네트워크 구성도
- API 문서
- 데이터 모델
3. 보고서
- 일일 운영 보고서
- 주간 성능 보고서
- 월간 보안 보고서
- 분기별 리뷰 보고서
변경 이력