본문으로 건너뛰기

운영 가이드

개요

이 문서는 시스템 운영에 필요한 주요 절차와 가이드라인을 제공합니다.

일상 운영

1. 모니터링

시스템 상태 확인
- CPU, 메모리, 디스크 사용량
- 네트워크 트래픽
- 애플리케이션 응답 시간
로그 모니터링
- 에러 로그 확인
- 성능 로그 분석
- 보안 로그 검토
알림 관리
- 알림 임계값 설정
- 알림 에스컬레이션
- 알림 이력 관리

2. 백업

데이터베이스 백업
- 전체 백업 확인 (매일)
- 증분 백업 확인 (매시간)
- 백업 복구 테스트 (월 1회)
설정 백업
- 쿠버네티스 설정
- 애플리케이션 설정
- 인프라 설정
로그 백업
- 시스템 로그
- 애플리케이션 로그
- 감사 로그

장애 대응

1. 장애 레벨

레벨	설명	대응 시간	에스컬레이션
P1	서비스 중단	즉시	즉시 CTO/팀장
P2	주요 기능 장애	30분 이내	1시간 후 팀장
P3	부분 기능 장애	2시간 이내	4시간 후 팀장
P4	경미한 문제	1일 이내	필요시

2. 장애 대응 절차

장애 감지
- 모니터링 알림
- 사용자 보고
- 자동화된 검사
초기 대응
- 장애 영향도 파악
- 담당자 할당
- 임시 조치 검토
장애 해결
- 근본 원인 분석
- 해결 방안 수립
- 조치 실행
사후 관리
- 장애 보고서 작성
- 재발 방지 대책
- 프로세스 개선

3. 주요 장애 시나리오

데이터베이스 장애
1. Slave 장애
2. Master 장애
3. 복제 지연
애플리케이션 장애
1. 메모리 누수
2. CPU 과부하
3. 응답 지연
네트워크 장애
1. 연결 끊김
2. 지연 발생
3. 패킷 손실

변경 관리

1. 변경 프로세스

변경 요청
- 요청자 정보
- 변경 내용
- 영향도 분석
변경 검토
- 기술적 검토
- 리스크 평가
- 롤백 계획
변경 승인
- 승인자 지정
- 승인 기준
- 문서화
변경 실행
- 실행 계획
- 모니터링
- 결과 확인

2. 긴급 변경

정의
- 서비스 중단 위험
- 보안 취약점
- 데이터 손실 위험
절차
1. 긴급성 평가
2. 최소 승인자 확인
3. 신속 실행
4. 사후 문서화

3. 인프라 변경 관리

Terraform을 통한 인프라 변경 관리
- 코드형 인프라(IaC) 원칙
- PR 기반 검토 절차
- 자동화된 검증 및 적용
참조 문서 TBD

보안 운영

1. 접근 관리

계정 관리
- 생성/삭제 절차
- 권한 검토
- 비밀번호 정책
인증 관리
- MFA 설정
- 세션 관리
- API 키 관리

2. 보안 모니터링

취약점 스캔
- 정기 스캔
- 결과 분석
- 조치 계획
로그 분석
- 보안 이벤트
- 이상 행위
- 감사 로그

3. 보안 사고 대응

탐지
분석
봉쇄
제거
복구
사후 관리

성능 관리

1. 성능 모니터링

시스템 성능
- CPU 사용률
- 메모리 사용률
- 디스크 I/O
애플리케이션 성능
- 응답 시간
- 처리량
- 오류율
데이터베이스 성능
- 쿼리 성능
- 연결 상태
- 캐시 효율

2. 성능 최적화

시스템 튜닝
- 커널 파라미터
- 리소스 할당
- 네트워크 설정
애플리케이션 튜닝
- 코드 최적화
- 캐시 설정
- 로깅 레벨
데이터베이스 튜닝
- 인덱스 관리
- 쿼리 최적화
- 통계 정보 갱신

문서화

1. 운영 문서

운영 절차서
장애 대응 매뉴얼
모니터링 가이드
백업/복구 절차

2. 기술 문서

시스템 구성도
네트워크 구성도
API 문서
데이터 모델

3. 보고서

일일 운영 보고서
주간 성능 보고서
월간 보안 보고서
분기별 리뷰 보고서

변경 이력

날짜	버전	설명	작성자
2025-03-19	0.1.0	최초 작성	bok@weltcorp.com