본문으로 건너뛰기

운영 가이드

개요

이 문서는 시스템 운영에 필요한 주요 절차와 가이드라인을 제공합니다.

일상 운영

1. 모니터링

  • 시스템 상태 확인
    • CPU, 메모리, 디스크 사용량
    • 네트워크 트래픽
    • 애플리케이션 응답 시간
  • 로그 모니터링
    • 에러 로그 확인
    • 성능 로그 분석
    • 보안 로그 검토
  • 알림 관리
    • 알림 임계값 설정
    • 알림 에스컬레이션
    • 알림 이력 관리

2. 백업

  • 데이터베이스 백업
    • 전체 백업 확인 (매일)
    • 증분 백업 확인 (매시간)
    • 백업 복구 테스트 (월 1회)
  • 설정 백업
    • 쿠버네티스 설정
    • 애플리케이션 설정
    • 인프라 설정
  • 로그 백업
    • 시스템 로그
    • 애플리케이션 로그
    • 감사 로그

장애 대응

1. 장애 레벨

레벨설명대응 시간에스컬레이션
P1서비스 중단즉시즉시 CTO/팀장
P2주요 기능 장애30분 이내1시간 후 팀장
P3부분 기능 장애2시간 이내4시간 후 팀장
P4경미한 문제1일 이내필요시

2. 장애 대응 절차

  1. 장애 감지
    • 모니터링 알림
    • 사용자 보고
    • 자동화된 검사
  2. 초기 대응
    • 장애 영향도 파악
    • 담당자 할당
    • 임시 조치 검토
  3. 장애 해결
    • 근본 원인 분석
    • 해결 방안 수립
    • 조치 실행
  4. 사후 관리
    • 장애 보고서 작성
    • 재발 방지 대책
    • 프로세스 개선

3. 주요 장애 시나리오

  • 데이터베이스 장애
    1. Slave 장애
    2. Master 장애
    3. 복제 지연
  • 애플리케이션 장애
    1. 메모리 누수
    2. CPU 과부하
    3. 응답 지연
  • 네트워크 장애
    1. 연결 끊김
    2. 지연 발생
    3. 패킷 손실

변경 관리

1. 변경 프로세스

  1. 변경 요청
    • 요청자 정보
    • 변경 내용
    • 영향도 분석
  2. 변경 검토
    • 기술적 검토
    • 리스크 평가
    • 롤백 계획
  3. 변경 승인
    • 승인자 지정
    • 승인 기준
    • 문서화
  4. 변경 실행
    • 실행 계획
    • 모니터링
    • 결과 확인

2. 긴급 변경

  • 정의
    • 서비스 중단 위험
    • 보안 취약점
    • 데이터 손실 위험
  • 절차
    1. 긴급성 평가
    2. 최소 승인자 확인
    3. 신속 실행
    4. 사후 문서화

3. 인프라 변경 관리

  • Terraform을 통한 인프라 변경 관리
    • 코드형 인프라(IaC) 원칙
    • PR 기반 검토 절차
    • 자동화된 검증 및 적용
  • 참조 문서 TBD

보안 운영

1. 접근 관리

  • 계정 관리
    • 생성/삭제 절차
    • 권한 검토
    • 비밀번호 정책
  • 인증 관리
    • MFA 설정
    • 세션 관리
    • API 키 관리

2. 보안 모니터링

  • 취약점 스캔
    • 정기 스캔
    • 결과 분석
    • 조치 계획
  • 로그 분석
    • 보안 이벤트
    • 이상 행위
    • 감사 로그

3. 보안 사고 대응

  1. 탐지
  2. 분석
  3. 봉쇄
  4. 제거
  5. 복구
  6. 사후 관리

성능 관리

1. 성능 모니터링

  • 시스템 성능
    • CPU 사용률
    • 메모리 사용률
    • 디스크 I/O
  • 애플리케이션 성능
    • 응답 시간
    • 처리량
    • 오류율
  • 데이터베이스 성능
    • 쿼리 성능
    • 연결 상태
    • 캐시 효율

2. 성능 최적화

  • 시스템 튜닝
    • 커널 파라미터
    • 리소스 할당
    • 네트워크 설정
  • 애플리케이션 튜닝
    • 코드 최적화
    • 캐시 설정
    • 로깅 레벨
  • 데이터베이스 튜닝
    • 인덱스 관리
    • 쿼리 최적화
    • 통계 정보 갱신

문서화

1. 운영 문서

  • 운영 절차서
  • 장애 대응 매뉴얼
  • 모니터링 가이드
  • 백업/복구 절차

2. 기술 문서

  • 시스템 구성도
  • 네트워크 구성도
  • API 문서
  • 데이터 모델

3. 보고서

  • 일일 운영 보고서
  • 주간 성능 보고서
  • 월간 보안 보고서
  • 분기별 리뷰 보고서

변경 이력

날짜버전설명작성자
2025-03-190.1.0최초 작성bok@weltcorp.com