PLT-NFR-006 백업/복구 계획 구현 가이드

문서 버전: 1.0
작성일: 2025년 8월 12일
대상 시스템: DTA-Wide 의료 기기 소프트웨어
규제 준수: DiGA, FDA, K-FDA

📋 목차

개요
아키텍처 설계
구현 솔루션
백업 시스템
복구 시스템
배포 가이드
운영 절차
문제 해결
성능 지표
다음 단계

1. 개요

1.1 PLT-NFR-006 요구사항

의료 기기 소프트웨어의 백업/복구 계획은 다음 요구사항을 만족해야 합니다:

RTO (Recovery Time Objective): 10분
RPO (Recovery Point Objective): 1시간
백업 성공률: 99.9% 이상
규제 준수: 의료 데이터 보관 정책 (DiGA 10년, FDA 7년, K-FDA 5년)
데이터 무결성: 암호화 및 체크섬 검증
감사 추적: 모든 백업/복구 작업 로깅

1.2 비즈니스 임팩트

항목	영향도	설명
서비스 연속성	Critical	환자 데이터 보호 및 서비스 가용성 보장
규제 컴플라이언스	Critical	의료 기기 인증 유지 필수
데이터 무결성	Critical	환자 안전 및 치료 연속성
비용 최적화	Medium	효율적인 스토리지 관리

1.3 구현 범위

백업 대상:

Cloud SQL 데이터베이스 (환자 데이터, 메타데이터)
Secret Manager (API 키, 인증서)
설정 파일 (Terraform, 애플리케이션 구성)
Cloud Storage (파일, 이미지, 문서)

환경별 범위:

환경	사용자 규모	백업 전략	비용 최적화	복구 목표
Dev	개발팀 (~10명)	검증용 백업, 3일 보관	90% 비용 절감	RTO: 30분, RPO: 4시간
Stage	베타 테스터 (~30명)	테스트용 백업, 7일 보관	70% 비용 절감	RTO: 20분, RPO: 2시간
Prod	정식 이용자 (10,000명)	포괄적 백업, 10년 보관	의료 규제 완전 준수	RTO: 10분, RPO: 1시간

2. 아키텍처 설계

2.1 고가용성 원칙

중복성 (Redundancy)

지역 이중화: 주 리전 + 보조 리전 백업
스토리지 이중화: 다중 스토리지 클래스 활용
백업 경로 이중화: 자동 + 수동 백업

내결함성 (Fault Tolerance)

백업 실패 대응: 자동 재시도 + 대체 경로
부분 실패 격리: 백업 대상별 독립 처리
자동 복구: 시스템 장애 시 자동 백업 재개

자동 복구 (Auto-healing)

백업 상태 모니터링: 실시간 상태 추적
자동 알림: 실패 시 즉시 알림
자동 재시도: 지수 백오프 재시도 로직

2.2 인프라 구성

백업 스토리지 아키텍처

데이터 플로우

3. 구현 솔루션

3.1 Terraform 모듈 활용

새로운 backup-recovery Terraform 모듈을 생성하여 백업 인프라를 관리합니다:

# terragrunt.hcl (Dev 환경 - 백업 검증용 최대 비용 절감)
include "root" {
  path = find_in_parent_folders()
}

terraform {
  source = "../../../../infrastructure/terraform/modules/backup-recovery"
}

inputs = {
  project_id          = "dta-cloud-de-dev"
  environment         = "dev"
  region              = "europe-west3"
  
  # 검증용 최소 백업 정책 (90% 비용 절감)
  daily_backup_retention_days = 3      # 3일만 보관
  weekly_backup_retention_weeks = 0    # 주간 백업 없음
  monthly_backup_retention_months = 0  # 월간 백업 없음
  yearly_backup_retention_years = 0    # 연간 백업 없음
  enable_cross_region_backup = false
  
  # 기본 백업 대상
  enable_database_backup = true
  enable_secrets_backup = true
  enable_config_backup = true
  
  # 검증용 완화된 목표
  rto_target_minutes = 30
  rpo_target_minutes = 240  # 4시간
  backup_success_rate_threshold = 0.80  # 80% (검증용)
  recovery_test_schedule = "0 6 1 * *"  # 월간 테스트
}

3.2 환경별 구성

설정 항목	Dev (검증용)	Stage (테스트용)	Prod (실제 서비스)
일일 백업 보관	3일	7일	30일
주간 백업 보관	없음	2주	52주
월간 백업 보관	없음	없음	84개월
연간 백업 보관	없음	없음	10년
교차 지역 백업	❌	❌	✅
복구 테스트 주기	월간	주간	일간
백업 성공률 목표	80%	90%	99%
비용 절감율	90%	70%	0% (완전한 보관)

4. 백업 시스템

4.1 Cloud SQL 백업

자동 백업 설정

resource "google_sql_database_instance" "main" {
  settings {
    backup_configuration {
      enabled                        = true
      start_time                    = "02:00"
      location                      = var.region
      point_in_time_recovery_enabled = true
      transaction_log_retention_days = 7
      
      backup_retention_settings {
        retained_backups = var.database_backup_retention_count
        retention_unit   = "COUNT"
      }
    }
  }
}

백업 스케줄

자동 백업: 매일 02:00 (서버 시간)
포인트-인-타임 복구: 7일간 트랜잭션 로그 보관
수동 백업: 주요 업데이트 전 수동 트리거

4.2 Secret Manager 백업

백업 Function

import json
from google.cloud import secretmanager
from google.cloud import storage

def backup_secrets(event, context):
    """Secret Manager 시크릿 백업"""
    client = secretmanager.SecretManagerServiceClient()
    storage_client = storage.Client()
    
    # 모든 시크릿 목록 조회
    parent = f"projects/{PROJECT_ID}"
    secrets = client.list_secrets(request={"parent": parent})
    
    backup_data = {}
    for secret in secrets:
        # 최신 버전 가져오기
        version = client.access_secret_version(
            request={"name": f"{secret.name}/versions/latest"}
        )
        
        backup_data[secret.name] = {
            "value": version.payload.data.decode("UTF-8"),
            "timestamp": datetime.now().isoformat()
        }
    
    # 백업 저장
    bucket = storage_client.bucket(BACKUP_BUCKET)
    blob = bucket.blob(f"secrets/backup-{datetime.now().strftime('%Y%m%d-%H%M%S')}.json")
    blob.upload_from_string(json.dumps(backup_data))

4.3 설정 파일 백업

Terraform/Terragrunt 백업

#!/bin/bash
# scripts/backup-terraform-configs.sh

BACKUP_BUCKET="dta-cloud-de-dev-backup-primary"
TIMESTAMP=$(date +%Y%m%d-%H%M%S)

# Terraform 설정 압축
tar -czf terraform-configs-${TIMESTAMP}.tar.gz \
  infrastructure/terraform/ \
  infrastructure/terragrunt/

# Cloud Storage에 업로드
gsutil cp terraform-configs-${TIMESTAMP}.tar.gz \
  gs://${BACKUP_BUCKET}/terraform-configs/

# 메타데이터 기록
echo '{
  "backup_type": "terraform_config",
  "timestamp": "'$(date -Iseconds)'",
  "size_bytes": '$(stat -c%s terraform-configs-${TIMESTAMP}.tar.gz)',
  "git_commit": "'$(git rev-parse HEAD)'",
  "environment": "'${ENVIRONMENT}'"
}' | gsutil cp - gs://${BACKUP_BUCKET}/terraform-configs/metadata-${TIMESTAMP}.json

# 로컬 임시 파일 정리
rm terraform-configs-${TIMESTAMP}.tar.gz

4.4 백업 모니터링

BigQuery 백업 로그 스키마

CREATE TABLE IF NOT EXISTS `project.dataset.backup_logs` (
  timestamp TIMESTAMP NOT NULL,
  backup_type STRING NOT NULL,
  backup_target STRING NOT NULL,
  status STRING NOT NULL,
  backup_size_bytes INT64,
  duration_seconds INT64,
  backup_location STRING,
  error_message STRING,
  environment STRING NOT NULL,
  compliance_validated BOOLEAN NOT NULL,
  checksum STRING,
  encryption_key_version STRING
);

실시간 알림 쿼리

-- 최근 24시간 백업 실패 알림
SELECT 
  timestamp,
  backup_type,
  backup_target,
  error_message
FROM `project.dataset.backup_logs`
WHERE 
  timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 24 HOUR)
  AND status = 'FAILED'
ORDER BY timestamp DESC

5. 복구 시스템

5.1 복구 시나리오

시나리오 1: 데이터베이스 부분 복구

상황: 특정 테이블 데이터 손상
대응: 포인트-인-타임 복구

# 1. 손상 시점 확인
gcloud sql operations list --instance=db-dta-wide-prod --limit=10

# 2. 손상 직전 시점으로 복구
gcloud sql backups restore $BACKUP_ID \
  --restore-instance=db-dta-wide-prod-recovery \
  --backup-instance=db-dta-wide-prod \
  --project=dta-cloud-de-prod

# 3. 데이터 검증 및 적용
psql -h RECOVERY_INSTANCE_IP -U postgres -c "SELECT COUNT(*) FROM patients;"

시나리오 2: 전체 시스템 복구

상황: 전체 인프라 장애
대응: 전체 시스템 복구

# 1. 긴급 복구 환경 준비
./scripts/emergency-recovery-setup.sh

# 2. 데이터베이스 복구
./scripts/restore-database.sh --backup-date=2024-01-15

# 3. 설정 파일 복구
./scripts/restore-terraform-configs.sh

# 4. 시크릿 복구
./scripts/restore-secrets.sh

# 5. 서비스 재시작
./scripts/restart-services.sh

5.2 복구 절차 자동화

복구 테스트 Function

import subprocess
import json
from datetime import datetime, timedelta

def recovery_test(request):
    """자동 복구 테스트"""
    
    # 1. 테스트 환경 준비
    test_project = f"{PROJECT_ID}-recovery-test"
    create_test_environment(test_project)
    
    # 2. 최신 백업에서 복구
    latest_backup = get_latest_backup()
    restore_result = restore_from_backup(latest_backup, test_project)
    
    # 3. 데이터 무결성 검증
    integrity_check = verify_data_integrity(test_project)
    
    # 4. 성능 테스트
    performance_test = run_performance_tests(test_project)
    
    # 5. 테스트 환경 정리
    cleanup_test_environment(test_project)
    
    # 6. 결과 보고
    result = {
        "test_timestamp": datetime.now().isoformat(),
        "restore_success": restore_result["success"],
        "restore_duration_seconds": restore_result["duration"],
        "data_integrity_passed": integrity_check["passed"],
        "performance_baseline_met": performance_test["baseline_met"],
        "rto_achieved": restore_result["duration"] <= RTO_TARGET_SECONDS,
        "rpo_achieved": check_rpo_compliance(latest_backup)
    }
    
    # 7. 결과 로깅
    log_recovery_test_result(result)
    
    return result

5.3 복구 시간 최적화

RTO 10분 달성 전략

복구 단계	목표 시간	최적화 방법
백업 식별	30초	자동화된 백업 인덱스
인프라 프로비저닝	3분	사전 준비된 템플릿
데이터 복구	5분	증분 백업 + 병렬 처리
서비스 시작	1분	컨테이너 사전 준비
헬스체크	30초	자동화된 검증

자동 복구 스크립트

#!/bin/bash
# scripts/emergency-recovery.sh
# RTO 10분 내 전체 시스템 복구

set -e
START_TIME=$(date +%s)

echo "🚨 Emergency Recovery Started at $(date)"

# 1. 백업 식별 (30초 목표)
echo "🔍 Identifying latest backup..."
LATEST_BACKUP=$(gsutil ls gs://${BACKUP_BUCKET}/database/ | tail -1)
echo "Found backup: $LATEST_BACKUP"

# 2. 인프라 프로비저닝 (3분 목표)
echo "🏗️ Provisioning recovery infrastructure..."
cd infrastructure/terragrunt/prod/recovery/
terragrunt apply -auto-approve -var="backup_source=$LATEST_BACKUP"

# 3. 데이터베이스 복구 (5분 목표)
echo "💾 Restoring database..."
gcloud sql backups restore $(basename $LATEST_BACKUP .sql) \
  --restore-instance=db-dta-wide-recovery \
  --async

# 4. 병렬 복구 작업
echo "⚡ Running parallel recovery tasks..."
{
  # Secret Manager 복구
  ./restore-secrets.sh &
  
  # 설정 파일 복구  
  ./restore-configs.sh &
  
  # 애플리케이션 이미지 준비
  ./prepare-app-images.sh &
  
  wait
}

# 5. 서비스 시작 (1분 목표)
echo "🚀 Starting services..."
kubectl apply -f recovery-manifests/
kubectl rollout status deployment/dta-wide-api --timeout=60s

# 6. 헬스체크 (30초 목표)
echo "🏥 Running health checks..."
./health-check.sh --timeout=30

END_TIME=$(date +%s)
TOTAL_TIME=$((END_TIME - START_TIME))

echo "✅ Recovery completed in ${TOTAL_TIME} seconds"

if [ $TOTAL_TIME -le 600 ]; then
  echo "🎯 RTO target (10 minutes) achieved!"
else
  echo "⚠️ RTO target exceeded by $((TOTAL_TIME - 600)) seconds"
fi

6. 배포 가이드

6.1 사전 요구사항

IAM 권한 설정

# 백업 서비스 계정 생성
gcloud iam service-accounts create backup-service \
  --display-name="Backup Service Account"

# 필요한 권한 부여
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:backup-service@$PROJECT_ID.iam.gserviceaccount.com" \
  --role="roles/storage.admin"

gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:backup-service@$PROJECT_ID.iam.gserviceaccount.com" \
  --role="roles/cloudsql.admin"

API 활성화

# 필요한 API 활성화
gcloud services enable cloudfunctions.googleapis.com
gcloud services enable cloudscheduler.googleapis.com
gcloud services enable monitoring.googleapis.com
gcloud services enable bigquery.googleapis.com

6.2 단계별 배포

Step 1: Dev 환경 배포

cd infrastructure/terragrunt/dev/backup-recovery/
terragrunt plan
terragrunt apply

Step 2: 백업 검증

# 첫 백업 실행
gcloud scheduler jobs run backup-trigger-dev --location=europe-west3

# 백업 상태 확인
gsutil ls gs://dta-cloud-de-dev-backup-primary/

Step 3: 복구 테스트

# 복구 테스트 실행
gcloud functions call recovery-test-dev \
  --data='{"test_type":"basic","environment":"dev"}'

Step 4: Stage 환경 배포

cd infrastructure/terragrunt/stage/backup-recovery/
terragrunt apply

Step 5: Prod 환경 배포

cd infrastructure/terragrunt/prod/backup-recovery/
terragrunt apply --terragrunt-non-interactive

6.3 배포 스크립트

자동 배포 스크립트

#!/bin/bash
# scripts/deploy-backup-recovery.sh

ENVIRONMENTS=("dev" "stage" "prod")

for ENV in "${ENVIRONMENTS[@]}"; do
  echo "🚀 Deploying backup system to $ENV environment..."
  
  cd infrastructure/terragrunt/$ENV/backup-recovery/
  
  # 계획 검토
  terragrunt plan -out=tfplan
  
  # 사용자 승인 요청 (Prod의 경우)
  if [ "$ENV" = "prod" ]; then
    read -p "Deploy to PRODUCTION? (y/N): " -n 1 -r
    echo
    if [[ ! $REPLY =~ ^[Yy]$ ]]; then
      echo "Skipping production deployment"
      continue
    fi
  fi
  
  # 배포 실행
  terragrunt apply tfplan
  
  # 배포 검증
  echo "🔍 Verifying deployment..."
  sleep 30
  ./verify-deployment.sh $ENV
  
  echo "✅ $ENV environment deployment completed"
  cd ../../../../
done

echo "🎉 All environments deployed successfully!"

7. 운영 절차

7.1 일상 운영 체크리스트

일일 점검

#!/bin/bash
# scripts/daily-backup-check.sh

echo "📅 Daily Backup Health Check - $(date)"

# 1. 백업 성공률 확인
SUCCESS_RATE=$(bq query --use_legacy_sql=false --format=csv \
  "SELECT ROUND(COUNTIF(status='SUCCESS')/COUNT(*)*100, 2) as success_rate 
   FROM \`$PROJECT.$DATASET.backup_logs\` 
   WHERE DATE(timestamp) = CURRENT_DATE()" | tail -1)

echo "✅ Backup success rate: $SUCCESS_RATE%"

# 2. 스토리지 사용량 확인
STORAGE_USAGE=$(gsutil du -sh gs://$BACKUP_BUCKET | cut -f1)
echo "💾 Storage usage: $STORAGE_USAGE"

# 3. 최근 실패 확인
RECENT_FAILURES=$(bq query --use_legacy_sql=false --format=csv \
  "SELECT COUNT(*) FROM \`$PROJECT.$DATASET.backup_logs\` 
   WHERE status='FAILED' AND timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 24 HOUR)" | tail -1)

if [ "$RECENT_FAILURES" -gt 0 ]; then
  echo "⚠️ $RECENT_FAILURES backup failures in last 24 hours"
  # 실패 세부사항 조회
  bq query --use_legacy_sql=false \
    "SELECT timestamp, backup_type, error_message 
     FROM \`$PROJECT.$DATASET.backup_logs\` 
     WHERE status='FAILED' AND timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 24 HOUR)"
else
  echo "✅ No backup failures in last 24 hours"
fi

# 4. 알림 채널 상태 확인
gcloud alpha monitoring channels list --filter="enabled=true" --format="value(name)" | wc -l
echo "📢 Active notification channels: $(gcloud alpha monitoring channels list --filter='enabled=true' --format='value(name)' | wc -l)"

주간 점검

#!/bin/bash
# scripts/weekly-backup-check.sh

echo "📊 Weekly Backup Analysis - $(date)"

# 1. 복구 테스트 실행
echo "🧪 Running weekly recovery test..."
gcloud functions call recovery-test-$ENVIRONMENT \
  --data='{"test_type":"full","environment":"'$ENVIRONMENT'"}'

# 2. 용량 계획 분석
echo "📈 Storage growth analysis..."
bq query --use_legacy_sql=false \
  "SELECT 
     DATE(timestamp) as backup_date,
     ROUND(AVG(backup_size_bytes)/1024/1024/1024, 2) as avg_size_gb,
     COUNT(*) as backup_count
   FROM \`$PROJECT.$DATASET.backup_logs\` 
   WHERE timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY)
   GROUP BY backup_date
   ORDER BY backup_date"

# 3. 컴플라이언스 검증
echo "📋 Compliance verification..."
COMPLIANCE_RATE=$(bq query --use_legacy_sql=false --format=csv \
  "SELECT ROUND(COUNTIF(compliance_validated=true)/COUNT(*)*100, 2) 
   FROM \`$PROJECT.$DATASET.backup_logs\` 
   WHERE timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY)" | tail -1)

echo "✅ Compliance validation rate: $COMPLIANCE_RATE%"

월간 점검

#!/bin/bash
# scripts/monthly-backup-review.sh

echo "🗓️ Monthly Backup Review - $(date)"

# 1. 종합 성능 리포트
bq query --use_legacy_sql=false \
  "SELECT 
     'Monthly Summary' as period,
     COUNT(*) as total_backups,
     COUNTIF(status='SUCCESS') as successful_backups,
     ROUND(COUNTIF(status='SUCCESS')/COUNT(*)*100, 2) as success_rate,
     ROUND(AVG(duration_seconds)/60, 2) as avg_duration_minutes,
     ROUND(SUM(backup_size_bytes)/1024/1024/1024, 2) as total_size_gb
   FROM \`$PROJECT.$DATASET.backup_logs\` 
   WHERE timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 DAY)"

# 2. 비용 분석
echo "💰 Monthly cost analysis..."
gsutil du -sh gs://$BACKUP_BUCKET/*/

# 3. 보관 정책 검토
echo "📦 Retention policy review..."
OLD_BACKUPS=$(gsutil ls gs://$BACKUP_BUCKET/**/ | while read line; do
  BACKUP_DATE=$(echo $line | grep -o '[0-9]\{8\}')
  if [ -n "$BACKUP_DATE" ]; then
    BACKUP_TIMESTAMP=$(date -d "$BACKUP_DATE" +%s)
    CUTOFF_TIMESTAMP=$(date -d "30 days ago" +%s)
    if [ $BACKUP_TIMESTAMP -lt $CUTOFF_TIMESTAMP ]; then
      echo $line
    fi
  fi
done | wc -l)

echo "🗑️ Backups eligible for cleanup: $OLD_BACKUPS"

7.2 사고 대응 절차

백업 실패 대응

사고 대응 플레이북

#!/bin/bash
# scripts/incident-response.sh

INCIDENT_TYPE=$1
SEVERITY=$2

case $INCIDENT_TYPE in
  "backup_failure")
    echo "🚨 Backup Failure Incident Response"
    
    # 1. 즉시 수동 백업 실행
    ./manual-backup.sh --priority=high
    
    # 2. 실패 원인 분석
    ./analyze-backup-failure.sh --last=24h
    
    # 3. 대체 백업 경로 활성화
    ./activate-alternative-backup.sh
    ;;
    
  "recovery_needed")
    echo "🆘 Recovery Incident Response"
    
    # 1. 피해 범위 확인
    ./assess-damage.sh
    
    # 2. 복구 계획 수립
    ./create-recovery-plan.sh --severity=$SEVERITY
    
    # 3. 복구 실행
    ./execute-recovery.sh --plan=auto-generated
    ;;
    
  "compliance_violation")
    echo "⚖️ Compliance Violation Response"
    
    # 1. 위반 사항 기록
    ./log-compliance-violation.sh --type=$SEVERITY
    
    # 2. 즉시 교정 조치
    ./immediate-remediation.sh
    
    # 3. 규제 기관 보고 준비
    ./prepare-regulatory-report.sh
    ;;
esac

8. 문제 해결

8.1 일반적인 문제

백업 느림

증상: 백업 완료 시간이 목표를 초과
원인: 데이터 증가, 네트워크 대역폭 부족
해결방안:

# 1. 증분 백업 활성화
gcloud sql instances patch $INSTANCE_NAME \
  --backup-type=INCREMENTAL

# 2. 병렬 백업 설정
parallel -j4 'gsutil -m cp {} gs://backup-bucket/' ::: file1 file2 file3 file4

# 3. 압축 활성화
tar -czf - /data | gsutil cp - gs://backup-bucket/compressed-backup.tar.gz

복구 실패

증상: 복구 과정에서 오류 발생
원인: 백업 파일 손상, 권한 부족
해결방안:

# 1. 백업 무결성 검증
gsutil hash gs://backup-bucket/backup-file.sql
shasum -c backup-file.sql.sha256

# 2. 대체 백업 사용
./restore-from-secondary.sh --date=yesterday

# 3. 부분 복구
./partial-restore.sh --tables=critical_table1,critical_table2

스토리지 비용 과다

증상: 백업 스토리지 비용 급증
원인: 비효율적인 보관 정책
해결방안:

# 1. 생명주기 정책 최적화
gsutil lifecycle set lifecycle.json gs://backup-bucket

# 2. 중복 백업 제거
gsutil -m rm gs://backup-bucket/duplicates/**

# 3. 압축률 개선
gzip -9 backup-files/*

8.2 고급 문제 해결

대용량 데이터베이스 백업

-- 테이블별 백업 크기 분석
SELECT 
  schemaname,
  tablename,
  pg_size_pretty(pg_total_relation_size(schemaname||'.'||tablename)) as size
FROM pg_tables 
WHERE schemaname NOT IN ('information_schema', 'pg_catalog')
ORDER BY pg_total_relation_size(schemaname||'.'||tablename) DESC;

# 큰 테이블 별도 백업
pg_dump --table=large_table --format=custom \
  --compress=9 --file=large_table.backup $DATABASE_URL

백업 무결성 검증

import hashlib
import json
from google.cloud import storage

def verify_backup_integrity(bucket_name, backup_path):
    """백업 파일 무결성 검증"""
    client = storage.Client()
    bucket = client.bucket(bucket_name)
    
    # 백업 파일 다운로드
    blob = bucket.blob(backup_path)
    backup_data = blob.download_as_bytes()
    
    # 체크섬 계산
    calculated_hash = hashlib.sha256(backup_data).hexdigest()
    
    # 저장된 체크섬과 비교
    metadata_blob = bucket.blob(backup_path + '.metadata')
    metadata = json.loads(metadata_blob.download_as_text())
    stored_hash = metadata.get('sha256_hash')
    
    return calculated_hash == stored_hash

9. 성능 지표

9.1 핵심 KPI

백업 성능 (환경별)

환경	백업 성공률	백업 완료 시간	월간 비용	비용 절감율
Dev	80% (검증용)	5분 이내	$2-5	90%
Stage	90% (테스트용)	10분 이내	$8-15	70%
Prod	99% (서비스용)	15분 이내	$80-150	0%

백업 크기 증가율: 월 10% 이내
스토리지 비용 효율성: 환경별 최적화로 전체 15-20% 절감

복구 성능

RTO (복구 시간): 10분 이내
RPO (복구 지점): 1시간 이내
복구 성공률: 99.5% 이상
복구 테스트 주기: 주간 (Prod), 월간 (Dev/Stage)

9.2 성능 모니터링 쿼리

백업 성능 대시보드

-- 일일 백업 성능 요약
SELECT 
  DATE(timestamp) as backup_date,
  backup_type,
  COUNT(*) as total_backups,
  COUNTIF(status = 'SUCCESS') as successful_backups,
  ROUND(COUNTIF(status = 'SUCCESS') / COUNT(*) * 100, 2) as success_rate,
  ROUND(AVG(duration_seconds) / 60, 2) as avg_duration_minutes,
  ROUND(SUM(backup_size_bytes) / 1024 / 1024 / 1024, 2) as total_size_gb
FROM `{project}.{dataset}.backup_logs`
WHERE timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 DAY)
GROUP BY backup_date, backup_type
ORDER BY backup_date DESC, backup_type;

컴플라이언스 리포트

-- 규제 준수 상태 리포트
WITH compliance_summary AS (
  SELECT 
    environment,
    backup_type,
    COUNT(*) as total_backups,
    COUNTIF(compliance_validated = true) as compliant_backups,
    COUNTIF(
      backup_type = 'database' AND 
      timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 10 * 365 DAY)
    ) as diga_compliant,
    COUNTIF(
      backup_type = 'database' AND 
      timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 * 365 DAY)
    ) as fda_compliant
  FROM `{project}.{dataset}.backup_logs`
  WHERE timestamp >= TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 30 DAY)
  GROUP BY environment, backup_type
)
SELECT 
  *,
  ROUND(compliant_backups / total_backups * 100, 2) as compliance_rate,
  CASE 
    WHEN environment = 'prod' AND diga_compliant > 0 THEN 'DiGA Compliant'
    WHEN environment = 'prod' AND fda_compliant > 0 THEN 'FDA Compliant'
    ELSE 'Standard'
  END as regulatory_status
FROM compliance_summary
ORDER BY environment, backup_type;

9.3 성능 최적화

백업 성능 개선

#!/bin/bash
# scripts/optimize-backup-performance.sh

echo "🚀 Optimizing backup performance..."

# 1. 병렬 처리 활성화
export PARALLEL_BACKUP_JOBS=4

# 2. 압축 레벨 조정 (속도 vs 용량)
export COMPRESSION_LEVEL=6  # 균형점

# 3. 네트워크 최적화
gsutil -m -o "GSUtil:parallel_thread_count=10" \
       -o "GSUtil:parallel_process_count=4" \
       cp -r /data gs://backup-bucket/

# 4. 증분 백업 활성화
gcloud sql instances patch $INSTANCE_NAME \
  --backup-type=INCREMENTAL \
  --backup-start-time=02:00

# 5. 백업 윈도우 최적화 (트래픽이 적은 시간)
echo "Backup optimized for off-peak hours: 02:00-04:00"

10. 다음 단계

10.1 즉시 실행 항목

Terraform 모듈 배포: Dev → Stage → Prod 순서
첫 백업 실행 및 검증: 모든 환경에서 백업 테스트
복구 테스트: 기본 복구 시나리오 검증
모니터링 대시보드 설정: BigQuery + Cloud Monitoring 연동

10.2 단기 개선 계획 (2-4주)

고급 백업 기능:
- 암호화 키 순환 자동화
- 교차 지역 백업 활성화 (Prod)
- 백업 압축 최적화
모니터링 강화:
- Slack/Teams 알림 통합
- 예측적 용량 계획
- 성능 트렌드 분석
컴플라이언스 강화:
- GDPR 데이터 주체 권리 지원
- 감사 로그 자동 리포팅
- 규제별 백업 정책 차별화

10.3 중기 개선 계획 (1-3개월)

고가용성 아키텍처:
- 멀티 리전 백업 (규제 허용 범위)
- 실시간 복제 구현
- 무중단 백업 시스템
AI/ML 기반 최적화:
- 백업 패턴 분석
- 예측적 장애 감지
- 자동 용량 계획
통합 재해 복구:
- 전체 시스템 DR 계획
- 자동 페일오버
- 정기 DR 드릴

10.4 장기 비전 (3-6개월)

제로 다운타임 백업:
- 라이브 마이그레이션
- 스냅샷 기반 백업
- 지속적 데이터 보호
규제 자동화:
- 컴플라이언스 자동 검증
- 규제 변경 대응 자동화
- 국제 확장 대비
비즈니스 연속성:
- 전체 비즈니스 프로세스 백업
- 고객 데이터 보호 강화
- 글로벌 서비스 지원

📚 관련 문서

인프라 감사 보고서

문서 승인: DTA-Wide 인프라팀
다음 검토일: 2025년 9월 12일
변경 이력: v1.0 (2025-08-12) - 초기 작성

변경 이력

버전	날짜	작성자	변경 내용
0.1.0	2025-08-13	bok@weltcorp.com	최초 작성

📋 목차​

1. 개요​

1.1 PLT-NFR-006 요구사항​

1.2 비즈니스 임팩트​

1.3 구현 범위​

2. 아키텍처 설계​

2.1 고가용성 원칙​

중복성 (Redundancy)​

내결함성 (Fault Tolerance)​

자동 복구 (Auto-healing)​

2.2 인프라 구성​

백업 스토리지 아키텍처​

데이터 플로우​

3. 구현 솔루션​

3.1 Terraform 모듈 활용​

3.2 환경별 구성​

4. 백업 시스템​

4.1 Cloud SQL 백업​

자동 백업 설정​

백업 스케줄​

4.2 Secret Manager 백업​

백업 Function​

4.3 설정 파일 백업​

Terraform/Terragrunt 백업​

4.4 백업 모니터링​

BigQuery 백업 로그 스키마​

실시간 알림 쿼리​

5. 복구 시스템​

5.1 복구 시나리오​

시나리오 1: 데이터베이스 부분 복구​

시나리오 2: 전체 시스템 복구​

5.2 복구 절차 자동화​

복구 테스트 Function​

5.3 복구 시간 최적화​

RTO 10분 달성 전략​

자동 복구 스크립트​

6. 배포 가이드​

6.1 사전 요구사항​

IAM 권한 설정​

API 활성화​

6.2 단계별 배포​

Step 1: Dev 환경 배포​

Step 2: 백업 검증​

Step 3: 복구 테스트​

Step 4: Stage 환경 배포​

Step 5: Prod 환경 배포​

6.3 배포 스크립트​

자동 배포 스크립트​

7. 운영 절차​

7.1 일상 운영 체크리스트​

일일 점검​

주간 점검​

월간 점검​

7.2 사고 대응 절차​

백업 실패 대응​

사고 대응 플레이북​

8. 문제 해결​

8.1 일반적인 문제​

백업 느림​

복구 실패​

스토리지 비용 과다​

8.2 고급 문제 해결​

대용량 데이터베이스 백업​

백업 무결성 검증​

9. 성능 지표​

9.1 핵심 KPI​

백업 성능 (환경별)​

복구 성능​

9.2 성능 모니터링 쿼리​

백업 성능 대시보드​

컴플라이언스 리포트​

9.3 성능 최적화​

백업 성능 개선​

10. 다음 단계​

10.1 즉시 실행 항목​

10.2 단기 개선 계획 (2-4주)​

10.3 중기 개선 계획 (1-3개월)​

10.4 장기 비전 (3-6개월)​

📚 관련 문서​

변경 이력​