SOL 예측 시스템 현실성 검토 및 데이터 격차 분석

문서 버전: 1.0.0
작성일: 2025년 9월 6일
작성자: Gemini
목적: SOL Chain of Debate 시스템의 설계 목표와 현재 수집 가능한 데이터 간의 현실적인 격차를 분석하고, 이를 바탕으로 향후 데이터 수집 전략과 에이전트 신뢰도 조정 방안을 제시하여 보다 실현 가능한 시스템을 구축하는 것을 목표로 합니다.

1. 총괄 분석: 설계 목표와 데이터 현실 간의 간극

SOL(Sleep Onset Latency) 예측 시스템은 5명의 전문 AI 에이전트가 협력하여 정확한 예측을 도출하는 것을 목표로 하고 있으나, 현재 prisma.schema에 정의된 데이터 수집 체계는 이 목표를 완전히 뒷받침하지 못하고 있습니다.

강점: 수면 패턴 분석가와 심리상태 분석가는 user_sleep_diary와 user_questionnaire라는 강력한 데이터 기반을 가지고 있어, 설계된 역할을 충실히 수행할 수 있습니다.
약점: 멜라토닌 시스템 분석가, 디지털 수면환경 분석가, CBT-I 수면행동 전문가는 예측에 필수적인 핵심 데이터(빛 노출, 외부 앱 사용, 물리적 수면 환경 등)가 부재하여, 추론의 정확성과 신뢰도에 명백한 한계를 가집니다.

따라서 현재 상태에서 '전문가 토론'은 일부 에이전트의 추측에 크게 의존할 수밖에 없으므로, 예측 결과의 신뢰도를 보장하기 어렵습니다.

2. 에이전트별 데이터 격차 상세 분석

전문가 에이전트	설계된 역할 및 필요 데이터	`prisma.schema` 기반 현실	격차 및 한계
멜라토닌 시스템 분석가	DLMO 예측을 위해 빛 노출, 카페인/알코올 섭취, 운동 기록 등 일주기 리듬 데이터를 분석	기상 시간 외 관련 데이터 전무	[심각] 분석의 근간이 되는 데이터가 없어 에이전트의 역할 수행이 거의 불가능. 예측은 과학적 추론이 아닌 일반론적 추측에 그칠 위험.
디지털 수면환경 전문가	DTA-Wide 앱 사용 패턴을 분석하여 수면 영향을 예측	`user_activity_log` 등으로 앱 내부 활동만 추적 가능	[중대] 사용자의 전체 디지털 환경(타사 앱, OTT 서비스 등)을 반영하지 못해 '반쪽짜리' 분석에 머무름.
CBT-I 수면행동 전문가	수면 위생, 침실 환경, 학습 진도 등을 분석	학습 진도 데이터는 존재하나, 물리적 침실 환경(온도, 소음 등) 데이터 부재. 수면 위생은 간접 추론만 가능.	[보통] 학습 연계 분석은 가능하나, 수면 환경의 물리적 요인을 고려하지 못하는 한계.
심리상태 분석가	ISI, PHQ-9 등 설문 기반으로 심리적 요인 분석	`user_questionnaire` 테이블에 관련 점수 및 데이터가 잘 갖춰져 있음.	[낮음] 설계된 역할을 수행하기에 충분한 데이터 기반 보유.
수면 패턴 분석가	LOT, AST 등 수면 다이어리 기반으로 SOL 패턴 분석	`user_sleep_diary` 테이블에 핵심 지표가 상세히 수집되고 있음.	[낮음] 설계된 역할을 수행하기에 충분한 데이터 기반 보유.

3. 향후 데이터 수집 전략 제안

이러한 데이터 격차를 해소하고 예측 시스템의 정확도를 높이기 위해 다음과 같은 단계적 데이터 수집 전략을 제안합니다.

1순위 (단기 실행 가능)

목표: 최소한의 개발로 가장 큰 영향을 주는 주관적 데이터 확보.
수집 항목:
- 일일 컨디션 로그: 수면 다이어리 작성 시 간단한 체크박스 형태.
  - caffeine_intake_evening (boolean): "저녁에 커피나 카페인 음료를 드셨나요?"
  - alcohol_intake_evening (boolean): "저녁에 음주를 하셨나요?"
  - heavy_exercise_evening (boolean): "저녁에 격렬한 운동을 하셨나요?"
- 수면 환경 자가 평가:
  - sleep_environment_satisfaction (integer, 1-5): "어젯밤 수면 환경(소음, 빛, 온도 등)은 만족스러웠나요?"

2순위 (중기 실행)

목표: 보다 객관적인 생활 습관 데이터 확보.
수집 항목:
- 운동 기록 연동: 사용자의 동의 하에 HealthKit/Google Fit 등과 연동하여 운동 시간 및 종류 데이터 수집.
- 블루라이트 필터 사용 여부: 앱 내 설정 또는 간단한 질문을 통해 취침 전 블루라이트 필터 사용 여부 기록.

3순위 (장기 과제)

목표: 가장 정확하지만 민감도가 높은 데이터 확보.
수집 항목:
- (연구용) 웨어러블 데이터: 연구 참여에 동의한 사용자를 대상으로 웨어러블 디바이스(수면 중 심박수, 빛 노출 센서 등) 데이터 수집.

4. 에이전트 가중치 및 신뢰도 조정 방안

현재 데이터 상황을 고려하여, Chain of Debate에서 각 에이전트의 의견 신뢰도를 다음과 같이 조정하여 적용할 것을 제안합니다.

높은 신뢰도 그룹 (Core Agents)

대상 에이전트:
1. 수면 패턴 분석 전문가
2. 심리상태 분석 전문가
조정 방안:
- 이 두 에이전트의 예측 결과를 SOL 예측의 **핵심 기반(Baseline)**으로 사용합니다.
- 합의 과정에서 가장 높은 가중치를 부여합니다.
- 두 에이전트 간 의견 차이가 클 경우, 이를 '불확실성이 높은 예측'으로 판단하는 근거로 삼을 수 있습니다.

중간 신뢰도 그룹 (Supporting Agents)

대상 에이전트:
1. CBT-I 수면행동 전문가
조정 방안:
- 학습 데이터가 충분할 경우, 예측 결과에 보조적인 가중치를 부여합니다.
- 수면 환경에 대한 분석은 현재 불가능하므로, 행동 패턴과 학습 참여도 분석에만 집중하도록 역할을 제한합니다.

낮은 신뢰도 그룹 (Hypothesis-generating Agents)

대상 에이전트:
1. 멜라토닌 시스템 분석 전문가
2. 디지털 수면환경 전문가
조정 방안:
- 이 에이전트들의 예측 점수(SOL Score)는 합의 과정에서 매우 낮은 가중치를 부여하거나 참고용으로만 사용합니다.
- 이들의 역할은 정량적 예측보다는, "만약 사용자가 저녁에 운동했다면 SOL이 길어졌을 수 있습니다"와 같이 가능성 있는 가설을 제시하고, 이를 바탕으로 사용자에게 질문하거나 권장사항을 생성하는 데 활용하는 것이 더 적합합니다.

5. 결론

현실적인 데이터 제약을 인정하고, 강점은 강화하며 약점은 보완하는 방향으로 시스템을 발전시켜야 합니다. 제안된 데이터 수집 전략과 에이전트 신뢰도 조정을 통해, 초기 단계에서는 실현 가능한 범위 내에서 안정적인 예측 시스템을 구축하고, 장기적으로는 데이터 기반을 확장하여 모든 전문가 에이전트가 제 역할을 수행하는 고도화된 시스템으로 발전시켜 나갈 수 있을 것입니다.

1. 총괄 분석: 설계 목표와 데이터 현실 간의 간극​

2. 에이전트별 데이터 격차 상세 분석​

3. 향후 데이터 수집 전략 제안​

1순위 (단기 실행 가능)​

2순위 (중기 실행)​

3순위 (장기 과제)​

4. 에이전트 가중치 및 신뢰도 조정 방안​

높은 신뢰도 그룹 (Core Agents)​

중간 신뢰도 그룹 (Supporting Agents)​

낮은 신뢰도 그룹 (Hypothesis-generating Agents)​

5. 결론​