불안·우울 증상의 시간·인구학적 요인 분석: 라쇼모니 효과와 랜덤 포레스트 접근
초록
본 연구는 PHQ‑4 대규모 설문 데이터를 활용해 랜덤 포레스트 모델을 부트스트랩으로 다수 생성하고, 이들 모델이 공유하는 예측 성능(라쇼모니 집합)을 기준으로 부분 의존도 프로파일(PDP)을 비교하였다. 결과는 연령·성별·교육 수준이 일관된 위험 구조 변화를 일으키며, 시간 변수에서는 일중·주간(주기) 리듬이 뚜렷하게 나타나 특히 새벽에 불안·우울 위험이 최고임을 보여준다. 모델 다중성을 고려한 해석이 필요함을 강조한다.
상세 분석
이 논문은 라쇼모니 현상을 실증적으로 검증하기 위해 ‘라쇼모니 집합’을 부트스트랩 재표본화와 랜덤 포레스트 학습을 결합해 정의한다. 원 데이터(34,000건)의 각 부트스트랩 샘플에 대해 동일한 하이퍼파라미터로 랜덤 포레스트를 학습함으로써, 성능 차이가 ε 이하인 다수의 근접 최적 모델을 확보한다. 이렇게 얻은 모델군에 대해 부분 의존도 프로파일(PDP)을 계산하고, 부트스트랩 기반 신뢰구간을 겹쳐 시각화함으로써 각 변수의 효과가 모델 전반에 걸쳐 얼마나 안정적인지를 정량화한다.
주요 변수는 연령, 성별, 교육 수준, 그리고 시간(시간대·요일)이다. 연령은 18‑34세에서 위험이 급격히 상승하고, 고령층에서는 완만히 감소하는 비선형 패턴을 보이며, 이는 모든 모델에서 일관된다. 성별은 여성에게서 약간 높은 위험을 나타내지만, 신뢰구간이 겹치는 경우가 많아 차이가 미미함을 시사한다. 교육 수준은 고학력일수록 위험이 낮은 방향으로 안정적인 효과를 보인다.
시간 변수에서 가장 눈에 띄는 것은 일중 리듬이다. 새벽 3‑5시 사이에 위험 확률이 최고점에 도달하고, 낮 시간대에는 완만히 감소한다. 이 패턴은 주 7일 전체에 걸쳐 동일하게 나타나며, 특히 월요일과 금요일에 약간의 변동이 있지만 전반적인 주기성(circaseptan) 효과는 유지된다. 이러한 일중·주간 변동은 모든 부트스트랩 모델에서 거의 동일한 PDP 형태와 신뢰구간을 보여, 데이터 자체에 내재된 강력한 신호임을 확인한다.
방법론적 기여는 세 가지다. 첫째, 라쇼모니 집합을 부트스트랩으로 구현해 모델 선택의 불확실성을 정량화한다. 둘째, PDP와 부트스트랩 신뢰구간을 결합해 변수 효과의 안정성을 시각화·평가한다. 셋째, 라쇼모니 접근을 기존 앙상블 학습과 구분해, 설명력 중심의 모델 비교 프레임워크를 제시한다.
한계점으로는 랜덤 포레스트에만 의존했으며, 다른 모델군(예: Gradient Boosting, Neural Networks)과의 비교가 부족하다. 또한 시간 변수는 설문 응답 시각만을 사용해 실제 행동 패턴을 완전히 포착하지 못한다. 자기보고식 PHQ‑4 점수의 측정오차와 표본 편향도 결과 해석에 영향을 미칠 수 있다. 향후 연구에서는 외부 코호트 검증, 인과 추론 기법 도입, 그리고 생체리듬(수면·활동) 데이터와의 통합이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기