대규모 오디오 언어 모델을 LoRA로 미세조정하여 장기노출 치료 요소의 정확한 시간 위치 추정
초록
본 연구는 PTSD 치료인 장기노출(PE) 세션에서 핵심 치료 단계(P1, P2, P3)의 시작·종료 시점을 자동으로 추정하는 방법을 제안한다. 사전학습된 대형 오디오‑언어 모델 Qwen2‑Audio에 Low‑Rank Adaptation(LoRA)과 4비트 양자화(QLoRA)를 적용해 30초 길이의 오디오‑텍스트 윈도우를 입력으로 사용하였다. LLM 기반의 초기 타임스탬프를 전문가가 검증한 후 소프트 슈퍼비전으로 학습시켰으며, 308개의 실제 PE 세션에서 평균 절대오차(MAE) 5.3초를 달성해 인간 평가자와 동등한 수준의 정확도를 보였다.
상세 분석
이 논문은 임상 심리치료 분야에서 가장 큰 병목 중 하나인 ‘치료자 충실도 평가’를 자동화하기 위해 멀티모달 딥러닝 접근법을 도입한 점이 혁신적이다. 먼저, Qwen2‑Audio‑7B‑Instruct라는 7억 파라미터 규모의 사전학습 모델을 선택했는데, 이는 오디오와 텍스트를 동시에 인코딩해 음성의 억양·정지·속도와 텍스트의 의미적 흐름을 통합적으로 파악할 수 있다. 모델을 전체 파라미터를 업데이트하지 않고 LoRA(rank = 2, 4, 8)와 QLoRA(4‑bit NF4)로 효율적으로 미세조정함으로써 GPU 메모리 사용량을 크게 줄였으며, 특히 rank = 8에서 가장 좋은 성능을 보였다.
데이터 전처리 단계에서는 44‑48 kHz의 원본 오디오를 16 kHz로 다운샘플링하고, Amazon HealthScribe를 이용해 문장 수준 타임스탬프와 화자 라벨을 포함한 전사본을 확보하였다. 초기 라벨링은 Claude Sonnet 3.5와 같은 LLM에게 ‘세션 전사에서 P1, P2, P3의 시작·종료 시점을 반환하라’는 프롬프트를 주어 자동 생성하고, 전체 세션의 10 %를 인간 평가자가 검증해 정확도를 94.4 %(5‑10 s 오차)로 확보했다. 이렇게 얻은 고품질 라벨을 ‘소프트 슈퍼비전’ 형태로 모델에 제공했으며, 각 라벨을 0‑1 사이의 정규화된 오프셋으로 변환해 회귀 손실을 최소화하도록 학습시켰다.
윈도우 크기 실험에서는 30 s, 60 s, 120 s 세 가지를 비교했는데, 짧은 윈도우가 컨텍스트는 제한적이지만 경계 위치를 더 정확히 포착하는 데 유리했다. 30 s 윈도우와 LoRA rank 8 조합이 평균 MAE 5.3 s를 기록했으며, 이는 인간 평가자의 변동 범위(≈5 s)와 거의 일치한다. 반면 60 s·120 s 윈도우는 오히려 MAE가 9‑22 s로 크게 악화돼, 과도한 컨텍스트가 모델의 경계 추정에 혼란을 주는 것으로 해석된다.
‘Head Only’ 베이스라인(회귀 헤드만 학습)과 비교했을 때, LoRA를 적용한 전체 파라미터 미세조정이 MAE를 약 1‑2 s 정도 개선함을 확인했다. 이는 오디오와 텍스트의 연합 표현이 단순 텍스트 기반 모델보다 시간적 미세 변화를 포착하는 데 더 효과적임을 시사한다.
한계점으로는 (1) 데이터가 한 기관(Emory)에서만 수집돼 일반화 가능성이 제한적이며, (2) 현재는 세 단계만 다루어 복합적인 치료 흐름(예: 재구성, 과제 부여 등)에는 확장되지 않는다. 또한, 30 s 윈도우는 경계가 윈도우 경계에 가깝게 위치할 경우 오프셋 예측 오류가 커질 수 있어, 동적 윈도우 샘플링 전략이 필요할 것으로 보인다.
임상 적용 측면에서는 모델이 로컬 디바이스에서 4‑bit 양자화된 형태로 실행 가능하므로, 환자 음성 데이터가 외부 서버로 전송되지 않아 개인정보 보호 요구를 충족한다. 추후에는 실시간 피드백 시스템에 통합해 치료자가 세션 중에 즉시 충실도 지표를 확인하거나, 교육용 시뮬레이터에 활용해 슈퍼바이저의 코칭 효율을 높일 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기