PTSD 심각도 추정에서 대형 언어모델의 최적 활용 방안
초록
본 연구는 1,437명의 임상 인터뷰 텍스트와 자기보고 PTSD 점수를 이용해 11개의 최신 대형 언어모델(LLM)의 PTSD 심각도 추정 성능을 체계적으로 평가한다. 모델에 제공되는 맥락 지식(증상 정의, 설문 요약, 인터뷰 질문)과 프롬프트 설계·추론 전략(zero‑shot vs few‑shot, 체인‑오브‑생각, 추론 노력 수준, 모델 규모, 서브스케일 예측 vs 직접 스칼라 예측, 출력 재스케일링, 앙상블) 등을 다양하게 변형하여 정확도에 미치는 영향을 분석하였다. 주요 결과는(1) 상세한 증상 정의와 인터뷰 맥락을 제공할 때 정확도가 크게 향상되고, (2) 추론 노력(코히런스·토큰 수)을 높이면 MAE가 감소하며 Pearson 상관이 개선되고, (3) 오픈소스 모델은 70 B 파라미터를 넘어선 규모 확대에서 성능이 정체되는 반면, 폐쇄형 최신 모델(GPT‑5 등)은 지속적으로 개선된다, (4) 최종적으로 감독 학습 기반 회귀 모델과 zero‑shot LLM을 결합한 앙상블이 가장 높은 예측 정확도를 달성한다는 점을 제시한다.
상세 분석
본 논문은 임상 현장에서 실제 환자들이 제공한 자유 서술형 인터뷰 텍스트와 표준화된 PTSD 체크리스트(PCL‑5) 점수를 연결함으로써, LLM이 비구조화된 언어 데이터를 정량적 심리척도로 변환하는 가능성을 실증적으로 검증한다. 11개의 최신 LLM(LLaMA‑3.1‑Instruct, DeepSeek‑R1, GPT‑4o‑mini, o3‑mini, GPT‑5 등)을 선정하고, 각 모델에 대해 0‑shot, 1‑shot, 3‑shot 등 다양한 샷 수와 ‘Think‑Step‑By‑Step(TSBS)’ 체인‑오브‑생각 프롬프트를 적용하였다. 특히, 추론 노력 수준을 low, medium, high으로 조절해 토큰 수가 453에서 2,237까지 증가하도록 설계했으며, 이는 모델 내부의 ‘생각’ 과정을 메타프롬프트로 외부에 드러내는 방식이다. 결과적으로 고추론 노력(high) 설정에서 MAE가 평균 8.23으로 크게 감소하고, Pearson r도 0.422로 향상돼, LLM이 단순히 패턴 매칭을 넘어 복합적인 의미 해석을 수행함을 시사한다.
맥락 지식 측면에서는 증상 서브스케일 정의, 설문 항목 설명, 인터뷰 전후 배경 정보 등을 프롬프트에 삽입했을 때 성능 차이가 뚜렷했다. 서브스케일 기반 예측(4개의 PCL 서브스케일을 개별적으로 예측 후 합산)과 직접 스칼라 예측을 비교했을 때, 서브스케일 방식이 임상적 해석 가능성을 제공하지만, ‘연구 맥락+분포 정보’를 포함한 직접 예측이 r = 0.482, MAE = 7.80으로 가장 높은 정확도를 보였다. 이는 모델이 전체 점수의 통계적 분포를 사전에 인식하면, 개별 항목보다 전체 점수를 더 정밀하게 추정할 수 있음을 의미한다.
모델 규모와 종류에 대한 분석에서는 오픈소스 LLaMA‑3.1‑Instruct‑70B가 가장 안정적인 베이스라인을 제공했으며, 405 B와 670 B 모델에서는 성능이 정체되거나 오히려 감소했다. 이는 파라미터 수가 늘어나도 훈련 데이터와 정교한 프롬프트 설계가 부족하면 효율이 떨어진다는 점을 보여준다. 반면, 폐쇄형 최신 모델인 GPT‑5(파라미터 비공개)는 0‑shot에서 r = 0.441, 3‑shot에서 r = 0.475(통계적 유의)라는 최고 점수를 기록했으며, 이는 최신 아키텍처와 사전 훈련 데이터의 질이 성능에 결정적 영향을 미친다.
예측값 재스케일링 기법인 ‘Predictive Redistribution’을 적용하면 MAE가 평균 2~3점 감소하고, Pearson r는 미세하게 상승한다. 이는 LLM이 출력한 연속형 점수의 분포가 실제 PCL 점수와 불일치할 때, 후처리 단계에서 분포를 맞춤으로써 절대 오차를 크게 줄일 수 있음을 보여준다. 마지막으로, 9가지 앙상블 전략(단순 평균, 가중 평균, 스태킹 등)을 시험했으며, 감독 학습 기반 RoBERTa 회귀 모델과 LLM(특히 70 B LLaMA와 GPT‑5)의 예측을 결합한 스태킹 앙상블이 전체 데이터셋에서 r = 0.492, MAE = 7.31이라는 최고 성능을 달성했다. 이는 LLM이 제공하는 ‘언어적 직관’과 전통적인 임베딩 기반 회귀 모델이 제공하는 ‘통계적 안정성’이 상호 보완적임을 입증한다.
전반적으로 논문은 (1) 맥락 지식 제공이 LLM 성능에 가장 큰 영향을 미치며, (2) 추론 노력 조절과 사후 재스케일링이 정확도 향상의 실질적 도구가 되고, (3) 모델 규모는 일정 수준(≈70 B)에서 포화되며, 최신 폐쇄형 모델이 지속적으로 앞서가고, (4) 감독 학습 모델과 LLM의 앙상블이 최적 솔루션이라는 네 가지 핵심 인사이트를 도출한다. 이러한 결과는 임상 현장에서 LLM을 활용한 자동화된 PTSD 심각도 평가 시스템을 설계할 때, 프롬프트 설계와 후처리 파이프라인을 신중히 구성해야 함을 강력히 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기