소형 언어 모델 기반 정신건강 전문가 지원 시스템 coTherapist
초록
coTherapist는 1 억 파라미터 규모의 소형 언어 모델을 도메인 특화 사전학습, LoRA 파인튜닝, 검색 기반 증강(RAG), 그리고 단계적 에이전트 추론을 결합해 치료사의 핵심 행동 양식을 모방한다. 800 만 토큰 규모의 정신치료 지식 코퍼스를 활용해 임상 질의에 대해 높은 공감·관계성·기술 실행력을 보이며, 기존 대형 모델 대비 안전성과 신뢰성을 향상시킨다. T‑BARS라는 새로운 행동 평가 프레임워크와 인간 전문가 평가를 통해 공감 능력과 치료 일관성이 크게 개선된 것을 입증한다.
상세 분석
본 논문은 소형 언어 모델(LLM)도 적절한 엔지니어링을 통해 임상 치료사의 행동 양식을 재현할 수 있음을 실증한다. 핵심 기술은 네 단계로 구성된다. 첫째, 800 백만 토큰 규모의 Psychotherapy Knowledge Corpus(PsyKC)를 구축하여 치료 매뉴얼, 강의 영상 전사, 진단 가이드 등 다양한 출처를 메타데이터와 함께 인덱싱한다. 이는 모델이 증거 기반 지식을 정확히 검색하고 인용할 수 있는 기반을 제공한다. 둘째, LLaMA 3.2‑1B‑Instruct를 베이스로 도메인‑적응 사전학습을 수행해 치료 분야 특유의 어휘와 문체를 습득한다. 셋째, LoRA 파인튜닝을 통해 ‘치료사 스타일’ 프롬프트를 학습시켜 공감적 경청, 재구성, 검증 등의 대화 스킬을 모방한다. 넷째, RAG 파이프라인과 내부 ‘Reasoner‑Critic’ 모듈을 결합해 검색된 문서를 근거로 단계별 임상 추론을 수행한다. 특히 ‘Plan‑Retrieve‑Think‑Refine’ 루프는 치료사가 사례 개념화를 할 때 거치는 인지 과정을 모델링한다.
평가 측면에서는 기존 BLEU·ROUGE·BERTScore와 같은 자동 지표뿐 아니라, 치료사 행동 평가 척도(T‑BARS)를 새롭게 제안한다. T‑BARS는 행동 양식, 개념적 추론, 관계 역량, 기술 실행 네 가지 축을 20개 세부 항목으로 세분화하고, LLM 기반 평가자와 심리측정 프로파일링을 통해 객관성을 확보한다. 실험 결과, coTherapist는 공감 점수에서 기존 대형 모델 대비 0.3 포인트(≈30 % 상승) 향상을 보였으며, 안전성(위험 발언 억제)과 신뢰성(근거 인용 정확도)에서도 유의미한 개선을 기록했다. 인간 전문가(정신건강 임상가) 평가에서도 전체 응답의 87 %가 ‘임상적으로 안전하고 유용함’으로 판정되었다.
또한, 모델 크기가 1 억 파라미터에 불과함에도 불구하고, 연산 비용과 메모리 요구량이 크게 낮아 저자원 환경(예: 지역 보건소, 모바일 디바이스)에서도 실시간 배포가 가능함을 시연한다. 이는 대형 LLM이 갖는 비용·프라이버시 문제를 회피하면서도, 치료사의 보조 도구로서 실용성을 확보한다는 점에서 의미가 크다. 논문은 소형 모델이 ‘행동 정렬(behavioral alignment)’에 중점을 둘 때, 단순 언어 생성 능력보다 임상적 유용성을 크게 높일 수 있음을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기