위기 감지용 대형 언어 모델 평가: 실제 심리 지원 핫라인 데이터베이스

위기 감지용 대형 언어 모델 평가: 실제 심리 지원 핫라인 데이터베이스
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 중국 항저우 심리 지원 핫라인의 540개 통화 전사본을 기반으로 만든 PsyCrisisBench 벤치마크를 제시한다. 기분 상태 인식, 자살 생각 탐지, 자살 계획 식별, 위험도 평가 네 가지 과제를 통해 64개의 LLM(15개 모델군)을 제로샷, 몇 샷, 파인튜닝 방식으로 평가했으며, LLM이 인간 상담원과 비슷하거나 일부 과제에서 우수한 성능을 보임을 확인했다.

상세 분석

PsyCrisisBench는 실제 상담 현장의 음성 데이터를 Whisper‑large‑v3‑turbo로 전사하고, 개인정보를 완전 탈식별한 뒤 4가지 이진 라벨(기분 상태, 자살 생각, 자살 계획, 위험도)로 주석을 달았다. 데이터는 고위험군 270건과 매칭된 저위험군 270건으로 구성돼 클래스 불균형을 최소화했으며, 평균 통화 길이는 33분, 평균 전사 길이는 6,500단어에 달한다. 모델 선정은 중국어 처리 능력이 뛰어난 15개 주요 LLM 패밀리를 포함했으며, GPT‑4, Claude‑3, Gemini‑2 등 클로즈드소스와 LLaMA, Qwen, DeepSeek 등 오픈소스 모델을 모두 포괄한다. 각 모델은 0.5 B에서 1 T 파라미터 규모까지 다양했으며, ‘추론형’(내부 사고 토큰 생성)과 ‘비추론형’(직접 응답)으로 구분해 성능 차이를 분석했다.

평가 프로토콜은 전사 텍스트를 입력으로 JSON 형식의 라벨을 요구했으며, 형식 오류도 오류로 처리했다. 모든 실험은 3회 반복 수행해 부트스트랩 방식으로 95 % CI를 산출했으며, F1 점수를 주요 지표로 채택했다. 제로샷에서는 대부분의 모델이 자살 생각(F1 ≈ 0.84)과 위험도(F1 ≈ 0.88)에서 높은 점수를 기록했고, 몇 샷 프롬프트는 특히 위험도와 자살 계획 탐지에서 F1를 0.03~0.07 정도 끌어올렸다. 파인튜닝 실험에서는 1.5 B 파라미터 Qwen2.5‑Instruct가 기분 상태와 자살 생각 탐지에서 대형 모델(GPT‑4, Claude‑3 등)을 앞섰으며, 이는 도메인 특화 데이터가 작은 규모 모델에도 큰 이점을 제공한다는 점을 시사한다.

양자화(AWQ) 실험에서는 4 B~32 B 모델을 4‑bit 양자화했을 때 성능 저하가 미미했으며, 추론 비용 절감 효과가 확인되었다. 모델 규모와 성능 사이에는 비선형 관계가 관찰됐으며, 특히 기분 상태 인식에서는 음성의 억양·속도 등 비언어적 단서가 결여돼 전체 F1가 0.71에 머물렀다. 인간 상담원과 비교했을 때 LLM은 자살 계획 식별(F1 ≈ 0.79 vs 0.73)과 위험도 평가(F1 ≈ 0.91 vs 0.88)에서 인간을 능가했지만, 기분 상태와 자살 생각 탐지에서는 인간이 여전히 우위에 있었다.

윤리적 논의에서는 데이터 프라이버시 보호, 모델 오용 방지, 오류 시 긴급 대응 체계 구축 필요성을 강조했으며, LLM이 보조 도구로 활용될 때 인간 상담원의 감독이 필수임을 재확인했다.


댓글 및 학술 토론

Loading comments...

의견 남기기