마인드가드: 정신건강 대화용 맞춤형 위험 방지 분류기
초록
본 논문은 정신건강 지원 챗봇에서 일반 안전 가드레일이 놓치는 위기 신호를 정확히 포착하기 위해 임상 심리학자와 공동 개발한 위험 분류 체계를 제시한다. 3가지 위험 카테고리(안전, 자해 위험, 타인에 대한 위험)를 바탕으로 다중 턴 대화 데이터를 수집·주석하고, 합성 대화를 이용해 4B·8B 파라미터 규모의 경량 Guardrail 모델(MindGuard)을 학습한다. 실험 결과, 높은 재현율 구간에서 기존 일반 가드레일 대비 거짓 양성률을 크게 낮추고, 적대적 공격 시 위험 전파를 억제함을 보인다. 모델·데이터·인간 평가 결과를 모두 공개한다.
상세 분석
본 연구는 정신건강 챗봇의 안전성을 향상시키기 위해 기존의 범용 가드레일이 “위험”과 “비위험”을 단순히 토픽 기반으로 구분하는 한계를 정확히 짚어낸다. 특히 자해·타인 위협과 같은 임상적으로 긴급한 상황을 놓치거나, 감정 표현·은유적 언어를 과도하게 차단하는 문제를 지적한다. 이를 해결하기 위해 저자들은 세 가지 위험 카테고리(안전, 자해 위험, 타인에 대한 위험)를 정의하고, 각 카테고리의 임상적 의미와 대응 프로토콜을 명확히 매핑한다. 위험 라벨링은 실제 임상 심리학자 3인이 다중 턴 대화를 전체 맥락을 보며 수행했으며, Krippendorff α가 0.57로 비교적 높은 일관성을 보였다. 데이터는 67개의 대화(총 1,134 턴)로 구성되며, 위험 턴은 전체의 3.7%에 불과하지만 대화당 25% 이상에서 위험이 발생하도록 설계돼 실제 서비스 상황을 반영한다. 모델 학습은 두 에이전트가 상호작용하는 합성 대화를 활용해 위험 신호가 점진적으로 나타나는 과정을 재현한다. 4B와 8B 파라미터 규모의 경량 분류기는 입력 메시지와 전체 대화 히스토리를 동시에 고려해 턴 수준 위험을 예측한다. 평가에서는 AUROC 0.982, 높은 재현율(≥0.9)에서 거짓 양성률을 기존 Llama Guard 대비 40% 이상 감소시켰다. 또한 자동 레드팀 실험에서 공격 성공률과 유해 상호작용 비율을 현저히 낮추어, 실제 서비스에 적용했을 때 위기 상황을 놓치지 않고 불필요한 차단을 최소화할 수 있음을 입증한다. 모델·데이터·주석 가이드라인을 모두 공개함으로써 재현성과 확장성을 확보하고, 정신건강 AI 안전 연구의 표준화를 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기