다국어 정신건강 데이터셋 구축과 LLM 성능 평가: 가능성 및 과제

다국어 정신건강 데이터셋 구축과 LLM 성능 평가: 가능성 및 과제
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 영어 기반 정신건강 데이터셋을 그리스어, 터키어, 프랑스어, 포르투갈어, 독일어, 핀란드어 등 6개 언어로 자동 번역하여 다국어 데이터셋을 구축하고, GPT‑3.5‑turbo, GPT‑4o‑mini, Llama 3.1을 활용해 각 언어별 우울증·자살 위험도 예측 성능을 비교한다. 언어마다 정확도·재현율·F1 점수가 크게 달라 번역 품질·문화적 뉘앙스가 모델 성능에 미치는 영향을 강조한다.

상세 분석

이 연구는 두 가지 주요 정신건강 데이터셋(DEP‑SEVERITY와 C‑SSRS)을 선택하고, 원본 영어 텍스트를 LLM 기반 번역 파이프라인을 통해 6개 목표 언어로 변환한다. 번역 단계에서는 온도 0 설정으로 재현성을 확보하고, 동일한 프롬프트를 사용해 번역 품질을 일관되게 유지한다. 번역된 텍스트는 0‑shot 및 1‑shot 프롬프트(각 클래스당 하나의 예시)로 LLM에게 심각도 라벨을 예측하도록 요청한다. 평가 지표는 클래스별 정밀도(Precision), 재현율(Recall), F1-score이며, 매크로 평균을 통해 전반적인 성능을 비교한다.

실험 결과, 영어에서는 비교적 높은 매크로 F1(≈0.34) 를 기록했지만, 터키어·프랑스어·포르투갈어·독일어·그리스어·핀란드어에서는 F1가 0.10~0.33 사이로 크게 변동한다. 특히 ‘Behavior’와 ‘Attempt’와 같은 희귀 클래스는 대부분 언어에서 0점에 가까운 성능을 보였으며, 이는 데이터 불균형과 번역 오류가 복합적으로 작용했을 가능성을 시사한다. 언어별 차이는 번역 단계에서 발생하는 의미 손실, 문화적 표현 차이, 그리고 LLM이 해당 언어에 대해 사전 학습된 파라미터의 양적 차이와 연관된다.

오류 분석에서는 (1) 번역 과정에서 감정 어휘가 약화되어 모델이 우울증 심각도를 과소평가, (2) 특정 언어에서 ‘지원’과 ‘지시’ 같은 라벨이 혼동되어 정밀도가 급격히 낮아짐을 확인했다. 또한, LLM이 ‘자살 시도’와 같은 고위험 표현을 오인하거나 누락하는 사례가 발견돼, 의료 현장에서의 오진 위험을 강조한다.

비용 측면에서는 다국어 번역 및 라벨링을 LLM 하나로 자동화함으로써 인건비와 전문 번역가 비용을 크게 절감할 수 있음을 제시한다. 그러나 성능 편차가 심각한 상황에서는 추가적인 인간 검증 단계가 필요하므로, 완전 자동화보다는 인간‑AI 협업 모델이 현실적이다.

결론적으로, 본 논문은 다국어 정신건강 데이터셋 구축이 가능함을 증명했지만, 언어별 모델 성능 차이와 번역 품질 문제를 해결하기 위한 추가 연구가 필수적이다. 향후 연구는 (① 고품질 인간 번역과 LLM 번역의 혼합, ② 언어 특화 프롬프트 설계, ③ 데이터 불균형 완화를 위한 샘플링 기법) 등을 통해 모델의 신뢰성을 높이는 방향으로 진행될 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기