양극성 장애 환자의 감정 강도 분석 및 자동 분류

본 논문은 디지털 언어 저장소의 급증과 자연어 처리(NLP) 기술의 발달을 배경으로, 말하기 데이터를 통해 정신질환을 자동으로 식별할 수 있는 가능성을 탐구한다. 서론에서는 기존 연구가 언어 그래프 분석, 감정 분석, 그리고 약물 영향 탐지 등 다양한 방법으로 정신병(특히 조현병)과 양극성 장애를 예측해 왔음을 언급한다. 특히 조증 환자에서 감정 조절의 이상이 언어에 반영될 것이라는 가설을 제시한다. 방법론에서는 40명의 피험자(양극성 20명, 대조군 20명)를 대상으로 두 가지 질문(‘최근 꿈을 얘기해 주세요’, ‘그 꿈 전의 깨어있는 활동을 얘기해 주세요’)에 대한 인터뷰를 진행하고, 녹음된 음성을 문자로 전사하였다. 전사된 텍스트는 포르투갈어에서 구글 번역을 이용해 영어로 변환하였다. 감정 강도 지수(EI)는 Dictionary of Affect in Language(DAL)에서 긍정·부정 어휘 상위·하위 20%를 고감정 단어로 선정하고, 문장당 이러한 단어 비율을 계산해 정의하였다. 각 피험자의 전체 텍스트를 문장 단위로 분할해 EI를 구한 뒤, 평균값과 표준편차를 두 개의 피처로 사용하였다. 알고리즘 검증을 위해 두 개의 외부 코퍼스를 구축하였다. 하나는 위키피디아 기사(감정 중립) 100편, 다른 하나는 인터넷 시집에서 무작위로 추출한 시 75편(감정 고조)이다. 두 코퍼스 간 EI 평균값 차이는 t‑검정(p ≤ 10⁻⁴⁶)으로 매우 유의했으며, 형용사 비율은 차이가 없었음이 확인되었다. 이는 EI가 단순 어휘 빈도가 아니라 감정 강도를 포착한다는 증거로 제시된다. 본 연구의 핵심 실험에서는 양극성 환자와 대조군의 EI 평균값을 비교하였다. 양극성 그룹의 평균 EI는 0.1380 ± 0.0193, 대조군은 0.1168 ± 0.0277로 통계적으로 유의한 차이(p = 0.00793)를 보였다. 또한 양극성 그룹의 EI는 시 코퍼스보다도 높아, 조증 상태에서 감정 강도가 일반적인 감정 표현보다도 강하다는 점을 시사한다. 분류 모델로는 scikit‑learn을 이용해 로지스틱 회귀, 선형 판별 분석(LDA), 서포트 벡터 머신(SVM), 가우시안 나이브 베이즈, 결정 트리, 그래디언트 부스팅, 배깅, K‑최근접 이웃, 랜덤 포레스트 등 10가지 알고리즘을 10‑fold 교차검증으로 평가하였다. 평균 EI 하나만을 피처로 사용한 로지스틱 회귀가 75% 정확도와 0.27 ROC‑AUC를 기록하며 가장 높은 성능을 보였으며, 다른 모델들은 정확도 50%~68% 수준에 머물렀다. 논의에서는 감정 강도 지수가 형용사 빈도와는 별개의 정보를 제공한다는 점을 강조하고, 간단한 사전 기반 접근법에도 불구하고 양극성 환자를 구분할 수 있음을 긍정적으로 평가한다. 그러나 연구는 몇 가지 제한점을 인정한다. 첫째, DAL 사전이 영문에 기반하고 번역 과정에서 의미 손실이 발생할 가능성이 있다. 둘째, 표본 규모가 작고 조증 상태만 포함돼 있어 일반화에 한계가 있다. 셋째, 단일 피처에 의존한 분류는 ROC‑AUC가 낮아 실제 임상 적용에는 추가적인 특징(예: 어휘 다양성, 문장 구조, 감정 차원별 점수 등)과 복합 모델이 필요하다. 마지막으로, 감정 강도 자체가 감정의 종류를 구분하지 않으므로, 향후 연구에서는 다차원 감정 모델과 딥러닝 기반 임베딩을 결합해 정밀도를 높이는 방향을 제안한다. 결론적으로, 본 논문은 감정 강도 지수를 활용한 간단한 텍스트 기반 분석이 양극성 장애의 언어적 특징을 포착하고, 자동 분류에 일정 수준의 가능성을 제공한다는 점을 보여준다. 이는 정량적 정신의학(Quantitative Psychiatry) 분야에서 저비용, 저침해적인 진단 보조 도구 개발에 기여할 수 있다.

양극성 장애 환자의 감정 강도 분석 및 자동 분류

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기