오프라인 스마트폰 기반 정서지원 챗봇 EmoSApp: 학생 맞춤형 정신건강 지원
초록
EmoSApp은 LLaMA‑3.2‑1B‑Instruct 모델을 14,582개의 정신건강 QA와 다중 턴 대화 데이터로 파인튜닝·양자화하여, 완전 오프라인으로 스마트폰에서 실행되는 정서지원 챗봇이다. 학생과 전문가 대상 정성 평가와 9개의 상식·추론 벤치마크 및 2개의 정신건강 특화 데이터셋에서의 정량 평가를 통해, 제한된 자원 환경에서도 일관성·공감·문맥 적합성을 유지함을 입증한다.
상세 분석
본 논문은 모바일 환경에서 정신건강 지원을 제공하기 위한 실용적인 솔루션을 제시한다는 점에서 의미가 크다. 첫째, 모델 선택에서 1.2 B 파라미터 규모의 LLaMA‑3.2‑1B‑Instruct를 채택했으며, 이는 일반적인 대형 LLM에 비해 메모리·연산 요구량이 낮아 스마트폰에 적합하다. 그러나 1 B 파라미터 모델은 감정 표현 능력이 제한될 수 있다는 점을 인지하고, 도메인 특화 데이터와 파인튜닝 전략을 통해 이를 보완한다.
데이터 측면에서는 ‘Knowledge Dataset’이라 명명된 14,582개의 정신건강 QA 쌍과 두 개의 다중 턴 대화 코퍼스를 결합하였다. 이 데이터는 심리학·정신건강 교과서, 기존 정서지원 대화(ESConV, ServeForEmo) 등을 통합해 도메인 지식과 감정 흐름을 동시에 학습하도록 설계되었다. 데이터 라벨링은 전략적 감정지원(공감, 반영, 격려 등)을 명시적으로 포함시켜, 모델이 단순 정보 제공을 넘어 대화식 치료적 접근을 할 수 있게 한다.
파인튜닝 전략은 세 가지로 비교된다. (1) Full Fine‑tuning은 모든 파라미터를 업데이트해 최고 성능을 기대하지만, GPU VRAM·학습 시간·배포 시 메모리 요구량이 크게 증가한다. (2) LoRA + PTQ는 저‑랭크 어댑터를 삽입해 파라미터 수를 크게 줄이고, 사후 양자화(PTQ)로 모델 크기를 압축한다. 그러나 INT4 + INT8 양자화 과정에서 정보 손실이 발생해 성능 저하가 관찰되었다. (3) QA‑T‑LoRA는 가짜 양자화(fake quantization)를 학습 단계에 도입해 양자화 손실을 사전에 보정하고, 최종적으로 INT4 Weight + INT8 Dynamic Act 양자화 모델을 얻는다. 실험 결과 QA‑T‑LoRA가 Full Fine‑tuning에 근접한 정확도를 유지하면서 모델 크기를 55 % 감소시키고, 토큰당 생성 속도를 3.7배 가속화했다.
성능 평가는 두 축으로 이루어진다. 정량 평가는 CommonsenseQA, PIQA 등 9개의 일반 상식·추론 벤치마크와, Mental Health QA, EmpatheticDialogues 등 2개의 도메인 특화 데이터셋을 사용해 정확도·F1·BLEU 등을 측정했다. QA‑T‑LoRA 모델은 대부분의 벤치마크에서 Full 모델에 버금가는 점수를 기록했으며, 특히 정신건강 데이터셋에서 감정 일관성 점수가 크게 향상되었다. 정성 평가는 학생 30명과 정신건강 전문가 5명을 대상으로 진행했으며, 응답의 공감성, 적절성, 대화 흐름 유지 등을 5점 척도로 평가했다. EmoSApp은 기존 LLaMA 기반 챗봇에 비해 ‘공감 표현’과 ‘전략적 질문 유도’에서 평균 1.2점 이상 높은 점수를 받았다.
시스템 구현에서는 PyTorch torchtune과 Executorch를 활용해 안드로이드 15 환경, 6 GB RAM 스마트폰에서 실시간 추론이 가능하도록 최적화했다. 모델 파일 크기는 1.03 GB이며, 첫 토큰 응답 지연(Time‑to‑First‑Token)은 5.69 초, 토큰당 생성 속도는 13.5 tokens/s로, 일반적인 모바일 메신저 수준의 인터랙티브성을 제공한다.
한계점으로는 (1) 데이터 규모가 여전히 수만 건 수준에 머물러, 복합적인 정신질환(예: 조현병, 양극성 장애) 케이스에 대한 일반화가 제한될 수 있다. (2) 양자화 후 미세한 의미 손실이 존재해, 극히 섬세한 상담 상황에서 오답을 생성할 위험이 있다. (3) 평가가 주로 학생·전문가 집단에 국한돼, 일반 대중이나 다양한 문화권 사용자에 대한 적용 가능성을 추가 검증해야 한다.
향후 연구 방향은 (가) 대규모 자동 생성 데이터와 인간 검증을 결합한 혼합 학습 파이프라인 구축, (나) 멀티모달(음성·표정) 입력을 통합해 감정 인식 정확도를 높이는 것, (다) 지속적인 온‑디바이스 학습(예: Federated Learning)으로 개인화된 지원을 제공하는 방안이 제시된다. 전반적으로 EmoSApp은 오프라인 모바일 환경에서 정신건강 지원을 실현하기 위한 기술적 토대를 마련했으며, 저자원이 제한된 지역·인구에게도 안전하고 접근성 높은 디지털 치료 옵션을 제공할 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기