다중모달 심리상담을 위한 DELTA 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DELTA는 시각·음성·텍스트 정보를 동시에 활용해 상담 과정을 단계별로 구조화하는 다중에이전트 시스템이다. 멀티모달 근거 추출, 정신 상태 추상화, 응답 생성이라는 세 단계로 나누어 각 역할을 전담 에이전트에 할당하고, 응답 단계에서는 감정 일치도를 측정하는 Emotion Attunement Score를 보상으로 하는 강화학습(GRPO)으로 감정에 맞는 답변을 최적화한다. 실험 결과, 기존 텍스트‑전용 모델 대비 상담 품질과 감정 일치도가 모두 향상되었으며, 각 모듈의 기여도를 확인하는 Ablation 연구도 수행하였다.

상세 분석

본 논문은 심리상담을 ‘멀티모달 증거 → 정신 상태 구조화 → 응답 생성’이라는 명확한 파이프라인으로 재구성함으로써 기존 LLM 기반 텍스트‑전용 접근법의 한계를 극복하고자 한다. 첫 번째 핵심은 Multimodal Grounding Agent (MGA) 로, 시각·음성 데이터를 직접 처리하고 질문에 대한 근거 기반 답변을 제공한다. 이를 통해 downstream 에이전트가 원시 신호에 직접 노출되지 않아 노이즈에 강인한 설계가 가능하다. 두 번째로 Visual Cue Inquiry Agent (VCIA) 와 Vocal Cue Inquiry Agent (VoCIA) 가 각각 시각·음성에 특화된 질문을 생성함으로써 인간 상담사가 비언어적 단서를 탐색하는 과정을 모방한다. 질문‑답변 히스토리(H)는 Mental State Structuring Agent (MSSA) 로 전달되어, 임상에서 사용되는 Mental State Examination(MSE) 양식을 차용한 구조화된 정신 상태 표현 M 으로 집계된다. 이 단계는 비정형 멀티모달 데이터를 정형화된 심리학적 변수로 변환함으로써 해석 가능성을 크게 높인다. 마지막으로 Counseling Response Generation Agent (CRGA) 가 M 과 케이스 컨텍스트 c 를 조건으로 응답 y 를 샘플링한다. 여기서 중요한 점은 응답 생성만을 강화학습으로 미세조정한다는 점이다. 정책 πθ는 GRPO(Group Relative Policy Optimization) 로 최적화되며, 보상은 Emotion Attunement Score (EAS) 로 정의된다. EAS는 시각·음성·텍스트 각각에서 추출한 감정 분포와 응답 감정 분포 사이의 Jensen‑Shannon 거리의 역수를 이용해 감정 일치도를 정량화한다. 이 방식은 단일 라벨 기반 보상보다 감정 불확실성을 보존하면서 부드러운 학습 신호를 제공한다. 실험에서는 멀티모달 상담 벤치마크에 대해 다양한 상용·오픈소스 LLM을 적용했으며, DELTA 적용 시 Counseling Quality (CQ) 와 Emotion Attunement (EA) 점수가 모두 유의미하게 상승했다. Ablation 결과는 (1) 멀티모달 근거 추출을 제거하면 성능 급락, (2) MSSA 없이 직접 텍스트 기반 응답을 생성하면 감정 일치도가 감소함을 보여, 각 모듈이 상호 보완적으로 작동함을 입증한다. 또한 정성 분석을 통해 DELTA가 생성한 응답이 더 풍부한 공감 표현과 구체적인 감정 이해를 담고 있음을 확인하였다. 전체적으로 이 논문은 멀티모달 증거 기반 추론과 구조화된 정신 상태 모델링을 강화학습과 결합함으로써, 인간 상담사의 인지·정서적 프로세스를 기계적으로 재현하는 새로운 패러다임을 제시한다.

다중모달 심리상담을 위한 DELTA 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기