다중 도메인 대화 품질 평가를 위한 사용자 만족도 추정

**1. 연구 배경 및 문제 정의** 대화형 인공지능(Spoken Dialogue System, SDS)의 품질을 객관적으로 측정하는 것은 정책 최적화와 강화학습에 필수적이다. 기존에는 (1) 희소한 감정 신호 활용, (2) 작업 성공 여부 기반 평가, (3) 명시적 사용자 피드백 수집, (4) PARADISE와 같은 설문 기반 만족도 예측, (5) Interaction Quality(IQ) 라벨링 등 다섯 가지 접근법이 사용되었다. 그러나 이들 방법은 다중 도메인 대화, 중간 턴의 불만 감지, 라벨링 비용·인간 인지 부하 등에서 한계를 보였다. 특히 IQ는 이전 턴의 점수를 누적해 평가해야 하므로 라벨러의 작업 부담이 크고, 다중 도메인 대화에 일반화하기 어렵다. **2. 새로운 라벨링 스키마 – Response Quality (RQ)** RQ는 1‑5 점의 연속형 척도로, 라벨러가 현재 턴의 시스템 응답만을 평가하도록 설계되었다. 라벨러는 전체 대화 맥락을 참고하되, 이전 턴의 점수를 기억할 필요가 없으며, 사용자 재표현·불만 표현 등을 반영한다. 라벨링 실험에서 3명의 라벨러가 제공한 RQ 점수는 스피어만 ρ=0.94의 높은 상호주관적 일치를 보였으며, 실제 사용자 만족도와의 상관계수는 0.76으로 IQ(0.32)보다 현저히 우수했다. **3. 데이터 구성** - Turn‑level: 30,500 턴, 26개 도메인(90% 싱글턴, 10% 멀티턴)에서 무작위 추출. - 신규 테스트: 200 턴, 이전에 보지 못한 멀티턴 도메인. - Dialogue‑level: 1,042 대화, 10명 사용자(신규·경험자)로부터 1‑5 점 만족도 수집. **4. 도메인‑독립 특성 5가지** 1) **사용자 요청 패러프레이징 지표** – 연속 사용자 발화 간 의미·구문 유사도(문장 임베딩·NLU 인텐트 비교) 측정. 2) **요청‑응답 응집도** – 사용자 요청과 시스템 응답 간 Jaccard 유사도 계산, 정확한 응답일수록 점수 상승. 3) **전체 토픽 인기 집계** – 전체 사용자 베이스에서 도메인·인텐트 사용 빈도와 비율을 사전 확률로 활용. 4) **비실행 가능 요청 지표** – 시스템 응답에 포함된 사과·부정 구문(“sorry”, “don’t know”) 탐지. 5) **세션 내 토픽 다양성** – 현재 턴까지 등장한 고유 인텐트 비율, 대화가 얼마나 다양한 주제를 다루는지 평가. 이와 기존 SLU 기반 특성(ASR confidence, intent, slot 등)을 결합해 총 30여 개 피처를 구성하였다. **5. 모델링 및 실험 설계** - **Turn‑level**: 회귀 모델 6종(LASSO, Decision Tree, Random Forest, Gradient Boosting, MLP, SVR) 사용. 데이터는 60% 학습, 20% 검증, 20% 테스트(신규 도메인만 테스트에 포함). - **Dialogue‑level**: 동일 4개의 해석 가능한 회귀 모델 사용, 9‑fold 교차 검증 후 10% 테스트. - **평가 지표**: Pearson r (연속 점수 상관), 이진 정확도(점수≥3 vs <3). **6. 주요 결과** - **Turn‑level**: Gradient Boosting이 가장 높은 Pearson r≈0.79(26개 도메인)와 r≈0.67(신규 도메인)을 기록, 기존 IQ 기반 모델 대비 10% 이상 개선. - **Dialogue‑level**: turn‑level 예측값을 추가 피처로 사용했을 때 이진 정확도가 68%→79%로 16% 상대 향상. - **특성 중요도**: Gradient Boosting에서 ‘요청‑응답 응집도’와 ‘비실행 가능 요청 지표’가 상위 2위, 다음으로 ‘패러프레이징 지표’와 ‘토픽 인기’가 뒤를 이었다. - **Ablation**: 각 특성을 제거했을 때 r 감소폭이 가장 큰 것은 응집도(−0.06)와 비실행 가능 지표(−0.05)였으며, 이는 시스템이 정확히 이해·실행했는지를 판단하는 것이 핵심임을 시사한다. **7. 논의 및 한계** - 라벨링 비용은 여전히 인간 어노테이터에 의존하지만, RQ는 라벨러 수와 경험에 크게 민감하지 않아 비용 효율성이 높다. - 신규 도메인 테스트가 200턴 수준으로 제한적이며, 실제 서비스 환경에서의 장기적 안정성 검증이 필요하다. - 현재 특성은 텍스트·통계 기반이며, 음성 톤, 사용자 감정, 비언어적 신호는 포함되지 않았다. 향후 멀티모달 특성 통합이 기대된다. - 모델은 회귀 기반이므로 실시간 추론이 가능하지만, 대규모 실시간 서비스에 적용하려면 경량화가 필요할 수 있다. **8. 결론** 본 연구는 다중 도메인 대화에서 사용자 만족도를 정확히 추정할 수 있는 새로운 라벨링 스키마와 도메인‑독립 특성 집합을 제시한다. Gradient Boosting 기반 모델이 turn‑level에서 높은 상관성을 보였으며, 이 예측값을 활용해 dialogue‑level 만족도 이진 분류 정확도를 16% 향상시켰다. 라벨링 효율성, 특성 설계, 모델 성능 측면에서 기존 IQ 및 PARADISE 기반 접근법을 크게 능가하며, 실시간 대화 품질 모니터링 및 정책 최적화에 실용적인 도구로 활용될 수 있다.

다중 도메인 대화 품질 평가를 위한 사용자 만족도 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기