대화 스타일을 실시간으로 맞추는 종단형 음성 대화 에이전트
초록
본 논문은 음성 인식·대화 생성·음성 합성·프로소디 분석을 결합한 종단형 대화 에이전트를 제안한다. 사용자의 말투·속도·음높이 등을 실시간으로 추정해 에이전트의 발화에 반영함으로써 ‘고려형(High Consideration)’·‘참여형(High Involvement)’ 스타일 매칭을 구현한다. 30명의 참가자를 대상으로 15~20분씩 대화시킨 결과, 고려형 사용자는 스타일 매칭 시 신뢰도가 유의히 상승했으며, 참여형 사용자는 큰 차이를 보이지 않았다. 연구는 스타일 매칭이 신뢰 형성에 미치는 영향을 조명하고, 설계 지침을 제시한다.
상세 분석
이 연구는 기존 대화형 AI가 주로 정보 전달에 초점을 맞추는 반면, 인간 대화의 ‘스타일(How)’을 고려한 설계가 필요하다는 가설에서 출발한다. 논문은 Tannen의 고려‑참여 축을 기반으로, 말의 속도, 멈춤, 피치·볼륨 변화를 정량화하는 네 가지 콘텐츠 변수와 두 가지 프로소디 변수(피치, 음량, 속도)를 실시간으로 추출한다. 음성 인식은 Bing Speech API, 파라미터 추출은 DSP 기반 피치·RMS 분석을 사용했으며, 대화 생성은 트위터 데이터로 학습된 신경망 언어 모델과 LUIS 기반 의도 인식기를 결합했다. 생성된 텍스트는 SSML 마크업을 통해 에이전트의 발화에 적용되며, 스타일 매칭 모듈은 사용자의 변수값과 사전 정의된 매핑 규칙에 따라 에이전트의 말투를 동적으로 조정한다.
시스템 구현은 PSI(Platform for Situated Interaction) 위에 구축되어 모듈 간 저지연 파이프라인을 확보했으며, 전체 응답 시간은 인간 대화와 유사한 수준을 유지한다. 사용자 실험에서는 30명의 성인 참가자를 두 그룹(스타일 매칭 vs. 비매칭)으로 나누어 8시간 이상의 대화 데이터를 수집했다. 설문 결과, 고려형 스타일을 가진 사용자는 매칭된 에이전트를 ‘더 신뢰한다’는 평균 점수가 비매칭 대비 1.2점(표준편차 0.4) 상승했으며, 통계적으로 유의미(p<0.05)했다. 반면 참여형 사용자는 두 조건 간 차이가 미미했고, 이는 스타일 매칭이 모든 사용자에게 동일하게 작용하지 않음을 시사한다.
핵심 인사이트는 다음과 같다. 첫째, 실시간 프로소디 조절이 가능한 엔드‑투‑엔드 파이프라인은 기술적으로 충분히 구현 가능하며, 대화 흐름에 큰 지연을 초래하지 않는다. 둘째, 스타일 매칭은 특히 ‘고려형’ 사용자에게 신뢰와 친밀감을 증진시키는 효과가 있다. 셋째, 스타일 매칭이 반드시 대화 효율성을 높이는 것은 아니며, 사용자의 개인적 스타일 선호에 따라 차별화된 설계가 필요하다. 마지막으로, 논문은 ‘스타일 매칭을 위한 변수 선택’, ‘프로소디 변환 범위 설정’, ‘대화 흐름 제어’를 포함한 5가지 설계 가이드라인을 제시해 향후 연구와 실제 제품에 적용 가능한 청사진을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기