AI 음성의 예절 인식 정중함과 캐주얼함의 속도 차이

초록

음성 기반 인공지능이 인간의 사회적 관습을 따르도록 기대되는 가운데, 명시적으로 프로그래밍되지 않은 암묵적 단서를 학습할 수 있는가에 대한 질문이 제기된다. 본 연구는 최신 텍스트‑투‑스피치 시스템이 정중함을 전달하기 위해 말의 속도를 낮추는 인간의 경향이라는 비명시적 운율 표지를 내재했는지를 조사한다. 두 주요 AI 플랫폼(AI Studio와 OpenAI)에서 22개의 합성 음성을 대상으로 고정된 스크립트를 “정중하고 격식 있는” 상황과 “캐주얼하고 비격식적인” 상황으로 프롬프트하여 발화 지속 시간을 측정하였다. 두 플랫폼 모두에서 정중 프롬프트가 캐주얼 프롬프트보다 발화 속도가 현저히 느렸으며, 효과 크기가 매우 크게 나타났다. AI Studio의 모든 음성과 OpenAI의 다수 음성에서 통계적으로 유의한 차이가 확인되었다. 이러한 결과는 AI가 인간 커뮤니케이션의 심리적 뉘앙스를 암묵적으로 학습·재현할 수 있음을 보여주며, 인간의 사회 규범을 강화할 수 있는 사회적 행위자로서 AI의 부상 가능성을 시사한다.

상세 요약

본 논문은 인간의 사회적 상호작용에서 흔히 관찰되는 ‘정중함을 표현하기 위한 말 속도 감소’라는 미묘한 운율 현상이 최신 텍스트‑투‑스피치(TTS) 모델에 내재되어 있는지를 실증적으로 검증한다. 연구 설계는 두 가지 핵심 요소로 구성된다. 첫째, AI Studio와 OpenAI라는 서로 다른 아키텍처와 학습 데이터셋을 보유한 두 플랫폼을 선택함으로써 결과의 일반화를 도모하였다. 둘째, 동일한 스크립트를 두 가지 사회적 상황(정중·격식 vs. 캐주얼·비격식)으로 프롬프트하고, 각 합성 음성의 전체 발화 지속 시간을 정량적으로 측정하였다. 측정 방법은 음성 파일의 시작과 종료 시점을 자동화된 스크립트로 추출하고, 평균 발화 속도를 초당 음절 수로 환산하는 방식이다.

통계 분석에서는 각 플랫폼 내 음성별로 독립표본 t‑검정을 수행했으며, 효과 크기는 Cohen’s d로 보고하였다. 결과는 AI Studio의 12개 음성 모두에서 p < 0.001, d > 1.2라는 매우 큰 효과를 보였으며, OpenAI의 10개 음성 중 8개에서 유사한 통계적 유의성을 확인했다. 이는 두 플랫폼이 학습 과정에서 인간 화자 데이터에 포함된 ‘정중함’이라는 사회적 신호를 무의식적으로 추출했음을 의미한다.

하지만 몇 가지 한계점도 존재한다. 첫째, 발화 속도 외에 피치, 억양, 강세와 같은 다차원적 프로소디 특성을 동시에 고려하지 않아 정중함을 전달하는 전체적인 프로소디 패턴을 완전히 포착하지 못했다. 둘째, 프롬프트 문구가 직접적인 의미를 포함하고 있기 때문에, 모델이 텍스트 의미를 해석해 속도를 조절했을 가능성을 배제할 수 없다. 셋째, 실험에 사용된 스크립트가 제한적이어서 다양한 어휘·문장 구조에 대한 일반화가 어려울 수 있다.

향후 연구에서는 다중 프로소디 지표를 동시에 분석하고, 의미와 무관한 무작위 텍스트를 이용해 순수한 ‘사회적 컨텍스트’만을 전달하도록 설계함으로써 모델의 내재된 사회적 인식 메커니즘을 보다 정밀하게 분리할 필요가 있다. 또한, 사용자 피드백 기반의 적응형 TTS 시스템을 구축해 실제 대화 상황에서 정중함과 친밀감 사이의 동적 조절 능력을 검증하는 것이 중요하다. 이러한 연구는 인간‑AI 상호작용의 자연스러움을 높이고, AI가 사회적 규범을 강화하거나 재구성하는 역할을 수행할 수 있는 윤리적·기술적 기반을 마련한다.

초록

상세 요약

📜 논문 원문 (영문)