다국어 연속 백채널 예측과 언어별 타이밍 차이 연구
초록
본 논문은 일본어, 영어, 중국어 3개 언어의 대화 데이터를 활용해 프레임 수준의 연속 백채널 예측 모델을 제안한다. Transformer 기반의 다국어 모델은 약 300시간의 dyadic 대화를 이용해 보조 과제와 함께 공동 학습되며, 단일 언어 모델 대비 동등하거나 우수한 성능을 보인다. 언어별 특성 분석에서는 일본어가 짧은 발화 중에 백채널을 많이 사용하고, 영어·중국어는 침묵 길이와 억양 변화에 더 민감함을 확인했다. 또한 다국어 학습이 공통 표현을 형성하면서도 언어별 차이를 적절히 반영한다는 점을 실험적으로 입증하였다.
상세 분석
이 연구는 백채널 타이밍 예측을 프레임 단위(100 ms) 연속 모델링으로 접근한다는 점에서 기존의 발화 수준 예측과 차별화된다. 모델 아키텍처는 두 화자의 wavform을 각각 CPC 인코더로 500 ms 단위 특징으로 변환한 뒤, 화자별 Transformer와 교차‑Attention Transformer를 통해 상호작용 정보를 융합한다. 최종 출력은 네 개의 선형 헤드(VAD, VAP, BD, BP)로 구성되며, 특히 BP(Backchannel Prediction) 과제는 목표 백채널 발생을 0.5 s 앞서 예측하도록 설계돼 라벨 불균형을 완화한다. 손실 함수는 α₁=α₂=1, α₃=α₄=5 로 설정해 백채널 관련 과제에 가중치를 부여한다.
실험에서는 각 언어별 80 %를 학습, 10 %를 검증·테스트로 사용했으며, 다국어 모델은 세 언어를 합친 데이터로 학습했다. 결과는 F1 점수 기준으로 일본어 33.69, 영어 23.96, 중국어 22.65 로, 모든 언어에서 다국어 모델이 단일 언어 모델을 능가하거나 동등함을 보여준다. 이는 모델이 언어 보편적인 청취 신호(예: 말하기 활동, 침묵 구간)와 동시에 언어 특화된 타이밍 패턴을 학습했음을 의미한다.
Zero‑shot 실험에서 두 언어만 학습한 모델은 세 번째 언어에 대해 현저히 낮은 성능을 보였으며, 이는 일본어·영어·중국어 간 백채널 타이밍이 구조적으로 다름을 시사한다. 보조 과제의 기여도를 평가한 소거 실험에서는 다국어 모델에서 VAP 손실을 제거했을 때 성능이 가장 크게 감소했으며, 이는 턴‑테이킹 정보가 백채널 타이밍 예측에 핵심적인 역할을 함을 확인한다. 반면 VAD 손실을 제거하면 약간의 성능 향상이 나타났는데, 이는 말하기 활동 자체가 백채널 발생과 직접적인 상관관계가 약할 수 있음을 암시한다.
또한, 입력 신호에 대한 교란 실험으로 피치 평탄화, 강도 평탄화, 침묵 제거, 켑스트럴 리프팅 등을 적용했을 때 언어별 민감도가 다르게 나타났다. 일본어는 피치 변동에 비교적 둔감했지만, 강도와 침묵 제거에 큰 영향을 받아 단기 언어적 단서에 의존함을 보여준다. 반면 영어와 중국어는 피치와 침묵 길이에 더 민감했으며, 특히 중국어는 침묵 길이와 억양 변동에 크게 의존한다는 점이 드러났다. 다국어 모델은 이러한 차이를 완화시켜, 피치 의존도를 낮추고 보다 균형 잡힌 특성 활용을 가능하게 한다.
마지막으로, 모델을 실시간 CPU 전용 소프트웨어에 통합해 지연시간이 수십 밀리초 수준임을 입증했으며, 이는 실제 대화 시스템에 적용 가능한 실용성을 강조한다. 전체적으로 이 논문은 다국어 연속 백채널 예측 모델이 언어 보편적 신호와 언어 특화된 타이밍을 동시에 학습할 수 있음을 실증하고, 문화·언어별 대화 설계에 중요한 인사이트를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기