다중화자 음성인식을 위한 DiCoW 기반 Whisper 통합 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Diarization‑Conditioned Whisper(DiCoW) 인코더와 Serialized Output Training(SOT)을 결합한 SA‑DiCoW 모델을 제안한다. 화자별 임베딩을 추출해 하나의 디코더에 연결함으로써 겹치는 발화를 동시에 디코딩하고, 화자 태그와 타임스탬프를 포함한 직렬 출력 스트림을 생성한다. 실험 결과 LibriMix·AMI·NOTSOFAR 등에서 기존 SOT 기반 방법과 DiCoW를 능가하는 cpWER 향상을 보였다.

상세 분석

이 연구는 현재 다중화자 자동음성인식(ASR) 분야에서 두 가지 주요 한계를 동시에 해결하고자 한다. 첫 번째는 화자 구분 정보를 활용한 목표화자(target‑speaker) 모델링이 일반적인 SOT 기반 모델에 비해 독립적으로 디코딩되기 때문에, 화자 간 상호작용을 반영하지 못한다는 점이다. 두 번째는 기존 DiCoW와 같은 목표화자 모델이 화자마다 별도의 디코더 호출을 필요로 하여 연산 효율성이 떨어진다. 저자들은 이러한 문제를 ‘인코더‑디코더 구조를 공유하되, 인코더 단계에서 화자별 임베딩을 생성하고 이를 하나의 통합 표현으로 결합’하는 방식으로 접근한다.

핵심 기술은 다음과 같다. (1) DiCoW 인코더에 STNO(침묵·목표·비목표·중첩) 마스크를 입력해 화자별 어텐션 변환(FDDT)을 수행한다. 이때 마스크는 오라클(정답) 다이어리제이션을 사용했지만, 설계상 자동 다이어리제이션의 soft‑probability도 그대로 수용한다. (2) 각 화자에 대해 별도 인코더 실행을 통해 얻은 ‘speaker‑channel’ 임베딩을 선형 변환(W_u, b_u)으로 화자 전역 정보를 주입한다. (3) 모든 화자 채널을 시간축 기준으로 단순히 concatenation(시간‑축 결합)하여 하나의 고차원 텐서 H̄을 만든다. 실험에서는 weighted sum, average, masked average와 비교했을 때, concatenation이 화자별 시간‑패턴을 보존해 cpWER를 64 %까지 감소시키는 최적 전략으로 확인되었다. (4) 디코더는 기존 Whisper 구조를 거의 그대로 유지하면서, 화자‑타임스탬프 토큰을 위한 별도 출력 헤드(o_spk, o_time)를 추가한다. 토큰 임베딩 단계에서 화자‑타임스탬프 토큰을 일반 타임스탬프 임베딩에 화자‑특정 선형 변환을 적용해 화자 정보를 암묵적으로 인코딩한다. (5) 학습은 두 단계로 진행한다. 초기 1 000 스텝에서는 새로 도입된 레이어만 학습해 빠르게 화자‑조건화 능력을 획득하고, 이후 전체 모델을 저학습률(2e‑6)로 미세조정한다. 또한, 화자 라벨 순서를 무작위로 섞는 ‘speaker‑order augmentation’으로 모델이 고정된 라벨에 의존하지 않도록 강제한다.

평가에서는 cpWER(Concatenated minimum‑Permutation WER)를 사용해 화자 인식·정렬 오류를 동시에 측정한다. Libri2Mix(2화자)에서는 3.9 % cpWER, Libri3Mix(3화자)에서는 5.0 % 수준으로 기존 SOT 기반 Whisper(≈6 %)보다 우수했다. 실제 회의 데이터인 NOTSOFAR(4‑8화자)에서는 21.0 % cpWER를 기록했으며, 이는 weighted sum(≈47 %) 대비 55 % 절감된 수치다. 흥미롭게도 DiCoW가 18.4 % cpWER로 가장 낮은 성능을 보였지만, 이는 화자마다 독립 디코딩을 수행해 ‘누락(omission)’ 오류가 적은 반면, SA‑DiCoW는 직렬 디코딩 특성상 ‘누출(leakage)’ 오류가 다소 늘어나는 경향을 보였다. 이를 완화하기 위해 화자‑타임스탬프 토큰에 5배 가중치를 부여한 cross‑entropy 손실을 적용했으며, 결과적으로 cpWER가 20.8 %까지 개선되었다.

전체적으로 이 논문은 ‘다중화자 상황에서 화자 정보를 인코더 단계에서 충분히 활용하고, 디코더는 하나만 사용해 직렬 출력으로 변환한다’는 새로운 패러다임을 제시한다. 설계가 Whisper와 높은 호환성을 유지하면서도 최소한의 파라미터 추가(≈0.1 B)로 구현 가능하다는 점은 실용성 측면에서도 큰 장점이다. 다만 현재 실험은 오라클 다이어리제이션에 의존하고 있어, 자동 다이어리제이션 품질에 따라 성능 변동이 클 수 있다는 한계가 남아 있다. 향후 연구에서는 실시간 다이어리제이션과의 연동, 그리고 대규모 다중채널(멀티‑mic) 환경 적용을 탐색할 필요가 있다.

다중화자 음성인식을 위한 DiCoW 기반 Whisper 통합 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기