계층적 교차모달 융합으로 AI 더빙 품질을 인간 인식과 맞추다

본 논문은 AI가 자동으로 생성한 더빙 콘텐츠의 품질을 인간이 부여하는 평균 의견 점수(MOS)와 일치시키는 자동 평가 시스템을 제안한다. 기존 연구는 음성 자연스러움, 청취 가능성, 시청각 동기화 등 단일 차원에 초점을 맞추었지만, 실제 인간 청취자는 화자 일관성, 감정 정합성, 의미 일관성, 시간 정렬 등 여러 요소를 동시에 고려한다. 이러한 복합적인 인식을 모델링하기 위해 저자들은 오디오, 비디오, 텍스트 세 가지 모달리티를 계층적으로 융합하는 구조를 설계하였다. 오디오 측면에서는 wav2vec 2.0을 이용해 음성 내용과 억양을, ECAPA‑TDNN을 통해 화자 특성을, Emo2Vec을 통해 감정 표현을 추출한다. 비디오 측면에서는 TimeSformer가 장면 전체의 시공간적 흐름을 포착하고, FER 모델이 얼굴 표정을 512 차원 감정 벡터로 변환한다. 텍스트는 Sentence‑BERT를 사용해 문장 수준 의미 임베딩을 만든다. 각 사전학습 인코더에 LoRA 어댑터(r=16)를 삽입해 파라미터 수를 최소화하면서도 도메인 특화 적응을 가능하게 했다. 먼저 intra‑modal fusion 단계에서 각 모달리티 내부의 프레임별 중요도를 어텐션 기반 게이팅으로 가중합해 단일 모달리티 벡터(z)를 만든다. 이어 inter‑modal fusion 단계에서는 모달리티별 신뢰도를 추정하는 게이트(g)를 적용해 교차 모달리티 상호작용을 조절한다. 이렇게 가공된 벡터들을 3‑layer, 4‑head Transformer Encoder에 입력해 종합 표현(H)을 얻고, 회귀 헤드가 최종 DubScore를 예측한다. 라벨 부족 문제를 해결하기 위해 저자들은 5가지 객관적 지표(PEAVS, EmoSync, LogF0RMSE, UTMOS, SpeechBERT Score)를 가중합한 Proxy MOS를 정의하고, 활성학습을 통해 가중치 w_i 를 인간 MOS와의 피어슨 상관을 최대화하도록 학습한다. 초기 33 % 라벨을 사용해 가중치를 추정하고, 불확실도가 높은 샘플을 단계적으로 추가해 100 %까지 확장한다. 이 과정은 라벨 효율성을 크게 높이며, 최종 모델이 인간 MOS와 높은 일치성을 보이게 한다. 실험은 MELD와 M2H2 두 공개 데이터셋을 활용해 12 k 더빙 클립(히디어→영어, 영어→히디어)을 생성하고, 30명의 평가자를 통해 1 350개의 MOS를 수집했다. 인간 라벨의 신뢰성은 Cronbach’s α = 0.82, ICC1 = 0.69, ICC2 = 0.59 로 양호했다. 모달리티별 성능을 비교한 결과, 오디오 단독이 가장 높은 PCC(0.68)를 보였으며, 오디오‑텍스트 결합이 0.73, 전모달 결합이 0.76으로 최고 성능을 기록했다. 활성학습 기반 Proxy MOS는 무작위 샘플링 대비 PCC 0.82 vs 0.76, SRCC 0.81 vs 0.74 등 통계적으로 유의미한 개선을 보였다. 최종 모델은 인간 MOS와 PCC = 0.76, SRCC = 0.77, MSE = 2.70을 달성해 기존 객관적 지표들의 낮은 상관계수(≤0.4)와 확연히 차별화된다. 결론적으로 이 논문은 (1) 계층적 교차모달 융합 설계, (2) LoRA 기반 파라미터 효율적 적응, (3) 활성학습을 활용한 약한 지도 학습이라는 세 축을 결합해 AI 더빙 품질을 인간 인식 수준으로 끌어올리는 실용적 프레임워크를 제시한다. 향후 다국어·다문화 더빙, 실시간 스트리밍 평가 등으로 확장 가능성이 크다.

계층적 교차모달 융합으로 AI 더빙 품질을 인간 인식과 맞추다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기