헤르메스 다중모달 자막 번역을 위한 통합 표현 강화 프레임워크
초록
본 논문은 영상 매체의 자막을 목표 언어로 번역하는 인터링구얼 서브타이틀링을 LLM 기반으로 해결하고자 한다. 화자 다이어리제이션, 용어 식별, 표현 강화라는 세 가지 모듈을 결합한 ‘헤르메스(Hermes)’ 시스템을 제안하며, 시각·음성 멀티모달 정보를 활용해 화자 구분과 용어 일관성을 확보하고, SAPO 기법과 LLM‑as‑Judge를 통해 번역의 자연스러움·생동감을 높인다. 실험 결과, 화자 다이어리제이션에서 최첨단 성능을 기록하고, 전체 번역에서는 의미 일관성과 표현 풍부성 모두에서 기존 방법을 크게 앞선다.
상세 분석
헤르메스는 인터링구얼 서브타이틀링을 “멀티모달 기계 번역”으로 정의하고, 기존 MT가 직면한 네 가지 핵심 문제—문맥 일관성, 대명사 변환, 전문 용어 정확도, 번역 표현성—를 구조적으로 해결한다. 첫 번째 모듈인 화자 다이어리제이션은 TalkNet 기반 얼굴 검출과 CurricularFace 임베딩을 이용해 시각적 화자 클러스터를 만든 뒤, ERes2NetV2로 추출한 음성 timbre 임베딩을 보조 클러스터링한다. 시각 클러스터를 기준으로 화자를 등록하고, 음성 클러스터와의 투표를 통해 각 화자에 대한 대표 timbre 프로파일을 생성한다. 시각 정보가 누락된 구간은 인접 라인 간 코사인 유사도를 활용해 그룹 경계를 찾고, 임계값 기반으로 새로운 화자를 보충한다. 이 과정은 화자 수가 사전에 알려지지 않은 상황에서도 자동으로 화자를 식별하고, 대명사 번역 시 정확한 화자 정보를 제공한다.
두 번째 모듈인 용어 식별은 대규모 LLM(Qwen‑Max)을 one‑shot 프롬프트로 활용해 이중 언어 라인에서 고유명사·전문 용어를 추출하고, 유형과 번역 후보를 생성한다. 원시 후보에 대해 필터링·투표를 수행해 일관된 용어‑번역 쌍을 만든 뒤, Trie 구조를 이용해 원문에 등장하는 용어만을 빠르게 검색한다. 이렇게 구축된 용어 데이터셋을 기반으로 Qwen2.5‑14B 모델을 미세조정함으로써, 추론 단계에서 단일 언어 자막만 주어져도 정확한 용어 번역을 제공한다.
세 번째 모듈인 표현 강화는 “Segment‑wise Adaptive Preference Optimization”(SAPO)이라는 새로운 샘플링‑평가 루프를 도입한다. 각 번역 세그먼트를 여러 후보로 생성하고, 사전 학습된 LLM‑as‑Judge가 자연스러움·생동감·정확성이라는 세 축을 점수화한다. 점수가 높은 후보를 선택하고, 선택된 후보를 다시 프롬프트에 추가해 순차적으로 최적화한다. 이 방식은 기존의 단일 목표(예: BLEU) 최적화와 달리, 인간 번역가가 추구하는 “표현성”을 정량적으로 반영한다.
실험에서는 Youku 플랫폼에서 수집한 다언어 자막 코퍼스를 공개하고, 화자 다이어리제이션에서 DER(다이어리제이션 오류율) 7.3%를 달성해 기존 최고 기록을 앞섰다. 번역 측면에서는 BLEU, METEOR, COMET뿐 아니라 LLM‑as‑Judge 기반의 표현성 점수에서도 모두 유의미하게 개선되었다. 특히, 용어 일관성 측정에서 92% 이상의 정확도를 기록, 전문 용어 번역에서 기존 MT 시스템보다 15% 이상 높은 일관성을 보였다.
전체적으로 헤르메스는 멀티모달 정보와 LLM의 강점을 결합해, 자막 번역이라는 특수 도메인에서 의미·형식·표현을 모두 만족시키는 통합 솔루션을 제시한다. 다만, 화자 검출에 사용되는 비디오 프레임 해상도와 음성 품질에 따라 성능 변동이 있을 수 있으며, SAPO의 후보 생성 비용이 높은 점은 추후 경량화가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기