통계 기반 구어 번역 성능 향상을 위한 ASR 결과 역정규화와 문장 경계 탐지
초록
**
본 연구는 폴란드어 자동음성인식(ASR) 결과에 대해 역정규화와 자동 문장 구분을 적용함으로써 통계적 구어 번역(SLT) 시스템의 품질을 개선하는 방법을 제시한다. 역정규화는 숫자·날짜·약어 등을 원형 텍스트로 복원하고, 문장 경계 탐지는 연속된 인식 결과를 의미 있는 문장 단위로 나눈다. 실험 결과, BLEU 점수가 평균 2.3 %p 상승했으며, 특히 구두체 특유의 구두점 부재와 형태소 변형이 많은 폴란드어에서 큰 효과를 보였다.
**
상세 분석
**
본 논문은 구어 번역 파이프라인에서 가장 취약한 두 단계, 즉 자동음성인식(ASR) 결과의 텍스트 정규화와 문장 경계 인식에 초점을 맞추었다. 폴란드어는 풍부한 굴절 형태와 자유 어순을 갖는 언어로, ASR 시스템이 출력하는 원시 텍스트는 대개 구두점이 없고, 숫자·날짜·약어가 기계식 표기로 변환된 상태이다. 이러한 비정형 텍스트를 그대로 기계 번역(MT) 엔진에 투입하면 어휘 매핑 오류와 구문 구조 파악 실패가 빈번히 발생한다.
역정규화(De‑Normalization)
저자들은 먼저 ‘역정규화’ 모듈을 설계하였다. 이 모듈은 사전 기반 패턴 매칭과 규칙 기반 변환을 결합해, ‘12/05/2021’, ‘3,5 ml’, ‘dr.’와 같은 표기를 각각 ‘2021년 5월 12일’, ‘3.5밀리리터’, ‘의사’ 등 자연어 형태로 복원한다. 특히 폴란드어에서는 숫자와 명사의 성·격 일치가 중요하기에, 복원 과정에서 성·격 정보를 추론해 적절한 형태소를 선택한다. 이를 위해 대규모 형태소 사전을 활용하고, 문맥 기반 확률 모델을 도입해 다의어를 disambiguate한다.
문장 경계 탐지(Sentence Segmentation)
두 번째 핵심은 연속된 ASR 출력 스트림을 의미 있는 문장 단위로 나누는 자동 문장 경계 탐지이다. 기존 연구는 주로 음성 신호의 침묵 구간이나 단어 확률 변화를 이용했지만, 폴란드어는 침묵이 짧고, 구두점이 거의 없기 때문에 정확도가 떨어졌다. 저자들은 언어 모델 기반 접근을 채택하였다. 구체적으로, 5‑gram 언어 모델과 신경망 기반 전이 확률을 결합해 ‘문장 종료 가능성’ 점수를 계산하고, 임계값을 동적으로 조정한다. 또한, 역정규화 단계에서 복원된 날짜·시간·숫자 토큰을 문장 경계 후보로 활용해 정확도를 보강한다.
실험 설계와 결과
실험은 폴란드어 뉴스 인터뷰와 일상 대화 두 코퍼스를 사용했다. 각 코퍼스는 원본 텍스트(인간이 작성한 문장 구분 포함)와 ASR 출력(음성 인식 오류 포함)으로 구성된다. 실험군은 (1) 원시 ASR 텍스트, (2) 역정규화만 적용, (3) 문장 경계 탐지만 적용, (4) 두 기법을 모두 적용한 조합으로 나뉘었다. 번역 품질 평가는 BLEU와 TER 지표로 측정했으며, 인간 평가자 5명에게 가독성 점수를 부여받았다.
결과는 다음과 같다. 역정규화만 적용했을 때 BLEU가 평균 1.4 %p 상승했으며, 문장 경계 탐지만 적용했을 때는 1.1 %p 상승했다. 두 기법을 동시에 적용한 경우에는 2.3 %p 상승을 기록했고, TER 감소와 인간 가독성 점수에서도 유의미한 개선이 관찰되었다. 특히, 숫자·날짜가 많이 포함된 문장에서 역정규화의 효과가 두드러졌으며, 긴 대화 구간에서는 문장 경계 탐지가 번역 흐름을 크게 정돈시켰다.
오류 분석 및 한계
오류 분석 결과, 여전히 남아 있는 문제는 (1) ASR 인식 오류가 심한 경우 역정규화 규칙이 잘못 적용되는 현상, (2) 복합 명사와 관형어가 길어질 때 형태소 일치가 실패하는 경우이다. 또한, 현재 규칙 기반 역정규화는 새로운 도메인(예: 의료, 법률)에서는 사전 확장이 필요하다. 문장 경계 탐지는 언어 모델의 품질에 크게 의존하므로, 더 큰 규모의 코퍼스와 최신 Transformer 기반 모델을 도입하면 성능이 더욱 향상될 가능성이 있다.
의의와 향후 연구
본 연구는 구어 번역 시스템에서 흔히 간과되는 전처리 단계가 전체 파이프라인 성능에 미치는 영향을 실증적으로 보여준다. 특히, 폴란드어와 같이 형태소가 복잡하고 구두점이 부족한 언어에서 역정규화와 문장 경계 탐지는 필수적인 전처리 단계임을 입증하였다. 향후 연구에서는 (1) 다언어 확장을 통해 영어·독일어·스페인어 등 다른 언어에서도 동일한 프레임워크를 적용, (2) 신경망 기반 end‑to‑end 역정규화 모델을 개발해 규칙 의존성을 최소화, (3) 실시간 스트리밍 환경에서의 지연 시간 최소화를 위한 경량화 모델 설계 등을 목표로 할 수 있다.
결론
역정규화와 자동 문장 경계 탐지를 결합한 전처리 파이프라인은 폴란드어 구어 번역의 품질을 현저히 개선한다. 이는 통계적 기계 번역뿐 아니라 최신 신경망 기반 번역 모델에도 적용 가능하며, 구어 데이터가 풍부한 실제 서비스 환경에서 실용적인 성능 향상을 기대할 수 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기