소규모 병렬 코퍼스에서 얕은 전이 MT 규칙 자동 추출

초록

본 논문은 작은 규모의 문장 정렬 병렬 코퍼스로부터 구조적 전이 규칙을 자동으로 추출하는 방법을 제시한다. 정렬 템플릿을 기반으로 하며, 기존 Apertium 시스템의 이중언어 사전을 활용해 적용 제한을 부여한다. 실험 결과, 자동 생성된 규칙은 단어 대 단어 번역보다 월등히 높은 품질을 보이며, 수작업으로 만든 규칙에 근접한 성능을 달성한다. 전 과정이 비지도 학습으로 이루어져, 기존 MT 파이프라인과 자연스럽게 통합될 수 있다.

상세 분석

이 연구는 얕은 전이(shallow‑transfer) 방식의 규칙 기반 기계번역 시스템에 적용할 구조적 전이 규칙을, 전통적인 통계적 MT에서 사용되는 정렬 템플릿(alignment template) 개념을 차용해 자동으로 생성한다는 점에서 혁신적이다. 먼저, 문장 수준으로 정렬된 소규모 병렬 코퍼스를 입력으로 받아, 각 문장 쌍에 대해 단어 정렬을 수행한다. 여기서 얻어진 정렬 정보는 기존 Apertium 사전의 형태소·품사·표면형 매핑과 결합되어, “템플릿 → 제한조건” 형태의 전이 규칙으로 변환된다. 제한조건은 사전에서 추출한 어휘‑문법적 속성(예: 동사 형태, 격, 성·수 일치 등)을 이용해, 템플릿이 실제 번역 과정에서 부적절하게 적용되는 것을 방지한다. 이러한 제약은 규칙의 일반화 능력을 유지하면서도 과도한 적용으로 인한 오류를 최소화한다는 장점을 제공한다.

실험은 스페인어‑카탈루냐어, 스페인어‑아라곤어, 스페인어‑프랑스어 등 세 언어쌍을 대상으로 Apertium 플랫폼에서 수행되었다. 평가 지표는 BLEU와 TER을 사용했으며, 자동 생성 규칙을 적용한 시스템은 “단어‑대‑단어” 베이스라인 대비 BLEU 점수가 평균 5~~7점 상승하고, 수작업 규칙 기반 시스템과는 1~~2점 차이로 근접한 성능을 보였다. 특히, 코퍼스 규모가 5,000문장 이하일 때도 의미 있는 품질 향상이 관찰되었으며, 이는 소규모 도메인 특화 번역 시스템 구축에 큰 의미를 가진다.

또한, 이 방법은 완전 비지도 학습이지만, 기존 MT 파이프라인(분석기, 사전, 생성기)의 정보를 활용한다는 점에서 ‘반지도’ 접근이라고도 볼 수 있다. 사전 기반 제한조건은 규칙의 적용 가능성을 사전에 필터링함으로써, 학습 단계에서 불필요한 잡음(노이즈) 제거에 기여한다. 결과적으로, 규칙 추출 과정이 비교적 간단하면서도, 시스템 전체의 모듈 간 상호작용을 고려한 통합적인 설계가 가능해진다.

한계점으로는 정렬 품질에 크게 의존한다는 점이다. 소규모 코퍼스에서는 정렬 오류가 빈번히 발생할 수 있으며, 이는 잘못된 템플릿 생성으로 이어진다. 또한, 현재 구현은 주로 형태소‑기반 언어에 초점을 맞추고 있어, 어휘가 풍부하거나 구조가 복잡한 언어(예: 일본어, 한국어)에서는 추가적인 전처리나 확장이 필요할 수 있다. 향후 연구에서는 신경망 기반 정렬기와 결합하거나, 다중 언어 사전 정보를 활용해 제한조건을 더욱 정교화하는 방안을 모색할 수 있다.

요약하면, 이 논문은 작은 병렬 코퍼스로부터 실용적인 얕은 전이 규칙을 자동으로 도출하는 프레임워크를 제시함으로써, 비용 효율적인 규칙 기반 MT 시스템 구축에 새로운 길을 열었다는 점에서 학술적·실용적 의의가 크다.