영어 부정문 번역 정확도 향상을 위한 새로운 EKMT 알고리즘
초록
본 논문은 영어‑한국어 기계번역에서 부정문 처리의 한계를 분석하고, 영문 부정구조와 한글 부정표현의 차이를 비교한 뒤, 규칙 기반과 통계적 요소를 결합한 새로운 번역 알고리즘을 제안한다. 제안 알고리즘은 부정어 위치, 조동사·동사 형태, 이중 부정 등을 정밀히 파악해 적절한 한국어 부정 어미와 부정 부사를 선택한다. 실험 결과, 기존 시스템 대비 번역 정확도가 크게 향상되었으며, 특히 복합 부정문과 부정 강조 표현에서 눈에 띄는 개선을 보였다.
상세 분석
영어와 한국어는 부정을 표현하는 방식에서 근본적인 구조적 차이를 가진다. 영어는 ‘not’, ‘no’, ‘never’, ‘none’ 등 다양한 부정어와 조동사(‘do‑not’, ‘cannot’)를 이용해 동사 앞이나 문장 전체에 부정을 삽입한다. 반면 한국어는 동사·형용사 어미에 ‘‑지 않다’, ‘‑지 못하다’, ‘‑없다’ 등을 붙이거나 부정 부사 ‘전혀’, ‘절대’를 앞에 두어 의미를 전달한다. 이러한 차이는 기계번역 시스템이 단순히 어휘 치환만으로는 부정 의미를 보존하기 어렵게 만든다. 기존 EKMT 엔진은 부정어를 표면적으로 매핑하거나, 부정 어미를 무시하는 경우가 많아 의미 왜곡이나 어색한 번역이 빈번했다.
논문은 먼저 대규모 병렬 코퍼스를 통해 영문 부정문 패턴을 12가지 주요 유형(단일 부정어, 조동사 부정, 이중 부정, 부정 강조, 부정 대명사 등)으로 분류하고, 각 유형에 대응하는 한국어 부정 표현을 정리하였다. 특히 ‘hardly’, ‘scarcely’, ‘barely’와 같은 약한 부정은 ‘거의 … 않다’ 형태로, ‘never’는 ‘절대 … 않다’로 매핑하는 등 의미 강도를 고려한 매핑 규칙을 도출했다.
제안된 알고리즘은 세 단계로 구성된다. 1) 부정 구조 인식: 형태소 분석과 의존 구문 분석을 결합해 부정어와 조동사의 위치, 범위를 정확히 파악한다. 2) 의미 강도 평가: 부정어의 어휘적 강도와 주변 어휘(‘almost’, ‘just’)를 정량화해 한국어 부정 어미·부사의 선택 기준을 만든다. 3) 전환 규칙 적용: 앞서 정의한 12가지 매핑 규칙과 강도 평가 결과를 기반으로 적절한 부정 어미(‘‑지 않다’, ‘‑지 못하다’, ‘‑없다’)와 부사를 삽입한다. 이 과정에서 이중 부정은 ‘‑지 않다’를 중첩하거나 ‘전혀 … 않다’로 변환해 의미 손실을 방지한다.
알고리즘 구현 시, 기존 통계적 번역 모델(N‑gram, phrase‑based)과의 하이브리드 방식을 채택해 부정 구조가 감지되지 않은 경우에도 기본 번역 흐름을 유지하도록 설계했다. 또한, 부정어가 문맥에 따라 긍정으로 전환되는 ‘no doubt’·‘not only… but also’와 같은 관용구는 별도 예외 규칙을 두어 정확히 번역한다.
평가에서는 기존 상용 EKMT 시스템과 비교해 500개의 다양한 부정문(단일, 복합, 강조, 이중 부정) 샘플에 대해 BLEU 점수와 인간 평가 점수를 측정했다. BLEU 점수는 평균 2.8포인트 상승했으며, 인간 평가에서는 의미 정확도와 자연스러움 모두 15% 이상 개선되었다. 특히 복합 부정문에서 오류율이 40%에서 8%로 크게 감소했다. 이러한 결과는 부정 구조를 정밀히 분석하고 의미 강도를 반영한 전환 규칙이 번역 품질 향상에 결정적임을 입증한다.