구조 불변성 테스트로 기계 번역 견고성 검증
초록
본 논문은 “구조 불변성 테스트(SIT)”라는 메타모픽 테스트 기법을 제안한다. SIT는 원문 문장을 하나의 단어만 의미·품사적으로 유사한 다른 단어로 교체해 유사 문장을 생성하고, 이를 번역 시스템에 입력한다. 번역 결과를 구문 트리(구성 트리·의존 트리)로 표현해 구조 차이를 정량화하고, 일정 임계값을 초과하면 오류로 보고한다. Google Translate와 Bing Microsoft Translator를 200개의 웹 수집 문장에 적용해 각각 64·70개의 버그를 발견했으며, BLEU·ROUGE와 같은 기존 지표가 포착하지 못한 과소·과다 번역, 의미 왜곡 등 다양한 오류를 드러냈다.
상세 분석
Structure‑Invariant Testing(SIT)은 기계 번역(NMT) 시스템의 견고성을 평가하기 위해 메타모픽 테스트 원리를 적용한 새로운 접근법이다. 핵심 가정은 “의미적으로 유사하고 품사 구조가 동일한 원문 쌍은 번역 결과에서도 구문 구조가 크게 달라지지 않아야 한다”는 점이다. 이를 구현하기 위해 먼저 BERT 기반 마스크드 언어 모델(MLM)을 이용해 원문에서 명사·형용사 토큰을 마스크하고, 문맥을 고려한 상위 k개의 후보 단어를 추출한다. 이렇게 생성된 유사 문장은 원문과 동일한 구문 트리를 유지하면서 의미적 변화를 제공한다.
다음 단계에서는 Google Translate와 Bing Microsoft Translator에 원문과 유사 문장을 동시에 입력하고, 각각의 번역 결과를 구문 파서(구성 파서·의존 파서)로 분석한다. 파싱 결과는 트리 구조로 변환되어 트리 편집 거리(예: Zhang‑Shasha 거리) 혹은 구조 유사도 점수로 정량화된다. 사전에 설정한 임계값을 초과하는 경우, 해당 유사 문장과 원문 번역 사이에 구조적 불일치가 존재한다는 신호로 해석한다. 이는 번역 모델이 미세한 의미 변화에 과도하게 반응하거나, 중요한 의미 요소를 누락·추가했음을 의미한다.
실험에서는 200개의 실생활 문장을 웹에서 수집하고, 각 문장당 평균 5개의 유사 문장을 생성하였다. 결과적으로 Google Translate에서는 64건, Bing Translator에서는 70건의 구조 불일치 오류가 탐지되었으며, 상위 1번 번역의 정확도는 각각 69.5%와 70%에 머물렀다. 오류 유형을 분석한 결과, 과소 번역(핵심 어휘 누락), 과다 번역(불필요한 부가어 삽입), 잘못된 수식어 적용, 구문‑의미 불일치, 논리적 모호성 등 다섯 가지 주요 카테고리로 구분되었다. 특히 이러한 오류들은 BLEU·ROUGE와 같은 전통적인 n‑gram 기반 품질 지표로는 탐지되지 않았으며, 실제 사용자 경험에 큰 영향을 미칠 수 있다.
SIT의 장점은 (1) 별도의 정답 번역(oracle)이 필요 없으며, (2) 자동화된 파이프라인을 통해 대규모 실시간 서비스에도 적용 가능하고, (3) 구문 구조라는 언어‑보편적 특성을 활용해 언어쌍 간 전이성을 확보한다는 점이다. 한계로는 파싱 품질에 의존한다는 점과, 구조 차이가 반드시 의미 오류를 의미하지 않을 수 있다는 점을 들 수 있다. 향후 연구에서는 다중 언어 파싱, 더 정교한 거리 측정, 그리고 오류 유형별 자동 교정 메커니즘을 결합해 테스트 효율성을 높이는 방안을 모색한다.
댓글 및 학술 토론
Loading comments...
의견 남기기