분류기 기반 텍스트 단순화로 기계 번역 품질 향상
초록
본 논문은 영어‑힌디어 기계 번역 시스템에 텍스트 단순화 전처리를 적용하고, 단순화 결과가 원문 의미를 유지하는지를 판단하기 위해 Naïve Bayes와 SVM 분류기를 학습시킨다. 실험 결과 Naïve Bayes가 약간 더 높은 정확도와 kappa 통계치를 보여, 단순화 품질 판별에 효과적임을 확인하였다.
상세 분석
본 연구는 텍스트 단순화가 기계 번역 품질에 미치는 영향을 정량적으로 평가하려는 시도로서, 두 가지 전통적인 머신러닝 분류기(Naïve Bayes, Support Vector Machine)를 활용하였다. 먼저, 영어‑힌디어 병렬 코퍼스를 이용해 ‘원문‑단순화문’ 쌍을 생성하고, 인간 전문가가 의미 보존 여부를 Yes/No 라벨링하였다. 라벨링된 3,000개의 사례를 기반으로 17개의 특징을 추출했는데, 이는 문장 길이, 토큰 수, 언어 모델 삼중항 확률, 고·저빈도 어휘·바이그램·트라이그램 비율, 구두점 수 등 텍스트 복잡성을 정량화할 수 있는 요소들이다. 이러한 특징은 기존 연구에서 텍스트 난이도와 번역 품질을 예측하는 데 사용된 변수와 일치한다.
Naïve Bayes는 베이즈 정리를 기반으로 각 특징의 조건부 확률을 독립적으로 추정함으로써 구현이 간단하고 학습 속도가 빠른 장점을 가진다. 반면 SVM은 고차원 특징 공간에서 최적의 초평면을 찾는 방식으로, 데이터가 선형적으로 구분되지 않을 경우에도 커널 트릭을 통해 비선형 경계를 모델링한다. 두 분류기의 성능을 인간 평가와 비교하기 위해 정밀도, 재현율, F‑measure, 평균 절대 오차(MAE), 평균 제곱근 오차(RMSE), 그리고 Cohen’s kappa를 계산하였다. 결과는 Naïve Bayes가 정밀도(0.562 vs 0.527), 재현율(0.565 vs 0.534), F‑measure(0.563 vs 0.525), MAE(0.461 vs 0.466), RMSE(0.517 vs 0.682), kappa(0.518 vs 0.445) 모두에서 우수함을 보여준다. 혼동 행렬 분석에서도 Naïve Bayes가 1,694건(≈56%)에서 인간과 일치한 반면, SVM은 1,603건(≈53%)에 불과했다.
이러한 결과는 텍스트 단순화 단계에서 발생할 수 있는 의미 손실을 자동으로 탐지하는 데 있어, 복잡도가 낮고 데이터가 제한된 상황에서도 Naïve Bayes가 충분히 경쟁력을 가짐을 시사한다. 또한, 17개의 특징이 비교적 직관적이며 구현이 쉬워 실제 시스템에 적용하기 용이하다. 다만, 본 연구는 3,000문장이라는 비교적 작은 규모와 영어‑힌디어 1:1 번역 시나리오에 국한되어 있어, 다른 언어쌍이나 대규모 코퍼스에 대한 일반화 가능성은 추가 검증이 필요하다. 향후 연구에서는 딥러닝 기반 문장 임베딩을 특징으로 포함하거나, 다중 라벨(예: ‘부분 유지’, ‘전혀 유지 안 함’)을 도입해 보다 정교한 품질 판단 모델을 구축할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기