일본어 스페인어 문장 정렬을 위한 규칙 기반 접근법

초록

이 논문은 위키피디아의 비교 말뭉치를 활용해 일본어와 스페인어 문장을 정렬하는 규칙 기반 방법을 제안한다. 품사 태깅과 양언어의 구문 구조를 이용한 규칙을 설계하고, 인간 평가를 통해 기존 베이스라인 대비 우수한 성능을 확인하였다.

상세 분석

본 연구는 일본어‑스페인어 병렬 코퍼스가 부족한 상황에서, 비교 말뭉치인 위키피디아를 활용해 자동으로 문장 수준의 정렬을 수행하는 새로운 파이프라인을 제시한다. 먼저 위키피디아의 동일 주제 페이지를 크롤링하고, 각 페이지를 문장 단위로 분할한다. 이후 두 언어에 대해 형태소 분석기를 적용해 품사(POS) 태깅을 수행한다. 일본어는 MeCab, 스페인어는 Freeling 등을 이용해 어휘와 품사를 정확히 추출한다. 핵심은 두 언어의 구문적 특성을 반영한 규칙 집합이다. 일본어는 주어‑목적어‑동사(SOV) 구조, 스페인어는 주어‑동사‑목적어(SVO) 구조를 고려해, 동사 형태와 주요 명사(주어·목적어) 위치를 매핑한다. 또한, 명사구와 전치사구의 대응 관계를 규정하고, 숫자·날짜·고유명사와 같은 특수 토큰은 별도 매칭 규칙을 적용한다. 이러한 규칙은 정규 표현식과 트리 구조 매칭 알고리즘을 결합해 구현되었으며, 문장 길이 차이, 어순 변형, 번역 가능성 점수를 종합해 최종 매칭 점수를 산출한다. 실험에서는 1,000여 개의 위키 문장 쌍을 표본으로 선정해 인간 평가자를 통해 정확도와 재현율을 측정했으며, 기존의 단순 문자열 유사도 기반 베이스라인 대비 정밀도 12%, 재현율 9% 향상을 기록하였다. 결과는 규칙 기반 접근이 언어 간 구조적 차이를 효과적으로 보정함으로써 비교 말뭉치에서 고품질 병렬 문장을 추출할 수 있음을 시사한다. 다만, 규칙 설계에 대한 언어 전문 지식 의존도와 복잡한 구문 변형에 대한 처리 한계가 남아 있어, 향후 통계적·신경망 기반 모델과의 하이브리드 방식이 필요하다.