중국어 텍스트 함의 인식을 위한 다층 언어 특징 탐구
초록
본 논문은 NTCIR-9·10 RITE 평가에서 전통·간체 중국어 텍스트 함의 인식(TE) 과제를 위해 어휘·구문·의미 수준의 다양한 언어 특징을 설계·평가한다. 구문 파싱, 개체명 인식, 근접 동의어 탐색 등을 활용해 공통 단어 수, 문장 길이, 부정어·반의어 등 여러 통계적·규칙 기반 특성을 추출하고, 이를 휴리스틱 함수와 기계학습 분류기에 적용한다. 실험 결과, 제안 시스템은 NTCIR‑10 RITE‑2 이진 분류 부문에서 전통·간체 모두 2위라는 안정적인 성능을 보였으며, 개별 특징의 기여도와 분류기 조합 탐색을 통해 향후 연구 방향을 제시한다.
상세 분석
이 연구는 중국어 텍스트 함의 인식(Recognizing Inference in Text, RITE)이라는 비교적 새로운 자연어 처리 과제에 대해 다층적인 언어 정보를 체계적으로 활용한 점이 가장 큰 강점이다. 먼저 어휘 수준에서는 두 문장 간의 공통 어휘 수, 고유명사·숫자·시간 표현 등 특수 토큰의 매칭 비율, 그리고 부정어와 반의어의 존재 여부를 정량화하였다. 이러한 특성은 전통적인 bag‑of‑words 접근보다 의미적 차이를 더 세밀하게 포착한다는 점에서 의미가 크다. 구문 수준에서는 중국어 전용 구문 분석기(예: Stanford Chinese Parser)를 이용해 구문 트리 구조를 추출하고, 트리 깊이, 분기 수, 주요 구문 관계(주어‑동사‑목적어 등)의 일치 정도를 특징으로 삼았다. 구문 구조의 유사성은 문장 간 논리적 연결성을 판단하는 데 중요한 신호이며, 특히 중국어는 어순이 유연하고 조사가 약하기 때문에 구문 트리 기반 비교가 효과적이다. 의미 수준에서는 개체명 인식(NER) 결과를 활용해 인물·기관·위치 등 고유명사의 정합성을 확인하고, 근접 동의어 사전을 구축해 의미적 유사성을 정량화하였다. 특히, 동의어 사전은 WordNet‑like 구조를 차용해 다중 의미를 고려했으며, 이는 단순 문자열 매칭이 놓치기 쉬운 의미적 함의를 포착한다.
특징 결합 방식은 두 가지로 나뉜다. 첫 번째는 휴리스틱 기반 점수 함수를 설계해 각 특징에 가중치를 부여하고, 전체 점수를 임계값과 비교해 함의 여부를 판정한다. 두 번째는 SVM, Random Forest, Gradient Boosting 등 여러 기계학습 분류기를 적용해 특징 벡터를 학습시킨다. 실험에서는 특히 Gradient Boosting이 가장 높은 F1 점수를 기록했으며, 이는 비선형 관계를 효과적으로 모델링할 수 있기 때문이다. 또한, 전통(繁體)와 간체(简体) 두 언어 변형에 대해 동일한 파이프라인을 적용했음에도 불구하고, 일부 특징(예: 전통 문자 특유의 부수·획수 기반 유사도)이 간체에서는 상대적으로 낮은 기여도를 보였다는 흥미로운 차이를 발견했다.
성능 평가에서는 NTCIR‑10 RITE‑2 이진 분류 과제에서 전통·간체 모두 2위를 차지했으며, NTCIR‑9 테스트 데이터에 대한 추가 실험에서도 일관된 높은 정확도를 유지했다. 특히, 개별 특징의 ablation study를 통해 구문 트리 일치도가 전체 성능에 가장 큰 영향을 미치며, 어휘 수준의 부정어·반의어 탐지는 특정 오류 유형(예: 부정문에서의 오판)을 크게 감소시킨다는 결론을 도출했다. 마지막으로, 분류기 파라미터 튜닝과 특징 선택 과정에서 교차 검증을 활용해 과적합을 방지했으며, 향후 대규모 사전 학습 모델과의 결합 가능성을 논의하였다.
이 논문은 중국어 텍스트 함의 인식에 있어 전통적인 통계적 방법과 최신 기계학습 기법을 균형 있게 결합한 사례로, 다층 언어 특징이 실제 평가에서 의미 있는 성능 향상을 가져올 수 있음을 실증한다. 또한, 전통·간체 양쪽 모두에서 검증된 접근법은 다언어·다스크립트 환경에서의 적용 가능성을 시사한다.