아라비아어 질의 자동 확장 인터페이스 연구

초록

본 논문은 형태소 분석기와 아라비아어 WordNet을 활용해 사용자가 입력한 아라비아어 질의를 자동으로 확장하고, 확장된 질의를 구글 검색 엔진에 전달하는 시스템을 제안한다.

상세 요약

본 연구는 아라비아어 정보 검색에서 질의 확장의 필요성을 강조한다. 아라비아어는 굴절형이 풍부하고 어근과 접사가 결합되는 복합 구조를 가지고 있어 단순 키워드 매칭만으로는 의미를 충분히 포착하기 어렵다. 이를 해결하기 위해 저자는 두 가지 핵심 기술을 결합하였다. 첫 번째는 형태소 분석기이다. 이 분석기는 입력된 문장을 어근, 접두사, 접미사 등으로 분해하고, 어근 형태를 추출한다. 형태소 분석 과정에서 어근 복수형, 파생형, 어미 변형 등을 정규화함으로써 동일 의미를 가진 다양한 형태를 하나의 표준 형태로 통합한다. 두 번째는 아라비아어 WordNet이다. WordNet은 어휘 간의 동의어, 반의어, 상위·하위 관계를 그래프 형태로 제공한다. 형태소 분석을 통해 얻은 어근을 WordNet에 매핑하면 해당 어근과 연관된 동의어 집합(synset)을 손쉽게 추출할 수 있다. 논문에서는 이러한 동의어 집합을 질의에 추가함으로써 의미적 범위를 넓히는 확장 전략을 제시한다. 구체적인 알고리즘은 다음과 같다. (1) 사용자가 아라비아어 질의를 입력하면 형태소 분석기를 통해 어근 리스트를 생성한다. (2) 각 어근에 대해 WordNet에서 관련 synset을 검색하고, 해당 synset에 포함된 모든 어휘를 후보 확장어로 수집한다. (3) 후보 확장어 중 빈도수, 의미적 적합성, 중복 여부 등을 기준으로 필터링한다. (4) 필터링된 확장어를 원래 질의에 병합하여 최종 확장 질의를 만든다. (5) 완성된 질의를 Google Custom Search API에 전달하여 검색 결과를 반환한다. 이 과정에서 저자는 확장어 선택 기준으로 어휘 빈도와 WordNet 내 연결 강도를 활용했으며, 의미적 왜곡을 최소화하기 위해 상위·하위 관계보다는 동의어 관계에 중점을 두었다. 실험 결과, 확장 질의를 사용했을 때 검색 정확도와 재현율이 모두 향상되었으며, 특히 다의어가 포함된 질의에서 의미적 회복력이 크게 개선되었다. 그러나 아라비아어 WordNet의 커버리지가 제한적이며, 형태소 분석기의 오류가 확장 단계에 전이되는 한계점도 존재한다. 이러한 한계를 보완하기 위해 향후에는 대규모 코퍼스를 활용한 자동 어휘 확장 및 딥러닝 기반 의미 모델을 도입할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)