키프레이즈 기반 아랍어 요약기
초록
본 논문은 아랍어 텍스트를 대상으로 키프레이즈를 핵심 속성으로 활용하는 추출형 요약 알고리즘을 제안한다. 정확한 어근 기반 형태소 분석기를 이용해 키프레이즈를 추출하고, 네 가지 휴리스틱 점수 체계(정보 풍부성, 주제 균형, 중복 최소화, 전체 주제 커버)를 적용해 문장을 순위 매긴 뒤 지정된 압축 비율에 따라 요약문을 생성한다. 영어‑아랍어 병렬 코퍼스를 이용한 실험을 통해 기존 요약 시스템과 비교 평가하였다.
상세 분석
KPAS는 전통적인 문장‑기반 점수화 방식 대신, 문서에서 자동으로 추출한 키프레이즈를 문장 평가의 주요 지표로 삼는다. 이를 위해 먼저 기존 AKE(Arabic Keyphrase Extractor) 시스템을 개조하여, 코퍼스 기반 형태소 분석기를 94.8% 정확도의 어근‑기반 레마타이저로 교체하였다. 레마타이저는 어휘의 POS 태깅, 어근·접미·전미 정보와 함께 어휘를 정규형(단수·남성·3인칭)으로 변환함으로써 키프레이즈 후보의 품사 패턴을 정확히 파악한다. 후보 구문은 1~3‑그램으로 생성된 뒤, 명사‑형용사‑동사 순서와 같은 사전 정의된 POS 규칙에 의해 필터링된다. 각 후보는 8개의 통계·언어학적 특징(NPW, PRF, WRF, NSL, NPL, NPLen, SCV, IIT)으로 벡터화되고, 선형 판별 분석(LDA) 분류기로 중요도가 판단된다.
문장 점수화 단계에서는 네 가지 독립적인 휴리스틱을 설계하였다. 첫 번째는 “정보 풍부성”으로, 문장이 포함한 키프레이즈의 가중합을 기반으로 높은 점수를 부여해 핵심 토픽을 강조한다. 두 번째는 “주제 균형”으로, 특정 주제에 편중되지 않도록 키프레이즈 커버리지를 균등하게 분배한다. 세 번째는 “중복 최소화”이며, 이미 선택된 문장과의 키프레이즈 겹침 비율을 페널티로 적용해 중복을 억제한다. 네 번째는 “전체 주제 커버”로, 문서 전체 키프레이즈 집합을 가능한 많이 포함하도록 문장을 선택한다. 마지막으로, 위 네 점수를 가중 평균한 “통합 휴리스틱”을 도입해 압축 비율과 요약 목적에 따라 유연하게 조정한다.
실험은 영어‑아랍어 병렬 코퍼스를 이용해 ROUGE‑1, ROUGE‑2, ROUGE‑L 지표로 평가하였다. KPAS는 특히 중복 최소화와 주제 균형을 동시에 고려한 경우, 기존 LSA‑기반 요약기와 비교해 평균 ROUGE‑2 점수가 4~5% 상승했으며, 인간 평가에서도 정보 풍부성과 주제 다양성 면에서 높은 점수를 받았다. 또한, 레마 기반 키프레이즈 추출은 어근 수준의 과도한 의미 혼합을 피하면서도 형태소 변형을 포괄해, 기존 어근‑기반 방법보다 키프레이즈 정확도가 약 7% 향상되었다는 결과를 보였다. 전체 시스템은 키프레이즈 추출과 문장 점수화를 포함해 평균 0.35초(문서 500단어 기준)의 처리 시간을 기록, 실시간 요약 응용에 충분히 적용 가능함을 입증하였다.
이러한 설계는 언어 독립적인 구조를 갖추고 있어, 동일한 파이프라인을 다른 언어에 적용할 경우 레마타이저만 교체하면 키프레이즈 기반 추출 요약을 구현할 수 있다. 특히, 아랍어처럼 형태소 변형이 풍부하고 어근‑기반 분류가 의미 혼동을 일으키기 쉬운 언어에 레마 기반 접근을 적용한 점이 본 연구의 주요 기여라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기