다중선택 세계사 문제 해결을 위한 특징 기반 분류 기법

초록

위키피디아를 외부 지식원으로 활용하고, 정답/오답 문장을 구분하는 분류 모델을 설계해 대학 입시 세계사 객관식 문제를 해결한다.

상세 분석

본 논문은 NTCIR‑11 QA‑Lab 영어 서브태스크에서 제시된 세계사 대학입시 객관식 문제를 대상으로 한 시스템 설계를 상세히 기술한다. 전체 문제 중 약 2/3을 차지하는 ‘정답/오답 문장 선택’ 유형에 대해 저자들은 전통적인 정보 검색 방식이 아닌, 특징 기반 이진 분류 모델을 도입하였다. 먼저 위키피디아 전체를 크롤링하여 문서‑문단 단위의 텍스트 코퍼스를 구축하고, 각 문단에 대해 TF‑IDF, 명사·동사 빈도, 연대·인물 등 메타데이터를 포함한 다차원 특징 벡터를 생성한다. 이후 학습 데이터는 기존 입시 기출문제와 정답·오답 라벨을 이용해 SVM 및 로지스틱 회귀 등 여러 선형·비선형 분류기를 실험했으며, 최종적으로 앙상블 방식이 가장 높은 정확도를 보였다. 특징 선택 단계에서는 ‘연도 일치’, ‘인물 이름 등장’, ‘핵심 사건 키워드 포함 여부’ 등을 우선순위로 두어, 문맥적 일관성을 정량화하였다. 또한, 질문 자체의 형태소 분석을 통해 질문 의도(예: 원인·결과, 인물·업적 등)를 파악하고, 해당 의도와 가장 연관된 특징 가중치를 동적으로 조정한다. 이와 별도로, 선택형 문제 중 ‘시계열 정렬’, ‘다중 선택’ 등 비교적 단순한 유형에 대해서는 규칙 기반 매칭과 거리 계산(코사인 유사도, 레벤슈타인 거리) 등을 적용해 빠르게 답을 도출한다. 실험 결과, 전체 정확도는 71.4%로, 특히 문장 선택 문제에서 78.9%의 높은 정확도를 기록했으며, 이는 기존 베이스라인(약 62%) 대비 유의미한 향상이다. 논문은 또한 오류 분석을 통해 위키피디아의 최신성 부족, 다의어 처리 미비, 그리고 질문에 포함된 암시적 전제(예: ‘제1차 세계대전 이전’)를 정확히 파악하지 못한 경우가 주요 오인 원인임을 밝힌다. 마지막으로 향후 연구 방향으로는 외부 지식 그래프(예: DBpedia)와의 연계, 딥러닝 기반 문맥 임베딩 도입, 그리고 다중 언어 확장을 제시한다.