단어 이해를 위한 유추 인식 알고리즘 PairClass
초록
본 논문은 대규모 텍스트 코퍼스에서 자동으로 추출한 고차원 특징 벡터를 이용해 단어쌍의 의미 관계를 분류하는 알고리즘 PairClass를 제안한다. 비례 유추(A:B::C:D) 문제를 지도학습 형태로 전환하여, 일곱 가지 단어 이해 테스트에 일관된 방식으로 적용하고 경쟁력 있는 성능을 보였다.
상세 분석
PairClass는 ‘유추 인식’이라는 개념을 ‘단어쌍 분류’ 문제로 재구성한다. 먼저 입력된 단어쌍에 대해 형태소 변형을 수행하고, 대규모 웹 크롤링 텍스트(약 5 × 10¹⁰ 단어)에서 “X … Y” 혹은 “Y … X” 형태의 구문을 추출한다. 추출된 구문을 와일드카드(*)와 변수(X, Y)로 일반화해 패턴을 생성하고, 전체 단어쌍이 생성한 패턴의 등장 빈도를 기반으로 고차원 특징 벡터를 만든다. 특징 수는 전체 단어쌍 수 N에 비례해 k·N(여기서 k=20)으로 제한해 희소성을 유지한다. 각 벡터는 로그 변환 후 단위 길이로 정규화되어, 빈도 차이에 강건하도록 설계되었다.
벡터화된 데이터는 RBF 커널을 사용하는 SMO 기반 SVM에 입력되고, 로지스틱 회귀를 통해 클래스별 확률을 추정한다. 핵심 알고리즘은 동일하게 유지하면서, 서로 다른 7개의 평가 과제—SAT 비례 유추, TOEFL·ESL 동의어·반의어 문제, 인지심리학의 연관성 판단, 명사‑수식 관계 분류—에 맞게 학습/테스트 셋만 재구성한다. 실험 결과, 각 과제마다 기존 특화 시스템에 근접하거나 그보다 우수한 정확도를 기록했으며, 특히 하나의 통합 모델로 다양한 언어학적 관계(동의어, 반의어, 유사성, 연관성, 비례 유추)를 동시에 학습할 수 있음을 입증했다.
제한점으로는 거대한 코퍼스와 패턴 추출·벡터화 단계에서 높은 연산 비용이 요구된다는 점이다. 또한, 패턴 선택 기준이 단순히 발생 빈도에 의존하므로, 의미적으로 중요한 저빈도 패턴이 손실될 가능성이 있다. 향후 연구에서는 의미 중심의 패턴 가중치 조정, 신경망 기반 임베딩과의 결합, 그리고 다언어 확장을 통해 성능과 효율성을 동시에 개선할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기