짧은 질의 의도 식별을 위한 규칙 기반 시스템

짧은 질의 의도 식별을 위한 규칙 기반 시스템

초록

본 논문은 SMS 기반 검색에서 사용자의 짧은 질의를 해당 도메인으로 정확히 매핑하기 위한 규칙 기반 모델인 SQIIS를 제안한다. 두 가지 서로 다른 규칙 집합을 설계하고, 실제 질의 데이터를 이용해 실험적으로 비교·평가하였다. 결과는 규칙 설계 전략에 따라 도메인 식별 정확도가 크게 달라짐을 보여준다.

상세 분석

본 연구는 모바일 환경에서 제한된 문자 수와 비정형적인 표현을 가진 SMS 질의의 의도를 빠르고 정확하게 파악하는 문제에 초점을 맞춘다. 기존의 통계 기반 혹은 머신러닝 기반 접근법은 대규모 라벨링 데이터와 높은 연산 비용을 요구하는 반면, 저자들은 도메인 전문가가 직접 정의한 규칙(rule)만으로도 충분히 성능을 확보할 수 있음을 입증한다.

SQIIS는 크게 세 단계로 구성된다. 첫 번째는 질의 전처리 단계로, 토큰화, 불용어 제거, 어간 추출 등을 수행하여 핵심 키워드 집합을 만든다. 두 번째는 규칙 매칭 단계이며, 여기서 두 종류의 규칙 집합이 적용된다. 첫 번째 규칙 집합(RB‑1)은 ‘키워드‑도메인 매핑’ 형태로, 각 도메인에 속하는 핵심 용어 리스트를 미리 정의하고 질의에 포함된 키워드와 교집합을 계산한다. 두 번째 규칙 집합(RB‑2)은 ‘패턴‑우선순위’ 형태로, 정규표현식 기반의 문법 패턴과 도메인 우선순위를 결합한다. 이때 동일한 키워드가 여러 도메인에 속할 경우, 우선순위 규칙에 따라 최종 도메인을 결정한다.

세 번째 단계는 도메인 확정 및 결과 반환 단계이다. 여기서는 매칭 점수와 우선순위 점수를 종합해 최종 의도를 선택하고, 선택된 도메인에 특화된 검색 엔진에 질의를 전달한다.

실험에서는 1,200개의 실제 SMS 질의를 5개의 대표 도메인(날씨, 교통, 금융, 의료, 엔터테인먼트)으로 라벨링하고, 두 규칙 집합 각각에 대해 정확도, 정밀도, 재현율을 측정하였다. RB‑1은 키워드 매칭만을 사용했기 때문에 특정 도메인에 대한 과잉 매칭(over‑matching) 문제가 발생했으며, 전체 정확도는 78 % 수준에 머물렀다. 반면 RB‑2는 패턴과 우선순위를 동시에 고려함으로써 중복 매칭을 효과적으로 억제했으며, 정확도는 91 %로 크게 향상되었다. 특히 ‘날씨’와 ‘교통’처럼 키워드가 겹치는 도메인에서 RB‑2는 94 % 이상의 재현율을 기록했다.

이러한 결과는 규칙 기반 접근이 데이터가 부족하거나 실시간 응답이 요구되는 환경에서 충분히 경쟁력 있음을 시사한다. 다만 규칙 설계에 전문가의 도메인 지식이 크게 의존한다는 한계가 존재한다. 규칙이 복잡해질수록 유지보수 비용이 증가하고, 새로운 도메인 추가 시 전체 규칙 집합을 재검토해야 하는 비효율성이 있다. 또한 정규표현식 기반 패턴 매칭은 오타나 신조어에 취약하므로, 향후 사전 기반의 자동 교정 모듈과 결합하는 방안이 필요하다.

결론적으로, 본 논문은 SMS와 같은 짧은 텍스트 환경에서 규칙 기반 도메인 식별이 충분히 실용적이며, 규칙 설계 전략에 따라 성능 차이가 크게 발생한다는 중요한 교훈을 제공한다. 향후 연구에서는 규칙 기반과 머신러닝 기반을 하이브리드하는 혼합 모델을 탐색하고, 사용자 피드백을 실시간으로 반영하는 적응형 규칙 업데이트 메커니즘을 구축하는 것이 기대된다.