저자명 기반 검색어 확장으로 검색 성능 향상
초록
본 연구는 디지털 도서관 Sowiport 이용자 중 약 30%가 저자명을 검색어로 사용한다는 사실을 발견하고, 저자명을 주제와 결합한 다중표현(polyrepresentation) 방식으로 쿼리를 확장하면 검색 성능이 크게 향상된다는 것을 실험을 통해 입증한다. 단순히 저자명만 추가하면 쿼리 드리프트가 발생해 성능이 저하되지만, 동시에 전문 용어 사전(thesaurus) 용어를 추가할 경우 긍정적인 효과가 나타난다.
상세 분석
이 논문은 디지털 도서관 환경에서 사용자가 입력하는 쿼리의 특성을 정밀히 분석함으로써 기존의 용어 추천 시스템이 간과하고 있던 ‘저자명 검색’ 현상을 밝혀냈다. Sowiport 로그 데이터를 기반으로 한 탐색 결과, 전체 검색 세션 중 약 33%가 저자명을 직접 입력하거나 저자명 자동완성 기능을 활용했으며, 이는 사회과학 분야에서 저자 중심의 지식 구조가 강하게 작용한다는 점을 시사한다. 저자명은 전통적인 키워드와 달리 ‘주제-저자’ 관계를 내포하고 있어, 단순 텍스트 매칭보다 의미적 연결 고리를 제공한다.
이를 활용하기 위해 연구진은 ‘다중표현(polyrepresentation)’ 이론을 적용하였다. 다중표현은 서로 다른 관점(예: 텍스트, 메타데이터, 저자 등)에서 동일 문서를 표현함으로써 검색 정확도를 높이는 전략이다. 구체적으로는 사용자가 입력한 원본 쿼리(키워드)와 해당 키워드와 연관된 저자명을 추출하고, 이를 다시 주제어(thesaurus)와 결합하는 3단계 확장 방식을 설계했다. 저자명 추출은 Sowiport 메타데이터에서 저자-주제 매핑을 사전 구축하고, TF‑IDF 기반 가중치를 적용해 관련성이 높은 저자를 선별하였다.
실험 설계는 TREC‑style 평가 프레임워크를 차용했으며, 베이스라인은 기존 용어 추천(Thesaurus)만을 사용한 쿼리 확장 모델이었다. 비교 모델로는 (1) 저자명만 추가, (2) 용어만 추가, (3) 저자명+용어 동시 추가가 포함되었다. 평가 지표는 MAP, nDCG@10, P@20 등이다. 결과는 저자명만 추가했을 때 평균 MAP이 0.212에서 0.185로 감소해 ‘쿼리 드리프트’ 현상이 발생함을 보여준다. 반면, 저자명과 용어를 동시에 추가한 모델은 MAP이 0.212에서 0.241로 13.7% 향상되었으며, nDCG@10도 유의미하게 상승했다. 이는 저자명이 주제어와 상호 보완적인 역할을 할 때만 효과가 발휘된다는 중요한 인사이트를 제공한다.
또한, 저자명 확장이 특히 ‘전문가 중심’ 검색(예: 특정 연구자나 학파에 대한 문헌 탐색)에서 높은 효율을 보였으며, 일반적인 키워드 중심 검색에서는 부정적 영향을 미칠 가능성이 있음을 논의한다. 이와 같은 결과는 메타데이터 활용 전략을 재고하고, 사용자 의도에 맞는 다중표현 기반 확장 기법을 설계할 필요성을 강조한다.