디지털 도서관을 위한 맞춤형 용어 제안 서비스
초록
본 논문은 사회과학 분야 디지털 도서관 Sowiport에서 4,000명 이상의 방문자를 대상으로 네 가지 용어 제안 방식을 비교·평가한다. 사용자 검색어(UST), 이질성 서비스 용어(HTS), 사회과학 전용 용어사전(TS), 그리고 용어사전과 검색어 추천기를 결합한 복합 서비스(CTS)를 구현하고 로그 분석을 통해 사용 빈도와 선택 패턴을 측정한다. 결과는 도메인 특화된 용어사전이 가장 많이 활용되었으며, 용어사전과 통계 기반 추천을 결합한 CTS가 모든 단일 방식보다 높은 채택률을 보였음을 보여준다.
상세 분석
이 연구는 디지털 도서관에서 사용자가 검색어를 입력할 때 발생하는 ‘용어 문제’를 해결하기 위해 인터랙티브 쿼리 확장(IQE) 기법을 적용하였다. 네 가지 제안 서비스는 각각 다른 지식원천을 활용한다. UST는 2007년부터 축적된 28,000개의 사용자 입력 검색어를 빈도 순으로 정렬한 비제어형 리스트이며, 사용자가 입력한 문자열과 부분 일치하는 항목을 제시한다. HTS는 25개 외부 용어사전에서 추출된 26,500개의 제어어를 알파벳 순으로 제공하고, 용어 간 관계(동등, 상위·하위, 연관)를 포함하지만 제안 단계에서는 단순 리스트만 반환한다. TS는 사회과학 전용 용어사전(11,600개 항목, 7,750개 서술어, 3,850개 비서술어)에서 서술어만을 알파벳 순으로 제시한다. CTS는 TS와 검색어 추천기(STR)를 결합한 형태로, 사용자가 4자 이상 입력하면 TS 리스트와 함께 STR이 도출한 통계적 연관어를 ‘대체 검색어’ 섹션에 추가한다. STR은 문헌 메타데이터(제목·초록)와 제어어 간의 동시출현을 기반으로 가중치를 계산하고, 라티스 의미 분석 및 벡터 머신을 활용해 연관성을 예측한다.
평가 환경은 독일어·영어 이중 언어 지원 포털 Sowiport이며, 월 평균 7,000명의 고유 방문자를 보유한다. 각 서비스는 1,000명의 고유 방문자가 이용할 때까지 순차적으로 활성화되었으며, 로그는 사용자가 검색 버튼을 클릭하거나 엔터를 눌렀을 때만 기록하도록 설계돼 인간 사용자의 행동만을 정확히 포착한다. 수집된 데이터는 (1) 추천 리스트에서 선택된 항목(입력어, 선택어, 위치, 서비스 종류, 시간, 세션 ID)와 (2) 실제 검색어 제출(제출어, 시간, 세션 ID)이다.
사용률 분석 결과, CTS는 고유 방문자 기준 50.9%가 서비스를 이용했으며, 전체 검색 중 14%가 CTS를 통해 제안어를 선택했다. TS는 각각 37.5%와 9%로 두 번째로 높은 활용도를 보였고, UST는 25.2%·7%, HTS는 10.4%·3%에 그쳤다. 전체적으로 모든 서비스의 검색당 활용도는 15% 이하로, 제안 기능이 실제 검색에 미치는 영향이 제한적임을 시사한다. 선택된 용어는 평균적으로 리스트 두 번째 위치에 있었으며, 이는 사용자가 상위 몇 개 항목에 집중한다는 행동 패턴을 반영한다. 또한, CTS는 4자 이상 입력 시에만 STR이 작동하도록 설계돼, 짧은 입력에 대한 과도한 노이즈를 방지한다는 설계적 장점이 있다.
이러한 결과는 도메인 특화된 용어사전이 일반 사용자 검색어보다 높은 채택률을 보이며, 통계 기반 연관어와 결합될 경우 더욱 효과적이라는 점을 입증한다. 그러나 전체 활용도가 낮은 점은 UI 배치, 제안어 시각적 강조, 혹은 사용자의 검색 습관(자발적 확장 의지 부족) 등 추가적인 설계 개선이 필요함을 암시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기