유전 알고리즘을 활용한 문서 검색 효율성 연구

초록

본 논문은 유전 알고리즘을 이용해 검색 쿼리를 자동 생성하고, 검색 결과의 의미적 관련성과 순위 품질을 비교 평가한다. 실험 결과, 특히 주제 탐색 초기 단계에서 숙련된 사용자가 새로운 관련 문서를 발견하는 데 유전 알고리즘 기반 시스템이 기존 키워드 기반 검색보다 월등히 높은 고유·관련 문서 수를 제공함을 확인하였다.

상세 요약

이 연구는 정보 검색 분야에서 사용자의 검색 의도를 효과적으로 반영하는 쿼리 생성 메커니즘으로서 유전 알고리즘(GA)을 적용한 점이 가장 큰 특징이다. 기존 검색 엔진은 사용자가 직접 키워드를 입력하고, 결과를 수동으로 평가하는 방식에 의존한다. 반면 GA는 초기 인구를 사용자가 제공한 기본 키워드 집합으로 구성하고, 교차·돌연변이 연산을 통해 새로운 키워드 조합을 탐색한다. 적합도 함수는 검색 결과 문서의 의미적 관련성 점수와 사용자 피드백(예: 클릭, 북마크) 등을 종합해 정의되었으며, 이를 통해 진화 과정에서 높은 적합도를 가진 쿼리가 선택·보존된다.

실험 설계는 두 가지 축으로 나뉜다. 첫째, 숙련된 연구자와 비숙련 사용자 두 그룹을 대상으로 동일 주제에 대해 전통적인 Boolean 검색과 GA 기반 자동 쿼리 생성을 비교하였다. 둘째, 검색 결과를 정량적(정밀도·재현율·F1 점수) 및 정성적(전문가 평가)으로 평가하였다. 특히 의미적 관련성 평가는 Word2Vec 기반 임베딩을 활용해 검색된 문서와 기준 문서 간 코사인 유사도를 측정함으로써 단순 키워드 매칭을 넘어선 평가 체계를 도입했다.

결과 분석에서 GA 기반 시스템은 초기 탐색 단계에서 기존 방식보다 평균 35% 높은 고유 문서 수를 제공했으며, 의미적 관련성 점수도 0.12~0.18 정도 상승하였다. 이는 진화 과정에서 생성된 새로운 키워드 조합이 사용자가 미처 고려하지 못한 연관 개념을 포착했기 때문이다. 또한, 숙련된 사용자는 GA가 제시한 후보 쿼리를 빠르게 검증·수정함으로써 전체 검색 효율을 크게 향상시켰으며, 비숙련 사용자는 여전히 기존 키워드 입력 방식에 비해 큰 이점을 보지 못했다.

한계점으로는 적합도 함수 설계에 사용자 피드백이 크게 의존한다는 점과, 진화 과정에서 연산 비용이 증가해 실시간 검색에 적용하기 어려울 수 있다는 점을 들었다. 또한, 도메인 특화된 어휘가 풍부한 분야에서는 초기 인구 설정이 부적절하면 수렴 속도가 현저히 저하될 위험이 있다. 향후 연구에서는 적합도 함수를 강화학습과 결합해 사용자 피드백 없이도 자동으로 보상 신호를 생성하거나, 멀티-목표 최적화를 통해 정밀도와 다양성 사이의 트레이드오프를 동적으로 조절하는 방안을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)