문서 이미지 검색 성능 향상을 위한 특징 가중치 기법
초록
본 논문은 문서 이미지 검색 시스템(DIRS)에서 키워드 스포팅 기반으로 추출된 다수의 시각적 특징에 대해 다중 상관계수(coefficient of multiple correlations)를 이용해 가중치를 부여하는 방법을 제안한다. 가중치 적용 후 평균 정밀도는 93.23%, 평균 재현율은 98.66%로 기존 시스템에 비해 현저히 개선되었음을 실험 결과로 입증한다.
상세 분석
본 연구는 문서 이미지 검색(Document Image Retrieval System, DIRS)의 핵심 과제인 특징 선택과 결합에 초점을 맞추었다. 기존 DIRS는 레이아웃, 텍스트 블록, 문자 형태 등 다양한 시각적 특징을 추출하지만, 각 특징이 검색 정확도에 미치는 영향은 동일하게 취급되는 경우가 많다. 이러한 문제점을 해결하기 위해 저자들은 ‘다중 상관계수(coefficient of multiple correlations, CMC)’를 활용한 가중치 부여 방식을 도입하였다. CMC는 다변량 통계에서 독립 변수들이 종속 변수와 얼마나 상관관계를 갖는지를 종합적으로 나타내는 지표로, 각 특징이 전체 검색 성능에 기여하는 정도를 정량화한다. 구체적으로, 먼저 기존 DIRS와 동일하게 12개의 특징(예: 수평·수직 투영 프로파일, Zoning 히스토그램, 구조적 연속성, 문자 간격 등)을 추출한다. 이후 각 특징을 종속 변수인 ‘문서 매칭 점수’와의 상관관계 분석에 투입하여 CMC 값을 계산하고, 이를 정규화하여 가중치 벡터 w =