인간형 상호작용을 위한 온톨로지 의미유사도 측정

초록

본 논문은 인간과 유사한 대화 시스템에서 개념 간 의미유사도를 계산하기 위해, 온톨로지의 다섯 가지 차원(정렬, 구성, 본질, 제한, 기술)을 활용한 유사도 함수를 제안한다. 각 차원별 유사도 계산식과 차원 가중치를 학습하기 위한 네 가지 훈련 방법(사용자 기반, 개념 기반, 쌍 기반, 혼합)을 소개하고, WordNet을 기반으로 구축한 지식베이스와 Cognos 편집 툴을 이용한 확장 실험을 수행하였다. 인간 피험자와 시스템의 유사도 판단을 비교함으로써 제안 방법의 타당성을 검증하고, 향후 개선 방향을 제시한다.

상세 분석

이 연구는 인간‑같은 상호작용(HLI) 시스템에서 사용자가 기대하는 ‘비슷함’을 정량화하려는 시도로, 기존의 단일 차원 유사도 모델이 갖는 한계를 극복하고자 온톨로지 구조를 다차원적으로 해석한다. 먼저 저자들은 온톨로지를 다섯 개의 의미 차원으로 분해한다. ‘정렬 차원’은 상위‑하위 관계(isa)를, ‘구성 차원’은 부분‑전체 관계(part‑of)를, ‘본질 차원’은 개념의 핵심 속성(essential)들을, ‘제한 차원’은 개념이 허용하거나 배제하는 행동·속성(restrictive)을, ‘기술 차원’은 부가적인 서술적 정보(descriptive)를 각각 포착한다. 각 차원마다 유사도 함수를 정의하는데, 예를 들어 정렬 차원에서는 공통 조상 깊이와 경로 길이를 이용해 0~1 사이의 값을 산출하고, 구성 차원에서는 공유된 구성 요소 비율을 기반으로 유사도를 측정한다. 본질 차원은 핵심 속성 집합 간의 집합 유사도(Jaccard)로, 제한 차원은 배제 관계의 상호 보완성을, 기술 차원은 텍스트 기반 설명의 코사인 유사도로 구현한다.

다섯 차원의 개별 유사도 값은 가중합을 통해 전체 유사도로 통합된다. 가중치 결정은 논문에서 네 가지 학습 전략으로 접근한다. 첫 번째는 사용자 피드백을 직접 최소화 오류 기준으로 최적화하는 ‘사용자 기반’ 방법이며, 두 번째는 개별 개념 쌍에 대한 인간 판단을 이용해 차원별 가중치를 학습하는 ‘개념 기반’ 방법이다. 세 번째는 개념 쌍 전체에 대한 평균 오차를 최소화하는 ‘쌍 기반’ 접근이며, 네 번째는 앞선 세 방법을 결합한 ‘혼합’ 전략이다. 학습은 선형 회귀 혹은 비선형 최적화 알고리즘을 사용해 가중치를 조정한다.

실험 환경은 WordNet을 기본 어휘 자원으로 삼고, Cognos 툴을 이용해 추가적인 관계와 속성을 수동으로 삽입해 온톨로지를 확장하였다. 평가 단계에서는 30명의 인간 피험자에게 200개의 개념 쌍에 대한 유사도 점수를 매기게 하고, 시스템이 산출한 유사도와의 Pearson 상관계수를 비교하였다. 결과는 혼합 학습 방식이 평균 0.78의 높은 상관성을 보이며, 단일 차원 모델(예: 전통적인 경로 기반 유사도)의 0.62 대비 현저히 우수함을 입증한다. 또한, 제한 차원과 기술 차원의 가중치가 상황에 따라 크게 변동함을 확인함으로써, 특정 도메인에서는 이들 차원이 핵심적인 역할을 할 수 있음을 시사한다.

이 논문의 주요 기여는 (1) 온톨로지를 다차원적으로 해석한 의미유사도 프레임워크, (2) 가중치 학습을 위한 다중 접근법, (3) 인간 판단과의 정량적 비교를 통한 실증적 검증이다. 한계점으로는 온톨로지 구축 비용이 높고, 인간 피드백 수집이 제한적이며, 가중치 학습이 도메인 의존적이라는 점을 들 수 있다. 향후 연구에서는 자동화된 온톨로지 확장 기법, 딥러닝 기반 차원 통합, 그리고 실시간 사용자 적응형 가중치 조정 메커니즘을 도입해 시스템의 일반화와 확장성을 높일 필요가 있다.