이질적 정보망을 위한 재귀 메타구조 기반 강건 유사도 측정
초록
본 논문은 이질적 정보망(HIN)에서 사전에 지정된 메타경로나 메타구조에 의존하지 않는 새로운 유사도 측정 방법인 RMSS(Recurrent Meta‑Structure based Similarity)를 제안한다. 자동으로 재귀 메타구조(RecurMS)를 구축하고 이를 재귀 메타경로와 재귀 메타트리로 분해한 뒤, 각각의 통행 행렬(commuting matrix)을 가중합하여 최종 유사도 행렬을 만든다. 가중치는 로컬·글로벌 두 전략으로 결정한다. 실험 결과, 기존 메타경로·메타구조 기반 방법보다 순위와 군집화 성능이 우수함을 확인하였다.
상세 분석
이 논문은 이질적 정보망(HIN)에서 객체 간 유사도를 측정할 때, 기존 방법이 사용자 지정 메타경로나 메타구조에 크게 좌우되는 문제점을 지적한다. 메타경로는 단순히 객체 타입들의 연속적인 연결을 의미하지만, 실제 복잡한 의미를 포착하기엔 한계가 있다. 메타구조는 보다 풍부한 의미를 제공하지만, 여전히 사전 정의가 필요하고 선택에 따라 성능이 크게 변한다. 이를 극복하기 위해 저자들은 ‘재귀 메타구조(RecurMS)’라는 새로운 스키마 수준의 구조를 제안한다. RecurMS는 네트워크 스키마를 반복적으로 탐색하면서 객체 타입을 재방문하는 방식으로, 모든 가능한 메타경로와 메타구조를 포함하는 포괄적인 틀이다. 자동 생성 알고리즘은 스키마 그래프에서 시작 노드를 선택하고, 깊이‑우선 탐색을 통해 순환 구조를 식별한다. 이렇게 얻어진 RecurMS는 지나치게 결합된 형태이므로, 객체 타입 간의 직접적인 연관성을 해소하기 위해 ‘재귀 메타경로’와 ‘재귀 메타트리’로 분해한다. 각각은 전통적인 메타경로·메타구조와 동일하게 복합 관계를 나타내며, 이에 대한 통행 행렬(Commute Matrix)을 정의한다. 통행 행렬은 해당 경로나 트리의 연결 강도를 정량화한 것으로, 행렬 곱을 통해 객체 간 유사도를 계산한다.
가중치 부여는 두 가지 전략으로 수행된다. 로컬 가중치는 각 메타경로·트리의 희소성(sparsity)과 전이 강도(strength)를 기반으로 개별 가중치를 할당하고, 글로벌 가중치는 전체 네트워크에서의 상대적 중요도를 고려한다. 두 전략 모두 정규화 과정을 포함해 가중합 행렬의 스케일을 맞춘다. 최종적으로 RMSS는 모든 재귀 메타경로·트리의 가중 통행 행렬을 합산한 하나의 유사도 행렬로 정의된다.
실험에서는 세 개의 실제 데이터셋(학술 논문 네트워크, 생물학적 네트워크 등)을 사용해 기존 PathSim, PCRW, BSCSE, SMSS 등과 비교하였다. 평가 지표는 정밀도·재현율 기반 순위 성능과 NMI·Purity 기반 군집화 품질이다. 결과는 RMSS가 메타경로·구조 선택에 민감하지 않으며, 특히 복합 의미를 필요로 하는 경우에 현저히 높은 성능을 보임을 입증한다. 또한 가중치 전략에 따라 약간의 차이는 있지만 전반적으로 두 전략 모두 기존 방법을 능가한다.
이 논문의 주요 공헌은 (1) 모든 메타경로·구조를 포괄하는 자동 생성 가능한 재귀 메타구조 모델 제시, (2) 재귀 메타경로·트리 분해와 통행 행렬 기반 유사도 정의, (3) 로컬·글로벌 가중치 전략을 통한 유연한 중요도 조정, (4) 다양한 실험을 통한 강건성 및 성능 우위 검증이다. 다만, 재귀 메타구조의 크기가 매우 클 경우 행렬 연산 비용이 증가할 수 있어 효율적인 근사 방법이나 차원 축소 기법이 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기