그래프와 텐서 결합 분해를 통한 추천 및 커뮤니티 탐지

본 연구는 다중 관계 데이터를 다루는 현대 정보 시스템에서, 텐서와 그래프 형태의 부수 정보를 동시에 활용함으로써 데이터 복원과 커뮤니티 탐지 성능을 크게 향상시키는 새로운 프레임워크를 제시한다. 서론에서는 소셜 네트워크, 추천 시스템, 바이오이미징 등에서 관측되지 않은 데이터가 빈번히 발생하고, 이러한 결측을 보완하기 위해 기존에는 행렬·텐서 분해(MF, TF)와 CMTF가 활용되어 왔지만, 아이템 간 상호작용을 그래프 형태로 제공하는 경우 기존 모델이 구조적 정보를 충분히 반영하지 못한다는 문제점을 지적한다. 이를 해결하기 위해 저자들은 ‘Coupled Graph‑Tensor Factorization (CGTF)’ 모델을 고안한다. CGTF는 3차 텐서 X를 저차원 비음수 요인 A₁, A₂, A₃로 PARAFAC 분해하고, 각 모드에 대응하는 그래프 인접 행렬 Gₙ을 대각선 스케일링된 비음수 행렬 분해 Aₙ diag(dₙ) Aₙᵀ와 결합한다. 여기서 dₙ은 그래프와 텐서 사이의 상대적 중요도를 조절하는 스칼라 가중치이며, Vₙ은 모델 오차를 나타낸다. 모델은 관측된 텐서 슬라브와 그래프 엣지를 각각 Ω, Ωₙ 집합으로 제한하고, 누락된 원소는 0으로 고정하는 제약을 포함한다. 문제 정의 단계에서 저자들은 최소제곱 손실을 기반으로 텐서 복원 오차와 그래프 복원 오차를 동시에 최소화하는 목적함수를 제시한다. 이때 비음수 제약과 관측 제약을 포함한다. 목적함수는 비볼록성을 띠므로 직접 최적화가 어려우며, 이를 해결하기 위해 ADMM(Alternating Direction Method of Multipliers) 기반 알고리즘을 설계한다. 핵심 아이디어는 보조 변수 Ȧₙ, ˜Aₙ, ˜dₙ을 도입해 각 블록을 볼록하게 만든 뒤, 라그랑주 승수를 이용해 일관성을 유지하는 것이다. 각 업데이트 단계는 다음과 같다: (1) Aₙ 업데이트는 텐서 모드‑1 행렬곱 Mₙ와 그래프 가중치 Dₙ를 포함한 선형 시스템을 풀어 얻는다; (2) dₙ 업데이트는 대각선 스케일링 행렬과 그래프 벡터화된 형태를 이용해 닫힌 형태로 계산; (3) Ȧₙ 업데이트는 그래프 복원 항을 최소화하는 선형 시스템; (4) ˜Aₙ, ˜dₙ은 비음수 투영을 통해 간단히 구한다; (5) 누락된 텐서와 그래프 원소는 복원된 요인들을 이용해 직접 채워진다; (6) 라그랑주 승수는 표준 ADMM 방식으로 갱신한다. 초기값은 SNMF 알고리즘을 이용해 그래프의 관측된 부분만으로 Aₙ를 추정하고, dₙ은 전부 1로 설정한다. 수렴 기준은 원시 및 이중 잔차가 사전에 정의된 임계값 이하가 될 때이다. 저자들은 이 알고리즘이 각 블록에 대해 정확히 최소화되므로 stationary point에 수렴한다는 이론적 근거를 제공한다. 다음 장에서는 복원된 요인 Aₙ를 활용한 커뮤니티 탐지 방법을 제시한다. 기존 커뮤니티 탐지는 그래프만을 이용해 모듈러리티 최적화나 스펙트럴 클러스터링을 수행하지만, CGTF는 텐서 정보까지 결합해 노드 간 유사성을 재정의한다. 구체적으로, 각 노드 i에 대해 Aₙ(i,:)의 최대값을 갖는 차원을 선택함으로써 커뮤니티 라벨을 할당한다. 실험 결과, 그래프 링크가 30% 이상 누락된 경우에도 텐서와 결합된 CGTF는 정확한 커뮤니티 구조를 복원한다. 실험 섹션에서는 두 개의 실제 데이터셋(예: MovieLens 1M, Amazon 리뷰)과 합성 데이터에서 CGTF를 평가한다. 비교 대상은 기존 CMTF, Bayesian CMTF, 그리고 단순 NMF·SNMF 기반 방법이다. 평가 지표는 RMSE(추천 정확도), AUC(링크 예측), NMI(커뮤니티 정밀도)이다. CGTF는 모든 지표에서 평균 5~12% 향상을 보였으며, 특히 그래프가 심하게 손상된 상황에서 기존 방법이 급격히 성능 저하를 보이는 반면, CGTF는 견고한 복원 능력을 유지했다. 또한 알고리즘의 실행 시간은 폐쇄형 업데이트 덕분에 경쟁 방법보다 30% 정도 빠르게 수렴했다. 마지막으로 논문은 몇 가지 한계와 향후 연구 방향을 제시한다. 첫째, 현재 구현은 메모리 사용량이 그래프·텐서 크기에 비례하므로 대규모 실시간 시스템에선 추가적인 분산/스트리밍 기법이 필요하다. 둘째, 하이퍼파라미터 μ와 요인 차원 R에 대한 자동 선택 메커니즘이 아직 미비하다. 셋째, 악성 사용자나 스팸 링크와 같은 이상치에 대한 강인성 강화를 위해 정규화 항이나 베이지안 사전분포를 도입할 여지가 있다. 향후 연구에서는 이러한 확장을 통해 CGTF를 더욱 일반화하고, 다양한 도메인(예: 뇌신경 연결망, 금융 거래 네트워크)에도 적용할 계획이다.

그래프와 텐서 결합 분해를 통한 추천 및 커뮤니티 탐지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기