대조학습 기반 속성 하이퍼그래프 클러스터링 CAHC

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대조학습을 이용해 속성 하이퍼그래프의 노드 임베딩을 학습하고, 클러스터링 목표를 동시에 최적화하는 엔드‑투‑엔드 모델 CAHC를 제안한다. 노드‑레벨·하이퍼엣지‑레벨 두 가지 대조 손실과 클러스터링 손실을 결합해 기존 방법보다 높은 군집 품질을 달성한다.

상세 분석

CAHC는 기존 대조학습 기반 하이퍼그래프 클러스터링이 겪는 “클러스터링 비지도 학습”의 한계를 극복하기 위해 두 단계(표현 학습, 클러스터 할당 학습)를 통합한다. 표현 학습 단계에서는 노드 특성 마스킹과 하이퍼엣지 멤버십 마스킹이라는 두 가지 데이터 증강 기법을 적용해 서로 다른 두 뷰를 만든다. 공유된 하이퍼그래프 신경망(HGNN) 인코더는 멀티‑헤드 어텐션을 도입해 하이퍼엣지 내부의 노드 중요도를 가중치화한다. 이때 노드‑레벨 대조 손실 L_node은 동일 노드의 두 뷰 간 코사인 유사도를 최대화하고, 다른 노드와는 구분하도록 InfoNCE 형태로 설계되었다. 하이퍼엣지‑레벨 대조 손실 L_hyper는 실제 하이퍼엣지와 무작위로 변형한 부정 하이퍼엣지를 구분하도록 시그모이드 기반 이진 교차 엔트로피를 사용한다. 두 손실을 합산한 L_rep은 구조적 고차 관계와 개별 노드 구분성을 동시에 학습한다.

클러스터 할당 학습 단계에서는 초기 k‑means 로 얻은 클러스터 중심 c_k와 임베딩 z_i를 이용해 소프트 할당 μ_ik를 소프트맥스 형태로 계산한다(온도 τ_c 적용). 하드 할당 l_i는 μ_ik 중 최대값을 선택해 의사 라벨로 사용한다. 클러스터링 손실 L_clus는 교차 엔트로피 형태로 소프트 할당과 하드 라벨 간 차이를 최소화한다. 최종 손실 L = L_rep + L_clus 로 전체 모델을 공동 최적화함으로써 임베딩이 클러스터 구조에 직접적으로 정렬된다.

실험에서는 8개의 실세계 데이터셋(텍스트, 이미지, 바이오 등)에서 기존 최첨단 방법(SE‑HSSL, Hyper‑GCL, TriCL 등)보다 평균 4~7% 향상된 NMI/ARI를 기록했다. Ablation 연구를 통해 (1) 하이퍼엣지‑레벨 대조, (2) 멀티‑헤드 어텐션, (3) 클러스터링 손실 각각이 성능에 기여함을 확인했다. 또한, 코드 공개와 재현성을 강조해 GitHub 레포지토리를 제공한다. 전체적으로 CAHC는 대조학습과 클러스터링을 하나의 프레임워크로 결합함으로써, 하이퍼그래프의 고차 구조와 속성 정보를 동시에 활용하는 효율적인 비지도 군집화 솔루션을 제시한다.

대조학습 기반 속성 하이퍼그래프 클러스터링 CAHC

초록

상세 분석

댓글 및 학술 토론

의견 남기기