텍스트와 토폴로지를 동시에 활용한 LLM 기반 OOD 탐지 플러그인
초록
본 논문은 텍스트‑속성 그래프에서 노드의 구조와 의미를 모두 반영한 OOD 탐지 방법인 LG‑Plug를 제안한다. GCN과 Transformer 기반 텍스트 인코서를 정렬해 미세한 노드 임베딩을 만들고, 임베딩 공간을 클러스터링한 뒤 LLM에 반복 프롬프트를 적용해 신뢰성·정보성을 겸비한 가짜 OOD 샘플을 생성한다. 생성된 OOD 노출을 정규화 항으로 기존 토폴로지‑기반 OOD 탐지기에 삽입함으로써, 6개 TAG 벤치마크에서 FPR95를 최소 7%·5%씩 낮추는 성능 향상을 입증한다.
상세 분석
LG‑Plug는 크게 세 단계로 구성된다. 첫 번째 단계는 Topology‑Text Representation Alignment이다. 그래프 구조를 캡처하는 2‑layer GCN(Φ_GE)과 텍스트 의미를 추출하는 Transformer(Φ_TE)를 각각 사용해 노드별 d‑차원 임베딩 z_i와 h_i를 얻는다. 이후 L2 정규화된 임베딩을 기반으로 온도 τ를 적용한 유사도 행렬 Λ₁을 계산하고, 교차‑엔트로피 형태의 대조 학습 손실을 최소화함으로써 텍스트와 토폴로지가 동일한 의미 공간에 정렬된다. 이 과정은 노드‑레벨 정렬뿐 아니라 인접 노드 간 관계를 보존하는 Edge‑Level Alignment 손실도 포함해 구조적 일관성을 강화한다.
두 번째 단계는 Consensus‑Driven OOD Exposure이다. 정렬된 임베딩을 K‑means 등으로 클러스터링하고, 각 클러스터 내에서 중심에 가까운 대표 샘플을 선택한다. 선택된 대표에 대해 “해당 클러스터의 일반적인 의미는 무엇인가?” 라는 프롬프트를 LLM에 전달하고, LLM이 반환한 OOD 라벨·설명을 Category Codebook에 저장한다. 이후 동일 클러스터의 다른 샘플들은 코드북을 조회해 라벨을 재사용하거나, 불확실도가 높은 경우 추가 프롬프트를 수행한다. 이렇게 반복적인 “클러스터 → LLM → 코드북” 순환을 통해 신뢰성(ID와 겹치지 않음)과 정보성(실제 도메인에 근접한 의미) 사이의 균형을 맞춘 OOD 노출을 만든다. LLM 호출 횟수를 최소화하기 위해 Heuristic Sampling(예: 중심도 기반 샘플링)과 Lightweight In‑Cluster Codebook를 도입해 비용을 크게 절감한다.
세 번째 단계는 Plug‑and‑Play Regularization이다. 생성된 OOD 노출을 기존 토폴로지‑기반 OOD 탐지기(예: NodeSAFE, GRASP 등)의 손실 함수에 OOD Regularization Term으로 추가한다. 구체적으로는 ID 노드와 OOD 노드 간 거리(또는 에너지 차이)를 벌점 형태로 최소화하도록 설계한다. 이 설계는 기존 탐지기의 아키텍처를 변경하지 않고도 바로 적용 가능하게 만든다.
실험에서는 Cora, PubMed, ogbn‑arxiv 등 6개의 텍스트‑속성 그래프 데이터셋을 사용했으며, 대표적인 토폴로지‑기반 탐지기와 LLM‑기반 베이스라인(LMGuard, GLIP‑OOD, GOE‑LLM) 모두에 LG‑Plug를 적용했다. 결과는 FPR95(95% True Positive Rate에서의 False Positive Rate) 기준으로 최소 7%(토폴로지 기반)·5%(LLM 기반) 감소를 보였으며, 전반적인 AUROC도 향상되었다. 또한, Ablation Study를 통해 클러스터링 수, 코드북 크기, 프롬프트 설계가 성능에 미치는 영향을 분석하고, LLM 호출 횟수를 70% 이상 절감함을 확인했다.
핵심 기여는 다음과 같다. (1) 텍스트와 토폴로지를 동시에 정렬해 미세한 노드 임베딩을 얻는 방법론 제시, (2) 클러스터 기반 합의 메커니즘을 통해 신뢰·정보성 균형을 맞춘 OOD 샘플 생성, (3) 기존 탐지기에 최소한의 변경만으로 적용 가능한 플러그인 형태 설계, (4) 다양한 벤치마크에서 일관된 성능 향상 입증. 한계점으로는 LLM 품질에 의존하는 정도가 높으며, 클러스터링 파라미터 선택이 도메인마다 민감할 수 있다는 점, 그리고 현재 실험이 주로 학술 데이터셋에 국한돼 실제 산업 현장(예: 사이버 위협 그래프)에서의 검증이 부족하다는 점을 들 수 있다. 향후 연구는 LLM‑Free 대체 전략, 다중‑모달(이미지·텍스트) 그래프에 대한 확장, 그리고 온라인 스트리밍 환경에서의 실시간 OOD 탐지 적용을 목표로 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기