스펙트럼 기반 실시간 오류 탐지: EigenTrack으로 LLM·VLM의 환각·OOD를 미리 포착

스펙트럼 기반 실시간 오류 탐지: EigenTrack으로 LLM·VLM의 환각·OOD를 미리 포착
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EigenTrack은 대형 언어·시각‑언어 모델의 은닉 활성화에 대한 공분산 스펙트럼을 실시간으로 추출하고, 엔트로피·고유값 간격·MP 법칙과의 KL·워셔스테인스 거리 등을 특징으로 만든 뒤 경량 순환 신경망에 스트리밍하여 환각 및 도메인 외 입력을 조기에 탐지한다. 단일 순전파만 필요하며, 0.82‑0.96 AUROC 성능을 달성한다.

상세 분석

본 논문은 대형 언어 모델(LLM)과 시각‑언어 모델(VLM)에서 발생하는 환각(hallucination)과 도메인 외(Out‑of‑Distribution, OOD) 오류를 사전에 탐지하기 위한 새로운 프레임워크인 EigenTrack을 제안한다. 핵심 아이디어는 모델 내부의 고차원 은닉 활성화를 “스펙트럼 기하학”이라는 압축된 전역 서명으로 변환하고, 이 서명의 시간적 변화를 추적함으로써 구조적 붕괴를 조기에 감지한다는 점이다.

1️⃣ RMT 기반 이론적 배경
논문은 랜덤 매트릭스 이론(Random Matrix Theory, RMT)을 기반으로 한다. 고차원 데이터의 공분산 스펙트럼은 무작위 노이즈인 경우 Marchenko‑Pastur(MP) 법칙을 따르며, 실제 신호가 존재하면 BBP(바이크‑벤‑아루스‑페체) 전이 임계값을 초과하는 고유값이 MP 벌크 밖으로 튀어나온다. 저자들은 LLM의 레이어 정규화와 대규모 차원을 고려해 은닉 활성화 행렬이 MP 법칙에 근접한다고 가정하고, 환각·OOD 상황에서는 구조적 저차원 신호가 약화되어 스펙트럼이 노이즈에 가까워진다고 주장한다.

2️⃣ 슬라이딩 윈도우와 스펙트럼 특징 추출
각 디코딩 스텝 t에서 선택된 m개의 트랜스포머 레이어의 은닉 벡터 hℓ,t (ℓ∈L)를 연결해 v_t∈ℝ^{md}를 만든다. 최근 N 토큰을 모아 H_t∈ℝ^{N×md} 슬라이딩 윈도우 행렬을 구성하고, 이를 SVD로 분해해 고유값 λ_{t,i}=σ_{t,i}^2/N을 얻는다. 이후 22개의 스펙트럼 특징을 계산한다: (i) 상위 고유값, (ii) 고유값 간격(λ₁/λ₂ 등), (iii) 스펙트럼 엔트로피 S_t, (iv) 분산, (v) MP 기준과의 KL 발산, (vi) 1‑워셔스테인스 거리 등. 이러한 특징은 저차원 구조, 잡음 비율, 그리고 전체 스펙트럼 형태를 동시에 포착한다.

3️⃣ 시간적 분류기
특징 시퀀스 {F₁,…,F_T}를 입력으로 경량 RNN/GRU/LSTM을 사용한다. 순환 셀은 이전 스텝의 은닉 상태를 유지해 “표현 불안정성”이 누적되는 패턴을 학습한다. 출력 헤드는 이진 로짓을 제공해 현재 토큰이 “정상(사실/인‑도메인)”인지 “비정상(환각/OOD)”인지 판단한다. 파라미터 수는 시퀀스 길이에 독립적이며, 실시간 추론에 적합하도록 설계되었다.

4️⃣ 실험 설계 및 결과

  • 모델: LLaMa‑7B/13B, Qwen, Mistral, LLaVA 등 1‑7B 파라미터 모델을 대상으로 평가.
  • 데이터: 환각 탐지는 HaluEval(HotpotQA 기반)에서 사실 질문과 무관한 질문을 생성해 라벨링; OOD 탐지는 WebQuestions(인‑도메인) vs Eurlex(법률 도메인)으로 구성. VLM 실험에서는 Flickr8k 이미지와 텍스트를 결합.
  • 성능: AUROC 0.82‑0.94(환각) 및 0.85‑0.96(OOD) 달성. LLaMa‑7B 기준 0.89/0.92로 기존 SelfCheckGPT, HaloScope 등 대비 3‑7% 개선.
  • 효율성: 슬라이딩 윈도우 N=32~64 기준 평균 지연 4‑9 ms, 메모리 사용량은 윈도우 수와 특징 차원에 선형적으로 증가. 전체 파라미터는 1‑2 M 수준.

5️⃣ 장점 및 한계

  • 장점: 단일 순전파만 필요해 재샘플링 비용이 없으며, 내부 구조를 직접 활용해 블랙‑박스 방법보다 높은 조기 탐지율을 보인다. 또한 스펙트럼 기반 특성은 모델 크기·아키텍처에 비교적 일반화된다.
  • 한계: 슬라이딩 윈도우와 SVD 연산이 여전히 O(N²D) 복잡도를 가지므로, 매우 긴 컨텍스트에서는 비용이 증가한다. 또한 RMT 가정이 레이어 정규화가 약하거나 비정규화된 모델에선 정확히 맞지 않을 수 있다. 마지막으로 라벨링 파이프라인이 LLM‑as‑Judge에 의존해 자동 생성된 데이터의 품질에 민감하다.

전반적으로 EigenTrack은 “스펙트럼 → 시간 → 이진 판단”이라는 삼중 파이프라인을 통해 LLM·VLM의 내부 불확실성을 정량화하고, 실제 서비스 환경에서 비용 효율적인 오류 방지 메커니즘으로 활용 가능함을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기