스펙트럼 가드레일: 에이전트 환각 탐지를 위한 새로운 방패

스펙트럼 가드레일: 에이전트 환각 탐지를 위한 새로운 방패
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 도구 사용 중 발생하는 LLM 에이전트의 환각을 라벨링 없이 탐지하기 위해, 어텐션 행렬을 그래프로 해석하고 라플라시안 스펙트럼 특성을 분석하는 훈련‑프리 가드레일을 제안한다. Llama 3.1 8B에서는 단일 레이어 스무스니스 지표만으로 98.2%의 리콜을 달성했으며, 다중 특성 결합으로 97.7% 리콜을 얻었다. 또한 Mistral 7B는 AUC 0.90으로 가장 높은 구분력을 보였으며, “Loud Liar” 현상(대형 모델의 환각이 스펙트럼적으로 급격히 악화됨)을 발견했다.

상세 분석

이 연구는 어텐션 매트릭스를 동적 가중치 그래프로 변환한 뒤, 대칭화와 헤드 가중합을 통해 레이어별 단일 그래프 (\bar W^{(\ell)}) 를 만든다. 라플라시안 (L^{(\ell)} = \bar D^{(\ell)} - \bar W^{(\ell)}) 의 고유값·고유벡터를 이용해 네 가지 스펙트럼 진단 지표를 정의한다. 첫째, 스펙트럼 엔트로피 (SE^{(\ell)})는 에너지 분포의 균일성을 측정해, 환각 시 고주파 모드에 에너지가 퍼지는 현상을 포착한다. 둘째, 피델러 값 (\lambda_2^{(\ell)})은 그래프 연결성을 나타내며, 환각 시 그래프가 파편화되는 경향을 드러낸다. 셋째, 스무스니스 (S^{(\ell)})는 라플라시안 형태의 그래프 신호 변동을 정규화한 값으로, 정상 추론에서는 토큰 간 표현이 유사해 1에 가깝지만, 환각 시 급격히 감소한다. 넷째, 고주파 에너지 비율 (HFER^{(\ell)})은 고주파 성분 비중을 직접 측정해 노이즈화된 내부 상태를 식별한다.

실험에서는 Glaive Function Calling v2 데이터셋을 사용해 세 모델(Qwen 2.5 0.5B, Mistral 7B, Llama 3.1 8B)을 동일한 General/Mixed 도메인(샘플 1000, 온도 0.3)에서 평가하였다. 다중 특성 결합(5‑feature)으로 Llama 8B는 97.7% 리콜, 34% 정밀도를 기록했으며, 단일 레이어 L26 스무스니스만으로 98.2% 리콜을 달성했다. 이는 “Loud Liar” 현상이라 부르며, Llama가 환각할 때 스펙트럼 에너지가 급격히 확산돼 탐지가 용이함을 의미한다. 반면 Mistral 7B는 AUC 0.90으로 가장 높은 구분력을 보였지만 최대 리콜은 91.3%에 머물렀다. 이는 Mistral이 정상·비정상 호출 사이의 스펙트럼 경계가 더 명확히 구분된다는 점을 시사한다. Qwen은 중간 수준의 리콜(86.5%)과 가장 높은 단일 특성 정밀도(40%)를 보였지만, 전반적인 성능은 두 대형 모델에 비해 낮았다.

도메인 별 분석에서는 Llama 8B가 Finance 도메인에서 61.3%의 높은 환각율을 보이며, General 도메인(21.7%)에 비해 2.8배 더 많이 오류를 발생시켰다. 그러나 스펙트럼 기반 탐지는 두 도메인 모두에서 높은 리콜을 유지한다. 계산 복잡도 측면에서 전체 고유값 분해는 (O(N^3)) 이지만, Lanczos 알고리즘을 활용해 필요한 (k) 개 고유값만 추출함으로써 (O(N^2 k)) 시간으로 줄였으며, 토큰 길이 <N≈200 인 경우 10~50 ms 정도의 오버헤드만 발생한다. 이는 실시간 에이전트 배포에 충분히 실용적이다.

이 논문은 (1) 라벨이 없는 상황에서도 어텐션 스펙트럼을 이용해 높은 리콜의 안전 가드레일을 제공한다는 점, (2) 모델 아키텍처에 따라 환각의 스펙트럼 특성이 크게 다름을 밝혀 “Loud Liar”와 “Clean Discriminator”라는 두 현상을 정의한다는 점, (3) 모델·도메인 별 맞춤형 배포 전략을 제시한다는 점에서 의미가 크다. 특히 단일 레이어 스무스니스와 같은 간단한 지표만으로도 거의 완벽에 가까운 환각 탐지가 가능하다는 결과는, 향후 LLM‑기반 에이전트의 안전성 강화에 실용적인 도구가 될 전망이다.


댓글 및 학술 토론

Loading comments...

의견 남기기