한 번의 추론으로 신뢰도 추정 구조적 신호 기반 LLM confidence
초록
본 논문은 대형 언어 모델(LLM)의 출력 정확성을 단일 패스에서 추정하기 위해, 최종 레이어 숨겨진 상태의 궤적을 분석하는 구조적 신호 프레임워크를 제안한다. 스펙트럼 안정성, 지역 변동성, 전역 형태 일관성이라는 세 가지 다중 스케일 특성을 추출해 경량 회귀 모델에 입력함으로써, 기존 확률·임베딩·다중 샘플 기반 방법보다 높은 AUROC·AUPR을 달성한다.
상세 분석
Structural Confidence는 “숨겨진 상태 궤적 구조 안정성”을 새로운 confidence modality로 정의한다. 핵심 가설은 모델이 자신감 있게 답변을 생성할 때 최종 레이어의 토큰‑레벨 hidden state가 저주파, 매끄러운 궤적을 따라 움직이며 전역적으로 압축된 형태를 유지한다는 점이다. 반대로 불확실하거나 hallucination이 발생하면 고주파 진동, 급격한 국부 변동, 파편화된 전역 구조가 나타난다. 이를 정량화하기 위해 세 가지 구조적 디스크립터를 설계하였다.
-
Spectral Stability: 숨겨진 상태 시퀀스를 시간‑주파수 도메인으로 변환해 파워 스펙트럼을 계산하고, 저주파 성분 비율과 고주파 에너지 비율을 특징으로 사용한다. 높은 저주파 비율은 부드러운 흐름을, 높은 고주파 비율은 급격한 변동을 의미한다.
-
Local Variation: 인접 토큰 간의 유클리드 거리와 코사인 유사도를 측정해 평균·분산을 구한다. 급격한 변화가 많을수록 local variation 점수가 낮아 confidence가 감소한다.
-
Global Shape Coherence: 전체 궤적을 저차원 (예: PCA 5차원)으로 투영한 뒤, 궤적의 곡률, 길이, 그리고 전체 볼륨(Convex Hull) 등을 계산한다. 일관된 방향성을 가진 궤적은 작은 곡률·큰 볼륨을 보이며, 이는 높은 신뢰도로 매핑된다.
구조적 디스크립터는 프록시 인코더(BERT‑base)에서 추출한다. 실제 서비스 LLM(GPT‑4o 등)은 토큰 확률이나 내부 활성화를 제공하지 않으므로, 입력‑출력 텍스트를 그대로 인코더에 넣어 최종 레이어 hidden state 시퀀스를 얻는다. 이 과정은 완전한 black‑box 환경에서도 적용 가능하도록 설계되었으며, 토크나이저 차이로 인한 미세한 정렬 오류는 활성화 기하학이 토큰 레벨보다 강인하기 때문에 크게 영향을 주지 않는다.
추출된 𝑓(τ) 벡터는 경량 MLP(두 개의 은닉층, ReLU)로 매핑돼 스칼라 confidence score 𝑐_struct를 산출한다. 논문에서는 또한 기존의 sentence‑level 임베딩(예: SBERT)과 간단히 concatenate하여 다중 모달 융합 모델을 실험했으며, 이는 성능을 약간 향상시켰지만 구조적 신호만으로도 충분히 경쟁력 있는 결과를 보였다.
실험은 FEVER, SciFact, WikiBio‑hallucination, TruthfulQA 네 가지 도메인에서 수행되었다. 모든 벤치마크에서 AUROC와 AUPR 기준으로 기존 확률 기반(log‑prob), 임베딩 기반(SBERT‑classifier), 그리고 샘플링 기반(SelfCheckGPT)보다 우수했으며, 특히 도메인 이동이 큰 SciFact와 TruthfulQA에서 성능 격차가 두드러졌다. 또한 FLOPs와 지연 시간 측면에서 구조적 방법은 SelfCheckGPT 대비 5‑6배 적은 연산량과 4‑5배 짧은 latency를 기록, 실시간 서비스에 적합함을 입증했다.
한계점으로는 프록시 인코더의 선택이 결과에 영향을 미칠 수 있다는 점과, 매우 긴 출력(>256 토큰)에서는 트렁케이션이 필요해 정보 손실이 발생할 가능성이 있다. 향후 연구에서는 다중 레이어·다중 스케일 궤적을 동시에 활용하거나, 토큰‑레벨 attention map과 결합해 더욱 정교한 불확실성 모델을 구축할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기