LLM 내부 흐름 서명으로 자기 검증 및 정밀 개선
초록
본 논문은 대형 언어 모델(LLM)의 토큰 생성 과정에서 깊이별 내부 상태 변화를 “내부 흐름 서명”으로 추출하고, 이를 경량 GRU 검증기로 학습시켜 자체적인 오류 감지와 원인 위치 파악을 가능하게 한다. 감지된 비정상 깊이에서 토큰을 되돌리고, 해당 블록의 비정상적인 이동을 고정함으로써 최소한의 개입으로 hallucination을 정정한다.
상세 분석
이 연구는 LLM이 생성 과정에서 보이는 미세한 내부 동역학을 정량화하는 새로운 프레임워크를 제시한다. 먼저 모델의 잔차 스트림을 고정된 블록 경계에서 읽어들인 뒤, 각 블록마다 학습된 정규화 바이어스 β b를 빼는 “bias‑centered monitoring”을 수행한다. 이는 깊이마다 발생하는 토큰‑공통 오프셋을 제거해 토큰별 움직임을 순수하게 의사결정 흐름으로 만든다. 이후 각 깊이 구간(L‑window) 안에서 현재 토큰의 최고 로그잇과 그 근접 경쟁자 K개를 선정하고, 이들 차이 벡터를 모아 SVD를 적용해 k‑차원 이동 서브스페이스 U j를 만든다. 서브스페이스는 깊이에 따라 움직이지만, 인접 윈도우 사이를 정규 직교 변환 R j→j+1 으로 정렬함으로써 “transported step”와 “turning angle”을 동일 좌표계에서 비교 가능하게 만든다. 이렇게 얻은 ∆p, s, θ 등은 토큰이 깊이마다 어떻게 이동했는지를 정량화한다. 또한, 정규화 전 주의(attention)와 MLP 기여를 경로 적분 방식으로 분해해 ∆q_attn, ∆q_mlp을 구하고, 잔차 η를 통해 비선형 정규화 효과를 측정한다. 이러한 풍부한 기하학적 특징을 입력으로 하는 경량 GRU 검증기는 토큰 수준에서 정상·비정상 흐름을 구분하고, 비정상 단계가 발생한 블록을 정확히 로컬라이징한다. 검증기가 식별한 블록에서는 토큰을 해당 시점으로 롤백하고, 비정상적인 이동을 클램프하면서 정규화된 잔여 성분을 그대로 유지한다. 이 “targeted refinement”는 전체 모델을 재학습하거나 파라미터를 수정하지 않고도 hallucination을 크게 감소시킨다. 논문은 이러한 파이프라인이 다양한 모델·태스크에 걸쳐 일관된 성능 향상을 보이며, 내부 흐름 서명이 LLM의 신뢰성 평가와 실시간 교정에 유용한 신호임을 입증한다. 주요 기여는 (1) 깊이별 동적 변화를 안정적으로 측정하는 bias‑centered, moving‑subspace 기법, (2) 전역 좌표계 의존성을 없애는 orthogonal transport, (3) 경량 검증기로 구현된 셀프‑체크와 정밀 개입 메커니즘이다. 한계점으로는 서브스페이스 차원 k와 윈도우 길이 L 등 하이퍼파라미터 선택이 태스크마다 최적화가 필요하고, 현재 실험이 주로 텍스트 생성·사실성 평가에 국한되어 있어 다른 모달리티나 복합 태스크에 대한 일반화 검증이 남아 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기