LLM 예측 안정성을 측정하는 토큰 제약 경계(δTCB)와 임베딩 기하학적 해석
초록
본 논문은 대형 언어 모델(LLM)의 다음 토큰 예측이 내부 상태 변동에 얼마나 견고한지를 정량화하는 새로운 지표, 토큰 제약 경계(δTCB)를 제안한다. δTCB는 출력 임베딩 공간의 기하학과 출력 확률의 제이코비안(Frobenius) 노름을 연결해, 작은 hidden state 교란이 토큰 순위에 미치는 영향을 상한으로 제공한다. 실험을 통해 δTCB가 프롬프트 품질, 인-컨텍스트 학습(ICL) 효과, 그리고 퍼플렉시티가 놓치는 불안정성을 포착함을 보이며, 모델 안정성 평가와 프롬프트 설계에 실용적인 보조 지표가 될 수 있음을 입증한다.
상세 분석
이 논문은 LLM의 “즉시 예측 안정성”이라는 새로운 평가 차원을 도입한다. 기존의 정확도·퍼플렉시티는 전체 성능을 평균적으로만 보여주며, 개별 토큰이 내부 표현 변동에 얼마나 민감한지를 드러내지 못한다. 저자들은 이를 해결하기 위해 토큰 제약 경계(δTCB)를 정의한다. δTCB는 hidden state h에 대한 작은 교란 Δh가 출력 확률 벡터 o에 미치는 L2 변화 Δo를 제한하는 ε(사용자 정의 허용 오차)와 출력 제이코비안 J_W(h)의 Frobenius 노름 ‖J_W(h)‖_F 사이의 곱으로 계산된다(δTCB = ε·‖J_W(h)‖_F). 즉, δTCB가 클수록 현재 예측이 내부 상태 교란에 대해 “안전 마진”이 넓다는 의미다.
핵심 이론적 기여는 제이코비안 노름을 출력 임베딩의 기하학적 분산과 정확히 연결한 점이다. 저자는 ‖J_W(h)‖_F² = ∑_i o_i²·‖w_i − μ_w(h)‖² 라는 식을 증명한다. 여기서 w_i는 토큰 i의 출력 임베딩, μ_w(h)=∑_j o_j w_j는 현재 확률 가중 평균 임베딩이다. 따라서 높은 확률을 가진 토큰이 주변 토큰 임베딩과 멀리 떨어져 있을수록 ‖J_W(h)‖_F가 작아지고, δTCB가 커져 예측이 안정된다. 반대로 확률이 고르게 퍼져 있거나 주요 토큰 임베딩이 군집에 밀집해 있으면 ‖J_W‖_F가 커져 δTCB가 작아지고, 작은 내부 교란에도 순위가 뒤바뀔 위험이 있다.
실험에서는 (1) 프롬프트 변형에 따른 δTCB 변화를 측정해, “높은 자신감” 프롬프트가 δTCB를 크게 늘리는 반면, 저신뢰 프롬프트는 δTCB가 감소함을 확인했다. (2) 인-컨텍스트 학습 예시를 추가했을 때, 초기 몇 개의 예시는 δTCB를 일시적으로 낮추고 예측을 뒤바꾸지만, 일관된 예시가 누적되면 목표 토큰에 대한 δTCB가 상승한다. 이는 δTCB가 프롬프트 설계와 ICL 전략을 정량적으로 평가할 수 있는 지표임을 시사한다. (3) 퍼플렉시티와는 달리, δTCB는 동일한 확률값을 가진 토큰이라도 내부 임베딩 배치 차이로 인한 불안정성을 드러낸다.
또한 저자들은 δTCB를 활용해 텍스트 생성 과정 중 “불안정 구간”을 사전에 탐지하고, 해당 구간에서 샘플링 온도를 조절하거나 재프롬프트하는 전략을 제안한다. 이는 생성 품질을 유지하면서도 갑작스러운 토큰 전환을 방지하는 실용적 응용이다. 전체적으로 δTCB는 LLM의 로컬 안정성을 수학적으로 정의하고, 임베딩 기하학과 연결함으로써 기존 메트릭이 놓친 미세한 변동성을 포착한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기