스티어링 강도 이해를 향해
초록
본 논문은 대형 언어 모델의 중간 표현을 조작하는 “스티어링” 기법에서, 방향은 이미 알려졌지만 스티어링 강도 α 의 선택이 모델 성능에 미치는 영향을 이론적으로 분석한다. 다음 토큰 확률, 개념 존재 확률, 교차 엔트로피에 대한 정량적 법칙을 도출하고, α가 비단단조적으로 변할 수 있음을 보인다. 실험적으로 11개 모델에 대해 이론을 검증한다.
상세 분석
이 연구는 최근 활발히 사용되는 “활성화 스티어링” 방법을 수학적으로 정형화한다. 저자는 먼저 어휘를 G개의 개념 집합으로 균등하게 분할하고, 각 컨텍스트는 하나의 개념에만 속하도록 제한한다. 이렇게 하면 토큰 z 가 같은 개념에 속하면 확률 a_z, 다른 개념이면 b_z (1 > a_z > b_z > 0) 로 정의되는 매우 단순한 데이터 생성 모델을 만든다. 이 가정은 실제 LLM에서 개념이 복합적으로 얽혀 있음을 무시하지만, 개념 방향 v 에 대한 스티어링 효과만을 순수하게 분석할 수 있게 한다.
모델 자체는 “제한 없는 특징 모델”(UFM)로, 컨텍스트 c_j 를 d‑차원 임베딩 h_j 에 매핑하고, 선형 디코더 W 를 통해 어휘 차원으로 투사한다. 소프트맥스를 적용하면 다음 토큰 분포가 얻어지며, 훈련 목표는 데이터의 실제 조건부 확률 p(z|c_j) 와 정확히 일치하도록 하는 것이다. 저자는 완벽히 학습된 상태(Assumption 2)를 가정하고, 스티어링 벡터 v 를 “긍정” 컨텍스트 집합 P와 “부정” 컨텍스트 집합 N 의 평균 임베딩 차이로 정의한다.
핵심 이론은 세 가지 정량적 결과에 집중한다. 첫째, 스티어링 강도 α 가 변할 때 특정 토큰 z 의 확률 증가량 Δp(z,α) 는 대부분 “버ump” 형태를 보인다. 즉, α가 작을 때는 확률이 증가하다가 어느 지점 α(j,z) 에서 정점을 찍고, 그 이후에는 다시 감소한다. 이는 토큰이 목표 개념에 속하든 아니든 동일하게 나타난다. 다만 목표 개념에 속하는 토큰 중 로그오즈 M(z) 가 최대인 경우(집합 𝓜)와 최소인 경우(집합 𝓜̅)는 각각 단조 증가·감소를 보인다. 둘째, 개념 존재 확률(특정 개념 토큰들의 총합) 역시 α에 대해 비단조적이며, 특정 구간에서 급격히 상승했다가 다시 하강한다. 셋째, 교차 엔트로피는 α가 0일 때 최소이며, 양쪽으로 멀어질수록 손실이 증가한다. 특히 큰 α(→∞)에서는 모델이 완전히 새로운 임베딩 h_j+αv 에 의해 지배받아, 원래 학습된 확률 분포와는 무관한 균일한 분포에 수렴한다는 명시적 한계값을 제시한다(Prop. 4.1).
이론적 결과는 로그오즈 M(z) = (1/q)·log(∏{i∈P}p(z|c_i)/∏{i∈N}p(z|c_i)) 로 정의된 양에 의해 결정된다. 즉, v 가 실제로 목표 개념을 잘 포착하고 있을수록 M(z) 가 크게 양수이며, 이는 Δp(z,α) 의 피크가 더 큰 α 값에 위치하고, 목표 토큰의 확률 상승 폭이 넓어짐을 의미한다. 반대로 v 가 잡음이 섞여 있으면 M(z) 가 작아져 버ump이 얕아지고, 과도한 α 가 오히려 성능을 저하시킨다. 이러한 비단조적 현상은 기존 실험에서 “스티어링 강도가 너무 크면 모델이 파괴된다”는 직관을 정량적으로 설명한다.
실험에서는 GPT‑2‑small부터 최신 70B 규모 모델까지 11종을 대상으로, 차이‑평균 방식(contrastive)과 무작위 방식(random) 두 가지 N 구성을 사용했다. 결과는 이론이 예측한 바와 일치했으며, 특히 목표 개념 토큰이 “버ump” 형태를 보이고, α 가 약 0.5~1.5 사이에서 최적의 성능을 달성한다는 점을 확인했다. 또한, α 가 지나치게 크면 전체 토큰 확률이 평탄해져 교차 엔트로피가 급격히 상승함을 관찰했다.
이 논문은 스티어링 강도 선택에 대한 명확한 가이드라인을 제공한다. 실무에서는 M(z) 를 사전 계산해 α 의 초기값을 설정하고, 검증 데이터에서 Δp(z,α) 의 버ump 위치를 추정해 최적 α 를 찾는 절차가 제안된다. 또한, v 의 품질을 평가하기 위해 로그오즈 M(z) 의 분산을 측정하면, 스티어링이 과도하게 강해지는 위험을 사전에 감지할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기