다양한 생성 경로를 위한 스테펠 기반 활성화 스티어링

다양한 생성 경로를 위한 스테펠 기반 활성화 스티어링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

STARS는 훈련 없이 추론 단계에서 언어 모델의 은닉 활성화를 조작해, 동시에 진행되는 여러 생성 흐름을 서로 직교하도록 유도한다. 스테펠 다양체 위에서 볼륨을 최대화하는 최적화 목표를 설정하고, 실시간 추론에 맞춘 일괄 업데이트 방식을 제안한다. 실험에서 기존 샘플링 기법보다 높은 다양성과 품질을 동시에 달성한다.

상세 분석

본 논문은 언어 모델이 동일한 고확률 토큰에 집중하면서 발생하는 “다양성 붕괴” 문제를 근본적으로 해결하고자 한다. 기존의 온도, nucleus, beam 등 토큰‑레벨 샘플링 기법은 각 실행을 독립적으로 난수화하지만, 서로 간의 전역적 발산 목표를 부여하지 못한다. STARS는 이러한 한계를 넘어, 여러 병렬 생성 경로의 은닉 상태를 매 토큰마다 수집하고, 각각에 대해 직교하는 스티어링 벡터를 추가한다. 핵심 아이디어는 볼륨 최대화이다. 활성화 행렬 H∈ℝ^{d×N}와 스티어링 행렬 V∈ℝ^{d×N}에 대해 (H+V)ᵀ(H+V)의 행렬식 로그를 최소화함으로써, {h_i+v_i}가 형성하는 평행육면체의 기하학적 부피를 최대화한다. 이는 서로 다른 경로가 활성화 공간에서 가능한 한 넓게 퍼지도록 강제한다.

제약조건 VᵀV=αI는 스티어링 벡터들의 정규 직교성을 보장한다. 이 제약은 스테펠 다양체 St(d,N,α) 위에 정의되며, 비볼록 구조이므로 일반적인 투영 그라디언트 방식은 수렴을 보장하지 못한다. 논문은 여기서 리만 기하학적 최적화를 도입한다. ℓ(V)=−log det((H+V)ᵀ(H+V))의 유클리드 그라디언트를 스테펠 다양체의 접공간에 사영해 Riemannian gradient를 얻고, 적절한 라인 서치를 통해 업데이트한다. 이 과정은 수렴 보장을 제공하지만, SVD와 행렬 연산이 매 토큰마다 필요해 실시간 추론에는 부적합하다.

이를 해결하기 위해 저자들은 단일 단계 폐쇄형 업데이트를 설계한다. 초기화 단계에서 H의 SVD를 수행해 직교 보완 공간 Q₂를 구하고, Q₂의 임의 열을 α^{1/2} 스케일링해 V₀를 만든다. 이후 (H+V₀)ᵀ(H+V₀)의 고유값을 이용해 2차 근사식으로 최적 스텝 사이즈 η를 도출한다. 이 η는 closed‑form이며, 매 토큰마다 추가적인 라인 서치 없이 바로 적용 가능하다. 결과적으로 시간 복잡도 O(dN²) 수준으로 낮아져, 대형 모델에서도 지연 없이 적용할 수 있다.

실험에서는 코드 생성, 수학적 증명, 과학적 가설 탐색 등 4가지 베엔치마크에 대해 STARS와 온도·핵심·top‑k·self‑speculative 등 기존 방법을 비교한다. 다양성 지표(Distinct‑n, Self‑BLEU, Volume‑based)와 품질 지표(Exact Match, Human Rating) 모두에서 STARS가 가장 높은 점수를 기록한다. 특히 N=8,16일 때 “다양성 붕괴”가 현저히 감소하고, 최종 선택 단계에서 더 좋은 솔루션을 찾는 비율이 20‑30% 상승한다. Ablation 연구에서는 (1) 직교 제약을 제거했을 때 볼륨이 감소하고, (2) 단일 단계 업데이트 대신 완전 Riemannian GD를 사용했을 때 지연이 5배 이상 늘어나는 것을 확인한다.

한계점으로는 (a) 스티어링을 적용할 레이어와 헤드 선택이 경험적이며, (b) α 하이퍼파라미터가 너무 크면 원래 활성화 정보를 훼손해 품질 저하가 발생한다는 점을 언급한다. 향후 연구에서는 자동 레이어 선택, 다중 스케일 스티어링, 그리고 선택기와의 공동 최적화를 통해 더욱 효율적인 탐색 프레임워크를 구축하고자 한다.


댓글 및 학술 토론

Loading comments...

의견 남기기