LLM 추론 메커니즘을 통합 정책 그래디언트로 해석하고 제어하기
초록
본 논문은 LLM의 복합 추론 과정을 결과‑지향적이고 순차‑영향을 고려한 방식으로 분석한다. 새로운 프레임워크인 Integrated Policy Gradient(IPG)를 제안해, 최종 정답 정확도와 같은 비미분 가능 신호를 전체 추론 경로에 역전파함으로써 내부 뉴런·SAE 특징 등 구성 요소의 기여도를 정량화한다. 실험을 통해 IPG가 기존 방법보다 추론 메커니즘을 정밀히 국소화하고, 추론 능력·강도 등을 안정적으로 조절할 수 있음을 입증한다.
상세 분석
IPG는 기존의 텍스트‑패턴 기반 해석과 대비되는 세 가지 핵심 장점을 갖는다. 첫째, 정책 그래디언트를 파라미터 공간이 아니라 내부 표현 공간(히든 상태 혹은 SAE 특징)으로 확장함으로써, “정답 여부”와 같은 최종 보상 신호를 토큰 선택 확률의 로그에 대해 미분한다. 이때 advantage 함수 Aπ(sₜ,aₜ)는 장기 보상의 기대값을 추정해, 각 토큰이 전체 추론 결과에 미치는 영향을 정량화한다. 둘째, 단일 점에서의 기울기만을 이용하는 전통적 방법과 달리, IPG는 baseline (예: 0)에서 실제 활성값까지 선형 보간 경로를 따라 적분한다. 이는 Sundararajan et al.의 Integrated Gradients와 동일한 원리로, 기여도의 전역적 누적을 보장하고 노이즈를 크게 감소시킨다. 셋째, 샘플 단위의 기여 점수를 데이터셋 전체에 평균·표준편차 등 통계량으로 집계해, 특정 컴포넌트가 다수 질문에 걸쳐 일관된 영향력을 갖는지를 판단한다.
실험에서는 공개된 여러 규모의 오픈‑소스 LLM(예: LLaMA‑2, Qwen‑1.5)과 파인‑튜닝된 추론 전용 변형 모델을 대상으로, (1) “reasoning capability”(정답률)와 (2) “reasoning strength”(생성 토큰 수)라는 두 가지 J(·) 함수를 적용했다. IPG가 선정한 상위 뉴런·SAE 특징을 γ = 1.5(증강) 혹은 γ = 0.5(억제) 비율로 스케일링했을 때, 정답률이 평균 12 %p 상승하거나, 반대로 9 %p 하락하는 등 강력한 제어 효과를 보였다. 특히, 동일 모델 내에서 파인‑튜닝된 추론 모델에 대해 사전 학습된 모델에서 도출한 컴포넌트를 그대로 사용해도 유사한 조절 성능을 유지했으며, 이는 “컴포넌트 전이성”을 입증한다.
한계점으로는 (i) 정책 그래디언트 추정에 샘플링 변동성이 존재해, 매우 작은 데이터셋에서는 신뢰도 감소, (ii) SAE를 사전 학습해야 하는 추가 비용, (iii) 현재는 정답/오답이라는 이진 보상에 초점을 맞추어 복합적인 추론 품질(예: 논리 일관성) 평가에선 추가 설계가 필요함을 들 수 있다. 향후 연구에서는 다중 보상 설계, 효율적인 경로 적분 근사, 그리고 비언어적 모델(멀티모달)로의 확장을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기