잠재 행동 재생으로 LLM 추론을 내부화하는 동적 제어 프레임워크

잠재 행동 재생으로 LLM 추론을 내부화하는 동적 제어 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

STIR는 체인‑오브‑쓰스(Chain‑of‑Thought) 과정을 명시적 토큰 생성 없이 은닉 상태에 내재시키기 위해, 성공적인 추론 경로에서 추출한 “잠재 행동”을 도구 형태로 저장하고, 추론 중에 상황에 맞게 동적으로 주입하는 세 단계 파이프라인을 제안한다. 실험 결과, 6개 벤치마크에서 정확도가 1.9 %~7.5 % 상승하고 토큰 사용량이 최대 35 % 감소하였다.

상세 분석

본 논문은 기존의 정적 활성화 스티어링이 추론 과정의 시간적 비정상성에 적합하지 않다는 점을 지적하고, 이를 해결하기 위해 “동적 잠재 궤적 제어”라는 새로운 패러다임을 제시한다. 핵심 아이디어는 모델이 자체적으로 탐색하는 스토캐스틱 롤아웃 중, 성공적인 서브‑패스와 실패한 서브‑패스를 비교함으로써 은닉 상태 공간에서 필요한 교정 벡터를 추출한다는 것이다. 이를 위해 저자들은 (1) Differential Intrinsic Action Induction 단계에서 고보상과 저보상 롤아웃을 동일한 체크포인트에서 정렬하고, 각각의 평균 은닉 상태(µ⁺, µ⁻)를 계산한다. 두 평균의 차이 v = µ⁺ − µ⁻는 “잠재 행동”이라 불리는 교정 임펄스이며, 이는 실제로 오류 상태를 최적 궤도로 이동시키는 암시적 그래디언트 역할을 한다.

다음으로 (2) Sparse Control Basis Construction 단계에서는 이렇게 얻어진 수천 개의 후보 벡터를 고차원 공간에서 저차원 매니폴드에 압축한다. 저자들은 유틸리티와 정규직교성을 동시에 최적화하는 기하학적 목표 함수를 정의하고, 제한된 메모리 B(예: 64) 이하로 가장 다양하고 효과적인 도구 집합 M을 선택한다. 이 과정은 중복된 교정 신호를 제거하고, 추론 시 빠른 검색을 가능하게 한다.

마지막 (3) Value‑Modulated Trajectory Intervention 단계는 실제 디코딩 중에 작동한다. 현재 은닉 상태 h_t가 “anchor”(µ⁺)와 가까우면 교정 없이 그대로 진행하고, “negative centroid”(µ⁻)에 근접하면 사전 구축된 도구 v를 조회한다. 조회된 도구는 가치 함수(V)로 평가된 후, 필요 시 α·v를 residual stream에 주입한다. 이때 앵커 기반 게이팅 메커니즘은 과잉 개입을 방지하고, 가치‑모듈레이션은 상황에 맞는 교정 강도를 자동으로 조절한다.

실험에서는 LLaMA‑2‑7B, GPT‑NeoX‑20B 등 네 가지 모델에 대해 산술(예: GSM8K, MultiArith)과 논리(예: LogicalDeduction) 벤치마크를 사용하였다. STIR는 체인‑오브‑쓰스 기반 디코딩 대비 평균 정확도가 1.9 %~7.5 % 상승했으며, 토큰 소비는 최대 35 % 감소했다. 특히 복잡한 다단계 문제에서 정적 스티어링이 오히려 성능을 저하시키는 반면, 동적 제어는 오류를 조기에 교정해 전체 추론 길이를 크게 단축시켰다.

이 논문의 주요 공헌은 (1) 정적 스티어링의 시간적 한계를 명확히 규정하고, (2) 모델 자체의 탐색 결과를 활용한 자기‑증류형 도구 생성 메커니즘을 제시했으며, (3) 고차원 은닉 공간을 효율적으로 압축·검색하는 스파스 베이스 구축 방법을 도입했다는 점이다. 또한, “anchor‑null” 이중 엔트리 설계는 교정 필요 여부를 명시적으로 판단하게 함으로써 과도한 개입을 방지한다는 실용적 이점을 제공한다. 향후 연구에서는 도구 라이브러리의 지속적 업데이트, 멀티‑모달 상황에 대한 확장, 그리고 더 큰 모델에 대한 스케일링 효과 검증이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기