내부 잠재 최적화 경로를 통한 대형 언어 모델 계획 강화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PILOT은 경량 LLM에 외부 교사의 계획을 내재화하기 위해 하이퍼네트워크가 생성하는 쿼리‑조건부 잠재 가이던스 벡터를 삽입한다. 이를 통해 모델의 내부 표현을 전략적으로 조정해 다단계 수학·코딩 문제에서 오류 전파를 억제하고, 추론 지연을 거의 추가하지 않으면서도 성능을 크게 끌어올린다.

상세 분석

본 논문은 소형 LLM이 “전역 전략”을 수립하지 못해 긴 추론 과정에서 발생하는 오류 전파 문제를 해결하고자 한다. 기존의 Teacher‑Student 방식은 런타임에 대형 모델을 호출해야 하는 비현실적인 비용을 초래하고, 정적 PEFT(LoRA, ReFT) 방법은 인스턴스별 맞춤형 전략을 제공하지 못한다는 한계를 지적한다. PILOT은 이러한 문제점을 보완하기 위해 두 단계의 비침습적 메커니즘을 제안한다. 첫 번째 단계는 Construct‑and‑Verify 파이프라인을 통해 전문가 모델(DeepSeek‑V3.1)로부터 “전략적 가이드(g_exp)”를 생성하고, 이를 기반으로 목표 잠재 상태 z를 추출한다. 여기서 z는 피벗 레이어 l† 에서 가이드 토큰들의 평균 풀링으로 얻어지며, 전문가가 만든 최적 경로를 벡터 형태로 압축한다. 두 번째 단계에서는 하이퍼네트워크 Hθ가 입력 쿼리 x 의 의미적 컨텍스트 cQ (전역 평균 + 어텐션 기반 핵심 엔터티) 를 받아 채널별 FiLM 파라미터

내부 잠재 최적화 경로를 통한 대형 언어 모델 계획 강화

초록

상세 분석

댓글 및 학술 토론

의견 남기기