경험 재활용을 넘어 고정 LLM을 위한 효용 최적 구조화 경험 생성
초록
본 논문은 외부 검색 기반 경험 재활용의 한계를 극복하고, 파라미터에 경험을 내재화한 경량 플러그인 SEAM을 제안한다. SEAM은 문제별로 구조화된 경험 프롬프트를 한 번의 순전파로 생성하고, 이를 고정된 LLM 실행기에 제공함으로써 추론 정확도를 향상시키며, 학습·추론 비용을 최소화한다.
상세 분석
SEAM(Structured Experience Adapter Module)은 기존 RAG(Retrieval‑Augmented Generation) 방식이 겪는 “유사도 ≠ 효용” 문제를 근본적으로 해결한다. 기존 방법은 임베딩 기반 유사도 매칭으로 외부 메모리에서 경험을 검색하고, 추가 LLM 호출을 통해 요약·재구성을 수행한다. 이 과정은 (1) 검색된 항목이 실제 해결에 도움이 되지 않을 가능성, (2) 불필요한 연산 및 지연시간 증가, (3) 외부 메모리 관리(인덱싱·중복제거·스키마 정의) 비용이라는 세 가지 주요 병목을 만든다.
SEAM은 이러한 외부 저장소를 파라미터화된 가벼운 생성 모델로 대체한다. 구체적으로, 각 실행기 Eϕ에 대해 별도의 SEAM Aθ를 학습시켜, 입력 문제 s와 실행기 정보를 조건으로 “문제 분석·경험 하이라이트·참조 계획”이라는 고정 스키마를 갖는 텍스트 경험 z를 한 번에 출력한다. 이때 z의 길이는 사전에 정의된 상한 L을 초과하지 않으며, 실행기 Eϕ는 z를 추가 컨텍스트로 받아 기존 추론 과정을 그대로 수행한다.
학습 과정은 세 단계로 구성된다.
1️⃣ Forward Exploration: 현재 파라미터 θ를 사용해 각 s에 대해 K개의 후보 z를 샘플링한다.
2️⃣ Rollout Evaluation: 고정된 Eϕ에 각 z를 조건으로 M번의 스토캐스틱 롤아웃을 수행하고, 정답 여부와 z의 구조적 완전성을 기준으로 이진 보상 R을 부여한다. 후보별 평균 보상 eRj를 계산한다.
3️⃣ GRPO 업데이트: 그룹 내 보상 평균 \bar{R}와 분산을 이용해 정규화된 그룹‑상대 어드밴티지 Aj를 구하고, PPO‑style 클리핑 손실과 KL 정규화 항을 포함한 GRPO 목표 L_GRPO(θ)를 최소화한다. 이때 θ만 업데이트되고 Eϕ는 완전히 고정된다.
핵심 아이디어는 “경험을 파라미터에 내재화하고, 실행기의 실제 성공 신호를 직접적인 학습 목표로 삼는다”는 점이다. 따라서 SEAM은 표면적 유사도 대신 실제 효용을 최적화한다. 또한 실행기‑특화 설계 덕분에 서로 다른 LLM(예: 코드 생성기, 수학 전용 모델 등)에 맞춤형 경험 라이브러리를 별도로 학습할 수 있다.
추가적으로, 배포 후 성공적인 (z*, s) 쌍을 로그에 저장하고 주기적으로 교사 강제(Supervised Fine‑Tuning) 방식으로 θ를 미세조정하는 옵션을 제공한다. 이는 “로그‑SFT”라 불리며, 실행기 파라미터를 건드리지 않으면서 지속적인 경험 축적과 성능 향상을 가능하게 한다.
실험에서는 GSM8K, MATH, AIME24/25 등 네 가지 수학 추론 벤치마크와 CodeContests, MBPP, HotpotQA, Natural Questions 등 코드·QA 도메인에 대해 평가하였다. SEAM은 모든 베이스라인(원본 고정 모델, 직접 GRPO로 파인튜닝한 실행기, MEM‑0·Dynamic‑Cheatsheet 같은 RAG 기반 방법) 대비 평균 25%p(percentage point) 이상의 정확도 향상을 기록했으며, 추론 시 추가 연산량은 0.10.3 GFLOP 수준으로 미미했다. Ablation 연구에서는 (a) 스키마 제약이 없는 자유형 텍스트 생성, (b) 그룹‑상대 어드밴티지 없이 단순 REINFORCE, (c) 실행기‑공유 SEAM 등 변형을 비교했을 때, 제안된 스키마·GRPO·실행기‑전용 설계가 모두 성능에 크게 기여함을 확인했다.
결과적으로 SEAM은 “경험을 저장·검색”하는 전통적 파이프라인을 파라미터화된 가벼운 모듈로 대체함으로써, (1) 효용‑중심 경험 생성, (2) 외부 저장소·검색 비용 제거, (3) 실행기 고정으로 인한 안정성 및 재사용성 확보, (4) 지속적인 로그‑SFT 기반 개선 가능성이라는 네 가지 핵심 장점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기