다이나믹 혼합 정밀도 라우팅을 통한 효율적인 장기 LLM 상호작용
초록
**
본 논문은 장기 의사결정이 요구되는 에이전트 환경에서 고정밀 LLM과 저정밀 양자화 LLM을 단계별로 자동 전환하는 라우팅 프레임워크를 제안한다. KL‑다이버전스 기반 감독 학습으로 정밀도가 중요한 “핵심 단계”를 식별하고, 이후 그룹‑상대 정책 최적화(GRPO)로 성공률과 추론 비용 사이의 트레이드‑오프를 강화한다. ALFWorld 실험에서 단일 정밀도 모델 대비 비용 대비 정확도가 크게 향상됨을 보였다.
**
상세 분석
**
이 연구는 LLM 기반 에이전트가 복잡한 텍스트 환경에서 수십 단계에 걸쳐 행동을 선택해야 하는 상황을 대상으로 한다. 기존에는 전체 과정에 고정밀(예: bf16) 모델을 사용하거나, 전역적으로 저정밀(예: int4, 3bit) 모델을 적용해 비용을 절감했지만, 저정밀 모델은 특정 “핵심 단계”에서 행동 분포가 크게 달라져 전체 성공률을 급격히 떨어뜨린다는 실험적 관찰을 제시한다. 이러한 현상을 정량화하기 위해 저정밀과 고정밀 모델 사이의 단계별 KL‑다이버전스를 측정했으며, 분포가 크게 치우쳐 대부분의 단계는 낮은 KL 값을 보이지만 소수의 단계에서 매우 높은 값을 나타낸다. 이 고다이버전스 구간이 바로 실패를 야기하는 결정적 순간이다.
논문은 두 단계 학습 파이프라인을 설계한다. 첫 번째 단계인 KL‑ST(KL‑Supervised Training)에서는 고정밀 롤아웃을 통해 얻은 KL‑다이버전스 값을 이진 라벨(고정밀 필요 여부)로 변환하고, 라우터 네트워크를 경량화된 2‑층 Transformer Encoder로 학습한다. 라우터는 현재까지의 관찰·행동 임베딩 시퀀스를 입력받아 마지막 유효 토큰의 은닉 상태를 기반으로 정밀도 선택 확률을 출력한다. 클래스 불균형을 완화하기 위해 라벨 가중치를 적용한다.
두 번째 단계인 GRPO(Group‑Relative Policy Optimization)는 값 함수 없이도 희소 보상 환경에서 안정적인 정책 업데이트를 가능하게 한다. 라우터가 만든 라우팅 정책을 여러 에피소드 그룹에 적용하고, 각 그룹 내에서 상대적인 반환을 계산해 정책 그라디언트를 추정한다. 이때 비용 항 λ·∑c(r_t)를 보상에 포함시켜, 성공률을 유지하면서 고정밀 모델 사용을 최소화하도록 유도한다.
실험은 텍스트 기반 시뮬레이션 환경인 ALFWorld에서 수행되었다. 베이스 모델은 Qwen‑8B이며, 고정밀(bf16)과 저정밀(3bit) 두 버전을 사용한다. 라우터가 없는 단일 정밀도 베이스라인과, 임계값 기반(예: 고정밀 사용 비율 85%) 혹은 무작위 라우팅과 비교했을 때, 제안된 동적 라우팅은 동일하거나 약간 높은 성공률을 유지하면서 평균 추론 비용을 30% 이상 절감한다. 특히 “배치 단계”, “물건 배치 확인” 등과 같이 논리적 연쇄가 깨지면 전체 미션이 실패하는 상황에서 라우터가 정확히 고정밀 모델을 호출해 성공률을 크게 끌어올린 것이 눈에 띈다.
핵심 기여는 다음과 같다. (1) 단계‑레벨 정밀도 선택이라는 새로운 문제 정의와, 이를 수식화한 비용‑보상 최적화 목표. (2) KL‑다이버전스를 이용한 정밀도 민감도 자동 라벨링 방법과, 경량 라우터 설계. (3) 값 함수 없이도 희소 보상 환경에 적합한 GRPO 적용으로 라우팅 정책을 강화. (4) 실제 에이전트 작업에서 고정밀 모델 전체 사용 없이도 경쟁력 있는 성능을 달성함을 입증.
이 접근은 LLM을 활용한 장기 계획·행동 시스템에서 비용 효율성을 크게 개선할 수 있는 실용적인 길을 제시한다. 향후 다중 정밀도(예: bf16, fp16, int8, int4)와 다양한 전문가 모델을 조합하거나, 라우터에 메타‑학습을 도입해 새로운 환경에 빠르게 적응하도록 확장할 여지가 있다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기