온디바이스와 클라우드 LLM의 협업 추론: 라우팅·포스트트레이닝 통합 프레임워크

온디바이스와 클라우드 LLM의 협업 추론: 라우팅·포스트트레이닝 통합 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 경량 온디바이스 LLM이 자체적으로 클라우드 모델 호출 여부를 판단하도록 강화학습 기반 포스트트레이닝을 설계한다. 계층적 보상(정확도·협업)과 그룹‑적응 정책 그라디언트(GAPG) 알고리즘을 도입해 라우팅과 추론을 하나의 학습 과정에 통합하고, 프롬프트 필터링으로 정책 붕괴를 방지한다. 다양한 추론 벤치마크에서 온디바이스 LLM의 성능을 크게 향상시키면서 클라우드 호출 비율을 제한한다.

상세 분석

이 연구는 기존의 두 단계 파이프라인(온디바이스 모델 강화 + 별도 라우터 학습)의 근본적 한계를 지적한다. 첫째, 라우터가 프롬프트만으로 문제 난이도를 판단하기 어려워 복잡한 추론 작업에서 오판이 빈번하다. 둘째, 라우터와 모델을 별도로 최적화하면 온디바이스 모델이 스스로 협업 전략을 학습할 기회를 놓친다. 이를 해결하기 위해 저자는 라우팅을 온디바이스 LLM 내부 행동으로 정의하고, 강화학습(RL) 기반 포스트트레이닝 문제로 재구성한다.

핵심 설계는 두 가지 보상 신호이다. (1) 정확도 보상 αₐ는 온디바이스 모델이 자체적으로 정답을 도출했을 때 부여된다. (2) 협업 보상 α𝚌는 모델이 “도움 요청” 토큰을 출력하고, 클라우드 LLM이 올바른 답을 제공했을 때 지급된다. 두 보상은 상호 배타적이며, 클라우드 호출 비율 ρ라는 제약식으로 과도한 오프로드를 억제한다.

알고리즘적 기여는 Group‑Adaptive Policy Gradient(GAPG)이다. 기존 GRPO는 그룹 샘플링을 이용해 정책 그라디언트를 안정화했지만, 라우팅·추론 공동 최적화에서는 정책 붕괴(전부 로컬 혹은 전부 클라우드) 위험이 크다. GAPG는 (i) 그룹‑레벨 그라디언트를 계산해 샘플 간 변동성을 감소시키고, (ii) 적응형 프롬프트 필터링을 도입해 “도움 요청”과 “자체 해결” 두 행동 모두 충분히 탐색되도록 한다. 필터링은 현재 정책이 과도하게 편향된 행동을 보일 때 해당 행동을 억제하고, 반대 행동을 강화하는 보조 신호로 작동한다.

실험에서는 LLaMA‑7B와 Qwen‑7B 수준의 온디바이스 모델을 대상으로 GSM8K, MathQA, CommonsenseQA 등 5개 추론 벤치마크를 평가했다. 제안 방법은 기존 GRPO 기반 강화학습에 라우터를 별도 학습한 방식보다 평균 6~9% 절대 정확도 향상을 달성했으며, 클라우드 호출 비율을 20% 이하로 제한하면서도 전체 성능 격차를 30% 이하로 축소했다. 학습 안정성 측면에서도 정책 그라디언트의 분산이 크게 감소하고, 훈련 초기에 발생하던 정책 붕괴 현상이 거의 사라졌다.

이 논문의 의의는 라우팅을 외부 모듈이 아니라 모델 자체의 행동으로 만들고, 강화학습 보상 설계와 안정화 기법을 결합해 온디바이스‑클라우드 협업 추론을 실용적인 수준으로 끌어올렸다는 점이다. 향후 연구는 다중 클라우드 모델 선택, 동적 예산 조정, 그리고 실제 모바일 디바이스에서의 실시간 추론 비용 측정 등으로 확장될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기