LLM 오프로드 정확도‑지연 트레이드오프, 토큰‑레벨 불확실성 기반 최적화
초록
본 논문은 모바일 엣지 컴퓨팅 환경에서 대형 언어 모델(LLM) 추론을 로컬과 엣지 서버 간에 동적으로 분배하는 프레임워크를 제안한다. 토큰‑레벨 마진 기반 불확실성 지표를 정의하고, 이를 활용해 고불확실성 쿼리를 우선적으로 엣지로 오프로드하는 Greedy Offloading Algorithm(GOA)을 설계하였다. 실험 결과 GOA는 다양한 사용자 밀도에서 정확도와 지연 모두에서 기존 베이스라인을 능가하며, 실시간 적용 가능한 계산 복잡도를 보인다.
상세 분석
이 연구는 모바일 디바이스의 제한된 연산·메모리와 엣지 서버의 자원 제약을 동시에 고려한 다중 사용자·다중 엣지 환경을 모델링한다. 통신 단계에서는 각 엣지 서버의 대역폭을 연결된 사용자 수에 비례해 균등 할당하고, 고정 전송 전력을 가정한 뒤 SINR을 통해 전송률을 계산한다. 계산 단계에서는 엣지 서버의 FLOPS를 사용자 수에 따라 균등 분배하고, 로컬 디바이스는 경량 모델(SLM)을 사용한다. 핵심은 토큰‑레벨 불확실성 α_i를 “상위 1위와 2위 확률 차이”로 정의하고, 이를 1‑α_i 형태의 가중치로 활용해 지연 최소화 목표에 통합한 점이다. α_i가 클수록(불확실성이 높을수록) 오프로드 필요성이 커지며, 제약식(11)에서 임계값 τ를 초과하는 경우 반드시 엣지로 전송하도록 강제한다. 최적화 문제는 이진 변수와 비선형 SINR·대역폭·컴퓨팅 자원 결합으로 NP‑hard임을 인정하고, 근사 해법으로 GOA를 제시한다. GOA는 (1) 고불확실성 사용자 집합 I_off을 τ 기반으로 선별하고, 각 사용자‑서버 쌍에 대해 가중 지연 차이 Δ_i,j = α_i·(t_comm + t_comp_ES – t_comp_L)를 계산한다. Δ_i,j가 최소인 쌍을 순차적으로 할당하면서 자원 사용량을 업데이트한다. (2) 남은 저불확실성 사용자에 대해 Δ_i,j가 음수인 경우에만 오프로드를 진행한다. 이중 단계 구조는 불확실성에 기반한 강제 오프로드와 지연 절감 기반 선택을 명확히 구분한다. 복잡도는 O(N³M²)로, 전통적인 전역 탐색 O(MN)보다 훨씬 낮으며, 실험에서 수백 사용자·수십 엣지 서버 규모에서도 수초 이내에 해결 가능함을 보인다. 실험에서는 bAbI 데이터셋과 LLaMA‑3.2‑1B‑Instruct 모델을 이용해 α_i와 정확도 사이의 음의 상관관계를 실증했으며, 불확실성 히스토그램이 고불확실성 샘플이 충분히 존재함을 확인했다. 다양한 사용자 밀도(10200명)와 엣지 서버 수(15대) 조건에서 GOA는 평균 지연을 15‑30% 감소시키고, 정확도 손실을 2% 이하로 억제한다. 특히, τ를 0.2~0.4 구간으로 조정하면 고불확실성 쿼리의 정확도 회복 효과가 극대화되면서 전체 시스템 효율이 향상된다. 이러한 결과는 토큰‑레벨 불확실성을 실시간 오프로드 결정에 활용하는 것이, 단순히 모델 크기나 대역폭만을 고려하는 기존 방법보다 더 효과적임을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기