우선순위 기반 다중플레이 확률 밴드잇의 자원 할당 최적화

본 논문은 대형 언어 모델(Large Language Model) 응용, 엣지 인텔리전스 등에서 발생하는 자원 할당 문제에 맞추어 다중플레이 확률 밴드잇의 변형 모델을 제안한다. 모델은 M개의 팔과 K개의 플레이로 구성되며, 각 팔은 확률적 용량을 가지고 각 용량 단위마다 보상 함수를 갖는다. 각 플레이는 우선순위 가중치를 부여받고, 여러 플레이가 동일한

우선순위 기반 다중플레이 확률 밴드잇의 자원 할당 최적화

초록

본 논문은 대형 언어 모델(Large Language Model) 응용, 엣지 인텔리전스 등에서 발생하는 자원 할당 문제에 맞추어 다중플레이 확률 밴드잇의 변형 모델을 제안한다. 모델은 M개의 팔과 K개의 플레이로 구성되며, 각 팔은 확률적 용량을 가지고 각 용량 단위마다 보상 함수를 갖는다. 각 플레이는 우선순위 가중치를 부여받고, 여러 플레이가 동일한 팔의 용량을 두고 경쟁할 경우 우선순위 가중치가 큰 순서대로 용량이 할당된다. 저자는 인스턴스 독립 및 인스턴스 의존형 두 종류의 regret 하한을 각각 Ω(α₁σ√K M T)와 Ω(α₁σ² M Δ ln T) 형태로 증명한다. 여기서 α₁은 가장 큰 우선순위 가중치, σ는 보상의 꼬리 특성을 나타낸다. 모델 파라미터가 주어졌을 때 최적 플레이 할당 정책을 찾는 알고리즘 MSB‑PRS‑OffOpt를 제시하며, 그 계산 복잡도는 O(M³K³)이다. MSB‑PRS‑OffOpt를 서브루틴으로 활용한 근사 UCB 기반 알고리즘을 설계하고, 이 알고리즘이 인스턴스 독립 및 인스턴스 의존형 regret 상한을 각각 √K ln K T와 α₁K² 만큼의 차이만 남겨 하한에 근접함을 보인다. 이 과정에서 우선순위 기반 자원 공유 메커니즘이 유도하는 비선형 조합 효용 함수를 최적화하고 학습하는 데 발생하는 비자명한 기술적 난제를 해결한다.

상세 요약

이 논문은 기존의 다중플레이 다중팔 밴딧(Multi‑play Multi‑armed Bandit) 연구에 새로운 차원을 추가한다는 점에서 학술적·실용적 의의가 크다. 첫 번째로, LLM이나 엣지 컴퓨팅과 같이 제한된 자원을 여러 작업이 동시에 요구하는 실제 시스템을 모델링하기 위해 ‘우선순위 가중치’를 도입한 점이 혁신적이다. 기존 밴딧 모델은 각 플레이가 독립적으로 팔을 선택하도록 가정했지만, 여기서는 여러 플레이가 동일한 팔의 용량을 공유하면서도 우선순위에 따라 차등 할당받는다. 이는 실제 네트워크 대역폭, GPU 메모리, 전력 등과 같은 자원 관리 상황을 보다 정밀하게 반영한다.

두 번째로, 저자는 이 복합적인 자원 할당 구조에서 발생하는 비선형 조합 효용 함수를 수학적으로 정형화하고, 그에 대한 regret 하한을 두 가지 형태로 엄격히 증명하였다. 인스턴스 독립형 하한 Ω(α₁σ√K M T)는 문제의 기본 난이도를 나타내며, 우선순위 가중치 α₁와 보상 분포의 꼬리 두께 σ가 직접적으로 영향을 미친다. 반면 인스턴스 의존형 하한 Ω(α₁σ² M Δ ln T)는 최적 정책과의 차이 Δ에 비례해 로그 성장한다는 점에서, 특정 인스턴스에 대해 더 정밀한 성능 한계를 제공한다. 이러한 하한은 기존 밴딧 문헌에서 다루던 Ω(√T) 형태와 비교해 우선순위와 용량 구조가 regret에 미치는 영향을 명확히 드러낸다.

세 번째로, 알고리즘 설계 측면에서 MSB‑PRS‑OffOpt는 주어진 파라미터 하에 최적 플레이 할당 정책을 정확히 찾는 ‘오프라인 최적화’ 서브루틴이다. 복잡도 O(M³K³)는 다항식 수준이며, 실제 M과 K가 수십 정도일 경우 실용적인 계산량을 유지한다. 이를 기반으로 구축된 근사 UCB 알고리즘은 탐색‑활용 트레이드오프를 전통적인 상한 신뢰구간 방식으로 해결하면서도, 우선순위 기반 자원 배분이라는 비선형 제약을 효과적으로 통합한다. 특히, 상한이 √K ln K T와 α₁K²라는 두 개의 보정 인자를 제외하고는 하한과 일치한다는 점은 ‘order‑optimal’임을 의미한다. 이는 기존 다중플레이 밴딧에서 흔히 보이는 √K 정도의 차이보다 더 정밀한 결과이며, 우선순위 가중치 α₁가 클수록 상한이 다소 늘어나는 현실적인 비용을 정량화한다.

마지막으로, 기술적 난제 해결 부분을 살펴보면, 우선순위에 따라 용량이 단계적으로 할당되는 과정은 전통적인 선형 보상 구조를 깨뜨리고 비선형 조합 효용 함수를 만든다. 저자는 라그랑지안 이완, 이중 최적화, 그리고 고차원 그라디언트 추정 기법을 결합해 이 문제를 해결했으며, 그 과정에서 얻은 ‘우선순위 기반 할당 함수의 구조적 특성’은 향후 다른 자원 공유 모델에도 적용 가능할 것으로 보인다. 전체적으로 본 연구는 이론적 엄밀함과 실용적 알고리즘 설계를 동시에 달성했으며, 향후 LLM 서비스 배포, 엣지 AI 스케줄링, 클라우드 자원 관리 등 다양한 분야에 직접적인 파급 효과를 기대할 수 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...