분할과학습을 통한 대규모 다목적 조합 최적화
초록
본 논문은 다목적 조합 최적화 문제를 온라인 학습으로 재구성하고, 변수들을 위치별 밴딧 서브문제로 분해한 뒤 다중 전문가(Expert) 기반 순차적 선택 메커니즘을 적용한다. 제안된 Divide & Learn(D&L) 알고리즘은 서브문제 차원 d에만 의존하는 O(d√T log T) 수준의 누적 레지스트를 보장하며, 기존 베이지안 최적화와 진화·신경망 기반 방법에 비해 샘플·계산 효율성을 23자리수 향상시킨다. 실험에서는 표준 벤치마크와 AI 가속기 하드웨어‑소프트웨어 공동 설계 문제에서 8098% 수준의 성능을 달성하면서 평가 예산이 제한된 상황에서도 우수한 파레토 전선을 탐색한다.
상세 분석
본 연구는 다목적 조합 최적화(MOCO)를 “전역적인 스칼라 보상”을 관측하는 전형적인 풀밴딧(full‑bandit) 설정으로 모델링하고, 이를 온라인 학습 문제로 전환한다. 핵심 아이디어는 결정 변수들을 위치(position) 단위로 나누어 각각을 다중 팔 밴딧으로 본 뒤, 각 위치마다 여러 전문가(예: UCB, FTRL, EXP3, Thompson Sampling 등)를 혼합 확률 π_t 로 선택해 행동을 제안하도록 설계한 점이다. 전문가들은 공유 통계(방문 횟수, 평균 보상 등)를 유지하고, 관측된 전체 스칼라 보상 r_t 를 모든 위치‑액션 쌍에 동시에 역전파함으로써 “전역 보상 → 지역 추정”이라는 정보 흐름을 구현한다.
또한, 변수들을 겹치는 K개의 서브문제 {S_k} 로 분할하고 라그랑주 승수 λ 를 도입해 서브문제 간 일관성을 강제한다. 이 라그랑주 이중 업데이트는 각 서브문제의 독립적인 최적화를 보장하면서도 공유 변수에 대한 제약을 만족시키는 역할을 한다. 논문은 이러한 구조가 서브문제 차원 d ≪ n (전체 변수 수) 에만 의존하는 레지스트 경계 O(d√T log T)를 도출하게 함을 증명한다. 기존 조합 밴딧은 전체 액션 공간 |X| 에 비례하거나 반선형(예: O(√T log |X|))인 레지스트를 갖지만, D&L은 문제 구조를 활용해 지수적 공간을 다항적으로 축소한다는 점에서 이론적·실용적 의미가 크다.
실험에서는 (1) 10^60 규모의 이진/정수 조합 공간을 갖는 표준 MOCO 벤치마크, (2) AI 가속기 설계에서 시뮬레이션 비용이 수시간에 달하는 하드웨어‑소프트웨어 공동 설계 문제 두 가지를 대상으로 평가하였다. 결과는 D&L이 파레토 전선의 다양성과 정밀도 면에서 전문 솔버(예: MOEA/D, 파레토 최적화 전용 메타휴리스틱)와 80~98% 수준의 근접성을 보이며, 베이지안 최적화 대비 90% 이상의 계산·샘플 절감을 달성함을 보여준다. 특히 평가 예산이 제한된 상황에서 D&L은 초기 탐색 단계에서 빠르게 유망 영역을 포착하고, 라그랑주 기반 조정으로 서브문제 간 충돌을 최소화한다.
이와 같이 D&L은 (i) 사전 학습이 필요 없는 “온라인‑온‑더‑플라이” 학습 방식, (ii) 다목적 스칼라화(가중합, ε‑컨스트레인 등) 다중 실행을 통한 파레토 근사, (iii) 전문가 혼합을 통한 탐색·활용 균형, (iv) 라그랑주 이중화에 기반한 서브문제 일관성 유지라는 네 가지 핵심 메커니즘을 결합한다. 이론적 레지스트 보장과 실험적 효율성을 동시에 만족시키는 최초의 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기