랜덤 그래프와 경매 기반 Q‑학습으로 NP‑Hard 다중 로봇 할당 문제 해결

**1. 서론 및 연구 동기** 다중 로봇이 공간에 분산된 다수의 작업을 수행해야 하는 상황은 라이드‑쉐어링, 물류 픽업‑딜리버리 등 다양한 실세계 응용에서 나타난다. 각 작업은 시간이 지남에 따라 ‘연령(age)’이 증가하고, 젊은 작업일수록 높은 보상이 주어지는 시간‑의존 보상 구조를 가진다. 이러한 문제는 ‘두 로봇이 동일 작업을 동시에 할당받을 수 없다’는 제약과 함께, 로봇·작업 수가 늘어날수록 가능한 공동 할당 조합이 지수적으로 증가하는 NP‑Hard 특성을 지닌다. 기존 수학적 최적화(MILP, CP) 방법은 계산량이 급격히 늘어나 실시간 적용이 어렵고, 탈중앙화 강화학습 접근도 전역 최적성을 보장하기 어렵다. 따라서 저자들은 **중앙집중형**이면서 **학습 기반**인 방법을 설계하고, “스케일에 따라 학습된 정책을 재사용할 수 있는가?”라는 질문을 제기한다. **2. 관련 연구** 논문은 차량 라우팅(VRP) 분야의 강화학습 기반 접근을 세 가지 범주(히어리스틱 개선, 순차적 구축, 하이브리드)로 정리하고, 기존 연구가 대부분 단일 에이전트 혹은 정적 보상에 초점을 맞추었다는 점을 지적한다. 또한, 구조2Vec(Dai et al., 2016)와 같은 그래프 신경망이 평균장(mean‑field) 추론과 WL 커널에 기반한 임베딩을 제공한다는 점을 소개한다. 그러나 기존 그래프 기반 방법은 **확률적** 그래프 구조를 다루지 못하고, 다중 로봇·다중 작업 상황에 직접 적용하기엔 한계가 있다. **3. 문제 정의 및 수학적 모델링** MRRC를 이산‑시간, 이산‑상태(MDP) 형태로 정의한다. - **상태 s_k**: 그래프 g_k = (R, T_k, E_TT_k, E_RT_k)와 특징 집합 D_k 로 구성. 로봇 집합 R, 남은 작업 집합 T_k, 작업‑작업 간 확률적 에지 ε_TT_pq (완료 후 다음 작업 전이), 로봇‑작업 에지 ε_RT_ip (할당 여부) 등을 포함한다. - **행동 a_k**: 로봇‑작업 이분 그래프의 최대 매칭으로 정의되며, 한 작업에 두 로봇이 할당되지 않도록 제약한다. - **전이**: 작업 완료 시 해당 작업 노드와 관련 에지가 제거되고, 로봇·작업 위치·연령 등 특징이 업데이트된다. - **보상**: 작업 연령 d_Tp에 따라 선형·비선형 보상 함수 r(d_Tp) 가 적용된다. 목표는 총 기대 보상을 최대화하는 정책 π(s) 를 학습하는 것이다. **4. 랜덤 그래프 임베딩: RandStructure2Vec** 저자들은 상태‑행동 쌍을 **랜덤 확률 그래프 모델(random PGM)** 로 해석한다. 여기서 에지는 존재 확률 p_m 으로 모델링되며, 전체 그래프 집합 G_X 에 대한 확률 측도 P 를 정의한다. 직접적인 P 추정은 불가능하므로, **반클리크(semi‑clique)** 의 존재 확률만을 이용해 평균장(mean‑field) 추론을 수행한다. - **정리 1**: 존재 확률 {p_m} 가 주어지면, 평균장 근사 분포 q_p(x_p) 는 각 반클리크의 포텐셜 ϕ_m 과 p_m 를 이용한 지수형식으로 표현된다. - **Lemma 1**: 이를 구조2Vec의 고정점 반복식에 적용하면, 업데이트 식은 μ_p ← σ( W₁ x_p + W₂ ∑_{q≠p} p_{qp} μ_q ) 로 변한다. 여기서 p_{qp} 는 로봇‑작업 혹은 작업‑작업 에지의 존재 확률이다. 이 식을 **RandStructure2Vec** 라고 명명하고, 그래프 신경망 레이어로 구현한다. **5. 순서 전이 가능성(Order‑Transferability)과 Q‑함수 추정** RandStructure2Vec를 여러 레이어에 쌓아 상태‑행동 쌍 (s_k, a_k) 에 대한 임베딩을 얻고, 이를 전통적인 DQN 구조에 연결해 Q(s,a) 를 추정한다. 중요한 특성은 **순서 전이 가능성** 으로, 로봇·작업 수가 변해도 동일한 파라미터(θ) 로 학습된 Q‑함수가 그대로 적용 가능하다는 점이다. 이는 임베딩이 그래프의 **구조적** 특성만을 포착하고, 크기‑의존적인 파라미터를 사용하지 않기 때문이다. **6. 경매 기반 정책(O‑TAP) 및 AFQI** Q‑함수 자체는 조합 폭이 큰 공동 할당 공간을 직접 argmax 해야 하는데, 이는 계산적으로 불가능하다. 저자들은 **경매(Auction)** 메커니즘을 도입한다. - 각 로봇‑작업 쌍에 대해 Q(s,a) 값을 입찰가로 제시하고, **위크-우선 매칭**(Greedy) 혹은 **다항식 시간 최대 매칭** 알고리즘을 사용해 전체 매칭 a* 를 도출한다. 이를 **Order‑Transferability‑Enabled Auction Policy (O‑TAP)** 라고 부른다. - 학습 단계에서는 전통적인 Fitted Q‑Iteration(FQI) 의 max‑operator 를 O‑TAP 로 대체한 **Auction‑Fitted Q‑Iteration (AFQI)** 를 적용한다. 이렇게 하면 학습 시에도 매번 지수적 탐색을 피하면서 Q‑함수를 업데이트할 수 있다. **7. 이론적 성능 보장** AFQI와 O‑TAP을 결합한 정책 π̂ 은 **서브모듈러 최적화** 이론에 기반해 최소 1 − 1/e (≈ 0.632) 의 근사 비율을 보장한다. 정리와 증명은 부록에 상세히 제시되며, 경매 메커니즘이 서브모듈러 함수의 **그리디** 근사와 동일한 성질을 갖는다는 점을 이용한다. **8. 실험 및 결과** - **환경**: deterministic 및 stochastic travel time, 다양한 로봇·작업 규모(8‑20 로봇, 50‑200 작업). - **비교 대상**: MILP (CPLEX), 기존 구조2Vec 기반 TSP 솔버, 전통적인 DQN + exhaustive argmax, 그리고 휴리스틱(그리디, LPT 등). - **성능**: 평균 최적성 97 % (deterministic) 및 94 % (stochastic) 달성, 학습/추론 시간은 MILP 대비 10‑100배 가량 빠름. - **확장성**: 동일 파라미터로 IPMS와 minimax‑mTSP 문제에도 적용 가능함을 보이며, 문제 규모가 변해도 성능 저하가 미미함을 확인한다. **9. 논의 및 한계** - 반클리크 존재 확률 p_m 을 사전에 추정하거나 샘플링하는 과정이 실제 시스템에서는 정확도가 떨어질 수 있다. - 경매 기반 매칭은 근사 최적성을 보장하지만, 최적 매칭이 절대적으로 요구되는 안전‑중요 시스템에서는 추가 검증이 필요하다. - 실험이 시뮬레이션 중심이며, 실제 로봇 네트워크에서 통신 지연·센서 노이즈 등에 대한 견고성 검증이 부족하다. **10. 결론 및 향후 연구** 본 연구는 **랜덤 그래프 평균장 추론**과 **경매 기반 Q‑학습**을 결합해, NP‑Hard 다중 로봇 할당 문제를 다항식 시간 내에 근사 최적해를 제공하는 새로운 프레임워크를 제시한다. 이론적 근사 비율과 실험적 근접 최적성을 동시에 달성함으로써, 그래프 신경망 기반 강화학습이 복잡한 조합 최적화 문제에 적용될 수 있음을 입증한다. 향후 연구에서는 실제 로봇 시스템에 적용하기 위한 온라인 확률 추정, 경매 메커니즘의 안전성 강화, 그리고 다중 목표(예: 에너지, 충돌 회피) 통합을 목표로 할 예정이다.

랜덤 그래프와 경매 기반 Q‑학습으로 NP‑Hard 다중 로봇 할당 문제 해결

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기