그래프 할당 벤치마크: 도시 계획 기반 다목표 정책 학습의 새로운 시험대
초록
본 논문은 기존 PCPL(Preference‑Conditioned Policy Learning) 벤치마크가 갖는 규모·복잡도 한계를 극복하기 위해, 그래프 기반 자원 할당 시뮬레이터인 CityPlannerEnv를 설계하고 이를 기반으로 한 GraphAllocBench를 제안한다. 다양한 목표 함수, 선호도 조건, 고차원 그래프 구조를 자유롭게 조합할 수 있으며, 기존 하이퍼볼륨 외에 PNDS와 OS라는 두 새로운 평가 지표를 도입한다. 실험에서는 MLP와 이종 그래프 신경망(HGNN) 기반 정책을 비교해, 그래프 인식 모델이 복합 자원 배분 문제에서 선호 일관성을 더 잘 유지함을 보인다.
상세 분석
GraphAllocBench는 다목표 강화학습에서 정책을 사용자 선호에 따라 실시간으로 조정할 수 있는 PCPC(Preference‑Conditioned Policy Learning) 접근법을 평가하기 위한 새로운 시험대를 제공한다. 핵심은 CityPlannerEnv라는 그래프 기반 샌드박스 환경으로, 자원(R)과 수요(D) 사이의 이분 그래프를 통해 도시 규모의 자원 배분 문제를 모델링한다. 이 환경은 (1) 자원·수요 종류, (2) 자원‑수요 의존성 그래프, (3) 목표 함수 형태(다항, 사인, 로그 등)를 자유롭게 설정할 수 있어, 실험 설계자가 복잡도와 스케일을 단계적으로 증가시킬 수 있다.
논문은 기존 MORL 벤치마크가 연속 최적화 문제나 2D 격자 게임에 국한돼 관측·행동 차원, 목표 수, 파레토 전선의 비선형성 등을 충분히 다루지 못한다는 점을 지적한다. 이에 대비해 GraphAllocBench는 (a) 높은 차원의 그래프 관측, (b) 이산적·비선형 파레토 전선, (c) 다중 목표(3~5개 이상)와 복합 의존 구조를 동시에 포함한다.
평가 지표로는 전통적인 하이퍼볼륨(HV) 외에 두 가지 새로운 메트릭을 제안한다. PNDS(Proportion of Non‑Dominated Solutions)는 샘플링된 선호 집합에 대해 비지배 해(solution) 비율을 측정해, 정책이 파레토 전선 근처에 머무는 정도를 정량화한다. OS(Ordering Score)는 각 선호에 대해 정책이 생성한 솔루션이 선호 가중치와 일치하는 순서를 유지하는지를 평가한다. 두 지표는 특히 선호 일관성(consistency)과 정책의 안정성을 파악하는 데 유용하며, HV가 놓칠 수 있는 미세한 차이를 보완한다.
실험에서는 기본 PPO 기반 MLP와 이종 그래프 신경망(HGNN) 두 종류의 정책을 구현한다. HGNN은 자원‑수요 이분 그래프와 그 위에 정의된 이질적 노드 특성을 직접 학습함으로써, 복잡한 의존 관계를 더 효과적으로 파악한다. 결과는 HGNN이 PNDS와 OS 모두에서 MLP를 앞서며, 특히 선호가 급격히 변할 때도 파레토 전선 근처의 해를 유지한다는 점을 보여준다. 또한, Smooth Tchebycheff Scalarization을 활용해 비선형 파레토 전선을 근사함으로써, 기존 PCPL 방법이 놓치기 쉬운 어려운 구역에서도 성능을 검증한다.
이 논문의 주요 공헌은 (1) 확장 가능하고 현실적인 그래프 기반 자원 할당 환경 제공, (2) 선호 일관성을 직접 측정하는 새로운 메트릭 도입, (3) 그래프 신경망이 PCPL에 미치는 긍정적 영향을 실증한 점이다. 향후 연구는 더 복잡한 동적 그래프(시간에 따라 변하는 토폴로지)와 멀티에이전트 협업 시나리오를 포함해, GraphAllocBench를 다목표 정책 학습의 표준 벤치마크로 확장할 여지를 남긴다.
댓글 및 학술 토론
Loading comments...
의견 남기기