그리드 탈피 거리 기반 강화학습으로 초대규모 이산·혼합 행동 공간 정복
초록
본 논문은 대규모 이산 및 혼합형 행동 공간을 효율적으로 탐색하기 위해 거리 기반 강화학습(DGRL)을 제안한다. 핵심 구성요소인 샘플링 동적 이웃(SDN)과 거리 기반 업데이트(DBU)를 결합해 차원 수에 무관하게 선형 복잡도로 행동을 선택하고, 정책 업데이트 시 그래디언트 분산을 행동 수와 독립적으로 만든다. 실험 결과, 10^20 규모의 행동 집합에서도 기존 최첨단 방법 대비 최대 66%의 성능 향상을 달성하였다.
상세 분석
이 논문은 대규모 이산·혼합 행동 공간에서 발생하는 ‘차원의 저주’를 극복하기 위한 두 가지 혁신적 메커니즘을 제시한다. 첫 번째인 샘플링 동적 이웃(SDN)은 행동을 연속적인 원시 행동(proto‑action)으로 매핑한 뒤, L∞(체비쉐프) 메트릭을 이용해 고정된 반경의 초입방체(하이퍼큐브) 내에서 독립적으로 좌표를 샘플링한다. 이 접근법은 전통적인 L2 기반 구역이 차원이 증가함에 따라 부피가 기하급수적으로 확장되는 문제를 회피하고, 샘플 수 K가 차원 N에 의존하지 않도록 설계되었다. 따라서 탐색 복잡도는 O(N·K)로 유지되며, K는 행동 공간의 매끄러운 잠재 매니폴드의 리프시츠 연속성에 의해 결정된다. 논문은 이를 정리한 Proposition 3.2를 통해 L∞ 이웃이 차원 불변성을 보장함을 수학적으로 증명한다.
두 번째 구성요소인 거리 기반 업데이트(DBU)는 정책 최적화를 Q‑값 직접 최대화가 아닌, 고가치 목표 행동(¯a)과 원시 행동(ˆa) 사이의 거리 손실 ‖ˆa‑¯a‖²를 최소화하는 회귀 문제로 전환한다. 이는 Assumption 2.1에서 가정한 잠재 임베딩 공간의 Lipschitz 연속성에 기반한다. Proposition 3.1은 거리 손실이 Q‑값 차이의 상한을 제공함을 보이며, 따라서 거리 최소화가 가치 손실을 직접적으로 감소시킨다는 이론적 근거를 제공한다. DBU는 행동 선택 과정에서 발생하는 고분산 그래디언트를 회피하고, 행동 수 |A|와 무관하게 안정적인 학습을 가능하게 한다.
또한 논문은 혼합형 행동 공간(이산+연속)에서도 동일한 프레임워크를 적용한다. 이때 이산 선택이 연속 파라미터의 유효 범위를 결정하는 경우에도, SDN이 제공하는 지역 탐색과 DBU가 제공하는 거리 기반 회귀가 결합되어 상호 의존성을 자연스럽게 모델링한다. 실험에서는 물류 스케줄링, 추천 시스템, 로봇 제어 등 다양한 도메인에서 10^20 규모의 행동 집합을 시뮬레이션했으며, 기존의 Wolpertinger, DNC, k‑NN 기반 방법 대비 평균 45%66%의 누적 보상 향상을 기록했다. 특히, 샘플 수 K를 2030개로 제한했음에도 불구하고 수렴 속도가 기존 방법보다 2배 이상 빨랐으며, GPU 메모리 사용량도 현저히 감소하였다.
전체적으로 이 논문은 (1) 차원에 독립적인 탐색 메커니즘, (2) 그래디언트 분산을 행동 수와 무관하게 만드는 정책 업데이트, (3) 불규칙하고 비그리드형 구조에서도 적용 가능한 일반화된 거리 기반 프레임워크라는 세 축을 통해 대규모 이산·혼합 행동 공간 강화학습의 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기