희소 보상 연속 제어를 위한 ETGL DDPG: 심층 결정적 정책 그라디언트 알고리즘
초록
본 논문은 희소 보상 환경에서 DDPG의 탐색·학습 효율성을 개선하기 위해 세 가지 기법을 결합한 ETGL‑DDPG를 제안한다. ϵt‑greedy 탐색은 해시 기반 트리 탐색으로 미방문 영역을 우선 탐색하고, GDRB는 성공·실패 경험을 별도 버퍼에 저장해 목표‑조건형 샘플링을 수행한다. 또한 모든 전이의 가장 긴 n‑step 반환을 이용해 보상 전파를 가속한다. 이 세 기법은 각각 및 통합적으로 기존 DDPG와 최신 희소 보상 방법들을 능가함을 실험과 소거 연구를 통해 입증한다.
상세 분석
ETGL‑DDPG는 DDPG가 희소 보상 연속 제어에서 겪는 세 가지 근본적인 한계를 체계적으로 해결한다. 첫 번째 한계는 탐색이 무작위성에 의존해 목표 상태에 도달하기 어려운 점이다. 이를 위해 제안된 ϵt‑greedy는 전통적인 ϵ‑greedy에 트리 탐색을 결합한다. 상태를 Locality‑Sensitive Hash(LSH)로 양자화하고, 해시 버킷별 방문 횟수를 추적해 ‘덜 방문된’ 버킷을 탐색 목표로 삼는다. 탐색 트리는 현재 상태를 루트로 하여 제한된 노드 수(N)만큼 확장되며, 각 노드의 자식은 replay buffer에 저장된 전이를 이용해 근사 전이 함수 T(s,a)≈T(s′,a)로 생성한다. 이 과정은 모델‑프리 DDPG와 호환되면서도, 옵션 프레임워크에 기반한 ϵz‑greedy와 유사한 다단계 행동을 제공한다. 저자는 Liu & Brunskill(2018)의 커버링 길이 이론을 활용해, N≤log(|S||A|)·loglog(|S||A|) 조건 하에 옵션 샘플링 확률이 Θ(1/|S||A|) 이상임을 증명하고, 따라서 ϵt‑greedy가 PAC‑MDP(다항 샘플 복잡도) 특성을 만족함을 보였다.
두 번째 개선점인 GDRB는 목표‑조건형 이중 replay buffer이다. 하나는 모든 전이를 저장하는 일반 버퍼 Dβ, 다른 하나는 목표에 도달한 성공 궤적만을 보관하는 De이다. 두 버퍼는 크기·보존 정책·샘플링 비율이 다르게 설계돼, 성공 전이가 학습에 더 자주 활용되도록 한다. 특히, 성공 궤적에 대해 가장 긴 n‑step 반환을 적용함으로써, 목표 도달 보상이 에피소드 초반까지 빠르게 전파된다. 이는 기존 DDPG가 마지막 전이만 보상받아 학습이 느려지는 문제를 완화한다.
세 번째 요소는 ‘Longest n‑step Return’이다. 기존 DDPG는 1‑step TD 목표 y_t = r_t + γQ′(s_{t+1},µ′(s_{t+1}),g)를 사용하지만, ETGL‑DDPG는 각 전이에 대해 가능한 가장 긴 n‑step 반환을 계산한다. 성공 에피소드에서는 전체 반환을 목표로 삼고, 실패 에피소드에서는 시간 제한 전까지의 누적 보상을 사용한다. 이렇게 하면 보상 신호가 희소한 환경에서도 가치 함수가 빠르게 업데이트된다.
이 세 기법은 서로 독립적이면서도 시너지 효과를 낸다. ϵt‑greedy는 탐색 효율을 높여 성공 전이의 빈도를 증가시키고, GDRB는 그 전이를 효과적으로 재활용한다. 가장 긴 n‑step 반환은 확보된 성공 전이로부터 빠른 가치 전파를 가능하게 한다. 실험에서는 2D/3D 연속 제어 벤치마크(MuJoCo 기반)에서 기존 DDPG, HER, RND, SAC‑HER 등과 비교해 평균 성공률과 학습 속도 모두 크게 향상되었으며, 소거 실험을 통해 각 구성 요소가 개별적으로도 성능을 끌어올림을 확인했다.
전반적으로 ETGL‑DDPG는 희소 보상 연속 제어 문제에 대한 실용적인 해결책을 제시한다. 탐색 단계에서 해시 기반 트리 탐색을 도입해 상태 공간을 효율적으로 커버하고, 목표‑조건형 이중 버퍼와 긴 n‑step 반환을 통해 보상 전파와 샘플 효율성을 동시에 개선한다. 이론적 샘플 복잡도 분석과 광범위한 실험 결과가 제안 방법의 타당성을 충분히 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기