변화하는 행동 공간과 보상에 스스로 적응하는 Q학습 프레임워크 MORPHIN
초록
본 논문은 보상 함수와 행동 공간이 동적으로 변하는 비정상적인 환경에 대응하기 위해, 페이지‑힌클리(Page‑Hinkley) 테스트 기반 개념 드리프트 탐지와 TD‑오차 기반 학습률·탐색률 자동 조정을 결합한 Q‑학습 확장 프레임워크 MORPHIN을 제안한다. 기존 Q‑학습은 파라미터를 고정하거나 전체 재학습을 수행해야 하는 반면, MORPHIN은 Q‑테이블을 보존하면서 탐색 비율을 즉시 최대화하고 학습률을 크게 증가시켜 새로운 목표와 추가 행동을 빠르게 습득한다. 9×9 Gridworld와 교통 신호 제어 시뮬레이션에서 실험한 결과, 평균 수렴 시간과 총 스텝 수에서 기존 방법 대비 최대 1.7배 효율성을 달성했으며, 지식 손실(재앙적 망각)도 크게 억제하였다.
상세 분석
MORPHIN은 비정상적인 마코프 결정 과정(MDP)에서 발생하는 두 가지 핵심 변화를 목표로 설계되었다. 첫 번째는 보상 함수(R) 자체가 시간에 따라 이동하거나 스케일이 변하는 경우이며, 두 번째는 행동 집합(A)이 새로운 행동을 추가하면서 차원 자체가 확장되는 상황이다. 기존의 탭형 Q‑학습은 고정된 학습률(α)과 지수적 탐색 감소(ε) 스케줄을 사용하기 때문에, 환경이 변했을 때 기존 Q‑값이 급격히 비효율적인 정책으로 고정돼 버린다. MORPHIN은 이를 해결하기 위해 두 가지 메커니즘을 도입한다.
-
개념 드리프트 탐지: 에피소드마다 누적 보상(R_ep)을 페이지‑힌클리 테스트(PH‑test)에 입력한다. 테스트는 누적 차이가 사전 정의된 임계값(H)과 민감도(δ)를 초과하면 드리프트를 선언한다. 드리프트가 감지되면 탐색 카운터(e)를 0으로 리셋해 ε를 즉시 최대(≈1)로 복구한다. 이는 에이전트가 새로운 보상 구조나 행동을 충분히 탐색하도록 강제한다.
-
TD‑오차 기반 학습률 동적 조정: TD‑오차 |δ_TD|가 클수록 현재 Q‑값이 환경과 크게 불일치한다는 신호이므로, α를 α와 α_max 사이에서 sigmoid 형태로 상승시킨다(공식 2). 여기서 k는 오차 민감도 파라미터이며, 학습이 안정화될수록 |δ_TD|가 감소해 α가 기본값 α로 회귀한다. 이 두 파라미터(ε*, α*)가 동시에 조정되면서, 새로운 목표에 대한 빠른 재학습과 기존 지식의 점진적 소멸을 동시에 달성한다.
행동 공간 확장은 Q‑테이블에 새로운 행을 추가함으로써 구현된다. 새로운 행동이 등장하면 동일한 드리프트 신호가 발생하고, 위와 동일한 탐색·학습률 재조정이 적용된다. 따라서 별도의 메모리(예: 컨텍스트 별 Q‑테이블) 없이도 단일 Q‑테이블 안에서 지식 통합이 가능하다.
실험 설계는 두 단계로 나뉜다. 첫 번째는 9×9 Gridworld에서 목표 위치가 300 에피소드마다 코너를 옮기는 시나리오와, 300번째 에피소드에 ‘점프’ 행동을 추가하는 시나리오다. 두 번째는 두 차선 교차로를 모델링한 Gym 환경에서 차량 도착률이 변하고, 그에 따라 더 공격적인 신호 단계가 추가되는 상황이다. 두 환경 모두 1,000번의 독립 실행을 통해 평균 수렴 시간과 총 스텝을 측정하였다.
결과는 두드러진 차이를 보인다. Gridworld에서는 MORPHIN이 첫 번째 드리프트 후 평균 135.8 에피소드 내에 수렴했으며, 전체 1,500 에피소드 동안 총 스텝 23,292에 그쳤다. 반면 표준 Q‑학습은 첫 번째 드리프트 이후 수렴에 실패해 300 에피소드 내에 목표에 도달하지 못했고, 전체 스텝은 40,684로 거의 두 배에 달했다. 행동 확장 실험에서도 MORPHIN은 ‘점프’ 행동을 활용해 최적 경로를 재구성했지만, 기존 방법은 기존 정책에 고정돼 서브옵티멀 상태에 머물렀다. 교통 시뮬레이션에서도 첫 번째 드리프트(에피소드 3,000) 후 MORPHIN은 즉시 탐색을 재개해 평균 대기 시간을 회복했으며, 두 번째 드리프트는 PH‑test의 민감도 설정이 부족해 탐지되지 못했지만, 이는 파라미터 튜닝 문제로 해석된다.
핵심 인사이트는 (1) 드리프트 탐지를 통한 탐색 재시작이 비정상 환경에서의 적응 속도를 크게 향상시킨다, (2) TD‑오차 기반 학습률 조정이 새로운 정책을 빠르게 내재화하면서도 기존 지식 손실을 최소화한다, (3) 행동 공간 확장을 기존 Q‑테이블에 직접 삽입함으로써 메모리 오버헤드 없이 연속 학습이 가능하다는 점이다. 또한, PH‑test의 민감도 파라미터가 환경에 따라 달라야 함을 보여주어, 자동 파라미터 조정 메커니즘이 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기