무감독 탐색으로 도달 가능한 결과 공간 탐구
초록
스파스 보상 환경에서 사전 지식이 거의 없을 때 강화학습은 탐색이 핵심 과제이다. 본 논문은 과제에 의존하지 않는 인구 기반 발산 탐색 기법인 TAXONS을 제안한다. TAXONS는 최종 상태의 고차원 관측을 자동인코더로 압축해 저차원 결과 공간을 학습하고, 재구성 오류와 새로 발견된 결과의 신규성·놀라움을 탐색 보상으로 활용한다. 실험 결과, 사전 정의된 결과 공간 정보를 전혀 사용하지 않음에도 불구하고 다양한 제어 정책을 찾아 실제 결과 공간을 넓게 커버한다는 것을 보여준다.
상세 분석
TAXONS은 기존의 발산 탐색(다이버전트 서치) 프레임워크에 ‘새로움(novelty)’과 ‘놀라움(surprise)’이라는 두 가지 무감독 신호를 결합한 점이 가장 큰 특징이다. 먼저, 에이전트가 환경에서 수행한 행동의 최종 상태를 고차원 이미지 혹은 센서 데이터 형태로 수집한다. 이 데이터를 자동인코더(AE)에 입력해 압축된 잠재벡터와 재구성 오류를 동시에 얻는다. 잠재벡터는 관측된 상태들의 구조적 관계를 반영하는 저차원 결과 공간을 형성하고, 재구성 오류는 현재 인코더가 해당 상태를 얼마나 잘 설명하는지를 나타내는 메트릭으로 작용한다.
‘새로움’은 현재 레퍼런스 집합에 존재하지 않는 잠재벡터와의 거리(예: k‑nearest neighbor 거리)로 정의된다. 이는 기존 정책들이 도달하지 못한 영역을 탐색하도록 유도한다. 반면 ‘놀라움’은 재구성 오류가 큰 상태에 부여된다. 높은 오류는 인코더가 아직 충분히 학습되지 않은, 즉 모델이 예측하기 어려운 상태임을 의미한다. 따라서 TAXONS은 두 신호를 가중합해 적합한 탐색 보상을 만든다.
인구 기반 진화 전략에서는 각 개체가 정책 파라미터(예: 신경망 가중치)를 가지고 있으며, 매 세대마다 평가된 보상에 따라 선택·돌연변이·교배가 이루어진다. 중요한 점은 보상이 외부 보상 함수가 아니라 내부적으로 생성된 ‘새로움·놀라움’ 점수라는 것이다. 이로써 특정 과제에 맞춘 보상 설계가 필요 없으며, 다양한 로봇 팔, 이동 로봇, 시뮬레이션 환경 등에서 동일한 알고리즘을 적용할 수 있다.
실험에서는 2D 포인트 매니퓰레이터, 3D 로봇 팔, 그리고 복합적인 물리 기반 시뮬레이션을 사용해 TAXONS이 기존 MAP-Elites, Novelty Search, 그리고 Random Search와 비교되었다. 결과는 TAXONS이 동일한 연산량(평가 횟수) 내에서 더 넓은 결과 공간을 커버하고, 특히 고차원 관측을 직접 다루는 경우에 강인한 성능을 보였음을 보여준다. 또한, 자동인코더가 학습 초기 단계에서 잡음에 민감하지만, 진화 과정이 진행될수록 재구성 오류가 감소하면서 탐색이 점점 더 정교해지는 현상이 관찰되었다.
이 논문의 주요 기여는 (1) 고차원 관측으로부터 자동으로 저차원 결과 공간을 학습하는 방법, (2) 재구성 오류를 활용한 ‘놀라움’ 메트릭을 탐색 보상에 통합한 점, (3) 과제에 독립적인 인구 기반 발산 탐색 프레임워크를 제시한 점이다. 한계로는 자동인코더의 구조와 학습률에 따라 결과 공간의 품질이 크게 좌우될 수 있다는 점, 그리고 매우 큰 상태 공간에서는 잠재벡터의 차원 선택이 탐색 효율에 영향을 미친다는 점을 들 수 있다. 향후 연구에서는 변분 오토인코더(VAE)나 흐름 기반 모델을 도입해 보다 풍부한 확률적 표현을 얻고, 멀티-목표 상황에서 ‘새로움’과 ‘놀라움’의 가중치를 동적으로 조정하는 메커니즘을 탐구할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기