옵션 헤드를 활용한 딥 Q‑네트워크의 효율적 계층 학습

이 논문은 옵션 프레임워크와 딥 Q‑네트워크(DQN)를 결합해 옵션별 출력 헤드와 옵션 선택을 담당하는 감독 네트워크를 도입한다. 실험은 긍정적·부정적 전이 상황을 가진 간단한 ‘Catch’ 환경에서 수행했으며, 옵션 헤드 구조가 특히 부정적 전이가 존재할 때 샘플 복잡도를 크게 낮추고, 네트워크 용량이 충분할 경우 성능 저하 없이 긍정적 전이에도 잘 작동함을 보였다.

저자: Kai Arulkumaran, Nat Dilokthanakul, Murray Shanahan

옵션 헤드를 활용한 딥 Q‑네트워크의 효율적 계층 학습
본 논문은 딥 강화학습에서 샘플 효율성을 높이기 위해 계층적 강화학습(HRL)의 대표적 방법인 옵션 프레임워크와 딥 Q‑네트워크(DQN)를 결합하는 새로운 아키텍처를 제안한다. 옵션은 일정 기간 동안 지속되는 행동 시퀀스로, 기존 DQN이 단일 정책을 학습하는 것과 달리 여러 옵션을 동시에 학습함으로써 복잡한 태스크를 서브태스크 단위로 분해한다. 이를 구현하기 위해 저자들은 공유된 컨볼루션 층 위에 ‘옵션 헤드’라 불리는 여러 개의 완전 연결 출력층을 두었다. 각 옵션 헤드는 독립적인 Q‑함수를 출력하며, 헤드마다 별도의 경험 재플레이 버퍼를 유지해 해당 옵션에 특화된 전이(sample)를 저장·재사용한다. 옵션 선택을 담당하는 ‘감독 네트워크’는 상태를 입력받아 현재 상황에 가장 적합한 옵션을 확률적으로 예측한다. 학습 단계에서는 인간이 제공한 오라클이 정답 레이블을 제공해 교차 엔트로피 손실로 감독 네트워크를 학습시키며, 평가 단계에서는 오라클을 감독 네트워크가 대체한다. 이 설계는 옵션 간 정책 간섭을 최소화하고, 옵션별 파라미터 공간을 명시적으로 분리함으로써 부정적 전이(negative transfer)를 억제한다. 실험은 ‘Catch’라는 간단한 비디오 게임 환경에서 수행되었다. 화면은 24×24 픽셀의 그레이스케일이며, 1픽셀 공이 위에서 떨어진다. 에이전트는 2픽셀 너비의 패들을 좌우로 움직여 공을 잡는다. 두 종류의 공(흰색, 회색)을 도입해 (1) 긍정적 전이 상황: 두 공 모두 잡으면 +1 보상, (2) 부정적 전이 상황: 회색 공은 +1, 흰색 공은 -1 보상이라는 두 가지 설정을 만든다. 각 에피소드마다 공의 색이 교체되며, 이는 옵션이 상태에 따라 동적으로 선택되어야 함을 의미한다. 비교 대상은 (a) 표준 DQN, (b) ‘Half DQN’(파라미터 절반 모델), (c) 옵션 헤드가 포함된 DQN(옵션 헤드 수 2, 각 헤드의 뉴런 수는 전체 파라미터 수를 유지하도록 조정). 또한 네트워크 용량을 16, 32, 64 뉴런(표준 DQN)으로 변형해 용량에 따른 영향을 조사하였다. 실험 결과, 용량이 제한된 상황(특히 16·32 뉴런)에서는 부정적 전이 환경에서 표준 DQN이 학습이 매우 느리거나 잘못된 정책(두 공 모두 회피 혹은 모두 잡음)으로 수렴하는 반면, 옵션 헤드 DQN은 각 헤드가 독립적으로 최적 정책을 학습해 회색 공만 잡고 흰색 공은 피하는 행동을 빠르게 습득한다. 용량이 충분히 클 때(64 뉴런) 세 모델 간 성능 차이는 감소하지만, 옵션 헤드 DQN은 여전히 샘플 효율성 면에서 우위를 유지한다. ‘Half DQN’은 파라미터가 적어 전반적인 학습 속도가 느리고, 옵션 헤드 구조가 제공하는 구조적 이점이 단순 파라미터 감소만으로는 설명되지 않음을 보여준다. 관련 연구와의 차별점은 다음과 같다. 부트스트랩 DQN이나 멀티‑DQN은 여러 헤드를 사용해 Q‑함수의 불확실성을 모델링하거나 멀티태스크 학습을 지원하지만, 교사 네트워크(teacher network)에 의존하거나 옵션 선택 메커니즘이 없었다. 반면 본 접근법은 (1) 옵션 헤드와 감독 네트워크를 통해 명시적인 옵션 선택을 구현하고, (2) 교사 네트워크 없이 현재 서브태스크에 대한 지식만으로 학습을 진행한다. 또한, UVFA나 계층적 DQN과 달리 목표 간 높은 유사성을 가정하지 않고, 완전히 독립적인 서브태스크 간에도 구조적 제약을 통해 부정적 전이를 방지한다. 결론적으로, 옵션 헤드와 감독 네트워크를 결합한 DQN은 (① 부정적 전이가 존재하는 복합 서브태스크에서 샘플 복잡도를 크게 낮춘다, ② 충분한 용량에서는 긍정적 전이 상황에서도 기존 DQN과 동등한 성능을 유지한다, ③ 정책 간 간섭을 최소화하는 구조적 제약을 제공한다)는 세 가지 주요 장점을 제공한다. 이는 향후 복잡한 계층적 환경이나 멀티태스크 강화학습에서 구조적 사전지식을 효율적으로 활용할 수 있는 실용적인 설계 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기