아키텍처 차이가 전이 학습에 미치는 영향: DDQN과 듀얼링 DQN의 비교 연구

아키텍처 차이가 전이 학습에 미치는 영향: DDQN과 듀얼링 DQN의 비교 연구
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 CartPole에서 학습한 DDQN과 듀얼링 DQN 모델을 LunarLander에 그대로 전이하는 고정된 레이어 재사용 프로토콜을 적용해, 두 아키텍처가 교차 환경 전이에서 보이는 안정성 및 성능 차이를 실험적으로 분석한다. 결과는 DDQN이 부정적 전이를 회피하고 목표 환경에서 안정적인 학습을 유지하는 반면, 듀얼링 DQN은 보상 감소와 학습 손실 진동을 보이며 전이 실패를 일으킨다는 것을 보여준다.

상세 분석

본 연구는 딥 강화학습에서 가치 기반 네트워크의 구조적 차이가 전이 학습 효율성에 미치는 영향을 정량적으로 규명하고자 한다. 실험 설계는 두 단계로 구성된다. 첫 번째 단계에서는 동일한 하이퍼파라미터(학습률, 감쇠율, 리플레이 버퍼 크기 등)를 사용해 CartPole‑v2 환경에서 DDQN과 듀얼링 DQN을 각각 500 에피소드까지 학습시킨다. 두 모델 모두 4‑차원 상태와 2‑액션을 가진 단순 환경에서 빠르게 수렴하며, 평균 보상이 195 이상에 도달한다. 두 번째 단계에서는 사전 학습된 모델의 앞쪽 두 개 은닉 레이어(128‑128 유닛)를 고정한 채로 LunarLander‑v3(8‑차원 상태, 4‑액션) 환경에 전이한다. 입력·출력 레이어만 재초기화하고, 전이 초기 100 에피소드 동안 고정 레이어를 동결한 뒤 전체 네트워크를 동일한 학습 설정으로 미세조정한다.

전이 성능 평가는 (1) 에피소드당 누적 보상, (2) 10 에피소드마다 수행하는 ε=0 탐사 정책의 검증 보상, (3) 평균 제곱 TD 오차인 훈련 손실을 기준으로 한다. 각 실험은 5개의 서로 다른 랜덤 시드로 반복해 평균과 표준편차를 구하고, 두 아키텍처 간 차이는 95% 신뢰구간을 이용한 t‑검정으로 검증한다.

결과는 다음과 같다. DDQN 전이 모델은 초기 100 에피소드 동안 고정된 표현 덕분에 급격한 성능 저하 없이 검증 보상이 -60 수준에서 시작해 약 150 에피소드 이후 200에 근접하는 안정적인 상승 곡선을 보였다. 손실 역시 2 이하의 작은 변동을 유지했다. 반면 듀얼링 DQN 전이 모델은 검증 보상이 -370까지 급락하고, 이후에도 평균 150 이하에 머물며 목표 임계값(200)을 달성하지 못했다. 손실은 8~12 사이에서 진동하며 학습이 불안정함을 나타냈다. 통계적으로도 DDQN과 듀얼링 DQN 간의 최종 평균 검증 보상 차이는 p<0.01로 유의미했다.

이러한 차이는 아키텍처가 내재하는 편향 감소 메커니즘과 표현 분해 방식의 전이 적합성 차이로 해석된다. DDQN은 행동 선택과 가치 평가를 분리함으로써 과대평가를 억제하고, 전이된 고차원 특징이 목표 환경에서도 일관된 Q‑값을 제공한다. 반면 듀얼링 DQN은 상태‑가치와 어드밴티지 스트림을 분리하지만, 어드밴티지 추정이 목표 환경의 복잡한 보상 구조와 맞지 않아 초기 고정 단계에서 부정적 편향을 증폭시킨다. 또한, 어드밴티지 스트림이 낮은 차원의 CartPole 특성에 과도하게 최적화돼, LunarLander의 다중 목표와 희소 보상에 적응하기 어려운 것으로 보인다.

연구의 제한점으로는 전이 프로토콜이 매우 단순(고정 레이어만 재사용)하고, 다른 전이 전략(예: 전체 네트워크 미세조정, 도메인 적응 손실, 메타‑학습 초기화)과 비교하지 않았다는 점이다. 또한, 실험 환경이 두 개에 국한돼 일반화 가능성을 완전히 검증하기엔 부족하다. 향후 연구에서는 다양한 소스‑타깃 쌍, 다중 소스 전이, 그리고 Rainbow와 같은 복합 아키텍처를 포함한 비교를 통해 구조적 편향이 전이 학습에 미치는 영향을 보다 포괄적으로 탐색할 필요가 있다.

요약하면, 동일한 전이 절차와 하이퍼파라미터 하에서 DDQN은 구조적 편향 덕분에 부정적 전이를 방지하고 목표 환경에서 안정적인 학습을 유지하는 반면, 듀얼링 DQN은 전이된 표현이 목표 환경에 부적합해 손실과 보상의 큰 변동을 초래한다는 중요한 실증적 증거를 제공한다. 이는 가치 기반 강화학습에서 아키텍처 선택이 전이 학습 성공 여부를 좌우할 수 있음을 시사한다.


댓글 및 학술 토론

Loading comments...

의견 남기기