CADENT: 경험 기반 게이트로 전략·전술을 융합한 샘플 효율 전이 학습
초록
CADENT은 자동자 기반의 장기 전략과 정책 디스틸레이션을 통한 단기 전술을 하나의 신호로 결합하고, 상태‑액션별 경험 변동성을 이용해 교사의 조언을 동적으로 가중하는 게이트 메커니즘을 제안한다. 이를 통해 목표 환경에서 40~60% 정도 샘플 효율을 향상시키면서도 최종 성능을 유지한다.
상세 분석
본 논문은 강화학습 전이에서 “전략(what to achieve)”과 “전술(how to act)” 사이의 격차를 해소하고자 하이브리드 디스틸레이션 프레임워크인 CADENT을 설계하였다. 핵심 아이디어는 두 종류의 교사 지식을 하나의 보조 신호로 통합하고, 학생 에이전트가 자체 경험에 기반해 교사의 신뢰도를 조절하도록 하는 경험‑게이트(Experience‑Gated Trust) 메커니즘이다.
전략적 지식은 DFA(Deterministic Finite Automaton) 형태로 표현된 작업 구조에서 추출된다. 교사의 Q‑값을 자동자 전이별로 평균화해 Q_AD(q,q′)를 계산하고, 이를 λ_AD·Q_AD 형태의 내재 보상 r_AD로 변환한다. 이는 학생이 자동자 상태 전이를 수행할 때마다 보상으로 제공돼 장기 목표를 향한 탐색을 유도한다.
전술적 지식은 자동자 상태 q에 조건화된 정책 π_teacher(a|q)로 정형화된다. 이 정책은 정책 그래디언트 형태의 교정 항 g_PD(s,a)=λ_PD·(π_teacher(a|q)−π_student(a|s)) 로 학생 정책에 부드럽게 압력을 가한다.
가장 혁신적인 부분은 상태‑액션별 변동성 추적기 V_t(s,a)이다. TD‑오차의 절대값을 지수 평균으로 누적해 변동성을 측정하고, 시그모이드 함수를 통해 신뢰도 ω(s,a)=σ(−k·(V_t(s,a)−θ)) 를 계산한다. 변동성이 낮아 신뢰도가 높을수록(ω≈1) 학생은 자체 TD‑오차 기반 업데이트 δ_student를 그대로 적용하고, 변동성이 크면(ω≈0) 교사의 r_AD와 g_PD가 주도한다. 최종 Q‑업데이트는 ΔQ=ω·δ_student+(1−ω)·
댓글 및 학술 토론
Loading comments...
의견 남기기