특징 의존 노이즈가 선호 기반 강화학습에 미치는 영향 분석
초록
본 논문은 선호 기반 강화학습(PbRL)에서 관찰에 의존하는 특수한 형태의 노이즈, 즉 특징 의존 노이즈를 정의하고, 이를 다양한 변형(궤적 특징 노이즈, 궤적 유사도 노이즈, 불확실성 인식 노이즈, 언어 모델 노이즈)으로 구현한다. DMControl과 Meta‑world 환경에서 실험한 결과, 최신 노이즈‑강건 PbRL 알고리즘조차 특정 특징 의존 노이즈에 취약해 성능이 크게 저하되는 반면, 별도 디노이징 없이 기본 PbRL을 적용한 경우가 오히려 더 좋은 성과를 보였다. 언어 모델이 생성한 노이즈도 유사한 특성을 보여 인간 교사의 실제 오류를 모사할 수 있음을 시사한다.
상세 분석
이 연구는 기존 PbRL 연구가 주로 균등하거나 무작위적인 노이즈 모델에 초점을 맞추어 왔던 점을 비판한다. 저자들은 “특징 의존 노이즈(feature‑dependent noise)”라는 개념을 도입해, 노이즈 발생 확률이 환경 상태 혹은 행동의 특정 특성에 따라 변하도록 설계하였다. 구체적으로는 (1) 궤적 특징 노이즈: 특정 상태 변수(예: 속도, 관절 각도)의 크기가 클수록 선호 라벨이 뒤바뀔 확률이 증가하도록 설정; (2) 궤적 유사도 노이즈: 두 궤적 간 유사도가 낮을수록 라벨 오류가 발생하도록 함; (3) 불확실성 인식 노이즈: 모델이 예측한 불확실성이 클수록 라벨이 뒤바뀔 확률을 높임; (4) 언어 모델 노이즈: 사전 학습된 대형 언어 모델이 인간 교사의 주관적 판단을 모사하도록 프롬프트를 설계해 생성된 라벨 오류.
실험 설계는 DMControl의 연속 제어 과제와 Meta‑world의 로봇 조작 과제를 사용했으며, 각 환경마다 5~10개의 핵심 특징을 선정해 노이즈 함수를 정의하였다. 평가 지표는 학습된 정책의 최종 반환값과 학습 속도이며, 비교 대상은 (i) 기존 PbRL 알고리즘(예: PEBBLE), (ii) 최신 노이즈‑강건 기법(예: D-REX, Rank‑Based Denoising), (iii) 베이스라인 무노이즈 설정이다.
주요 결과는 두 가지로 요약된다. 첫째, 특징 의존 노이즈가 존재할 때 최신 강건 기법의 성능이 급격히 저하된다. 특히, 불확실성 인식 노이즈가 높은 환경에서는 정책이 수렴하지 못하고, 반환값이 30 % 이상 감소한다. 둘째, 노이즈를 명시적으로 모델링하지 않은 기본 PbRL이 오히려 더 안정적인 학습을 보인다. 이는 강건 기법이 노이즈를 균등하게 가정하고 보정하려다 오히려 편향을 도입하기 때문으로 해석된다.
언어 모델 노이즈 실험에서는 GPT‑4 기반 프롬프트가 인간 교사의 주관적 오류 패턴을 잘 재현했으며, 이 역시 특징 의존 노이즈와 유사한 성능 저하를 야기했다. 이는 실제 인간 피드백이 단순히 무작위가 아니라, 특정 상황(예: 높은 불확실성, 복잡한 동작)에서 오류가 집중될 가능성을 시사한다.
결론적으로, 논문은 PbRL 연구가 노이즈의 구조적 특성을 고려한 모델링으로 전환해야 함을 강조한다. 향후 연구는 (1) 특징 의존 노이즈를 추정·보정하는 베이지안 프레임워크, (2) 인간 교사의 메타‑정보(예: 자신감, 피드백 시간)를 활용한 적응형 디노이징, (3) 언어 모델을 활용한 시뮬레이션 기반 데이터 증강 등을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기