선호 기반 인컨텍스트 강화학습: 보상 없이 트랜스포머로 일반화
초록
본 논문은 보상 신호 없이 선호 피드백만으로 사전학습과 배치를 수행하는 인컨텍스트 강화학습(ICPRL) 프레임워크를 제안한다. 즉시 선호(I‑PRL)와 궤적 선호(T‑PRL) 두 가지 설정을 도입하고, 기존 감독 학습 방식(DPT)을 선호 전용 데이터로 확장한 DP²T 베이스라인과, 선호 구조를 직접 활용하는 선호‑네이티브 학습 방식을 제시한다. 듀얼 밴딧, 내비게이션, 연속 제어 실험에서 보상 기반 ICRL과 경쟁하는 성능을 보이며, 보상 설계 비용을 크게 절감한다.
상세 분석
이 연구는 기존 인컨텍스트 강화학습(ICRL)이 반드시 명시적 보상 신호에 의존한다는 한계를 정확히 짚어낸다. 보상은 실제 시스템에서 정의하기 어렵고, 스케일링이나 일관성 문제를 야기한다는 점을 강조한 뒤, 선호 피드백이라는 상대적 비교 정보를 활용하는 새로운 패러다임, ICPRL을 제안한다. 두 변형(I‑PRL, T‑PRL)은 피드백의 시간적 granularity에 따라 구분된다. I‑PRL은 각 결정 시점마다 두 행동 중 어느 쪽이 더 선호되는지를 묻는 즉시 선호를 사용해, dueling bandit 문제와 자연스럽게 연결된다. 반면 T‑PRL은 전체 궤적을 비교해 선호를 제공하므로, 인간이 직관적으로 판단하기 쉬운 형태이며, 기존 PbRL에서 사용되는 Bradley‑Terry 모델을 그대로 적용해 라벨을 생성한다.
방법론 측면에서 저자들은 먼저 DPT(Decision‑Pretrained Transformer)의 감독 학습 구조를 그대로 유지하면서, 보상 기반 컨텍스트 D_R을 선호 기반 컨텍스트 D_I 혹은 D_T로 교체한 DP²T를 설계한다. 여기서는 쿼리 상태와 선호 데이터 집합을 입력으로 받아 최적 행동을 예측하도록 학습한다. 이 베이스라인은 “optimal action label”이라는 추가 정보를 필요로 하지 않으며, 선호만으로도 충분히 정책을 학습할 수 있음을 검증한다.
그 다음, 선호‑네이티브 학습 프레임워크를 도입한다. I‑PRL에서는 행동 쌍 (a, a′)에 대한 선호 y를 직접 로스 함수에 포함시켜, 시그모이드 기반 확률 모델 σ(ΔQ)와 유사하게 행동 차이를 학습한다. T‑PRL에서는 궤적 쌍 (ξ, ξ′)에 대한 선호를 이용해, 전체 궤적의 상대적 가치를 추정하고, 이를 토대로 정책을 업데이트한다. 이 과정에서 보상 함수나 최적 행동 라벨을 전혀 사용하지 않으며, 선호 비교만으로 정책 파라미터를 직접 최적화한다는 점이 핵심이다.
실험에서는 dueling bandit, 2D/3D 내비게이션, MuJoCo 연속 제어 등 다양한 도메인을 선택했다. 각 도메인에서 동일한 선호 라벨링 예산을 여러 사전학습 태스크에 분산시킨 뒤, 테스트 단계에서는 소수의 추가 선호만으로 새로운 태스크에 적응한다. 결과는 보상 기반 ICRL(DPT, AD 등)과 거의 동등한 성능을 보이며, 특히 I‑PRL이 T‑PRL보다 적은 샘플로 빠른 수렴을 보이는 경우가 많았다. 이는 즉시 선호가 더 풍부한 정보량을 제공한다는 가설을 뒷받침한다.
한계점으로는 선호 라벨이 합성된 경우가 많아 실제 인간 피드백에 대한 견고성 검증이 부족하다는 점, 그리고 대규모 사전학습 데이터 구축 비용이 여전히 존재한다는 점을 들 수 있다. 향후 연구에서는 인간‑인간 혹은 인간‑LLM 혼합 선호 수집, 멀티모달 선호 통합, 그리고 선호 라벨의 불확실성을 모델링하는 베이지안 접근법이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기