오라클 피드백을 절감하는 비전‑언어 임베딩 기반 선호 강화학습

**배경 및 문제 정의** 선호 기반 강화학습(PbRL)은 인간 혹은 자동 오라클이 제공하는 행동 비교를 통해 보상 함수를 학습함으로써, 복잡한 로봇 과제에 대한 명시적 보상 설계의 어려움을 극복한다. 그러나 기존 PbRL은 수천~수만 건의 고품질 선호 라벨을 필요로 하며, 이는 인간 피드백 비용이 크게 증가하거나, 대형 비전‑언어 모델(VLM) API 비용이 급증하는 문제를 야기한다. 반면, 경량 비전‑언어 임베딩(VLE) 모델(예: CLIP)은 텍스트와 이미지 사이의 유사도를 빠르게 계산해 “작업 설명과 현재 관측이 얼마나 일치하는가”를 보상으로 변환할 수 있다. VLE는 저비용·고속이라는 장점이 있지만, 사전 학습 데이터와 로봇 환경 사이의 도메인 차이, 그리고 미세한 진행도 차이를 포착하지 못하는 노이즈가 존재한다. **ROVED 프레임워크 개요** 본 논문은 이러한 두 접근법의 장단점을 보완하기 위해 ROVED(Reducing Oracle Feedback using Vision‑language Embeddings)라는 하이브리드 시스템을 제안한다. ROVED는 크게 네 단계로 구성된다. 1. **VLE 기반 자동 선호 생성** - 주어진 작업 설명 l과 각 행동 세그먼트 σ의 이미지 시퀀스 O₀, O₁을 이용해 VLE 보상 r_vleₜ = ⟨F_L(l), F_I(oₜ)⟩/(‖F_L(l)‖‖F_I(oₜ)‖) 를 계산한다. - 세그먼트 전체 보상 R_i = Σₜ r_vleₜ 를 누적하고, R₀와 R₁을 비교해 자동 라벨 ˜y를 (1,0), (0,1), (0.5,0.5) 형태로 부여한다. 2. **불확실성 기반 오라클 질의** - 학습 중인 보상 모델 r_θ에 대해 Bradley‑Terry 확률 P_θ와 라벨 ˜y 사이의 KL‑다이버전스 손실을 측정한다. - 현재 배치에서 최대 손실 ρ를 이용해 이론적 하한 τ_base = –ln ρ + α ρ 를 계산하고, 손실 표준편차 s_KL와 시간에 따라 감소하는 βₜ를 곱한 τ_unc = βₜ·s_KL 를 더해 최종 임계값 τ_lower = τ_base + τ_unc 를 만든다. - KL 손실이 τ_lower를 초과하는 샘플을 ‘노이즈’로 판단하고, 제한된 오라클 예산 내에서 이들만 선택적으로 인간 혹은 대형 VLM(예: Gemini‑Pro)에게 질의한다. 3. **파라미터 효율적 VLE 파인튜닝** - VLE 자체는 동결하고, 언어와 이미지 임베딩 위에 각각 작은 변환 레이어 G_L, G_I를 삽입한다. - 오라클으로부터 얻은 고품질 선호 라벨을 사용해 변환 레이어를 선호 손실 (Eq. 2) 로 미세 조정한다. 이는 전체 VLE 파라미터를 고정함으로써 메모리와 연산량을 최소화한다. 4. **동역학 기반 자체 지도 학습** - 관측 oₜ, 행동 aₜ, 다음 관측 oₜ₊₁을 이용해 이미지 임베딩 G_I∘F_I(oₜ)와 G_I∘F_I(oₜ₊₁) 사이에 선형 예측기 f를 학습한다. 손실 ‖f(G_I(F_I(oₜ)), G_I(F_I(oₜ₊₁))) – aₜ‖² 를 최소화함으로써 임베딩이 로봇의 물리적 변화를 반영하도록 만든다. **실험 설정 및 결과** - **환경**: Meta‑World의 6가지 조작 과제(문 열기·닫기, 서랍 열기·닫기, 버튼 누르기, 스위프 등). - **베이스라인**: 기존 PbRL(Pebble, MRN), VLE‑단독 보상, 대형 VLM 오라클 전용 방법. - **성능**: ROVED는 대부분의 과제에서 베이스라인과 동등하거나 더 높은 성공률(최대 5% 향상)을 기록했다. - **오라클 비용 절감**: 전체 오라클 쿼리 수를 50‑80% 감소시켰으며, 가장 어려운 과제에서는 80%까지 절감했다. - **교차 과제 일반화**: 한 과제에서 파인튜닝된 VLE를 다른 과제에 그대로 적용했을 때 추가 오라클 라벨이 거의 필요 없었으며, 전체 어노테이션 절감률이 75‑90%에 달했다. **주요 기여 및 의의** 1. VLE와 오라클을 동적으로 결합해 비용‑효율적인 PbRL 파이프라인을 제시. 2. KL‑다이버전스 기반 불확실성 필터링을 통해 노이즈 샘플을 자동 식별하고, 제한된 오라클 예산을 최적 활용. 3. 파라미터 효율적인 변환 레이어와 동역학 기반 자체 지도 학습을 도입해 VLE를 최소한의 라벨로 빠르게 적응시킴. 4. 파인튜닝된 VLE가 과제 간 전이 가능함을 실증, 대규모 로봇 학습에서 어노테이션 비용을 획기적으로 낮출 수 있음을 입증. **향후 연구 방향** - 더 복잡한 장면(다중 객체, 부분 가시성)에서의 VLE 적응 방법 탐색. - 인간 피드백이 아닌 시뮬레이션 기반 자동 오라클(예: 물리 엔진)과의 연계. - 온라인 학습 시점에서의 불확실성 추정 정확도 향상을 위한 베이지안 신경망 적용. **결론** ROVED는 경량 비전‑언어 임베딩을 활용한 자동 선호 생성, 불확실성 기반 오라클 질의, 파라미터 효율적 파인튜닝, 동역학 기반 자체 지도 학습이라는 네 가지 핵심 요소를 결합함으로써, 고비용 오라클 의존성을 크게 낮추면서도 정밀한 보상 신호를 확보한다. 이는 로봇 조작, 시뮬레이션‑실제 전이, 그리고 인간 피드백이 제한된 상황에서 선호 기반 강화학습을 실용화하는 데 중요한 발판이 될 것이다.

오라클 피드백을 절감하는 비전‑언어 임베딩 기반 선호 강화학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기