GoalLadder: 비전 언어 모델로 한 걸음씩 목표를 발견하다
초록
GoalLadder는 자연어로 된 단일 지시만으로 시각 환경에서 강화학습 에이전트를 훈련시키는 새로운 방법입니다. 비전-언어 모델(VLM)을 활용해 작업 완료에 가까운 상태를 점진적으로 발견하고, ELO 기반 등급 시스템으로 노이즈가 많은 VLM 피드백의 영향을 줄입니다. 학습된 임베딩 공간에서 최고 등급 목표까지의 거리를 줄이는 것을 보상으로 삼아, 적은 VLM 질의로도 높은 성공률(평균 ~95%)을 달성합니다.
상세 분석
GoalLadder의 핵심 기술적 혁신은 크게 세 가지로 요약됩니다. 첫째, 점진적 목표 발견 메커니즘입니다. 에이전트가 수집한 궤적에서 상태를 샘플링하여, VLM에게 현재 최고 등급 목표 상태와 비교하게 함으로써 ‘더 나은’ 상태만을 후보 목표 버퍼에 선별합니다. 이는 VLM의 계산 비용이 큰 질의를 무의미한 상태 비교에 낭비하지 않도록 하는 필터링 역할을 합니다.
둘째, ELO 기반 등급 시스템을 통한 노이즈 강건성 확보입니다. 기존 VLM 기반 접근법의 가장 큰 약점은 공간 이해력 부족 등으로 인한 잦은 오피드백이었습니다. GoalLadder는 후보 목표들 간의 쌍별 비교 결과를 체스 ELO 레이팅 시스템과 유사한 방식으로 누적하여 등급을 매깁니다. 단일 오판정이 등급에 치명적 영향을 미치지 않으며, 지속적인 비교를 통해 신뢰도 높은 순위를 점진적으로 수렴시킬 수 있습니다.
셋째, 자기지도 학습된 임베딩 공간을 활용한 보상 함수 정의입니다. 최종 보상은 최고 등급 목표 상태와 현재 상태 간의 거리를 변분 오토인코더(VAE)로 학습된 잠재 공간에서 계산합니다. 이 공간은 에이전트가 경험하는 다양한 시각 관측치를 사용해 레이블 없이 학습되므로, 보상 함수가 새로운 상태에 대해 일반화될 수 있습니다. 이는 매 단계마다 VLM을 호출하거나 대량의 정확한 피드백 데이터를 필요로 하는 기존 방식에서 벗어나, 질의 효율성을 극대화하는 핵심 요소입니다.
이러한 설계는 VLM을 ‘절대적 평가자’가 아닌 ‘상대적 비교자’로 활용하고, 그 출력을 신뢰하되 맹목적으로 따르지 않는 현명한 패러다임을 보여줍니다. 결과적으로 시각적 복잡성과 공간 추론을 요구하는 로봇 매니퓰레이션 작업에서도 환경 수정 없이 높은 성능을 달성할 수 있었습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기