시각 기반 RL에서 LTL 과제의 자동 심볼 매핑과 제로샷 일반화
초록
본 논문은 원시 이미지와 같은 서브심볼릭 환경에서 Linear Temporal Logic(LTL) 과제를 수행하도록 강화학습 에이전트를 훈련한다. 라벨링 함수(심볼 그라운딩)를 사전에 알 필요 없이, Neural Reward Machines(NRM)을 이용해 관찰과 희소 보상만으로 심볼 그라운더와 다중 과제 정책을 공동 학습한다. 실험 결과, 실제 라벨링을 사용한 경우와 거의 동일한 성능을 보이며, 기존 최첨단 방법보다 크게 우수함을 입증한다.
상세 분석
이 연구는 두 가지 난제를 동시에 해결한다. 첫째, LTL 공식에 등장하는 원자 기호와 원시 관찰 사이의 매핑, 즉 심볼 그라운딩을 사전 지식 없이 학습한다는 점이다. 기존 작업들은 보통 이미지 → 기호 변환을 별도 전처리 단계로 가정했지만, 실제 로봇이나 게임 환경에서는 이러한 라벨링이 존재하지 않는다. 저자들은 Neural Reward Machines(NRM)을 ‘반지도학습 심볼 그라운딩(SSSG)’ 프레임으로 재구성한다. NRM은 LTL 공식의 구조를 이용해 관찰-보상 시퀀스로부터 간접적인 지도 신호를 생성한다. 구체적으로, 에이전트가 수행한 행동이 현재 공식의 진행(progress) 상태와 일치하면 +1, 모순이면 -1, 그 외에는 0의 삼값 보상을 부여한다. 이러한 보상은 매우 희소하지만, 다중 과제를 동시에 학습함으로써 다양한 진행 단계가 빈번히 발생해 학습 신호가 충분히 확보된다.
둘째, 다중 LTL 과제에 대해 제로샷 일반화를 달성한다는 점이다. 저자들은 LTL2Action의 아이디어를 확장해, 진행된 LTL 공식 자체를 그래프 신경망(GNN) 기반 인코더로 변환하고, 이를 이미지 특징과 결합해 정책 네트워크에 입력한다. 이때 진행 공식은 매 타임스텝마다 가장 가능성이 높은 심볼(grounder의 arg‑max)으로 업데이트된다. 중요한 점은 모든 모듈—grounder, 이미지 인코더, LTL 인코더, 정책—이 하나의 경험 버퍼를 공유하며 공동 최적화된다는 것이다. 이렇게 하면 심볼 그라운더가 초기에는 부정확해도, 정책이 제공하는 행동-보상 피드백이 grounder를 점진적으로 교정한다.
실험은 Minecraft‑like 격자 세계와 연속형 네비게이션 두 환경에서 수행되었다. 두 환경 모두 시각 입력만 제공하고, 라벨링 함수는 숨겨진 상태로 유지된다. 결과는 (1) true labeling을 사용한 상한선과 거의 차이가 없으며, (2) 기존 최첨단인 Kuo et al. 2020보다 평균 15~20% 높은 성공률을 기록한다. 특히, 테스트에 사용된 전혀 새로운 LTL 공식에 대해서도 학습된 정책이 즉시 적응해 높은 성공률을 보였다. 이는 진행 기반 인코딩과 NRM 기반 심볼 학습이 서로 보완적으로 작용함을 의미한다.
이 논문의 주요 기여는 (i) 환경 자체가 제공하는 구조적 제약을 활용해 심볼 그라운딩을 반지도학습으로 해결한 방법, (ii) LTL2Action의 라벨링 가정을 완전히 제거하고 완전 통합 학습 파이프라인을 제시한 점, (iii) 제로샷 일반화 능력을 실험적으로 검증한 포괄적인 평가이다. 향후 연구에서는 더 복잡한 비공식적(Non‑co‑safe) LTL, 멀티‑에이전트 협업, 그리고 실제 로봇 비전 데이터에 대한 확장이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기