구조화된 장면 그래프를 이용한 장기 조작 추론 프레임워크 GSR

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GSR은 시각 입력을 의미론적으로 정착된 장면 그래프로 변환하고, 이를 기반으로 대형 언어 모델이 단계별 행동 전제·결과·목표 만족을 추론하도록 설계하였다. 1.6 M 규모의 Manip‑Cognition 데이터셋을 활용해 세계 이해, 목표 해석, 행동 계획을 동시에 지도학습하고, 이후 강화학습으로 실행 제약을 정제한다. 실험은 RLBench·LIBERO·GSR‑benchmark·실제 로봇에서 수행했으며, 제로샷 일반화와 장기 조작 성공률이 기존 프롬프트 기반 방법보다 크게 향상되었다.

상세 분석

본 논문은 현재 로봇 조작 연구에서 흔히 발생하는 “고차원 잠재 표현에 이유가 얽혀 있다”는 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 장면 그래프(Scene Graph)를 세계 상태의 명시적 표현으로 채택하고, 이를 LLM 기반 추론 엔진에 입력함으로써 “인식‑추론‑행동” 사이의 구조적 간극을 메우는 것이다.

세계 표현 설계
- RGB‑D 영상을 VFM(비전 기반 파운데이션 모델)으로 처리해 객체와 관계를 추출, 각각을 **노드(o_j)**와 에지(e_k) 로 구성한다.
- 객체는 기능적 키포인트(예: 컵의 손잡이)와 관절형 자식 요소(예: 서랍)까지 포함하는 풍부한 속성을 갖는다.
- 관계는 on, inside, adjacent 등 물리적·공간적 프리컨디션을 명시한다. 이렇게 정형화된 그래프는 시각 변동성에 강인하고, 언어와 직접 매핑이 가능하도록 설계되었다.
모델 구조와 학습 전략
- 베이스 모델은 Qwen‑3‑8B(8.2 B 파라미터)이며, Grouped‑Query Attention과 Rotary Positional Embedding을 이용해 130k 토큰까지의 긴 컨텍스트를 처리한다.
- 학습은 두 단계로 나뉜다.
  - SFT (Supervised Fine‑Tuning): Manip‑Cognition 데이터셋(1.6 M 샘플)에서 (① 장면‑그래프 매핑, ② 전방 행동 추론, ③ 세계 모델링, ④ 목표‑조건 계획) 네 가지 서브태스크를 동시에 지도학습한다. LoRA(저‑랭크 어댑테이션)로 파라미터 효율성을 확보한다.
  - RFT (Reinforcement Fine‑Tuning): GRPO(그룹 상대 정책 최적화)를 적용해 실제 실행 환경에서 발생하는 다중‑액션 환상, 객체 착오, 잘못된 종료를 각각 보상 함수(R_S, R_G, R_T)로 정량화한다. 특히, 한 번에 하나의 원자 행동만 출력하도록 강제하는 포맷 페널티가 핵심이다.
Manip‑Cognition‑1.6M 데이터 엔진
- World Understanding(15 k): 텍스트→그래프 쌍으로 시각‑언어 정합성을 학습한다.
- Action Planning(1.3 M): (a) 전방 행동 추론, (b) 세계 모델링(Δedge 예측), (c) 목표‑조건 계획을 포함한다. 6 k개의 실제 시연 트래젝터리를 증강해 만든다.
- Goal Interpretation(288 k): 현재 상태와 자연어 목표를 입력으로 최종 목표 그래프를 예측하도록 훈련한다. Epic‑Kitchens‑100과 EgoPlan을 활용해 장기 목표를 학습한다.
실험 및 결과
- 베이스라인: RT‑2, OpenVLA, π0 등 최신 엔드‑투‑엔드 및 계층형 모델, 그리고 VoxPoser, ReKep 등 프롬프트 기반 공간 추론 방법을 비교했다.
- 평가: RLBench·LIBERO 230개 태스크, 자체 설계한 GSR‑benchmark 180개 장기 태스크, 그리고 실제 로봇(UR5e + RG2 그리퍼)에서 수행.
- 핵심 성과: 제로샷 상황에서 성공률이 평균 23 %p 상승, 10 step 이상 길이의 시퀀스에서 35 %p 이상 향상. 특히 객체 명칭 착오와 조기 종료 오류가 80 % 이상 감소했다.
- 분석: 그래프 기반 세계 모델이 “전이 규칙(Δedge)”을 명시적으로 학습함으로써 물리적 인과관계를 내재화하고, LLM이 언어‑그래프 인터페이스를 통해 일반화된 추론을 수행한다는 점을 확인했다.
한계와 향후 연구
- 현재 그래프 추출은 사전 훈련된 VFM에 크게 의존하며, 복잡한 변형(예: 투명 물체, 반사면)에서는 오류가 발생한다.
- 행동 실행은 메타‑스킬 라이브러리(프리셋 저레벨 컨트롤)에 의존하므로, 새로운 도구나 비정형 물체에 대한 확장은 추가적인 스킬 학습이 필요하다.
- 장면 그래프의 규모가 커질수록 LLM의 컨텍스트 한계에 부딪히므로, 그래프 압축·요약 기법과 효율적인 토큰화가 향후 과제로 남는다.

전반적으로 GSR은 “시각 → 구조화된 세계 → 언어 기반 추론 → 행동”이라는 명확한 파이프라인을 제시함으로써, 기존 엔드‑투‑엔드 방식이 갖는 인과·구조적 불투명성을 해소하고, 장기 조작에 필요한 인과적 전이와 목표 지향적 계획을 효과적으로 학습한다는 점에서 로봇 조작 연구에 중요한 전환점을 제공한다.

구조화된 장면 그래프를 이용한 장기 조작 추론 프레임워크 GSR

초록

상세 분석

댓글 및 학술 토론

의견 남기기