긴시간 시각 모방 학습을 위한 계획·코드 반성 프레임워크
초록
본 논문은 인간 시연 영상을 기반으로 장시간(최대 18단계) 작업을 모방하는 새로운 에이전트 구조를 제안한다. 계획 생성·검증, 코드 생성·검증이라는 두 개의 반성 모듈을 도입해 행동 순서와 공간 관계의 일관성을 자동으로 점검하고 오류를 수정한다. 또한 장기 시각 모방 학습을 평가하기 위한 300개의 인간 시연 영상으로 구성된 LongVILBench 벤치마크를 공개한다. 실험 결과, 기존 VLM 기반 방법들이 장기 과제에서 크게 성능 저하를 보이는 반면, 제안 프레임워크가 뛰어난 정확도와 안정성을 보이며 새로운 기준선을 제시한다.
상세 분석
이 연구는 시각‑언어 모델(VLM)을 기반으로 한 장기 시각 모방 학습(VIL)의 핵심 한계, 즉 긴 시연에서의 시간‑공간 의존성 파악과 오류 누적 문제를 두 단계의 ‘반성(reflection)’ 메커니즘으로 해결한다. 첫 번째 반성 모듈인 Plan Reflection (Rₚₗₐₙ)은 생성된 행동 계획의 각 단계가 영상의 해당 구간과 일치하는지를 검증한다. 구체적으로, 세그먼트‑레벨 시간 검증(TemporalVerify)과 프레임‑레벨 공간 검증(SpatialVerify)을 VLM에 호출해 ‘Yes/No/Unclear’ 라벨과 설명을 얻고, 불일치가 발견되면 CorrectPlan을 통해 행동 서술, 구간 경계, 객체 참조 등을 자동 교정한다. 두 번째 반성 모듈인 Code Reflection (R_cₒdₑ)는 정제된 계획을 코드로 변환한 뒤, 각 코드 블록이 해당 행동과 의미적으로 일치하는지를 CodeVerify로 판단한다. 일치하지 않을 경우 CorrectCode가 코드의 함수 호출, 파라미터, 객체 명칭 등을 수정한다. 이러한 이중 반성 루프는 ‘계획 → 검증 → 수정 → 코드 → 검증 → 수정’ 순환을 형성해 오류 전파를 근본적으로 차단한다.
기술적 구현 측면에서, Plan Generation (Gₚₗₐₙ)은 손 궤적 기반 키프레임 추출·보완 과정을 거쳐 3D 손 위치와 속도 최소값을 이용해 의미 있는 순간을 선정한다. 이후 VLM 기반 GetPlan이 키프레임과 감지된 객체 집합을 입력받아 자연어 행동 서술, 시간 구간, 정당성 설명을 포함한 튜플 형태의 초기 계획 A를 만든다. Plan Reflection 은 위에서 언급한 두 검증 도구를 순차적으로 적용해 A를 A로 정제한다. Code Generation (G_cₒdₑ)은 사전 정의된 7개의 로봇 원시 동작 함수를 활용해 각 행동을 코드 스니펫으로 매핑한다. Code Reflection 은 LLM 기반 CodeVerify와 CorrectCode를 통해 코드‑행동 정합성을 확보하고, 최종 실행 가능한 프로그램 Π를 산출한다.
벤치마크인 LongVILBench은 기존 Imitrob, FetchBench, SeeDo와 달리 1~18 단계, 6가지 공간 관계, 3단계 난이도(단순·중간·복합)로 구성된 150개의 과제와 300개의 영상 데이터를 제공한다. 이는 장기 시연의 시간적 연속성과 복합적인 물체 상호작용을 정량적으로 평가할 수 있게 설계되었다. 실험에서는 여러 최신 VLM‑기반 VIL 모델을 동일 조건에서 비교했으며, 제안 프레임워크가 평균 성공률, 단계 정확도, 공간 정합도 모두에서 현저히 우수함을 보였다. 특히, 오류 검출·수정 비율이 70% 이상으로, 반성 메커니즘이 장기 작업에서의 신뢰성을 크게 향상시킴을 입증한다.
한계점으로는 현재 반성 모듈이 VLM의 출력에 크게 의존해 모델 자체의 오류에 민감하다는 점, 그리고 키프레임 기반 시간 분할이 매우 빠른 동작(예: 손가락 미세 조작)에서는 놓칠 가능성이 있다는 점을 언급한다. 향후 연구에서는 멀티모달 피드백(힘 센서, 음성)과 더 긴 컨텍스트를 다룰 수 있는 대형 트랜스포머 기반 VLM을 통합해 반성 정확도를 높이는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기