교차 도메인 시연‑코드 변환을 위한 신경‑기호 반사실 추론

NeSyCR은 비전‑언어 모델(VLM)과 기호 플래너를 결합해 시연 영상의 절차를 기호화하고, 배치 환경의 관찰을 바탕으로 반사실 상태를 생성한다. 기호 세계 모델에서 전이 검증을 수행해 절차적 불일치를 탐지하고, VLM이 제안하는 대체 행동을 기호 검증으로 확인함으로써 배치에 맞는 코드 정책을 자동 생성한다. 실험 결과, 시뮬레이션·실제 로봇 모두에서 기존 최강 Baseline인 Statler 대비 평균 31.14% 높은 성공률을 달성한다.

저자: Jooyoung Kim, Wonje Choi, Younguk Song

교차 도메인 시연‑코드 변환을 위한 신경‑기호 반사실 추론
**1. 연구 배경 및 문제 정의** 최근 대규모 비전‑언어 모델(VLM)과 대형 언어 모델(LLM)의 발전으로, 로봇이 인간의 시연 영상을 보고 직접 제어 코드를 생성하는 “비디오‑인스트럭션 로봇 프로그래밍”이 가능해졌다. 그러나 시연이 이루어진 환경과 실제 배치 환경 사이에는 레이아웃, 물체 속성, 로봇 형태 등 다양한 도메인 차이가 존재한다. 이러한 차이는 동일 절차를 그대로 적용했을 때 **절차적 불일치**를 초래한다. 기존 방법은 관찰을 그대로 코드화하기에, 인과 관계를 파악하지 못하고 도메인 갭을 메우지 못한다는 근본적인 한계가 있다. **2. NeSyCR 프레임워크 개요** NeSyCR은 두 단계로 구성된다. - **기호 세계 모델 구축**: VLM(Ψ)은 시연 영상의 핵심 프레임을 입력받아 장면 그래프를 생성한다. 객체와 공간·관계 프레디케이트를 추출해 집합 Q, P를 만든다. 연속 프레임 사이의 차이를 기반으로 VLM은 **기호 행동 연산자** a_t = (name, pre, eff)를 예측한다. 이 연산자들은 STRIPS‑형식으로 표현되며, 기호 툴 Φ(예: VAL)를 통해 전방 시뮬레이션을 수행해 실제 상태 전이와 일치하는지 검증한다. 검증이 통과하면 시연 절차 π = {a_1,…,a_{N‑1}} 가 확정된다. - **신경‑기호 반사실 적응**: 배치 환경에서 관찰된 이미지 ô_t 를 VLM이 기호 상태 ˆs_t 로 변환한다(반사실 상태). Φ는 π를 ˆs_1부터 순차적으로 적용해 ˆs_{t+1}=Φ(ˆs_t, a_t) 를 계산한다. 이 과정에서 **pre‑condition 불충족** 혹은 **effect 불일치**가 발견되면 해당 행동을 *inconsistent* 로 판단한다(식 6). **3. 반사실 탐색 및 절차 수정** 불일치 행동에 대해 VLM은 대체 행동 a'을 제안한다. 제안된 행동은 기호 툴이 전제와 효과가 현재 반사실 상태와 다음 목표 상태와 일치하는지 검증한다. 검증이 성공하면 a_t 를 a' 로 교체하고, 필요 없을 경우 삭제한다(식 7). 이 과정을 반복해 모든 전이가 일관된 **적응 절차 ˜π** 를 도출한다. 최종적으로 ˜π 를 코드 템플릿에 매핑해 실행 가능한 제어 코드 정책으로 컴파일한다. **4. 실험 설계 및 결과** - **시뮬레이션**: 8개의 복합 조작 시나리오(서랍 정리, 물체 분류, 조립 등)에서 환경 레이아웃, 물체 색·크기, 로봇 팔 길이 등을 변형하였다. - **실제 로봇**: 4개의 실제 작업(서랍 정리, 자석 활용, 나사 모음 등)에서 인간 손 대신 로봇 그리퍼, 물체 위치 변동, 도구 유무 등 도메인 차이를 적용하였다. NeSyCR은 평균 성공률 78.3%를 기록했으며, 가장 강력한 Baseline인 Statler(≈47.2%) 대비 31.14%p 상승했다. 특히, **연쇄적 불일치**(예: 자석을 먼저 사용해야 하는 상황) 해결에서 기존 방법이 전혀 성공하지 못한 반면, NeSyCR은 절차를 재배열하고 도구 활용을 삽입해 성공적으로 작업을 완수했다. **5. 주요 기여 및 한계** - **기호화된 절차**를 통해 인과 구조를 명시화하고, 반사실 상태를 이용해 도메인 차이를 정량화하였다. - VLM의 풍부한 commonsense와 기호 검증을 결합해 **절차적 호환성**을 보장한다. - 제한점으로는 VLM이 정확한 프레임을 선택하고 행동 명세를 생성하는 데 의존한다는 점, 그리고 STRIPS‑형식이 복잡한 연속 제어(힘, 토크 등)를 표현하기에 한계가 있다는 점을 제시한다. **6. 향후 연구 방향** - 멀티모달 VLM을 강화해 행동 명세의 정확도와 다양성을 높인다. - 비선형 동역학과 연속 제어를 포괄할 수 있는 **확장된 기호 표현**(예: PDDL2.1, 하이브리드 플래너) 도입을 검토한다. - 실시간 반사실 추론을 통해 온라인 적응 및 오류 복구 능력을 강화한다. 결론적으로, NeSyCR은 비전‑언어 모델과 기호 플래너를 통합한 **신경‑기호 반사실 추론** 프레임워크로, 교차 도메인 로봇 시연‑코드 변환 문제를 효과적으로 해결한다는 점에서 로봇 학습·배치 자동화 분야에 중요한 전진을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기