과학 실험 로봇을 위한 절차적 제약 추론 프레임워크
초록
CAPER는 실험 프로토콜을 위반하지 않도록 고수준 작업을 상징적 언어로 분해하고, 중간 단계에서 시각‑언어 모델이 구체적 행동 원시코드를 생성하도록 하며, 최하위 단계에서는 강화학습 기반 연속 제어기로 물리적 불확실성을 보정한다. 이 책임 분리 구조는 장기 조작, 제한된 시연 데이터, 그리고 절차적 정확성이 필수인 과학 실험에서 성공률과 절차 준수성을 크게 향상시킨다.
상세 분석
CAPER는 로봇 과학 실험이라는 특수 도메인에서 기존 엔드‑투‑엔드 비전‑언어‑액션(VLA) 모델이 직면하는 근본적인 한계를 구조적으로 해결한다. 첫 번째 단계인 작업‑수준 플래너는 메타‑Llama‑3.1‑8B‑Instruct를 이용해 체인‑오브‑생각(CoT) 프롬프트로 목표를 해석하고, 전제 조건을 도출한 뒤, 논리적 검증·수정 루프를 통해 절차적으로 일관된 하위 작업 시퀀스 S*를 생성한다. 이 과정은 순수히 언어 공간에서 이루어지며 시각 입력에 전혀 의존하지 않음으로써 프로토콜 위반을 사전에 차단한다.
두 번째 단계인 중간‑수준 멀티모달 플래너는 두 개의 서브모듈로 구성된다. (1) 조건부 확산 모델 기반의 시각 예측기는 현재 관찰과 하위 작업 텍스트를 입력받아 미래 장면 프레임을 생성한다. 이 프레임은 실제 행동 선택에 직접 사용되지 않지만, 충돌 가능성 등 공간적 충돌을 사전에 드러내어 하위 작업의 시각적 타당성을 보강한다. (2) GPT‑4o 기반 비전‑언어 모델은 현재 프레임과 예측 프레임을 함께 고려해 “move”, “grasp”, “pour”, “stir”와 같은 사전 정의된 원시 행동으로 변환한다. 구조화된 프롬프트와 교차‑어텐션 메커니즘을 활용해 언어와 시각 정보를 정밀히 결합함으로써, LLM이 직접 공간 결정을 내리는 위험을 회피한다.
세 번째 단계인 저수준 컨트롤러는 강화학습(RL)으로 미세 조정된 연속 제어 정책이다. 여기서는 고정된 원시 행동 집합만을 실행하도록 제한함으로써, 정책이 물리적 불확실성(예: 마찰, 센서 노이즈)만을 학습하게 된다. 보상 함수는 이동 효율, 성공적인 grasp, 충돌 회피를 균형 있게 포함해 안전하면서도 목표 지향적인 행동을 유도한다.
CAPER의 핵심 통찰은 “절차적 약속을 사전에 명시하고, 그 약속을 위반할 여지를 최소화한다”는 점이다. 작업‑수준 플래너가 생성한 상징적 계획은 이후 모든 모듈이 따르는 제약 조건이 되며, 이는 오류 전파를 차단하고 디버깅을 용이하게 만든다. 또한 각 모듈이 서로 다른 불확실성(논리·시각·물리)을 담당하도록 설계돼 데이터 효율성을 크게 높인다. 실험에서는 과학 워크플로우 벤치마크와 공개된 장기 조작 데이터셋에서 저데이터·장기 시나리오에서 성공률과 절차 정확도가 현저히 개선됨을 보였다.
댓글 및 학술 토론
Loading comments...
의견 남기기