능동적 인식 제어로 효율적인 검증 계획 구현
초록
본 논문은 부분 관측 환경에서 계획을 수행할 때, 학습된 세계 모델의 예측을 활용하되 예측이 직접적인 실행 보증으로 사용되지 않도록 하는 “능동적 인식 제어(AEC)” 프레임워크를 제안한다. AEC는 실제로 환경에 질의해 얻은 grounded fact store와 모델이 만든 belief store를 명확히 구분하고, 전자는 계획 실행의 최종 검증에만 사용한다. 불확실성이 높은 프레디케이트는 질의를 통해 확정하고, 확신이 충분한 경우에는 시뮬레이션으로 가설을 정제한다. 최종 계획은 SQ‑BCP 기반의 범주적 호환성 검사와 전제 조건 커버리지를 만족할 때만 채택된다. ALFWorld와 ScienceWorld 실험에서 기존 LLM 기반 에이전트 대비 재계획 횟수를 크게 줄이며 경쟁력 있는 성공률을 달성한다.
상세 분석
본 연구는 부분 관측 상황에서 “예측 = 사실”이라는 함정을 피하기 위해 두 개의 독립적인 저장소를 도입한다는 점에서 혁신적이다. **grounded fact store (w)**는 초기 관측과 실제 환경 질의·실행 피드백을 통해 얻은 확정적인 사실만을 보관한다. 반면 **belief store (ŵ)**는 학습된 세계 모델이 제공하는 확률적 예측과 불확실도(σ)만을 저장하며, 어떠한 경우에도 계획의 실행 가능성을 직접 보증하지 않는다. 이러한 설계는 시뮬레이션 오류가 계획의 안전성을 해치지 않도록 보장한다.
AEC의 핵심 제어 로직은 미해결 프레디케이트 집합 U(w,ŵ,h) 를 정의하고, 여기서 가장 불확실하거나 애매한(p) 를 선택한다. 모델 Mθ는 (µ,σ) 쌍을 반환하고, |µ‑0.5|가 사전 정의된 마진 ε보다 작으면 “애매함”으로 판단해 질의를 강제한다. 반대로 확신이 충분하면, (p, v̂,σ)를 belief store에 기록하고, 해당 프레디케이트를 기반으로 후보 계획 집합 H를 정제한다. 이 과정은 후보 플랜을 빠르게 축소시키면서도, 실제 환경에 불필요한 질의를 최소화한다.
계획 채택 단계에서는 SQ‑BCP에서 차용한 범주적 pull‑back 검증과 전제 조건 커버리지를 결합한 Sound Verifier V 를 적용한다. V는 오직 grounded fact store와 사전 정의된 추론 규칙에만 의존하므로, belief store의 오류가 직접적으로 계획의 성공을 위협하지 않는다. 이론적 보증(Theorem 3.4)은 질의에 의해 추가된 사실들의 오류 확률만을 고려해, 전체 계획의 성공 확률을 하한으로 제공한다.
실험에서는 ALFWorld와 ScienceWorld 두 벤치마크에 대해, 기존 LLM‑agent(예: ReAct, WALL‑E) 대비 질의 횟수와 재계획 라운드가 평균 30‑40% 감소했으며, 성공률은 비슷하거나 약간 상회한다. 특히, 복잡한 전제 조건(예: 용기의 상태, 물체 온도 등)이 많이 포함된 시나리오에서 AEC는 불필요한 탐색을 줄이고, 중요한 프레디케이트만을 정확히 질의함으로써 효율성을 극대화한다.
이 논문은 (1) Epistemic–Categorical Integration: 불확실도 기반의 질의·시뮬레이션 선택과 범주적 호환성 검증을 결합, (2) Separation Principle: 모델 예측과 실제 사실을 엄격히 구분해 안전성을 보장, (3) Empirical Validation: 두 종류의 인터랙티브 환경에서 재현 가능한 성능 향상을 입증한다는 세 가지 주요 공헌을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기