어느 집이든, 어떤 일든: 대규모 가정 환경을 위한 장기 계획 모델 AHAT

어느 집이든, 어떤 일든: 대규모 가정 환경을 위한 장기 계획 모델 AHAT
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AHAT은 대형 가정 환경에서 추상적인 인간 명령을 해석하고, 텍스트 기반 장면 그래프와 결합한 LLM을 이용해 PDDL 서브골을 생성한다. 생성된 서브골은 기존 심볼릭 플래너에 전달되어 장기 최적 계획을 도출한다. TGPO라는 강화학습 기법으로 중간 추론 트레이스를 외부 모델이 교정하도록 하여 정책의 신뢰성을 높였으며, 5만 개의 합성 데이터와 다양한 사용자 페르소나를 활용해 학습하였다. 실험 결과, 기존 프롬프트 기반·학습 기반 플래너 대비 복잡도·길이·모호성이 증가할수록 성능 격차가 크게 벌어졌다.

상세 분석

본 논문은 가정 로봇이 “거실을 청소해줘”와 같이 매우 추상적인 명령을 받았을 때, 실제 실행 가능한 행동 시퀀스로 변환하는 문제를 다룬다. 핵심 아이디어는 두 단계로 나뉜다. 첫 번째 단계에서는 LLM(초기 Qwen‑2.5‑7B)을 사용해 입력된 자연어 명령과 텍스트 장면 그래프를 기반으로 분해 트레이스(자연어 서브태스크 시퀀스)를 생성한다. 두 번째 단계에서는 각 서브태스크를 PDDL 형식의 서브골(목표 조건)과 해당 객체 집합으로 변환한다. 이렇게 얻어진 서브골은 기존 PDDL 플래너에 전달되어 제약 조건을 만족하는 구체적인 행동 계획을 산출한다.

특히, 기존 연구가 LLM을 직접 행동 시퀀스로 매핑하거나, 단일 PDDL 파일을 생성하는 데 머물렀던 반면, AHAT은 계층적 구조를 도입해 고수준 의도 이해와 저수준 제약 해결을 명확히 분리한다. 이는 LLM이 언어 이해와 추론에 집중하도록 하고, 복잡한 논리·시공간 제약은 검증된 심볼릭 플래너에 위임함으로써 확장성을 크게 향상시킨다.

학습 측면에서는 TGPO(Trace‑Guided Policy Optimization)라는 새로운 강화학습 알고리즘을 제안한다. TGPO는 실패한 플랜에 대해 외부 모델(트레이스 임프루버)이 중간 추론 트레이스를 교정하고, 교정된 트레이스를 토큰‑레벨 강제 샘플링으로 정책에 주입한다. 이렇게 하면 정책은 서브골 생성은 그대로 유지하면서, 잘못된 분해 과정을 바로잡는 형태의 그룹 상대 보상을 받는다. 기존 GRPO에 비해 신용 할당이 명확해져, 복잡한 장기 목표에서도 안정적인 학습이 가능하다.

데이터 구축도 주목할 만하다. 308개의 실제 가정 장면 그래프(HSSD·Gibson)와 1.6k개의 사용자 페르소나를 결합해 5만 개의 장기 계획 과제를 합성했으며, GPT‑5 등 강력한 LLM을 활용해 고품질 분해 트레이스와 PDDL 서브골을 자동 생성·검증했다. 이는 모델이 다양한 문화·연령·직업 배경을 가진 사용자의 모호한 요구를 일반화하도록 만든다.

실험에서는 In‑distribution, Out‑of‑distribution, 그리고 공개 벤치마크(Behavior‑1K, PARTNR)까지 포괄적으로 평가했으며, GPT‑5·Gemini‑3 같은 최신 LLM, SayPlan·Delta 같은 프롬프트 기반 플래너, 그리고 SFT·GRPO·Reinforce++ 같은 학습 기반 방법들을 모두 능가했다. 특히, 명령이 짧고 모호할수록 성능 격차가 크게 나타났으며, 제약 복잡도·플랜 길이가 증가해도 AHAT은 안정적인 성공률을 유지했다.

요약하면, AHAT은 LLM‑기반 고수준 의도 해석 + 심볼릭 플래너‑기반 저수준 제약 해결이라는 두 축을 결합하고, TGPO를 통해 중간 추론을 교정함으로써 대규모 가정 환경에서도 확장 가능한 장기 계획을 실현한다는 점에서 기존 연구와 차별화된다.


댓글 및 학술 토론

Loading comments...

의견 남기기