LLM 기반 계획의 일반화 격차: 도메인 의존성 진단과 검증자 보상 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 1.7 B 파라미터 LLM을 10개의 IPC 2023 도메인에서 4만 개의 PDDL 도메인‑문제‑계획 튜플로 미세조정하고, 동일 도메인과 전혀 새로운 두 도메인에서의 유효 계획 생성률을 평가한다. 인‑도메인에서는 82.9%의 성공률을 보였지만, 미지 도메인에서는 0%에 머물렀다. 이를 분석하기 위해 (i) 인스턴스별 기호 익명화, (ii) 압축된 계획 직렬화, (iii) VAL 검증기를 이용한 성공‑중심 보상 강화학습이라는 세 가지 진단 실험을 수행하였다. 익명화와 압축 직렬화는 성능을 크게 저하시켰으며, 검증자‑보상 학습은 초기에 빠르게 포화했지만 도메인 간 일반화에는 전혀 도움이 되지 않았다. 결과는 현재 LLM 기반 플래너가 표면적 기호 패턴에 크게 의존하고, 추상적인 계획 원리를 학습하지 못한다는 점을 강조한다.

상세 분석

본 논문은 LLM이 실제 계획 능력을 갖추었는지, 아니면 훈련된 도메인의 어휘·구조적 패턴을 암기한 것인지에 대한 근본적인 질문을 제기한다. 1.7 B 규모의 Qwen‑3 모델을 LLaMA‑Factory로 40 000개의 도메인‑문제‑계획 튜플에 대해 3 epoch까지 SFT(지도학습)하고, 각 epoch마다 체크포인트를 저장했다. 인‑도메인 테스트에서 82.9%의 유효 계획률을 기록했지만, 전혀 보지 못한 Rover와 Briefcase 도메인에서는 0%에 머물렀다. 이는 모델이 PDDL 구문 자체는 이해하지만, 도메인 특유의 기호 이름(액션, 프레디케이트, 객체)과 포맷에 강하게 의존한다는 증거다.

첫 번째 진단인 V1(인스턴스‑별 기호 익명화)은 각 튜플마다 완전히 새로운 심볼(a0, p3, o7 등)로 교체한다. 학습 과정에서는 원본 기호와 익명화된 기호를 점진적으로 섞는 커리큘럼을 적용했지만, 최종 모델은 익명화된 입력에 대해 유효 계획률이 크게 감소했다. 이는 LLM이 기호의 의미적 연관성을 활용하고 있음을 보여준다.

두 번째 진단인 V2(압축 계획 직렬화)는 계획의 타임스탬프, 괄호, END 토큰 등을 제거해 토큰 수를 줄이면서도 행동 순서는 그대로 유지한다. 압축된 형태로 학습한 모델은 인‑도메인에서 약간의 성능 저하만 보였지만, 여전히 표면적 포맷에 민감함을 드러냈다. 이는 LLM이 문자열 레벨의 패턴을 학습하고, 구조적 의미보다는 형식적 힌트에 의존한다는 점을 시사한다.

세 번째 진단인 V3은 VAL 검증기를 성공‑중심 보상으로 활용한 강화학습(RL)이다. 1‑epoch V2 체크포인트를 초기화점으로 사용해 GRPO 알고리즘으로 다중 후보 계획을 생성하고, 각 후보를 VAL에 검증시켜 성공 여부와 실패 원인을 보상으로 반환한다. 학습은 약 ½ epoch에서 포화했으며, 인‑도메인에서는 약간의 개선이 있었지만, 전혀 보지 못한 도메인에서는 여전히 0%였다. 이는 검증 기반 보상이 모델의 기능적 정확성을 빠르게 향상시킬 수는 있지만, 근본적인 도메인 일반화 능력을 획득하게 하지는 못한다는 것을 보여준다.

전체적으로 실험 결과는 다음과 같다. (1) 인‑도메인 성능은 80% 수준에서 정체되며, (2) 도메인 간 전이 성능은 완전히 붕괴한다. (3) 표면적 기호와 포맷에 대한 민감도는 모델이 추상적인 플래닝 원리를 학습하기보다, 훈련 데이터에 내재된 통계적 패턴을 활용하고 있음을 강하게 시사한다. 따라서 현재 LLM 기반 플래너를 실제 로봇이나 복합 환경에 적용하려면, 기호‑불변성 학습, 메타‑플래닝, 혹은 외부 검증기와의 긴밀한 통합 등 보다 근본적인 방법론이 필요하다.

LLM 기반 계획의 일반화 격차: 도메인 의존성 진단과 검증자 보상 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기