계층적 계획을 위한 자동 추상 학습 이론코더2
초록
이 논문은 기존 TheoryCoder가 인간이 제공한 추상화에 의존하던 한계를 극복하고, 대형 언어 모델(LLM)의 인‑컨텍스트 학습 능력을 활용해 환경 경험으로부터 PDDL 형태의 추상 연산자를 자동으로 생성한다. 생성된 추상화와 파이썬 기반 저수준 세계 모델을 계층적 플래너에 통합함으로써 BabyAI, MiniHack, Sokoban 등 다양한 도메인에서 표본 효율성과 일반화 능력을 크게 향상시킨다.
상세 분석
본 연구는 TheoryCoder‑2라는 새로운 Theory‑Based Reinforcement Learning(TBRL) 프레임워크를 제안한다. 핵심 아이디어는 LLM을 “추상화 합성기”로 활용해, 초기 자연어 프롬프트와 몇 개의 간단한 예시만으로 환경에 맞는 PDDL 도메인·문제 파일을 자동 생성하는 것이다. 이를 위해 저자는 다음과 같은 기술적 흐름을 설계했다. 첫째, 에피소드 시작 시 LLM에 현재 상태와 몇 개의 샘플 전이(R_random)를 제공하고, 이를 기반으로 추상 연산자(D)와 추상 상태(P)를 정의한다. 둘째, Fast‑Downward 플래너가 D·P를 이용해 고수준 계획(Π_H)을 도출하고, 각 고수준 연산자를 저수준 BFS 탐색을 통해 구체적인 행동 시퀀스(π_k)로 전환한다. 셋째, 실행 과정에서 발생하는 예측 오류를 수집해 R_p(전이)와 R_a(행동)로 구분하고, LLM에 다시 입력해 저수준 세계 모델(ˆT)을 수정한다. 네번째, 새로운 환경에 진입하면 기존에 학습된 PDDL 연산자를 재사용하고, 필요 시 추가 연산자를 생성해 라이브러리를 확장한다. 이러한 순환 구조는 인간이 추상 개념을 점진적으로 축적하는 과정과 유사하다.
실험 설계는 세 가지 주요 질문에 초점을 맞춘다. (1) TheoryCoder‑2가 자동으로 의미 있는 추상 상태·연산자를 학습할 수 있는가? (2) 학습된 추상화가 서로 다른 도메인 간에 재사용 가능하며, 재사용이 표본 효율성을 향상시키는가? (3) 기존 LLM‑플래너, WorldCoder 등과 비교해 복잡한 과제를 해결하는 능력이 뛰어난가? 이를 검증하기 위해 BabyAI, MiniHack, 그리고 VGDL 기반 Sokoban·Labyrinth·Maze와 같은 다양한 환경에서 토큰 사용량, 실제 연산 시간, 성공률을 측정하였다. 결과는 TheoryCoder‑2가 토큰 비용과 연산 시간 면에서 기존 베이스라인보다 2~5배 효율적이며, 특히 고난이도 Sokoban 레벨에서 80% 이상의 성공률을 기록함을 보여준다. 또한 커리큘럼 순서를 바꾸는 ablation 실험에서 초기에 쉬운 환경을 먼저 학습했을 때 추상화 재사용이 극대화되어 전체 학습 속도가 크게 빨라지는 것을 확인했다.
한계점으로는 (i) 현재는 GPT‑4‑Turbo 수준의 대형 모델에 의존해 추상화 품질이 모델 크기에 민감하고, (ii) PDDL 표현에 제한된 표현력(예: 연속적인 수치 변수) 때문에 일부 연속 제어 문제에 적용하기 어려우며, (iii) 추상화 생성 과정이 프롬프트 설계에 어느 정도 인간 개입을 필요로 한다는 점을 들 수 있다. 향후 연구에서는 보다 경량화된 모델로의 전이, PDDL 외의 표현 체계(예: STRIPS‑like 혹은 프로그래밍 언어 기반) 도입, 그리고 자동 프롬프트 최적화 메커니즘을 탐색할 여지가 있다.
전반적으로 TheoryCoder‑2는 인간 수준의 추상화 학습과 계층적 계획을 LLM과 전통적 플래너를 결합해 구현한 최초의 사례 중 하나이며, 추상화 자동 생성과 재사용 메커니즘이 복합적인 RL·LLM 시스템의 표본 효율성을 크게 향상시킬 수 있음을 실증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기