액션 변화 계획을 위한 고난도 ACPBench 생성형 평가와 한계
초록
본 논문은 기존 ACPBench의 선택형 질문을 확장해, 모델이 직접 답을 생성해야 하는 생성형 버전인 ACPBench Hard를 제시한다. 7개의 핵심 계획 추론 과제를 오픈‑엔드 형태로 변형하고, 각 과제별 정답 검증 알고리즘을 설계하였다. 13개의 PDDL 도메인에서 만든 1만 여개의 질문에 대해 최신 대형 언어 모델들을 평가했으며, 대부분의 과제에서 정확도가 65 % 이하로 떨어져 현재 모델들의 계획 추론 능력이 아직 미흡함을 확인한다.
상세 분석
ACPBench Hard는 기존 ACPBench이 제공하던 불린·다중 선택형 질문을 전면적으로 재구성하여, 모델이 자유롭게 텍스트를 생성하도록 만든다. 이는 실제 플래너가 사전 정의된 옵션 없이 행동을 선택해야 하는 상황을 보다 현실적으로 모사한다는 점에서 의의가 크다. 논문은 7개의 핵심 추론 과제—Applicability, Progression, Reachability, Action‑Reachability, Validation, Justification, Landmarks—에 대해 각각 생성형 질문 포맷을 정의하고, 정답 검증을 위한 심볼릭 평가자를 구현한다. 특히 Reachability와 Action‑Reachability는 PSPACE‑hard 문제임을 명시하고, 실제 데이터 생성 시에는 정적 프레디케이트와 delete‑relaxed 근사 등을 활용해 검증 가능한 부분 집합을 미리 저장한다.
데이터 구축 과정에서는 13개의 PDDL 도메인을 그대로 활용했으며, 각 도메인에 대해 상태·행동·목표를 자동으로 추출해 질문을 만든다. 질문 생성 시 적용 가능한 행동 수가 10개 이하인 경우에만 Applicability 질문을 포함해 과도한 난이도를 방지한다. Progression 질문은 주어진 행동의 add·delete 효과를 기반으로 “긍정 효과”와 “부정 효과”를 명시하도록 요구한다. Validation 과제는 의도적으로 하나의 비적용 행동을 삽입한 플랜을 제공하고, 모델이 최초 비적용 지점을 정확히 지목하도록 설계했다. Justification 과제는 플랜에서 연속된 1~2개의 행동을 제거하거나 삽입해도 여전히 유효한 플랜이 되는지를 묻는다. Landmarks 과제는 목표 달성에 반드시 거쳐야 하는 사실들을 식별하도록 요구한다.
평가에서는 GPT‑4, Claude 2, Gemini‑1.5, LLaMA 2‑70B 등 최신 모델들을 포함해 10여 종의 모델을 시험했다. 결과는 대부분의 과제에서 65 % 이하의 정확도를 보였으며, 특히 Reachability, Action‑Reachability, Landmarks, Applicability에서 전반적으로 낮은 성능을 기록했다. “next‑action” 과제와 “progression” 과제에서는 상대적으로 높은 점수를 얻었지만, 전체적인 추론 일관성은 부족했다. 흥미롭게도, 전통적인 “reasoning” 모델인 o1‑preview도 일부 과제에서 우수했지만, 전체 평균은 여전히 낮았다. 이는 현재 LLM이 복합적인 상태·행동·목표 관계를 정확히 모델링하기엔 한계가 있음을 시사한다.
논문은 또한 검증 알고리즘의 복잡도 분석을 제공한다. Applicability와 Progression은 O(|F||A|)·O(|F|) 수준으로 다항식 시간에 해결 가능하지만, Reachability와 Action‑Reachability는 PSPACE‑hard 특성 때문에 근사 검증을 사용한다. 이러한 설계는 평가의 자동화와 재현성을 높이는 동시에, 실제 플래너와 연동될 때 발생할 수 있는 오류 원인을 정밀히 파악할 수 있게 한다.
결론적으로, ACPBench Hard는 LLM 기반 플래너의 핵심 구성 요소를 세밀히 측정할 수 있는 벤치마크를 제공하지만, 현재 모델들의 성능은 실용적인 플래닝 시스템에 적용하기엔 아직 부족하다. 향후 연구는 모델 아키텍처 개선, 도메인‑특화 프롬프트 설계, 그리고 심볼릭·신경 혼합 접근법을 통해 이러한 격차를 메우는 방향으로 진행될 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기