벨만오차 특징 자동 유도 기법

벨만오차 특징 자동 유도 기법

초록

본 논문은 근사 가치 반복 과정에서 벨만오차가 큰 상태 영역을 탐지해 자동으로 도메인 특화 특징을 생성하는 방법을 제안한다. 관계형·명제형 특징 언어 모두에 적용 가능하며, 9개 확률적 계획 도메인에서 기존 최첨단 성능을 재현하고, 인간이 설계한 특징 없이도 테트리스를 성공적으로 플레이한다.

상세 분석

이 연구는 강화학습과 계획 분야에서 핵심적인 “특징 설계” 문제를 자동화하려는 시도다. 근사 가치 반복(AVI) 중 각 상태에 대해 계산되는 벨만오차는 현재 가치 함수가 실제 기대 보상과 얼마나 차이가 나는지를 나타내며, 오차가 큰 영역은 현재 특징 집합이 해당 부분을 충분히 설명하지 못한다는 신호이다. 저자들은 이 신호를 활용해 학습 데이터(상태‑가치 쌍)를 구성하고, 주어진 실수값 특징 가설 공간에서 오차를 최소화하는 새로운 특징을 선택·추가한다. 특징 선택은 회귀 기반의 희소성 정규화(L1) 혹은 트리 기반 방법을 이용해 수행되며, 관계형 특징 언어(RL)와 명제형 특징 언어(PL) 두 가지를 실험에 적용한다. 관계형 언어는 객체와 관계를 변수화해 일반화된 규칙을 만들 수 있어, 복잡한 도메인(예: 블록스택, 로봇 조작)에서 강력한 표현력을 제공한다. 반면 명제형 언어는 고정된 비트 벡터 형태로 구현이 간단하고, 작은 상태공간에서는 효율적이다. 실험에서는 9개의 확률적 계획 벤치마크(예: stochastic blocks world, stochastic logistics, Tetris 등)를 사용해 자동 유도된 특징 집합이 기존 인간 설계 특징이나 무작위 특징보다 일관되게 높은 정책 품질을 달성함을 보였다. 특히 Tetris에서는 관계형 특징 공간만으로도 성공적인 플레이가 가능했으며, 이는 도메인 독립적인 특징 학습이 복잡한 게임에서도 실용적임을 시사한다. 이 방법은 기존 도메인‑특정 특징 설계에 비해 인간 개입을 크게 줄이고, 새로운 도메인에 빠르게 적용할 수 있는 장점을 가진다. 다만, 특징 후보 생성 비용과 학습 단계에서의 과적합 위험이 존재하며, 대규모 연속 상태공간에 대한 확장성은 추가 연구가 필요하다.