디아이틱 표현을 이용한 강화학습, 기대와 달리 성능 저하

초록

본 논문은 블록 세계 과제에서 전통적인 명제형 표현과 두 종류의 디아이틱 표현을 비교한다. 실험 결과, 디아이틱 표현이 일반화 가능성을 약속함에도 불구하고 학습 속도와 최종 성능에서 오히려 악화됨을 보여준다. 저자는 원인으로 상태 관측의 불완전성, 행동 선택의 복잡성, 그리고 탐색 전략의 비효율성을 제시하고, 객체 기반 학습을 위한 향후 연구 방향을 논의한다.

상세 분석

이 연구는 강화학습(RL)에서 상태 표현의 선택이 학습 효율에 미치는 영향을 실증적으로 조사한다. 기존 RL 알고리즘은 주로 고정된 차원의 명제형(state‑vector) 표현을 사용해 왔으며, 이는 객체 수가 늘어나면 차원이 기하급수적으로 증가해 샘플 효율성이 급감한다. 디아이틱(deictic) 표현은 “이것”, “그것”과 같은 지시어를 통해 현재 관찰 가능한 객체에만 초점을 맞추어, 동일한 지시어가 다른 상황에서도 재사용될 수 있도록 설계된다. 논문은 두 가지 디아이틱 스키마를 도입한다. 첫 번째는 고정된 수의 지시어(예: “가장 위에 있는 블록”, “현재 잡고 있는 블록”)를 사용해 상태를 압축하고, 두 번째는 동적으로 할당되는 지시어를 통해 현재 목표 객체에 대한 참조를 유지한다.

실험 환경은 3‑4개의 블록으로 구성된 단순 블록 세계이며, 목표는 특정 블록을 특정 위치에 쌓는 것이다. 명제형 표현은 모든 블록‑위치 관계를 이진 변수로 인코딩해 2ⁿ 차원의 상태 공간을 만든다. 반면 디아이틱 표현은 지시어 수에 비례하는 차원만을 사용한다. 학습 알고리즘으로는 Q‑learning과 SARSA를 동일하게 적용하고, ε‑greedy 탐색을 사용하였다.

결과는 기대와 달리 디아이틱 표현이 학습 곡선에서 더 큰 변동성을 보였으며, 수렴 속도도 현저히 느렸다. 주요 원인으로는(1) 관측 불완전성: 디아이틱 상태는 현재 지시어가 가리키는 객체만을 포함하므로, 동일한 지시어가 다른 객체를 가리킬 때 상태가 혼동된다. (2) 행동 선택의 복잡성: 지시어와 행동이 결합된 복합 행동 공간이 확대돼, 탐색이 비효율적으로 진행된다. (3) 탐색 전략의 부적합성: ε‑greedy는 전역적인 무작위 행동을 제공하지만, 디아이틱 상태에서는 특정 지시어를 바꾸는 것이 더 효과적인데, 이를 고려하지 못한다. 또한, 동적 지시어 할당 방식은 학습 초기에 지시어와 객체 간 매핑이 불안정해, 정책 업데이트가 불안정해지는 부작용을 낳는다.

저자는 이러한 문제를 해결하기 위한 전략으로(가) 지시어‑객체 매핑을 명시적으로 학습하는 메타‑학습 레이어 도입, (나) 탐색 단계에서 지시어 전환을 별도 확률로 조정하는 하이브리드 탐색, (다) 객체 간 관계를 그래프 형태로 유지하면서 디아이틱 지시어를 보조 정보로 활용하는 하이브리드 표현 방식을 제안한다. 이러한 접근은 디아이틱 표현이 제공하는 일반화 이점을 유지하면서도 상태·행동 불확실성을 감소시킬 수 있을 것으로 기대된다.