강화학습과 지식표현을 잇는 논리적 오프라인 온라인 프레임워크
초록
본 논문은 정상 논리 프로그램과 답변 집합 의미론을 이용해 모델‑프리 강화학습 문제를 지식표현과 통합하는 프레임워크를 제시한다. 오프라인·온라인 정책 탐색을 논리적 추론으로 변환하고, 복잡도 분석을 통해 두 문제 모두 NP‑완전임을 증명한다. 또한 MDP 기반 모델‑프리 강화학습을 SAT 인코딩으로 변환할 수 있음을 보인다.
상세 분석
이 연구는 강화학습(RL)과 지식표현(KR)의 장벽을 허물기 위해 논리 프로그래밍을 매개체로 삼는다. 기존 모델‑프리 RL은 주로 함수 근사와 샘플 기반 탐색에 의존해 도메인 지식을 활용하기 어렵다. 저자들은 정상 논리 프로그램(normal logic program, NLP)과 답변 집합(Answer Set) 의미론을 도입해 상태·행동·보상 구조를 논리 규칙으로 기술한다. 핵심 아이디어는 MDP의 전이와 보상 함수를 논리적 규칙으로 표현하고, 정책을 “어떤 행동을 선택할 것인가”라는 논리적 목표로 정의하는 것이다.
오프라인 정책 탐색은 전체 MDP를 정적으로 분석해 최적 정책을 도출하는 과정으로, 저자들은 이를 ASP(Answer Set Programming) 모델에 매핑한다. 구체적으로, 상태 집합 S와 행동 집합 A를 원자(atom)로 선언하고, 전이 확률을 비결정적 규칙으로, 보상은 비용 최소화 목표에 포함한다. 이렇게 구성된 ASP 프로그램의 답변 집합은 최적 정책에 해당한다.
온라인 정책 탐색은 에이전트가 환경과 상호작용하면서 실시간으로 정책을 갱신하는 상황이다. 논문은 이 과정을 “증거 기반 추론”으로 모델링한다. 매 타임스텝마다 관측된 전이와 보상을 새로운 규칙으로 추가하고, ASP 솔버가 현재 지식베이스와 결합해 즉시 실행 가능한 행동을 선택한다. 이 방식은 탐험‑활용 균형을 논리적 비용 함수로 조정할 수 있게 해, 도메인 전문가가 제시한 제약조건을 자연스럽게 반영한다.
복잡도 분석에서는 오프라인·온라인 정책 문제를 각각 SAT 인스턴스로 변환함으로써 NP‑완전성을 증명한다. 특히, 정책 존재 여부를 결정하는 문제는 전형적인 SAT‑문제와 동치이며, 이는 기존 강화학습의 PSPACE‑hard 특성과 대비된다. 저자들은 또한 모든 모델‑프리 RL 문제를 SAT 포뮬레이션으로 인코딩할 수 있음을 보이며, 기존 RL 알고리즘과 논리 기반 솔버 간의 이론적 연결고리를 제공한다.
실험 부분에서는 복잡한 도메인(예: 블록 쌓기, 로봇 내비게이션)에서 제안된 프레임워크를 적용해, 도메인 지식(물리적 제약, 목표 우선순위 등)을 규칙으로 삽입했을 때 학습 속도와 정책 품질이 크게 향상되는 것을 확인한다. 특히, 온라인 설정에서 규칙 기반 업데이트가 샘플 효율성을 높여, 기존 Q‑learning 대비 몇 배 적은 에피소드로 수렴한다는 결과가 눈에 띈다.
전체적으로 이 논문은 강화학습에 논리적 지식표현을 체계적으로 통합하는 방법론을 제시하고, 이론적 복잡도와 실용적 효율성을 동시에 확보한다는 점에서 학계와 산업 현장 모두에 의미 있는 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기