기호 회귀를 이용한 강화학습 가치함수 설계
초록
본 논문은 연속 상태·입력 시스템의 강화학습에서 가치함수를 수치적 블랙박스가 아닌 해석적 수식 형태로 얻기 위해 기호 회귀(symbolic regression)를 적용한다. 상태 전이 모델을 이용해 (1) 기호 가치 반복, (2) 기호 정책 반복, (3) 벨만 방정식 직접 해석의 세 가지 오프라인 방법을 제안하고, 이를 마찰이 있는 속도 제어, 1‑링크·2‑링크 펜듈럼 스윙업, 자기 조작 네 가지 비선형 제어 문제에 적용한다. 실험 결과, 얻어진 가치함수는 정책 성능이 우수하고 구조가 간결하며 수학적으로 다루기 쉬워 다른 알고리즘에 바로 활용 가능함을 보인다. 신경망 기반 방법과 비교했을 때 학습 효율과 해석 가능성 모두에서 우수함을 확인하였다.
상세 분석
이 연구는 연속형 강화학습에서 가장 큰 난제 중 하나인 함수 근사기의 해석 가능성 부족을 근본적으로 해결하고자 한다. 기존에 널리 사용되는 신경망이나 라디얼 기저 함수(RBF)와 같은 수치적 근사기는 파라미터 튜닝에 많은 시간과 경험이 필요하고, 학습된 모델이 ‘블랙박스’ 형태라 정책의 안정성 분석이나 시스템 이론적 검증에 제약이 있다. 논문은 이러한 한계를 극복하기 위해 기호 회귀(symbolic regression, SR)를 도입한다. SR은 유전 프로그래밍 기반의 탐색 기법으로, 주어진 데이터 집합에 대해 인간이 이해할 수 있는 수학적 표현식을 자동으로 생성한다. 여기서는 SR을 이용해 벨만 최적성 방정식의 해를 직접 찾거나, 가치 반복·정책 반복 과정을 기호적으로 전개한다는 점이 혁신적이다.
세 가지 제안 방법은 모두 오프라인 방식으로, 먼저 시스템의 상태 전이 모델을 이용해 샘플 데이터를 생성한다. ‘기호 가치 반복(symbolic value iteration)’은 전통적인 가치 반복에서 기대값을 계산할 때, SR을 통해 현재 가치 함수의 형태를 업데이트한다. 이 과정은 반복마다 새로운 수식 후보를 생성하고, 평균 제곱 오차(MSE)를 최소화하는 방향으로 진화한다. ‘기호 정책 반복(symbolic policy iteration)’은 정책 평가 단계에서 SR을 사용해 가치 함수를 근사하고, 정책 개선 단계에서는 현재 가치 함수의 기울기를 이용해 최적 행동을 도출한다. 마지막으로 ‘벨만 방정식 직접 해(symbolic Bellman solution)’는 상태‑액션 쌍에 대한 벨만 잔차를 최소화하는 목적 함수를 정의하고, SR이 직접 최적 수식을 찾도록 한다.
각 방법은 수식 복잡도와 근사 정확도 사이의 트레이드오프를 제어하기 위해 복잡도 페널티(예: 연산자 수, 트리 깊이)를 포함한다. 실험에서는 복잡도 제한을 두어 10~15개의 연산자 이하로 제한했음에도 불구하고, 높은 정책 성능을 유지했다. 이는 SR이 과잉 적합을 자연스럽게 억제하고, 물리적 의미를 갖는 간결한 모델을 도출한다는 장점을 보여준다.
실험 결과는 네 가지 비선형 제어 과제에 적용된 가치 함수가 모두 매우 간결한 형태(예: 다항식, 삼각함수, 로그함수 조합)로 표현되었으며, 이를 기반으로 도출된 정책은 기존 신경망 기반 정책과 비교해 동일하거나 더 나은 수렴 속도와 제어 성능을 보였다. 특히 2‑링크 펜듈럼 스윙업 문제에서는 3차 다항식과 사인 함수만으로 구성된 가치 함수가 0.95 이상의 성공률을 달성했으며, 신경망 기반 방법은 동일 조건에서 0.82에 머물렀다.
또한, 기호 가치 함수는 수학적 미분이 용이해, Lyapunov 안정성 분석이나 모델 기반 최적화에 직접 활용할 수 있다. 논문은 이러한 점을 강조하며, 향후 복합 시스템의 안전 검증, 실시간 제어 파라미터 튜닝 등에 기호 가치 함수를 적용하는 가능성을 제시한다. 다만, SR 과정이 초기 후보 탐색에 상당한 계산 비용을 요구하고, 고차원 상태 공간에서는 탐색 효율이 저하될 수 있다는 한계도 언급한다. 향후 연구에서는 차원 축소 기법과 병렬 유전 연산을 결합해 확장성을 높이는 방안을 제시한다.