경험 기반 목표조건 강화학습으로 구현한 심볼릭 회귀
초록
EGRL‑SR은 심볼릭 회귀를 목표조건 강화학습(GCRL) 문제로 재구성하고, 힌트리시 경험 재생(HER)과 이진 전점 만족 보상(APSR)을 도입해 구조적 패턴을 학습한다. 또한 구조‑가이드 탐색(SGHE)과 Double‑Dueling DQN을 결합해 탐색 다양성과 수렴 속도를 동시에 향상시킨다. 실험 결과, 기존 GP·EQL·MCTS·RL 기반 방법들을 크게 앞서며 복잡한 식을 동일 예산 내에서 복원한다.
상세 분석
본 논문은 심볼릭 회귀(SR)에서 흔히 발생하는 “오차 기반 탐색의 모호성” 문제를 근본적으로 재정의한다. 기존 GP, EQL, MCTS, RL 기반 방법들은 모두 피팅 오차를 직접적인 적합도 혹은 보상으로 사용한다. 그러나 고차원 표현 공간에서는 서로 다른 구조가 동일 수준의 오차를 보이는 경우가 빈번해, 탐색이 무작위적 경로를 따라 비효율적으로 전개된다. 저자들은 이를 해결하기 위해 목표조건 강화학습(GCRL) 프레임워크를 도입하고, 각 (x, y) 쌍을 “시작 상태 → 목표 상태”라는 목표 도달 과제로 전환한다.
핵심 기여는 세 가지다. 첫째, 힌트리시 경험 재생(HER)을 적용해 실패한 트래젝터리를 중간 출력값을 새로운 목표로 재라벨링함으로써, 과거 경험을 다목적 학습 데이터로 전환한다. 이는 행동‑가치 네트워크가 다양한 x‑y 매핑 패턴을 일반화하도록 돕는다. 둘째, 연속적인 오차 기반 보상 대신 All‑Point Satisfaction Reward(APSR)라는 이진 보상을 설계했다. APSR은 모든 입력 샘플에 대해 사전 정의된 정확도 임계값을 만족할 때만 1을 주어, 구조적으로 올바른 식만이 높은 보상을 받게 만든다. 이는 “오차가 낮지만 구조가 엉뚱한 식”이 정책을 오도하는 현상을 방지한다. 셋째, 구조‑가이드 휴리스틱 탐색(SGHE) 전략을 도입해 표현 트리를 구조별 서브스페이스로 분할하고, 각 서브스페이스마다 독립적인 가치 네트워크를 할당한다. 이렇게 하면 탐색이 특정 구조에 편향되지 않고, 다양한 복합 구조를 균등하게 탐색할 수 있다.
학습 알고리즘으로는 Double‑Dueling DQN을 선택했는데, 이는 HER와 같은 오프‑폴리시 경험을 효과적으로 활용하면서 Q‑값의 과대평가를 억제한다. 네트워크는 상태를 현재 중간값 x_now와 목표 y의 결합으로 정의하고, 포스트픽스 토큰 선택을 행동으로 매핑한다. ε‑greedy 정책에 SGHE를 결합해 탐색 단계에서 구조적 다양성을 보장한다.
실험에서는 12개의 공개 벤치마크(다항식, 트리거 함수, 물리식 등)를 사용해 복구율(recovery rate)과 로버스트성(노이즈·샘플 수 변동에 대한 성능 유지)을 평가했다. EGRL‑SR은 기존 GP‑based (e.g., Eureqa), EQL‑based, MCTS‑based, 그리고 DSR 등과 비교해 평균 12~18% 높은 복구율을 기록했으며, 특히 변수 수가 많고 연산자가 복잡한 식에서 탐색 예산(노드 확장 횟수) 동일 조건에서도 더 높은 정확도를 달성했다. Ablation 실험에서는 APSR을 연속형 MSE 보상으로 교체했을 때 복구율이 9% 감소하고, SGHE를 무작위 탐색으로 대체했을 때도 7% 수준으로 성능이 저하되는 등, 두 구성 요소가 모두 필수적임을 확인했다.
한계점으로는 현재 단일 변수·다변수 모두 동일한 포스트픽스 토큰 집합을 사용하고 있어, 연산자 집합이 크게 확장될 경우 행동 공간이 급증한다는 점이다. 또한, 목표조건을 y 자체로 설정하기 때문에 다중 목표(예: 여러 물리량을 동시에 맞추는 경우)에는 추가적인 목표 인코딩이 필요할 것으로 보인다. 향후 연구에서는 메타‑러닝을 통한 목표 임베딩, 연산자 선택에 대한 가변적 어텐션 메커니즘, 그리고 대규모 분산 HER‑버퍼를 활용한 샘플 효율성 개선 등을 고려할 수 있다. 전반적으로 EGRL‑SR은 “오차가 아닌 구조적 패턴”을 학습 목표로 삼아 심볼릭 회귀의 탐색 효율성을 크게 끌어올린 혁신적인 접근이라 평가한다.
댓글 및 학술 토론
Loading comments...
의견 남기기