정책 그래디언트를 활용한 시계열 예측용 입력 선택 시퀀스‑투‑시퀀스 모델
초록
본 논문은 시계열 다단계 예측에서 디코더가 사용할 입력을 동적으로 선택하도록 강화학습 기반 정책 그래디언트 기법을 도입한다. 보조 모델 풀에서 생성된 후보 예측들을 정책 네트워크가 현재 디코더 상태를 고려해 최적의 입력으로 선택함으로써 노출 편향과 오류 누적 문제를 완화한다. 실험 결과, 제안 방법은 기존 Teacher‑Forcing, Scheduled Sampling 등과 비교해 정확도와 안정성 모두에서 우수함을 보인다.
상세 분석
본 연구는 시계열 다단계 예측에 널리 사용되는 인코더‑디코더 구조의 근본적인 한계인 ‘노출 편향(exposure bias)’과 ‘오류 누적(error accumulation)’ 문제를 강화학습(RL) 프레임워크로 재구성한다. 구체적으로, 디코더가 매 시점마다 어떤 입력을 사용할지를 ‘행동(action)’으로 정의하고, 디코더의 은닉 상태를 ‘상태(state)’로 삼아 마코프 결정 과정(MDP)을 설계한다. 행동 공간은 디코더 자체와 사전에 학습된 여러 보조 모델(예: ARIMA, LSTM, GRU 등)로 구성된 모델 풀이며, 각 모델은 해당 시점에 대한 예측값을 제공한다.
정책 네트워크는 파라미터 θ를 가진 확률적 정책 πθ(a|s)로, 현재 디코더 은닉 상태 s에 대해 각 후보 모델을 선택할 확률을 출력한다. 정책 학습은 REINFORCE 기반의 정책 그래디언트 방식을 사용하며, 보상 함수는 두 요소를 가중합한다. 첫 번째 요소인 Rank_rk는 선택된 모델이 전체 풀에서 차지하는 순위(rank)를 정규화한 값으로, 높은 정확도를 보이는 모델을 선호하도록 유도한다. 두 번째 요소인 Accuracy_rk는 디코더가 해당 입력을 사용해 다음 시점 예측을 수행했을 때의 절대 오차를 역수 형태로 변환한 값이며, 실제 예측 성능을 직접 반영한다. α와 β 하이퍼파라미터를 통해 두 보상의 상대적 중요도를 조절한다.
학습 과정은 ‘비동기식(asynchronous) 훈련’으로 구현된다. 보조 모델들은 사전 학습된 고정 파라미터를 사용해 후보 예측을 제공하고, 정책 네트워크는 이 후보들을 샘플링하여 디코더에 입력한다. 디코더는 선택된 입력을 이용해 다음 시점 값을 예측하고, 그 결과는 즉시 보상 계산에 사용된다. 이렇게 순환적인 피드백 루프를 통해 정책은 장기적인 예측 손실을 최소화하는 방향으로 점진적으로 개선된다.
실험에서는 5개의 공개 시계열 데이터셋(전력 소비, 교통 흐름, 기상 데이터 등)을 대상으로 LSTM 기반 S2S 모델에 제안 기법을 적용하였다. 비교 대상으로는 전통적인 Teacher‑Forcing, Scheduled Sampling, 그리고 최근 제안된 DAgger‑like 방법이 포함되었다. 평가 지표는 MAE, RMSE, MAPE 등이며, 제안 모델은 전반적으로 5~12% 정도의 오차 감소와 더 낮은 변동성을 기록했다. 특히 예측 horizon이 길어질수록 정책 기반 입력 선택이 오류 전파를 효과적으로 억제함을 확인할 수 있었다.
이 논문의 핵심 기여는 (1) 입력 선택을 순차적 의사결정 문제로 공식화하고, (2) 정책 그래디언트를 이용해 디코더와 보조 모델 간의 협업 메커니즘을 학습함으로써 노출 편향을 근본적으로 해소한 점이다. 또한 보조 모델 풀을 자유롭게 확장할 수 있어, 도메인 특화 모델이나 최신 트랜스포머 기반 예측기를 손쉽게 통합할 수 있다는 실용적 장점도 제공한다. 향후 연구에서는 연속적인 행동 공간(예: 가중 평균 입력)이나 모델‑프리 강화학습 기법을 도입해 선택 폭을 넓히고, 실시간 스트리밍 환경에서의 효율성을 검증할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기