레일리 벤드 대류 제어를 위한 쿠프만 기반 서브시스템 모델링과 강화학습 통합

본 연구는 2차원 레일리-벤드 대류(RBC) 시스템의 강화학습(RL) 제어를 가속화하기 위해 선형 순환 자동인코더 네트워크(LRAN)를 활용한 쿠프만 기반 서브시스템 모델을 제안한다. 무작위 행동으로 수집한 정적 데이터와 정책‑인식 방식으로 순차적으로 업데이트되는 두 가지 학습 전략을 비교했으며, 정책‑인식 서브시스템이 상태 분포 이동(Distribution Shift)을 완화하고, 서브시스템‑DNS 프리트레이닝을 통해 훈련 시간을 40 % 이…

저자: Tim Plotzki, Sebastian Peitz

레일리 벤드 대류 제어를 위한 쿠프만 기반 서브시스템 모델링과 강화학습 통합
본 논문은 2차원 레일리-벤드 대류(RBC) 시스템을 대상으로 강화학습(RL) 기반 피드백 제어를 효율화하기 위해 쿠프만 연산자를 근사하는 선형 순환 자동인코더 네트워크(LRAN)를 서브시스템 모델로 도입한다. 기존 연구에서 RL은 직접수치시뮬레이션(DNS)으로 구현된 고해상도 유체 모델을 사용해 최첨단 제어 정책을 학습했지만, DNS의 높은 계산 비용은 다중 쿼리 작업(불확실성 정량화, 최적화 등)을 제한한다. 이를 해결하고자 저자는 두 가지 서브시스템 학습 방식을 제안한다. 첫 번째는 무작위 행동으로 생성된 정적 데이터셋(3 300 에피소드, 각 400 스텝)을 이용한 사전학습이다. 이 데이터는 DNS 기반 시뮬레이션으로부터 얻으며, 수평 방향의 주기 경계조건을 활용해 평행 이동·반사 증강을 수행해 하나의 에피소드를 23개의 합성 에피소드로 확대한다. 이렇게 확보된 데이터는 LRAN의 인코더·디코더(각 5·6 레이어)와 잠재 차원 200을 갖는 선형 재귀 구조를 학습시키는 데 사용된다. 손실 함수는 시퀀스 전체에 대한 정규화 재구성 오차와 시간 할인(δ = 0.9)을 포함해, 잠재 공간에서 선형 전진이 장기 예측 정확도를 유지하도록 설계되었다. 두 번째는 정책‑인식(Policy‑Aware) 학습이다. 여기서는 PPO 기반 정책이 서브시스템과 상호작용하면서 생성한 데이터를 즉시 리플레이 버퍼에 저장하고, 서브시스템을 주기적으로 재학습한다. 이 루프는 MBPO(MBPO)와 유사하게 정책이 탐색하는 새로운 상태 분포를 서브시스템이 실시간으로 반영하도록 만든다. 결과적으로 서브시스템은 정책이 자주 방문하는 영역에서 높은 예측 정확도를 유지하고, 분포 이동(Distribution Shift)으로 인한 성능 저하를 최소화한다. 실험은 두 단계로 진행되었다. 1) 서브시스템 전용 훈련: 무작위 행동 서브시스템은 200 k 인터랙션 후 Nu ≈ 3.31에 도달하고 이후 학습이 정체되었다. 정책‑인식 서브시스템은 초기 학습이 느리지만 350 k 인터랙션 이후 Nu ≈ 2.97까지 상승했으며, 최종적으로 600 k 인터랙션에서 Nu ≈ 2.97를 기록했다. 두 경우 모두 DNS 기반 에이전트(Nu ≈ 2.74)보다 낮은 성능이었지만, 서브시스템 롤아웃이 DNS보다 평균 25.6배 빠르므로 전체 훈련 시간은 각각 6 h 06 min(무작위)와 0 h 17 min(정책‑인식)으로 크게 단축되었다. 2) 프리트레이닝 + DNS 미세조정: 무작위 행동 서브시스템을 120 k 인터랙션 동안 학습한 뒤 DNS에서 추가 280 k 인터랙션을 수행하면 총 3 h 06 min에 Nu ≈ 2.73을 달성했다. 정책‑인식 서브시스템을 400 k 인터랙션 학습 후 DNS에서 200 k 인터랙션을 추가하면 2 h 24 min에 Nu ≈ 2.75를 기록, 순수 DNS 훈련(4 h 11 min, 400 k 인터랙션) 대비 40 % 이상 시간 절감하면서 동일 수준의 제어 성능을 유지했다. 이러한 결과는 (1) 쿠프만 기반 LRAN이 물리 기반 PDE 시스템을 선형 잠재 공간으로 효과적으로 사상해 빠른 롤아웃을 가능하게 함, (2) 정책‑인식 학습이 서브시스템을 정책이 탐색하는 상태 영역에 맞추어 지속적으로 업데이트함으로써 분포 이동 문제를 완화함, (3) 프리트레이닝 전략이 초기 학습 속도를 크게 높이고 DNS 기반 미세조정으로 최종 성능을 회복한다는 점을 입증한다. 논문은 또한 데이터 증강, 하이퍼파라미터 선택, 그리고 RL 파라미터(PPO 클리핑, 엔트로피 보너스 등)의 구체적 설정을 제공해 재현성을 높였다. 최종적으로, 쿠프만 연산자를 활용한 서브시스템 모델링과 정책‑인식 학습을 결합한 접근법은 고비용 유체 시뮬레이션 환경에서 강화학습 기반 제어를 실용화하는 데 중요한 길을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기