도메인 지식 기반 딥 강화학습을 이용한 비행 제어 설계
본 논문은 전통적인 3루프 자동조종기 구조를 고정하고, 딥 강화학습(DDPG)으로 각 루프의 이득을 학습한다. 도메인 지식은 보상 함수 설계와 입력 신호 형태에 반영되어 학습 효율과 일반화 능력을 향상시킨다. 시뮬레이션 결과는 제안 방법이 기존 이득 스케줄링 대비 추적 성능·견고성 모두에서 우수함을 보여준다.
저자: Hyo-Sang Shin, Shaoming He, Antonios Tsourdos
본 논문은 현대 항공기의 비행 제어에 딥 강화학습을 적용하면서, 기존의 도메인 지식을 효과적으로 활용하는 새로운 방법론을 제시한다. 전통적인 자동조종기 설계는 선형화된 모델을 기반으로 이득 스케줄링을 수행하고, 각 트림 포인트에서 설계된 고정 이득을 보간하여 전체 비행 구간을 커버한다. 그러나 비선형·결합성이 강한 항공기에서는 이러한 접근이 성능 저하를 초래할 수 있다. 이를 해결하기 위해 저자들은 자동조종기의 전형적인 3루프 구조(고도·속도·자세)를 고정하고, 각 루프의 이득을 상태에 따라 연속적으로 조정하는 파라미터화된 함수로 학습한다.
학습 프레임워크는 마코프 결정 프로세스(MDP)로 정의되며, 상태는 항공기의 현재 관측값(예: 속도, 각도, 가속도 등), 행동은 자동조종기 이득 벡터, 보상은 형상화된 기준 입력과 실제 출력 사이의 오차를 기반으로 설계된다. 여기서 ‘형상화된 입력’은 상승시간, 감쇠비, 오버슈트와 같은 제어 설계 목표를 반영하여 생성된 가상의 참조 신호이며, 이를 보상에 포함함으로써 다목적 최적화 문제를 단일 보상 함수로 변환한다. 또한, 상태와 행동을 정규화하여 보상의 스케일 차이로 인한 학습 불안정을 방지한다.
알고리즘적으로는 Deep Deterministic Policy Gradient(DDPG)를 사용한다. DDPG는 액터‑크리틱 구조를 갖추고 있으며, 액터 네트워크는 현재 상태를 입력으로 받아 자동조종기 이득을 출력한다. 크리틱 네트워크는 해당 이득이 가져올 장기 보상을 Q‑함수 형태로 추정한다. 경험 재플레이 버퍼를 통해 과거 전이 데이터를 무작위로 샘플링하고, 타깃 네트워크의 소프트 업데이트(τ)로 TD‑오차 발산을 억제한다. 학습 과정에서 보상 스케일을 맞추기 위해 정규화된 관측값·행동을 사용하고, 보상 함수에 포함된 형상화된 입력 덕분에 초기 탐색 단계에서도 유의미한 피드백을 제공한다.
시뮬레이션은 꼬리‑제어 스키드‑투‑턴 항공기의 종축(纵向) 동역학 모델을 기반으로 수행된다. 모델 파라미터는 실제 비행 환경에서 발생할 수 있는 불확실성을 반영하도록 변동시켰으며, 제안된 DDPG 자동조종기의 견고성을 검증하였다. 결과는 다음과 같다. 첫째, DDPG 기반 자동조종기는 기존 이득 스케줄링 대비 추적 오차를 현저히 감소시키고, 상승시간과 오버슈트를 목표값에 가깝게 유지한다. 둘째, 위상·이득 여유 분석에서 제안 방법이 설계 기준을 만족함을 확인하였다. 셋째, 모델 파라미터 변동에 대한 민감도 실험에서 제안된 자동조종기는 안정적인 성능을 유지하며, 견고성 측면에서도 기존 방법보다 우수하였다.
논문의 주요 기여는 세 가지로 요약된다. (1) 자동조종기 구조를 고정하고, 도메인 지식(구조·참조 입력)을 활용해 DDPG가 이득을 학습하도록 함으로써 학습 효율과 일반화 능력을 크게 향상시켰다. (2) 보상 함수에 형상화된 입력을 도입해 다목적 제어 목표를 단일 보상으로 통합하고, 파라미터 튜닝 부담을 감소시켰다. (3) 정규화 기법을 적용해 상태·행동·보상의 스케일 차이를 해소하고, 학습 안정성을 확보하였다.
결론적으로, 본 연구는 완전한 엔드‑투‑엔드 제어 정책 학습이 직면하는 샘플 효율성 저하와 일반화 문제를 도메인 지식으로 보완함으로써, 실시간 임베디드 시스템에 적용 가능한 수준의 딥 강화학습 기반 비행 제어기를 제시한다. 향후 연구에서는 다중 자유도·다중 목표 비행체에 대한 확장, 실제 비행 시험 검증, 그리고 다른 최신 강화학습 알고리즘과의 비교 분석이 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기