각도 전용 요격 유도법을 위한 강화학습 기반 실시간 가이드 정책

본 논문은 거리 측정이 불가능하거나 신뢰할 수 없는 수동형 전자광학 시커만을 이용해 고속 목표를 요격하는 새로운 유도법을 제안한다. 기존의 외대기 요격 유도법은 레이더·라이다 등 능동형 센서가 제공하는 거리·속도 정보를 필수적으로 사용하거나, 거리 추정을 위한 복잡한 필터링 절차가 필요했다. 그러나 전자광학 시커는 각도(θ_u, θ_v)와 그 변화율(θ̇_u, θ̇_v)만을 제공하므로, 거리·속도 정보를 전혀 활용하지 못한다는 근본적인 제약이 있었다. 이를 극복하기 위해 저자들은 강화학습(RL) 메타‑러닝 프레임워크를 도입하였다. 에피소드 기반 학습 환경을 구축하여, 매 에피소드마다 초기 거리(50–55 km), 헤딩 오차(0–5°), 자세 오차(0–5°), 목표 가속(±5 g) 등 다양한 파라미터를 무작위로 설정한다. 목표는 bang‑bang 형태의 가속을 무작위 시점·지속시간·방향으로 수행하며, 이는 실제 재진입체가 회피 기동을 할 때 나타나는 전형적인 패턴을 모사한다. 미사일은 원통형 본체에 네 개의 다이버트러스터를 배치하고, 10 Hz(100 ms) 주기로 각 추력의 ON/OFF를 제어한다. 시커는 고정된 자세를 유지하도록 설계되어, 시커 각도는 미사일 본체와 동일한 좌표계에서 측정된다. 각도와 각속도는 정규화된 4차원 관측값으로 정책 네트워크에 입력된다. 정책 네트워크는 순환 신경망(RNN) 구조를 사용해 과거 관측을 내부 상태에 저장하고, 이를 바탕으로 현재 목표의 가속 변화를 추정한다. 출력은 네 개의 이진 명령(각 추력 ON/OFF)이며, 이는 4×4개의 작은 행렬 연산으로 구현된다. 학습 과정에서는 Proximal Policy Optimization(PPO)과 같은 최신 정책 최적화 알고리즘을 사용했으며, 보상 함수는 명중 거리(목표와의 최종 거리)와 연료 소모(추력 사용 횟수)를 동시에 최소화하도록 설계되었다. 또한, 정책이 과도한 추력을 사용하지 않도록 추력 제한과 시커 시야(135°) 제약을 보상에 포함시켰다. 시뮬레이션 결과, 제안된 RL 정책은 평균 명중 오차 4 cm, 최대 오차 9 cm를 기록했으며, 이는 증강 제로‑에포트 미스(ZEM) 정책이 보인 5 cm 평균·12 cm 최대 오차보다 약간 우수했다. 연료 소모는 약 2 % 증가했지만, 목표 가속에 대한 실시간 적응 덕분에 전반적인 성공률이 99.2 %에 달했다. 연산 측면에서는 정책 실행 시간이 1 ms 미만, 메모리 사용량 64 KB 수준으로, 현재 항공기용 고성능 프로세서(예: 2.3 GHz)에서 충분히 실시간 적용 가능하다. 논문은 또한 기존 유도법과 비교했을 때 몇 가지 장점을 강조한다. 첫째, 거리·속도 추정이 필요 없으므로 센서 오류·편향에 대한 민감도가 크게 감소한다. 둘째, 관측값이 단순 각도와 각속도뿐이므로 센서 샘플링 주파수를 높게 잡아도 데이터 처리 부담이 적다. 셋째, 정책이 순환 구조를 갖기 때문에 목표의 급격한 가속·감속에 즉각적으로 반응할 수 있다. 넷째, 정책 자체가 작은 행렬 연산으로 구현되므로 하드웨어 가속 없이도 높은 업데이트 주파수를 유지할 수 있다. 하지만 논문은 몇 가지 제한점을 인정한다. 시뮬레이션에서 중력·대기 저항을 무시했으며, 미사일과 목표의 궤적을 라그랑주식으로 직접 계산하지 않아 실제 발사 환경과 차이가 있을 수 있다. 또한, 자세 제어·다중 목표 식별·전술적 위협 회피와 같은 고급 기능은 별도 연구가 필요하다. 향후 연구에서는 실제 전자광학 시커 데이터를 활용한 하드웨어‑인‑더‑루프 실험, 대기·중력 효과 포함, 그리고 다중 목표 상황에서의 정책 확장 등을 진행할 계획이다. 결론적으로, 이 연구는 각도 전용 관측값만으로도 고성능 요격 유도법을 구현할 수 있음을 증명했으며, 강화학습 메타‑러닝과 순환 신경망을 결합한 접근법이 실시간 적응성과 계산 효율성 측면에서 매우 유망함을 보여준다.

각도 전용 요격 유도법을 위한 강화학습 기반 실시간 가이드 정책

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기