인지형 레이더 인버스 학습: 지각·정책 동시 추정
초록
본 논문은 적 레이더의 관측(지각)과 지각에 기반한 행동 정책을 동시에 추정하는 온라인 비모수 베이지안 프레임워크를 제안한다. 의존 디리클레 프로세스와 입자 필터를 결합한 IPFDDP 알고리즘을 설계하고, 능동 탐사를 통해 학습 효율을 40 % 향상시킨다.
상세 분석
논문은 인지 레이더가 목표 상태에 대한 베이지안 사후(지각)를 계산하고, 그 지각에 따라 파형·빔·전력 등을 선택하는 확률적 정책을 가진다는 사실을 전제로 한다. 기존 연구는 지각 또는 정책 중 하나만 알려진 상황에서 다른 쪽을 추정했지만, 실제 전자전에서는 두 요소가 모두 은닉된 상태다. 저자는 이를 해결하기 위해 두 단계의 비모수 모델링을 도입한다. 첫째, 정책 Gπ,a 를 의존 디리클레 프로세스(DDP)로 표현해 시간·상태에 따라 변하는 무한 개념군을 자동으로 학습한다. DDP는 커널 함수를 이용해 유사한 지각 영역을 클러스터링하고, 새로운 관측이 들어올 때마다 사후가 연속적으로 업데이트된다. 둘째, 역입자 필터(IPF) 구조 안에 DDP의 사후 샘플링을 삽입해 지각 πk 와 정책 파라미터를 동시에 추정한다. 입자 집합은 각 시간 단계에서 관측된 목표 궤적 x0:k 와 레이더 행동 a1:k 를 조건으로 중요도 가중치를 재계산하며, 제안 분포는 현재 입자와 DDP 사후를 결합해 최적 중요도 밀도를 근사한다. 이 설계는 베이지안 역필터가 필요로 하는 충분통계가 존재하지 않는 상황에서도 근사적 샘플 기반 추정을 가능하게 한다.
알고리즘의 핵심 혁신은 (1) 정책을 무한 차원 비모수 과정으로 모델링해 사전 가정 없이 복잡한 정책 형태를 포착하고, (2) 입자 필터와 결합해 지각·정책의 공동 사후를 순차적으로 갱신함으로써 온라인 학습을 실현한다는 점이다. 또한 베이지안 프레임워크는 추정 불확실성을 정량화해 능동 탐사 전략을 설계할 근거를 제공한다. 능동 탐사에서는 학습자가 목표 가속도를 조절해 레이더가 선택할 행동을 유도하고, 정보 이득을 최대화하도록 설계한다. 실험 결과는 평균 제곱오차와 KL 발산 측면에서 기존 역필터(IEKF, IUKF, IPF)와 역강화학습 기반 방법을 크게 앞선다. 특히 무작위 탐사 대비 능동 탐사 시 KL 발산 감소 속도가 40 % 빨라 샘플 효율성이 크게 향상됨을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기