딥 강화학습 기반 에너지 수집 인지 IoT의 적대적 재밍 방어
초록
본 논문은 에너지 제약이 있는 인지 IoT(CIoT) 디바이스가 재밍 공격을 받는 환경에서, 에너지 수집·데이터 전송·전송 전력 제어를 동시에 최적화하도록 설계된 딥 강화학습(DDQN) 프레임워크와 UCB‑IA 알고리즘을 제안한다. 모델‑프리 MDP를 기반으로 한 학습은 채널 점유, 재밍 활동, 채널 이득, 에너지 도착 정보를 활용해 장기 평균 스루풋과 네트워크 수명을 향상시킨다.
상세 분석
이 연구는 인지 라디오 기반 IoT( CIoT )가 1) 에너지 수집(EH)으로 자체 전력을 보충하고, 2) 언더레이(underlay) 방식으로 1차 사용자(PU)와 동일 스펙트럼을 공유하며, 3) 적대적 재밍 공격에 노출되는 복합적인 운영 환경을 가정한다. 저자는 이러한 다중 제약을 하나의 마코프 결정 과정(MDP)으로 모델링하고, 상태공간을 {채널 점유 여부, 재밍 존재 여부, 채널 게인 g_t^{ss}, g_t^{sp}, 배터리 잔량, 에너지 도착량} 로 정의한다. 행동공간은 {데이터 전송, 에너지 수집} × 전송 전력 P_t^{s} 로 구성되며, 전력은 PU에 대한 간섭 제한 I_th 를 만족하도록 제약된다. 보상함수는 스루풋(전송 성공률)과 에너지 효율을 동시에 고려한 가중합으로 설계돼, 장기 평균 보상이 최대가 되도록 정책을 학습한다.
알고리즘 핵심은 Double Deep Q‑Network(DDQN)이다. 기존 DQN의 과대평가 문제를 완화하기 위해 행동 가치 추정에 두 개의 네트워크(온라인, 타깃)를 사용하고, 경험 재플레이 버퍼를 통해 샘플 효율성을 높인다. 또한, 재밍 상황에서 탐색·활용 균형을 맞추기 위해 Upper Confidence Bound 기반의 UCB‑IA(Interference‑Aware) 전략을 도입한다. UCB‑IA는 각 채널·전력 조합에 대한 불확실성 상한을 계산해, 재밍이 강한 채널을 회피하면서도 에너지 수집 기회를 최적화한다.
시뮬레이션에서는 제안 알고리즘을 기존 DDQN, Q‑learning, 그리고 전통적인 게임이론 기반 안티‑재밍 기법과 비교한다. 결과는 평균 합계 전송률, 평균 보상, 재밍 간섭 비율 측면에서 제안 방법이 15~30% 정도 우수함을 보여준다. 특히, 배터리 소모를 최소화하면서도 재밍이 심한 구간에서 빠르게 전력 수준을 낮추어 PU 간섭을 유지하는 능력이 돋보인다. 수렴 분석에서는 학습 초기에 UCB‑IA가 탐색을 촉진해 수렴 속도를 2배 이상 가속화함을 확인했다.
한계점으로는 단일 CIoT 디바이스·단일 재머 시나리오에 초점을 맞추었으며, 다중 사용자·다중 재머 환경에서는 정책 공유 및 협업 학습이 필요하다. 또한, 채널 모델을 Rayleigh 페이딩으로 가정했지만, 실환경에서는 비정상적인 페이딩·그림자 효과가 존재할 수 있다. 향후 연구에서는 멀티에이전트 강화학습(MARL)과 연합 학습을 결합해 확장성을 검증하고, 하드웨어 테스트베드에서 실제 RF 재밍을 적용해 실시간 성능을 평가할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기