제한된 피드백을 활용한 적응형 수중 음향 통신 AoI 인식 계층형 밴딧 접근법
본 논문은 수중 음향 네트워크의 제한된 대역폭·긴 전파 지연·채널 변동성을 고려해, 내부에서 컨텍스트 지연 다중무장 밴딧(CD‑MAB)으로 변조 방식과 전송 전력을 동시에 최적화하고, 외부에서 피드백 간격을 동적으로 조정하는 이중 레벨 밴딧 프레임워크를 제안한다. AoI(Information Age)를 상태 변수에 포함시켜 피드백 신선도를 관리하고, 피드백 비용과 스루풋 사이의 트레이드오프를 학습한다. 시뮬레이션 결과, 기존 딥 강화학습(DRL…
저자: Fabio Busacca, Andrea Panebianco, Yin Sun
본 논문은 수중 음향(UWA) 네트워크가 직면한 고유한 제약—제한된 대역폭, 수 초에 달하는 전파 지연, 그리고 급변하는 채널 특성—을 극복하기 위해 이중 레벨 멀티암드 밴딧(bilevel MAB) 프레임워크를 제안한다. 내부 레벨은 ‘Contextual Delayed Multi‑Armed Bandit(CD‑MAB)’이라 명명되었으며, 여기서는 최신 SNR 추정치와 그 추정치의 Age of Information(AoI)을 결합한 컨텍스트 X_t = ( \hat{η}_t − Δ(t), Δ(t) ) 를 사용한다. 이 컨텍스트는 채널 상태가 오래될수록 보상이 감소하도록 설계돼, 피드백이 지연될 경우에도 적절히 탐험‑활용을 조정한다. 행동 공간 A는 변조 스킴(BPSK, 8‑PSK, 16‑PSK)과 전송 전력(저·중·고) 조합으로 구성돼 총 9개의 팔을 제공한다. 보상은 피드백 구간 종료 시 해당 구간 동안 발생한 총 스루풋 r_k 를 구간 내 행동 수 |T_k| 로 균등 분배한 g_t = r_k/|T_k| 로 각 행동에 할당한다(Uniform Credit Assignment). 이렇게 하면 지연 보상 상황에서도 각 행동의 기여도를 정확히 추정할 수 있다. CD‑MAB은 UCB(Upper Confidence Bound) 기준 a_t = argmax_a
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기