6G 통합 위성지상망 복원력 최적화 딥 강화학습
초록
본 논문은 저궤도 위성을 활용해 기지국 장애 상황에서 사용자 서비스를 유지하기 위한 복원력 최적화 프레임워크를 제시한다. 다중 셀 환경에서 안테나 다운틸트, 전송 전력, 사용자 연계 등을 jointly 최적화하고, 비선형 NP‑hard 문제를 해결하기 위해 Deep Q‑Network(DQN) 기반 강화학습 알고리즘을 설계하였다. 시뮬레이션 결과, 제안 방법이 기존 벤치마크 대비 총 스루풋과 위성 사용 최소화 측면에서 현저히 우수함을 확인하였다.
상세 분석
이 연구는 6G 시대에 필수적인 네트워크 복원력을 위성‑지상 통합 네트워크(ISTN) 구조에 적용함으로써, 기존 지상망만을 대상으로 한 복원력 연구와 차별화한다. 시스템 모델은 다중 셀 gNB가 각각 3개의 안테나 섹터를 보유하고, 각 섹터마다 전송 전력과 다운틸트 각을 독립적으로 제어할 수 있도록 설계되었다. 사용자들은 RSRP 기준을 만족하면 인근 gNB 혹은 LEO 위성 중 하나에 연결되며, 동시에 최소 데이터율 요구를 만족해야 성공적으로 서비스된 것으로 정의한다. 이러한 이중 제약(신호 강도와 데이터율)은 실제 서비스 품질을 보장하기 위한 현실적인 조건이다.
문제 정의는 총 사용자 데이터율을 최대화하면서 LEO 위성 사용량을 최소화하는 목적 함수를 채택한다. 여기서 λ는 위성 사용에 대한 페널티 계수로, 위성 링크의 높은 지연과 제한된 수명을 고려한다. 제약식 C1‑C8은 이진 변수(활성/비활성, 연계 여부 등), 전력 구간, 안테나 다운틸트 범위, 최소·최대 서비스 사용자 수 등을 포괄한다. 이러한 복합 제약은 문제를 비선형, 이산, 연속 변수 혼합 형태의 NP‑hard 문제로 만든다.
해결책으로 제안된 DQN 기반 강화학습은 MDP 프레임워크에 기반한다. 상태 공간은 각 gNB 섹터의 (전력, 다운틸트) 쌍을 행렬 형태로 표현해 L×2 차원의 연속값을 포함한다. 행동 공간은 각 섹터당 다운틸트를 -1°, 0°, +1° 로, 전력을 -5 dB, 0 dB, +5 dB 로 조정하는 9가지 조합을 제공한다. 따라서 전체 행동은 L개의 섹터에 대해 독립적으로 선택될 수 있어, 탐색 공간이 급격히 확대되지만 DQN의 함수 근사 능력으로 효율적으로 탐색한다.
보상 함수는 (1) 성공적으로 서비스된 사용자들의 평균 데이터율 합계와 (2) 위성 사용량에 대한 λ·π_us 페널티를 결합한다. 이는 네트워크 전체 스루풋을 높이면서 위성 의존도를 억제하는 두 목표를 동시에 최적화한다. 학습 과정에서는 ε‑greedy 정책과 경험 재플레이, 타깃 네트워크 업데이트를 적용해 학습 안정성을 확보한다.
시뮬레이션에서는 다중 셀, 동적 사용자 분포, 다양한 트래픽 요구를 반영한 현실적인 시나리오를 설정하였다. 결과는 제안된 DQN 정책이 기존 고정 안테나·전력 설정 혹은 단순 휴리스틱 대비 평균 스루풋을 15~20% 이상 향상시키고, LEO 위성 사용 비율을 30% 이상 감소시킴을 보여준다. 이는 복원력 확보와 동시에 위성 자원의 장기 지속 가능성을 동시에 달성할 수 있음을 입증한다.
전반적으로 이 논문은 (i) 복합적인 물리적·네트워크 제약을 통합한 ISTN 복원력 모델링, (ii) 비선형 혼합 정수 최적화 문제를 강화학습으로 해결한 방법론, (iii) 실험을 통한 실용성 검증이라는 세 축을 균형 있게 제시함으로써 6G 네트워크 설계에 새로운 방향성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기