RIS 기반 HAPS SAGIN에서 딥 강화학습을 통한 간섭 억제
초록
본 논문은 고고도 플랫폼(HAPS)과 위성·지상 네트워크가 결합된 SAGIN 환경에서, RIS를 활용해 HAPS 안테나의 빔포밍 가중치를 최적화하는 딥 결정적 정책 그래디언트(DDPG) 프레임워크를 제안한다. 제안 방식은 업링크와 다운링크가 동일 주파수를 공유할 때 발생하는 백라벨 간섭을 실시간으로 억제하면서 전송 전력을 최소화하고, 최소 SINR 요구조건을 만족한다. 시뮬레이션 결과, 4×4 RIS 구성에서 기존 제로포싱(ZF) 방식 대비 최대 11.3%의 스루풋 향상을 달성하였다.
상세 분석
이 연구는 6G 시대에 필수적인 우주·공중·지상 통합 네트워크(SAGIN)의 핵심 요소인 고고도 플랫폼 스테이션(HAPS)의 구조적 한계를 극복하기 위해 두 가지 혁신적인 기술을 결합한다. 첫 번째는 재구성 가능한 지능형 표면(RIS)이다. RIS는 수백 개의 수동 반사 요소가 각각 독립적으로 위상 변조를 수행함으로써 전파 경로를 인위적으로 재구성한다. 논문에서는 L×L(예: 4×4) 배열의 RIS를 HAPS 커버리지 내에 배치하고, 각 요소의 위상 pₗ을 식 (2)에 따라 설계해 원하는 방향으로 신호를 집적시킨다. 이렇게 함으로써 HAPS의 업링크 안테나가 방출하는 백라벨이 지상 사용자에게 미치는 간섭을 물리적으로 차단하거나 최소화한다.
두 번째는 연속 행동 공간을 다루는 딥 강화학습 알고리즘인 Deep Deterministic Policy Gradient(DDPG)이다. 전통적인 제로포싱(ZF)이나 코드북 기반 빔포밍은 채널이 급변하거나 사용자 수가 늘어날 경우 해상도 제한과 계산 복잡도 때문에 실시간 적용이 어려웠다. 반면 DDPG는 환경(state)으로 복합 채널 행렬 H_HAPS의 실수·허수 부분을 입력받아, 행동(action)으로 HAPS 빔포밍 행렬 W의 실수·허수 값을 직접 출력한다. 보상 함수는 (i) 총 전송 전력 최소화, (ii) 모든 지상 사용자의 최소 SINR γ_min 만족, (iii) 제약 위반 시 큰 패널티 부여를 통해 설계되었다. 이 설계는 연속적인 가중치 조정이 가능하도록 하면서도, 제로포싱 제약을 보상 기반에 포함시켜 학습 단계에서 자연스럽게 만족하도록 만든다.
학습 과정에서는 경험 재플레이 버퍼와 타깃 네트워크를 도입해 샘플 간 상관성을 감소시키고, Q‑값의 평균 제곱 오차(MSE)를 최소화하는 손실 함수를 사용한다. 또한, 배치 크기 B와 할인 인자 τ를 적절히 조정해 수렴 속도와 안정성을 확보하였다. 실험 설정에서는 HAPS 안테나 50개 요소(N=50), RIS 4×4, 위성 1대, 지상 사용자 밀도 150명/km² 등 현실적인 파라미터를 적용했으며, 전송 전력 제한 P_t=30 dB, 대역폭 400 MHz, 28 GHz 캐리어 주파수를 사용하였다.
시뮬레이션 결과는 두드러진 성능 향상을 보여준다. 특히 4×4 RIS 구성에서 DDPG 기반 빔포밍이 ZF 대비 평균 11.3% 높은 스루풋을 기록했으며, 채널 변동성이 큰 상황에서도 안정적으로 최소 SINR을 유지했다. 이는 DDPG가 채널 상태를 실시간으로 관찰하고, 복잡한 비선형 제약을 만족하는 최적 정책을 학습함으로써, 전통적인 해석적 최적화가 갖는 계산 부하와 지역 최적해에 머무는 한계를 극복했음을 의미한다. 또한, 전송 전력 절감 효과가 확인되어 에너지 효율성 측면에서도 유리함을 입증한다.
요약하면, 본 논문은 RIS와 DDPG를 결합해 HAPS 기반 SAGIN에서 발생하는 백라벨 간섭을 동적으로 억제하고, 전력 효율과 스펙트럼 효율을 동시에 개선하는 실용적인 프레임워크를 제시한다. 향후 연구에서는 불완전 CSI, 다중 RIS 협업, 그리고 다중 HAPS·다중 위성 시나리오로 확장함으로써 실제 6G 네트워크에 적용 가능한 전반적인 시스템 설계로 발전시킬 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기