동적 mmWave 환경을 위한 액정 기반 RIS 위상 최적화와 강화학습 적용
초록
**
본 논문은 액정(Liquid Crystal) 기반 재구성 가능한 지능형 표면(LC‑RIS)의 재구성 지연(수십 ms) 문제를 해결하고자, 완전한 CSI 없이도 사용자 이동에 따라 실시간으로 위상값을 조정할 수 있는 Deep Deterministic Policy Gradient(DDPG) 기반 강화학습 프레임워크를 제안한다. 고정밀 레이 트레이싱 시뮬레이션과 실제 LC‑RIS 프로토타입 측정 데이터를 결합해 실내 사무실 환경에서 이동 사용자에 대한 평균 데이터율을 향상시키는 결과를 보여준다.
**
상세 분석
**
본 연구는 기존 반도체 기반 RIS가 전력 소모와 확장성에서 한계를 보이는 반면, 액정 기반 RIS는 저전력·저비용이라는 장점을 갖지만 재구성 시간이 수십 ms에 달해 동적 환경에 적용하기 어렵다는 근본적인 제약을 정확히 짚어낸다. 논문은 이 제약을 수학적으로 모델링하여, 위상 변환에 필요한 최대 재구성 시간 (t_c) 를 각 셀별 물리적 시간 상수 (\tau^{\pm}_c) 와 현재·목표 위상 차이에 기반한 지수식(13)·(14) 로 표현한다. 이렇게 정의된 (t_c) 가 전체 슬롯 시간 (t_s) 에서 차지하는 비율을 ‘서비스 시간’ (t_k = t_s - t_c) 로 두고, 데이터율 (R = \frac{t_k}{t_s} B \log_2(1+\text{SNR})) 를 최적화 목표로 설정한다.
핵심 난이도는 완전한 CSI를 실시간으로 확보할 수 없다는 점이다. 저자들은 이를 강화학습(MDP)으로 전환, 상태 (s_i) 에는 현재 위상 (\omega), 이론적 최적 위상 (\omega_{\text{opt}}) (구식 CSI 기반), 이전 슬롯의 거리·채널 정보 등을 포함시켜 학습 효율을 높였다. 행동 (a_i) 은 전체 RIS 위상 벡터이며, 연속적인 액션·상태 공간을 처리하기 위해 DDPG를 채택, 액터‑크리틱 두 신경망을 각각 위상 선택과 Q‑값 추정에 활용한다. 보상 함수는 SNR과 서비스 시간의 가중합 (r_i = \beta_1 \text{SNR} + \beta_2 t_k) 로 정의해, 단순 데이터율이 아닌 재구성 지연과 신호 품질 사이의 트레이드오프를 학습하도록 설계했다.
실험 부분에서는 60 GHz, 30 × 25 셀(총 750) LC‑RIS를 사용했으며, 열전도성 제약으로 열당 25셀을 동일 위상으로 묶어 30개의 독립 위상만 제어 가능하다는 하드웨어 제한을 반영했다. 레이 트레이싱 기반 실내 사무실 모델에 실제 측정된 반사 계수를 삽입해 시뮬레이션 정확도를 확보하였다. 결과는 DDPG 기반 정책이 정적 최적 위상(재구성 지연 무시) 대비 평균 데이터율을 약 12 % 향상시키면서, 재구성 시간은 20 ms 이하로 억제함을 보여준다. 또한, (\beta_1)·(\beta_2) 가중치를 조정함으로써 SNR 중심 혹은 서비스 시간 중심의 정책을 자유롭게 전환할 수 있음을 실증하였다.
이 논문은 LC‑RIS의 물리적 한계를 강화학습으로 보완한다는 새로운 패러다임을 제시한다. 특히, (i) 재구성 지연을 명시적 제약으로 포함한 최적화 모델링, (ii) 불완전 CSI 상황에서도 작동 가능한 연속형 액션 DDPG 설계, (iii) 실제 하드웨어 특성을 반영한 고신뢰도 시뮬레이션이라는 세 축을 동시에 구현한 점이 학술적·실용적 가치를 높인다. 향후 연구는 다중 사용자·다중 AP 시나리오, 그리고 메타러닝을 통한 빠른 적응성 강화, 그리고 하드웨어 수준에서 재구성 속도 개선을 위한 구조 최적화와의 공동 설계가 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기