다중 기능 지능 표면이 도와주는 효율적인 네트워크 설계
📝 원문 정보
- Title: Parametrized Sharing for Multi-Agent Hybrid DRL for Multiple Multi-Functional RISs-Aided Downlink NOMA Networks- ArXiv ID: 2601.00538
- 발행일: 2026-01-02
- 저자: Chi-Te Kuo, Li-Hsiang Shen, Jyun-Jhe Huang
📝 초록
(이 논문에서는 다중 기능 지능형 표면(MF-RIS)을 사용하여 하향 링크 NOMA 네트워크의 에너지 효율을 높이는 방법에 대해 연구합니다. MF-RIS는 신호 반사, 전송, 증폭 및 무선 에너지를 수확하는 기능을 결합하고 있습니다. 이를 통해 시스템의 에너지 효율과 배치 유연성을 향상시킵니다. 또한 하이브리드 딥 강화 학습(DRL) 기법을 이용하여 복잡한 연속-이산 행동 공간에서 적응적인 정책 학습을 구현합니다.)💡 논문 해설
1. **다중 기능 지능형 표면(MF-RIS)**: MF-RIS는 단순히 신호를 반사하는 것이 아니라, 신호를 증폭하고 무선 에너지를 수확할 수 있는 복합적인 역할을 합니다. 이는 마치 태양광 패널이 태양의 빛을 전기로 변환하듯이, MF-RIS는 주변의 전파를 신호와 에너지로 활용합니다.-
하이브리드 딥 강화 학습(HDRL): 이 논문은 복잡한 환경에서 최적의 행동을 선택하는 HDRL 기법을 사용합니다. 이를 통해 MF-RIS의 구성 요소들이 에너지 효율을 극대화하도록 자동으로 조정됩니다. HDRL은 마치 AI가 게임에 참여하여 점수를 높이는 것처럼, 네트워크 성능을 최적화하는 역할을 합니다.
-
파라미터 공유 기법: 다중 에이전트 하이브리드 딥 강화 학습(PMHRL)은 각 구성 요소 간에 정보를 효과적으로 공유하고, 이를 통해 시스템의 전반적인 성능을 향상시킵니다. 이는 마치 팀원들이 서로 정보를 공유하여 상황을 최적화하는 것과 같습니다.
📄 논문 발췌 (ArXiv Source)
다중 기능 RIS, NOMA, 에너지 효율성, 하이브리드 딥 강화 학습, 파라미터 공유
구 치-테(Kuo), 신 리-시앙(Shen) 및 황 준-제(Huang)는 중앙대학교 통신공학과에 소속되어 있습니다. (메일: harber9322242@gmail.com, shen@ncu.edu.tw, kenneth900912@g.ncu.edu.tw)
서론
6세대(6G) 무선 통신 시대에서 스펙트럼 자원의 부족은 더 효율적인 전송 기술을 탐색하는 연구자들을 이끌었습니다. 그 중에서도 비직교 다중 접근(NOMA)은 동일한 주파수 리소스를 이용해 여러 사용자를 동시에 서비스할 수 있는 능력으로 인해 유망한 솔루션으로 부상했습니다. 전통적인 직교 다중 접근(OMA) 메커니즘과 비교했을 때, NOMA는 크게 더 높은 스펙트럼 효율성을 보여줍니다. 그러나 NOMA의 성능은 심각한 채널 페이딩과 사용자 간 간섭 등의 문제로 인해 제약을 받을 수 있으며, 이는 신호 품질을 저하시키고 실용적인 배포를 제한할 수 있습니다. 이러한 문제를 해결하기 위해 재구성 가능한 지능형 표면(RIS)이 가능 기술로서 제안되었습니다. RIS 요소의 구성 조정을 통해 전송기와 수신기 사이에 장애물을 우회하고 신호 품질을 개선하여 채널 페이딩과 싸울 수 있는 가상 직시 경로(LoS) 링크를 구축할 수 있습니다. 그러나 RIS는 다음 세대 시스템에 대한 잠재력을 가지고 있지만, 여러 내재한 제약으로 인해 실용적인 배포가 제한됩니다. 특히 180도 반공간 커버리지 영역에서만 작동하고 외부 전원 공급에 의존하기 때문에 독립적인 운영과 확장성이 제한됩니다.
RIS의 배경 하에서, 다중 기능 RIS(MF-RIS) 개념이 제안되었습니다. 이는 동시에 전송 및 반사 RIS(STAR-RIS)의 기능을 통합하여 360도 전체 공간 커버리지를 제공하고 광범위한 서비스를 실현합니다. 또한 MF-RIS에는 무선 에너지 수확(EH) 기능이 설계되어 있어 입사 전자기 신호로부터 무선 에너지를 획득하여 자체 지속적인 방식으로 작동할 수 있습니다. 이러한 설계는 유선 전원 인프라나 자주 반복되는 배터리 교체 요구사항을 줄이고 시스템의 에너지 효율성(EE)과 배포 유연성을 향상시킵니다. 또한 MF-RIS는 신호 증폭을 위한 활성 구성 요소를 통합하여 NOMA 네트워크에서 약한 채널 상태를 개선합니다. 더 나아가 광범위한 커버리지 요구 사항에 따라 다중 MF-RIS 배포의 필요성이 증가할 것입니다.
이 연구에서는 다중 MF-RIS로 돕는 하향 링크 NOMA 네트워크를 위한 새로운 아키텍처를 탐구합니다. 다중 MF-RIS 도움을 받은 네트워크에서 NOMA는 동일한 스펙트럼을 공유합니다. 한편, MF-RIS는 채널 페이딩과 간섭 효과를 완화하여 NOMA 사용자 그룹에 유리한 채널 조건을 구축하는 데 기여합니다. 또한 고차원적이고 동적인 환경에서 적응 정책 학습을 가능하게 하기 위해 딥 강화 학습(DRL) 기법을 기반으로 설계되었습니다. 전통적인 DRL은 이산 또는 연속 동작 중 하나만 처리하므로 복잡한 혼합 연속-이산 행동 공간을 효과적으로 다루려면 일반적인 하이브리드 DRL 프레임워크를 채택해야 합니다.
본 연구의 주요 기여는 다음과 같습니다:
-
다중 MF-RIS 도움을 받은 하향 링크 NOMA 네트워크를 탐구합니다. 우리는 동일한 주파수 리소스를 공유하는 전력 영역 NOMA를 고려하고 있습니다. MF-RIS는 신호 반사, 전송 및 증폭을 통해 송신 범위를 확장하면서 일부 신호 에너지를 수확하여 운영할 수 있습니다.
-
시스템 EE를 최대화하기 위해 전력 할당, 기지국(기지국)빔포밍, MF-RIS 구성 요소의 증폭/상단 이동/EH 비율 및 위치 결정을 목표로 합니다. 또한 MF-RIS 회로 전력을 고려합니다. 다중 에이전트 하이브리드 딥 강화 학습(PMHRL) 스키마를 설계하고, 하이브리드 DRL은 각각 근접 정책 최적화(PPO) 및 딥-Q 네트워크(DQN)을 사용하여 복합 연속-이산 변수를 처리합니다. 파라미터 공유는 두 모듈 간 정보 공유를 가능하게 합니다.
-
결과는 PMHRL이 기존의 전통적인 DRL 벤치마크와 공유 없이 비교했을 때 가장 높은 EE를 달성한다는 것을 보여줍니다. 제안된 다중 MF-RIS 도움을 받은 하향 링크 NOMA 아키텍처는 EH가 없는 경우, 전통적인 RIS 및 증폭되지 않은 신호 배포와 비교할 때 가장 높은 EE를 달성합니다.
시스템 모델 및 문제 정의
그림 1에 표시된 다중 MF-RIS 도움을 받는 하향 링크 NOMA 네트워크에서, 우리는 $`N`$ 개의 송신 안테나를 장착한 기지국과 집합 $\mathcal{N} = \{1, 2, . . . , N\}$이 방향 $k$에 있는 $J_k$ 사용자를 서비스합니다. 집합 $\mathcal{J}_k = \{1, 2, . . . , J_k\}$로 지정됩니다. 우리는 NOMA 송신 그룹을 위한 총 $K$ 방향을 고려하며 집합은 $\mathcal{K}=\{1,2.....K\}$입니다. 우리는 $Q$ 개의 MF-RIS와 집합 $\mathcal{Q} = \{1, 2, \ldots, Q\}$를 고려합니다. 또한, 기지국, MF-RIS 및 사용자의 위치가 각각 $\mathbf{w}_b = [x_b, y_b, z_b]^{\mathrm{T}}$, $\mathbf{w}_q = [x_q, y_q, z_q]^{\mathrm{T}}$, 그리고 $\mathbf{w}_{kj} = [x_{kj}, y_{kj}, 0]^{\mathrm{T}}$인 카르테시안 좌표계를 고려합니다. $`\mathrm{T}`$는 전치 연산을 나타냅니다. MF-RIS의 제한된 커버리지로 인해 배포 가능 영역도 제한됩니다: $\mathbf{w}_q \in \mathcal{W} = \{ [x_q, y_q, z_q]^{\mathrm{T}} | \mathbf{w}_{\min} \preceq \mathbf{w}_{q} \preceq \mathbf{w}_{\max} \}$는 배포 가능 영역이 $\mathbf{w}_{\min}`$과 $\mathbf{w}_{\max}`$로 제한됩니다. 각 MF-RIS에는 $M_h \cdot M_v`$ 요소를 가진 2차원 배열의 $M$ 개의 요소가 포함되어 있으며, 여기서 $`M_h`$와 $`M_v`$는 각각 수평축과 수직축에서 요소의 수를 나타냅니다. 각 MF-RIS 구성은 $\mathbf{\Theta}_{q}^k = \operatorname{diag}\left(
\alpha_{q,1} \sqrt{\beta_{q,1}^k} e^{j\theta_{q,1}^k}, \ldots, \alpha_{q,M} \sqrt{\beta_{q,M}^k} e^{j\theta_{q,M}^k}
\right)`$로 정의될 수 있습니다. 여기서 $`\theta_{q,m}^k \in [0, 2\pi)`$와 $\beta_{q,m}^k \in [0, \beta^k_{\max}]`는 각각 $k$ 방향에서 MF-RIS의 위상 이동 및 증폭 계수를 나타냅니다. $\beta_{\max} > 1$은 신호 증폭을 의미하고 $\beta_{\max} \leq 1$는 증폭 능력이 없는 전통적인 RIS를 나타냅니다. 각 MF-RIS 요소는 에너지 수확(EH) 모드(H 모드)와 신호 모드(S 모드)에서 작동할 수 있으며, EH 계수 $\alpha_{q,m}\in {0, 1}$을 조정하여 이를 가능하게 합니다. $\alpha_{q,m} = 1$은 MF-RIS가 S 모드에서 작동함을 의미하고, $\alpha_{q,m} = 0`$은 H 모드만 작동하는 것을 나타냅니다.
우리는 기지국과 $q`$ 번째 MF-RIS 사이의 라이션 페이딩 채널 모델 $\mathbf{H}_{q} = \sqrt{h_0 d_{q}^{-k_0}} \left( \sqrt{\frac{\beta_0}{\beta_0 + 1}} \mathbf{H}_q^{\text{LoS}} + \sqrt{\frac{1}{\beta_0 + 1}} \mathbf{H}_q^{\text{NLoS}} \right) \in \mathbb{C}^{M \times N}`$을 고려합니다. 여기서 $h_0`$은 1미터의 참조 거리에서 경로 손실, $d_{q}= \|w_b-w_q\|^2`$는 거리이고, $k_0`$은 경로 손실 지수입니다. $`\beta_0`$은 직시 경로 $\mathbf{H}_q^{\text{LoS}}`$의 비율과 비직시(NLoS) 성분인 $\mathbf{H}_q^{\text{NLoS}}`$를 조정하는 라이션 요인입니다. 직선 경로는 $`\mathbf{H}_q^{\text{LoS}} = \begin{bmatrix} 1,e^{-j\frac{2\pi}{\lambda}d_R\sin\bar{\psi}_{r,q}\sin\bar{\theta}_{r,q}}, \cdots ,e^{-j\frac{2\pi}{\lambda}(M_z\!-\!1) d_R\sin\bar{\psi}_{r,q} \sin\bar{\theta}_{r,q}} \end{bmatrix}^{\mathrm{T}} \otimes \begin{bmatrix} 1,e^{-j\frac{2\pi}{\lambda}d_R\sin\bar{\psi}_{r,q}\cos\bar{\theta}_{r,q}}, \cdots,e^{-j\frac{2\pi}{\lambda}(M_y \!-\! 1)d_R\sin\bar{\psi}_{r,q}\cos\bar{\theta}_{r,q}} \end{bmatrix}^{\mathrm{T}} \! \otimes\! \begin{bmatrix} 1,e^{-j\frac{2\pi}{\lambda}d_B\sin\varphi_t\cos\vartheta_t}, \cdots,e^{-j\frac{2\pi}{\lambda}(N\!-\!1)d_B\sin\varphi_t\cos\vartheta_t} \end{bmatrix}^{\mathrm{T}}`$으로 표현되며, $`\otimes`$는 크로네커 곱을 나타내고 $T`$는 전치 연산입니다. $`\lambda`$는 작동 주파수의 파장입니다. 표기법 $d_R`$와 $d_B`$는 각각 MF-RIS 요소 간 거리 및 기지국 안테나 간 거리를 나타냅니다. 표기법 $\bar{\psi}_{r,q}`$, $`\bar{\theta}_{r,q}`$, $`\varphi_t`$, 그리고 $`\vartheta_t`$는 MF-RIS $q`$의 도착 각도와 기지국의 출발 각도를 나타냅니다. $`\mathbf{H}^{\text{NLoS}}_q`$은 레일리 페이딩을 따릅니다.
기지국과 사용자 $j`$ 사이의 직결 링크와 $q`$ 번째 MF-RIS에서 반사된 링크는 각각 $\mathbf{h}_{kj} \in \mathbb{C}^{N \times1 }`$ 및 $\mathbf{r}_{q,kj} \in \mathbb{C}^{M \times 1 }`$로 표시되며, 거리는 $d_{kj}`$와 $d_{q,kj}`$입니다. 그러나 두 파라미터는 벡터 형태의 $\mathbf{H}_{q}`를 따릅니다. 직선 경로 성분은 $\mathbf{h}^{\text{LoS}}{kj} !=! [
1, e^{-j\frac{2\pi}{\lambda}d_B\sin\varphi_t\sin\vartheta_t}, \cdots, e^{-j\frac{2\pi}{\lambda}(N!-!1)d_B\sin\varphi_t\sin\vartheta_t}
]^{\mathrm{T}}$과 $\mathbf{r}_{q,kj}^{\text{LoS}} = [ 1, e^{-j\!\frac{2\pi}{\lambda}\!d_R\sin\!\varphi_{t,q}\sin\!\vartheta_{t,q}}, \cdots, e^{-j\!\frac{2\pi}{\lambda}\!(M\!-\!1)d_R\sin\!\varphi_{t,q}\sin\!\vartheta_{t,q}} ]^{\mathrm{T}}$입니다. 비직선 경로 성분 $\mathbf{h}{kj}^{\text{NLoS}}$ 및 $\mathbf{r}{q,kj}^{\text{NLoS}}$는 모두 레일리 페이딩을 따릅니다. 따라서 MF-RIS $q$와 사용자 $j$ 사이의 채널은 $\mathbf{g}_{q,kj} = \mathbf{r}_{q,kj}^H \mathbf{\Theta}_{q}^k \mathbf{H}_{q}$이며, 여기서 $H는 헤르미션 연산을 나타냅니다. 기지국-사용자 $j$의 총 결합 채널은 $Q$ MF-RIS로 지원되는 방향 $k$에서 ${\mathbf{g}}{kj} = \mathbf{h}{kj} + \sum{q\in\mathcal{Q}} \mathbf{g}_{q,kj}`$입니다.
하향 링크 NOMA 네트워크에서는 사용자가 스펙트럼 자원을 공유할 수 있는 여러 그룹으로 나뉩니다. 방향 $k`$에서 사용자 $j`$가 받은 신호는
\begin{align}
\label{r_signal}
& y_{kj} = \mathbf{g}_{kj} \mathbf{f}_k \sqrt{p_{kj}} s_{kj}+\mathbf{g}_{kj} \mathbf{f}_k \sum_{i \in \mathcal{J}_k \setminus \{j\}} \sqrt{p_{ki}} s_{ki} \notag \\
& +\sum_{\bar{k} \in \mathcal{K} \setminus \{k\} }\mathbf{g}_{kj} \mathbf{f}_{\bar{k}}
\sum_{i \in \mathcal{J}_{\bar{k}}}\sqrt{p_{\bar{k}i}} s_{\bar{k}i} + \sum_{q \in \mathcal{Q}} \mathbf{r}^H_{q,kj}\mathbf{\Theta}_{q}^k \mathbf{n}_q + {n}_{kj},
\end{align}
여기서 $\mathbf{f}_k`$는 방향 $k`$에 대한 기지국의 송신 빔포밍 벡터를 나타냅니다. 또한, $p_{kj}`$는 방향 $k`$에서 사용자 $j`$에게 할당된 전력 계수로 $\sum_{j \in \mathcal{J}_k} p_{kj} = 1`$입니다. $\mathbf{n}_{q} \sim \mathcal{CN}(0, \sigma_s^2 \mathbf{I}_M)`$은 요소 노이즈 전력 $`\sigma_s^2`$을 갖는 MF-RIS의 증폭 노이즈를 나타냅니다. 표기법 $n_{kj}`$은 방향 $k`$에서 사용자 $j`$의 노이즈 전력을 나타내며, 그 전력은 $\sigma_u^2`$입니다. NOMA 사용자의 신호는 동일한 주파수에서 동시에 송신되므로 상호 간섭을 초래합니다. 원하는 신호를 디코딩하기 위해 사용자는 순차적으로 간섭 제거(SIC)를 활용합니다. 사용자 $j`$와 $l`$이 방향 $k`$에서 동등한 결합 채널 이득에 따라 오름차순으로 배열되며, 조건은 다음과 같습니다:
\begin{align}
\frac{|{\mathbf{g}}_{kj}^H \mathbf{f}_k|^2}{
|{\mathbf{g}}_{kl}^H \mathbf{f}_k|^2 + I_{kj}
+ \sigma_u^2 } \leq
\frac{|{\mathbf{g}}_{kl}^H \mathbf{f}_k|^2}{
|{\mathbf{g}}_{kj}^H \mathbf{f}_k|^2
+ I_{kl}
+ \sigma_u^2 }, \label{9}
\end{align}
여기서 $k \in \mathcal{K}`$, $j \in \mathcal{J}_k`$는 방향 $k`$의 사용자를 나타내며, $l \in \mathcal{L}_k = \{j, j+1, \cdots, J_k\}`$입니다. 표기법 $I_{kj} = \sum_{q \in \mathcal{Q}} \sigma_s^2 \| \mathbf{r}_{q,kj}^H \mathbf{\Theta}_q^k \|^2`$ 은 잔류 간섭을 나타냅니다. 신호-간섭-노이즈 비(SINR)는 다음과 같습니다:
\begin{equation}
\gamma_{kj}=\frac{| \mathbf{g}_{kl} \mathbf{f}_k|^2 p_{kj}}{
\sum_{l \in \mathcal{L}_k} |\mathbf{g}_{kl} \mathbf{f}_k|^2 p_{kl} + I_{\text{IG},k} + I_{\text{MR}} + \sigma_u^2},
\end{equation}
여기서 $I_{\text{IG},k} = \sum_{\bar{k} \in \mathcal{K} \setminus \{k\} } \sum_{i \in \mathcal{J}_{\bar{k}}} \| \mathbf{g}_{kj} \mathbf{f}_{\bar{k}} \|^2 p_{\bar{k}i}`$ 은 그룹 간 간섭을 나타내며, $I_{\text{MR}} = \sum_{q \in \mathcal{Q}} \sigma_s^2 \|\mathbf{r}_{q,kj}^H \mathbf{\Theta}_{q}^k\|^2`$는 다중 MF-RIS로 인한 노이즈를 나타냅니다. 따라서 방향 $k`$에서 사용자 $j`$의 달성 가능한 전송률은 $R_{kj} = \log_2( 1 + \gamma_{kj})`$입니다.
여기서 우리는 $q`$ 번째 MF-RIS의 $m`$ 번째 요소에 대한 EH 계수 행렬을 다음과 같이 정의합니다:
$\mathbf{T}_{q,m}=\operatorname{diag} \left( \left[ {0, \dots, 0},
1 - \alpha_{q,m}, {0, \dots, 0}\right] \right)`$. 따라서 $q`$ 번째 MF-RIS의 $m`$ 번째 요소가 수신하는 RF 전력은 다음과 같습니다:
$P_{q,m}^{\text{RF}}=\mathbb{E} \left( \left\| \mathbf{T}_{q,m} \left( \mathbf{H}_{q} \sum_{k \in \mathcal{K}}\mathbf{f}_k + \mathbf{n}_{q,m} \right) \right\|^2 \right)`$, 여기서 $\mathbf{n}_{q,m}`$은 MF-RIS에 의해 도입된 증폭 노이즈입니다. 다양한 입력 전력에 대한 RF 에너지 변환 효율을 포착하기 위해 비선형 수확 모델을 채택합니다. 따라서 $q`$ 번째 MF-RIS의 $m`$ 번째 요소의 총 전력은 다음과 같이 표현됩니다:
$P_{q,m}^{\text{A}} = \frac{\Upsilon_{q,m} - Z\Omega}{1 - \Omega}`$, 여기서
$\Upsilon_{q,m}=\frac{Z}{1 + e^{-p \left( P_{q,m}^{\text{RF}} - k \right)}}`$
는 수신 RF 전력 $P^{\text{RF}}_{q,m}`$에 대한 로지스틱 함수이며, $Z>0`$은 최대 수확 전력을 결정하는 상수입니다. 상수
$\Omega=\frac{1}{1+e^{\varpi_1 \varpi_2}}`$
는 H 모드에서 0 입력/0 출력 반응을 보장하며, 상수 $`\varpi_1>0`$ 및 $\varpi_2 > 0`$은 회로 민감도와 전류 누설의 효과를 포착합니다. 자체 지속성을 달성하기 위해서는 MF-RIS의 총 소비 전력이 수확된 전력보다 낮아야 합니다. 또한, MF-RIS 제어를 위한 전력은 필요한 PIN 다이오드의 총 개수에서 주로 발생합니다. EH 비율, 증폭 및 위상 이동을 위한 양자화 단계는 각각 $L_\alpha`$, $`L_\beta`$, 그리고
$L_\theta입니다.