Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications
๐ Abstract
**
์๋ฏธ ํต์ (SemCom)์ ์ ํต์ ์ธ ๋นํธโ๋ ๋ฒจ ์ ์ก์์ ๋ฒ์ด๋ ์์
โ์ค์ฌ์ ์๋ฏธ ์ ๋ฌ์ ๋ชฉํ๋ก ํ๋ฉฐ, ์ด๋ฅผ ํตํด ์คํํธ๋ผยท์๋์ง ํจ์จ๊ณผ ์ง์ฐ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด SemCom ์์คํ
์ ํ์ต๋ ์๋ฏธ ๋ชจ๋ธ์ ๊ณ ์ ๋ ์ํ๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ฌด์ ํ๊ฒฝ ๋ณํ, ์ฌ์ฉ์ ์ ํธ๋ ๋ณ๋, ํน์ ์๋น์ค ๋ชฉํ์ ๋์ ๋ณํ๋ฅผ ์ ์ ํ ๋ฐ์ํ์ง ๋ชปํ๋ค. ๋ณธ ๋
ผ๋ฌธ์ ์๊ฐโ์ ํ ์ธ๊ฐโ์ธโ๋ฃจํ ๊ฐํํ์ต(TCโHITLโRL) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ธ๊ฐ ํผ๋๋ฐฑ, ์๋ฏธ ํจ์ฉ, ๊ทธ๋ฆฌ๊ณ ์ง์ฐ ์ ์ฝ์ ํ๋์ ์ ์ฝ ๋ง์ฝํ ๊ฒฐ์ ๊ณผ์ (CMDP) ์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ , ํ๋ผ์โ๋์ผ ๊ทผ์ ์ ์ฑ
์ต์ ํ(PPO) ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ก์
์ค๋(action shielding) ์ ์ง์ฐโ์ธ์ ๋ณด์ shaping ์ ๊ฒฐํฉํ๋ค. ์ ์๋ ์ ์ฑ
์ ๊ธฐ์กด PPO ์์ค์ ์๋ฏธ ๋ณด์์ ์ ์งํ๋ฉด์, ๊ณต์ค ์ธํฐํ์ด์ค์ NearโRT RIC(์ค์๊ฐ ๋ผ๋์ค ์ธํฐํ์ด์ค ์ปจํธ๋กค๋ฌ)์ ์ฒ๋ฆฌ ์์ฐ ๋ณ๋์ฑ์ ํฌ๊ฒ ๊ฐ์์ํจ๋ค. ์๋ฎฌ๋ ์ด์
์ ํฌ์ธํธโํฌโ๋ฉํฐํฌ์ธํธ ์ ์ก ํ๊ฒฝ์์ ์ด์ง์ ์ธ ์ฌ์ฉ์ ๋ง๊ฐ์๊ฐ์ ๊ณ ๋ คํ์ ๋, TCโHITLโRL์ด ๋ชจ๋ ์ฌ์ฉ์์ ์๊ฐ ์ ์ฝ์ ์ผ๊ด๋๊ฒ ๋ง์กฑํ๊ณ , ๋ฒ ์ด์ค๋ผ์ธ ์ค์ผ์ค๋ฌ ๋๋น ์๋ฏธ ๋ณด์๊ณผ ์์ ์๋น ์์ ์ฑ ๋ชจ๋์์ ์ฐ์ํจ์ ํ์ธํ๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
- SemCom์ ํต์ฌ ๊ฐ์น: ์๋ฏธ ์์ค์์ ์ ๋ณด๋ฅผ ์์ถยท์ ์กํจ์ผ๋ก์จ ์ ์ก๋์ ์ต์ํํ๊ณ , ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ JSCC๊ฐ ์ฑ๋ ๋ณ๋์ ๊ฐ์ธํจ์ ๋ณด์ธ๋ค.
- ์ ์ ๋ชจ๋ธ์ ํ๊ณ: ๋ฌด์ ์ฑ๋, ์ฌ์ฉ์ ์๊ตฌ, ์๋น์ค ๋ชฉํ๊ฐ ์์๊ฐ๊ฐ ๋ณํ๋ 5G/6G ํ๊ฒฝ์์๋ ๊ณ ์ ๋ ์๋ฏธ ๋ชจ๋ธ์ด ์๋ฏธ ์ผ๊ด์ฑ์ ์ ์งํ์ง ๋ชปํ๋ค.
- ์ธ๊ฐโํผ๋๋ฐฑ์ ํ์์ฑ: RLHF(์ธ๊ฐ ํผ๋๋ฐฑ ๊ฐํํ์ต)์ ๊ฐ์ ์ต์ AI ํธ๋ ๋๊ฐ ๋ณด์ฌ์ฃผ๋ฏ, ์ธ๊ฐ ์ฃผ๊ด์ ์ ํธ๋ฅผ ์ง์ ๋ณด์์ ๋ฐ์ํ๋ฉด ์๋ฏธ ๋ชจ๋ธ์ ์ค์ QoE์ ๋ง๊ฒ ์กฐ์ ํ ์ ์๋ค.
- ์๊ฐ ์ ์ฝ์ ์ค์์ฑ: ์ธ๊ฐ ํผ๋๋ฐฑ ์์ฒด๊ฐ ์ง์ฐ์ ๋ฏผ๊ฐํ๊ณ , ์๋ฏธ ๋ชจ๋ธ ์ ๋ฐ์ดํธ๊ฐ ์ค์๊ฐ ์๋น์ค(์: AR/VR, ์์จ์ฃผํ)์์ ํ์ฉ ๊ฐ๋ฅํ ์ง์ฐ ํ๊ณ๋ฅผ ์ด๊ณผํ๋ฉด ์คํ๋ ค ์๋น์ค ํ์ง์ ์ ํ์ํจ๋ค.
2. ํต์ฌ ๊ธฐ์ฌ
| ๋ฒํธ | ๊ธฐ์ฌ ๋ด์ฉ | ์์ |
|---|---|---|
| โ | ์ง์ฐโ์ธ์ CMDP: ์๋ฏธ ํจ์ฉ, ์ธ๊ฐ ์ ํธ, RIC ์ฒ๋ฆฌ ๋๊ธฐ์๊ฐ, ์ฌ์ฉ์ ๋ง๊ฐ์๊ฐ์ ์ํยท์ ์ฝ์ผ๋ก ํตํฉ | ์๋ฏธ ์ ์์ ์ค์๊ฐ ๋คํธ์ํฌ ์ ์ฝ๊ณผ ๋์์ ์ต์ ํํ๋ ์ํ์ ํ ์ ๊ณต |
| โก | TCโPPO with Shielding: ํ๋ผ์โ๋์ผ PPO์ ๋น์ฉ ํฌ๋ฆฌํฑยท๋ผ๊ทธ๋์ฃผ ์น์ยท์ก์ ์ค๋ ๋์ | ํ๊ท ยท์ฆ์(ํ๋ ์ ๋จ์) ์ ์ฝ์ ๋์์ ๋ง์กฑ, ํ์ต ์์ ์ฑยท์์ ์ฑ ๊ฐํ |
| โข | Open RAN ๊ตฌํ ์ค๊ณ: NRโlike ์ฌ๋กฏยท๋ฏธ๋โ์ฌ๋กฏ ๊ตฌ์กฐ์ ๋งคํ, NearโRT RIC์ HITLโRL ์์ด์ ํธ ๋ฐฐ์น | ์ค์ 5G/6G Open RAN ์คํ์ ์ ์ฉ ๊ฐ๋ฅํ ์ฒญ์ฌ์ง ์ ์ |
| โฃ | ์๋ฎฌ๋ ์ด์ ๊ฒ์ฆ: ์ด์ง์ ๋ง๊ฐ์๊ฐยท๋ค์ํ ์ฌ์ฉ์ ์(N=8,16) ์๋๋ฆฌ์ค์์ ์ง์ฐยท๋ณด์ยท์์ ์๋น 3๊ฐ์ง ์ธก๋ฉด ๋ชจ๋ ์ฐ์ | ์ค์ฉ์ ์ฑ๋ฅ ํฅ์ ์ ์ฆ, ๊ธฐ์กด ์ค์ผ์ค๋ฌ ๋๋น ๋ช ํํ ์ด์ ํ์ธ |
3. ๋ฐฉ๋ฒ๋ก ์์ธ
-
์ํ ์ ์
- ์๋ฏธ ํ์ง
$q_i$,t, ์ธ๊ฐ ์ ๋ ฌ ํจ์ฉลช_i,t, ๋จ์ ์ฌ๋slac$k_i$,t, ๋ง๊ฐ ๋ถ์ฑฮด_i,t, ์ฑ๋ ํ๋ ฌ$H_i$,t, ๊ฐ์ฉ ๋ฏธ๋โ์ฌ๋กฏ$T_a$vail,t. - ๋ค์ฐจ์ ์ํ๊ฐ ์๋ฏธยท์ฑ๋ยท์ง์ฐ์ ๋์์ ํฌ์ฐฉ, CMDP์ ๋ง์ฝํ์ฑ ์ ์ง.
- ์๋ฏธ ํ์ง
-
์ก์ ๊ตฌ์ฑ
- ์์ ์ ์ ํ๋ฆฌ๋ฏธํฐ๋ธ
U = {LIGHTADAPT, FEATREFINE, FULLRETRAIN, DEPLOY_CACHED, NOOP}์ ์ฌ์ฉ์ ์ค์ผ์ค๋ง ๋ง์คํฌ$b_i$,t. - ์ก์ ์ค๋: ํ๋ณด ์ก์ ์ด ์ฆ์ ์ง์ฐยท์์ ์ ์ฝ์ ์๋ฐํ๋ฉด, ๋ ๊ฐ๋ฒผ์ด ํ๋ฆฌ๋ฏธํฐ๋ธ ํน์ NOOP์ผ๋ก ์๋ ๋ค์ด๊ทธ๋ ์ด๋.
- ์์ ์ ์ ํ๋ฆฌ๋ฏธํฐ๋ธ
-
๋ณด์ยท์ ์ฝ ์ค๊ณ
- ๋ณด์: ์๋ฏธ ๊ฐ์
ฮลช_i,t์ ์ฐ์ฐ ๋น์ฉฯ($u_t$)์ฌ์ด์ ๊ฐ์คํฉ, ์๋น์ค ์ฐ์ ์์$w_i$ํฌํจ. - ์ ์ฝโ : ํ๊ท RIC ์ฒ๋ฆฌ ์๊ฐ โค
d(1)(์์ฐ). - ์ ์ฝโก: ํ๊ท ๋ง๊ฐ ์ด๊ณผ 0 (๋๋ ํ์ฉ ์ค์ฐจ
d(2)).
- ๋ณด์: ์๋ฏธ ๊ฐ์
-
ํ๋ผ์โ๋์ผ PPO
- ํด๋ฆฌํ๋ ์๋ฌ๊ฒ์ดํธ ์์ค์ ๋ผ๊ทธ๋์ฃผ ์น์
ฮป_j๋ฅผ ๊ณฑํ ๋น์ฉ ํญ์ ์ถ๊ฐ. - ๋น์ฉ ํฌ๋ฆฌํฑ
$V_c$^{(j)}๋ก ๋น์ฉ๊ฐ์ ์ถ์ , GAE ๊ธฐ๋ฐ ์ด๋๋ฐดํฐ์ง ๊ณ์ฐ. - ๋งค ์ ๋ฐ์ดํธ ํ `ฮป_j โ
- ํด๋ฆฌํ๋ ์๋ฌ๊ฒ์ดํธ ์์ค์ ๋ผ๊ทธ๋์ฃผ ์น์
๐ Full Content
**์๋งจํฑ ํต์ (SemCom)**์ ์ค๊ณ ์ด์ ์ ๋นํธโ๋ ๋ฒจ ์ถฉ์ค๋์์ ์์ โ๋๋ ์๋ฏธโ๋ ๋ฒจ ํจ์ฉ์ผ๋ก ์ ํํ์ฌ, ์์ ์ ๊ด๋ จ๋ ์ ๋ณด๋ง์ ์ ์กํ๊ณ ๋ฌผ๋ฆฌ, ๋งํฌ, ์ถ๋ก ๊ณ์ธต์ ๊ณต๋ ์ค๊ณํจ์ผ๋ก์จ ์คํํธ๋ผยท์๋์ง ํจ์จ์ ํฅ์์ํค๊ณ ์ง์ฐ์ ๊ฐ์์ํจ๋ค[1]โ[3]. ํนํ, ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ SemCom ์์คํ ์ ๊ณต๋ ์์คโ์ฑ๋ ์ฝ๋ฉ(JSCC)[4],[5]์ ํตํด ๊ตฌํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ์ฑ๋ ์์์ ๋ํ ๊ฐ์ธ์ฑ์ ๋ณด์ด๊ณ ์ฑ๋ฅ ์ด๋์ ์ ๊ณตํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ค๊ณ ๋๋ถ๋ถ์ ์๋ฏธ ๋ชจ๋ธ์ ํ ๋ฒ ํ์ตํ๋ฉด ์ ์ ์ธ ๊ฒ์ผ๋ก ์ทจ๊ธํ๊ธฐ ๋๋ฌธ์, ๋ฌด์ ํ๊ฒฝ, ์ฌ์ฉ์ ์ ํธ, ํน์ ์์ ๋ชฉํ๊ฐ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ ๋ ๋ชจ๋ธ ์ ๋ ฌ์ ์ ์งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ์๋น์ค ๊ด์ ์์ ๋ณด๋ฉด, ์๋ฏธ ์ถฉ์ค๋๋ฅผ ์ฌ์ฉ์ ์๋์ ์ ํ๋ฆฌ์ผ์ด์ ์ปจํ ์คํธ์ ๋ง์ถ๊ธฐ ์ํด์๋ ์ ์ ๋ฉ์ปค๋์ฆ์ด ํ์์ ์ด๋ค.
์ต๊ทผ ์์ฑํ AI์ ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํํ์ต(RLHF)[6]์ ๊ธ์ํ ๋ฐ์ ์ ์ธ๊ฐ ์ ํธ๋ก๋ถํฐ ์ง์ ํ์ตํ๋ ๊ฐ์น๊ฐ ํฌ๋ค๋ ์ ์ ๊ฐ์กฐํ๋ค. **HumanโinโtheโLoop Reinforcement Learning(HITLโRL)**์ ์ฃผ๊ด์ ํผ๋๋ฐฑ์ ๋ณด์ ์ค๊ณ์ ์ ์ฑ ์ ๋ฐ์ดํธ์ ๋ฐ์ํ๋ค[7]. ์ด๋ ๋ก๋ด๊ณตํ, ์ ํธ ํ์ต, ์ ์ด ๊ฐ๋ฅํ ํ ์คํธ ์์ฑ ๋ฑ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์์ผ๋ฉฐ, ์ต๊ทผ์๋ SemCom์์๋ ์ฌ์ฉ์โ์ธ์ ํจ์ฉ์ ๋ชจ๋ธ์ ์ ๋ ฌ์ํค๊ธฐ ์ํด ํ์ฉ์ด ์ ์๋๊ณ ์๋ค[8],[9]. ํ์ง๋ง HITLโRL์ ๋คํธ์ํฌ ๊ธฐ๋ฐ SemCom ๋ฃจํ์ ๋์ ํ๋ฉด ๋๋ฉ์ธ ํน์ ์ ๋๊ด์ด ๋ฐ์ํ๋ค.
๋ฌด์ ์์คํ ์์๋ ์ธ๊ฐ ํผ๋๋ฐฑ ์์ฒด๊ฐ ๋์ญํญยท์ง์ฐ ์ ํ์ด ์๋ ๋งํฌ๋ฅผ ํตํด ์ ๋ฌ๋๋ฉฐ, ์๋ฏธ ๋ชจ๋ธ ์ ๋ฐ์ดํธ๋ ์๊ฒฉํ ํ์ด๋ฐ ์ ์ฝ์ ๋ง์กฑํด์ผ ํ๋ค. ์ด๊ธฐ์ข ์ฌ์ฉ์๋ค์ด ์กด์ฌํ๋ ์ โ๋โ๋ค์ค์ (pointโtoโmultipoint) ๋ฐฐ์น์์๋ ํผ๋๋ฐฑ ์ง์ฐ๊ณผ ์ฌ๊ตฌ์ฑ ์ง์ฐ์ด ์ผ๋ถ ์ฌ์ฉ์์๊ฒ๋ ์ ๋ฐ์ดํธ๋ฅผ ์คํ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค. ์ด๋ฌํ ์๊ฐ์ ํจ๊ณผ๋ฅผ ๋ฌด์ํ๋ฉด ์ฌ์ฉ์๋ณ ๋ง๊ฐ์๊ฐ ์๋ฐ์ด ๋ฐ์ํ๊ณ **QoE(ํ์ง ๊ฒฝํ)**๊ฐ ์ ํ๋๋ค. ๋ฐ๋ผ์ ์๊ฐ ์ธ์ ์์ฌ๊ฒฐ์ ๋ฉ์ปค๋์ฆ์ด ์๋ฏธ ํจ์ฉ๊ณผ ์ค์ผ์ค๋งยท๋ฐฐํฌ ํ์ค์ ๊ฒฐํฉํด์ผ ํ๋ค. ๋์์ ๋ชจ๋ธ ์ ๋ฐ์ดํธ์ ์ธ๋ถํ(์: ๋ถ๋ถ ๊ฐฑ์ vs. ์ ์ฒด ์ฌํ์ต)๋ฅผ ์ ์คํ ์ ํํด ์๋ฏธ ํฅ์๊ณผ ์ง์ฐ ์ค๋ฒํค๋ ์ฌ์ด์ ๊ท ํ์ ๋ง์ถฐ์ผ ํ๋ค.
์ ์ฝ ๋ง์ฝํ ๊ฒฐ์ ๊ณผ์ (CMDP)[10]์ ๋ผ๊ทธ๋์ฃผ ๋๋ ํ๋ผ์โ๋์ผ ๋ฐฉ์[11]์ ํตํด ์ง์ฐยท์์ ์์ฐ์ ์์น์ ์ผ๋ก ๊ฐ์ ํ ์ ์๋ค. Proximal Policy Optimization(PPO)[12]๋ ์์ ์ฑ๊ณผ ์ํ ํจ์จ์ฑ์ด ๋ฐ์ด๋๋ฉฐ, ๋น์ฉ ๋นํ๊ฐ์ ๋์ผ ๋ณ์๋ฅผ ๋์ ํด ์ ์ฝ PPO(PPOโC) ๋ก ํ์ฅ๋ ์ ์๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ ์ด๋ฌํ RL ๊ธฐ๋ฒ์ RIC ์ต์ ํ์ ์ ์ฉํ์ง๋ง[13],[14], ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ธ๊ฐ ์ ํธ ์ ํธ๋ ํ๋ ์โ๋จ์ ์คํ ๊ฐ๋ฅ์ฑ ๋ฉ์ปค๋์ฆ์ ํฌํจํ์ง ์์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์๊ฐโ์ ํ HITLโRL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ โ๋โ๋ค์ค์ ํ๊ฒฝ์์ ์๋ฏธ ์ ์์ ์ฌ์ฉ์๋ณ ๋ง๊ฐ ์์ฐ๊ณผ ์ง์ฐ ์ธ์ ๋ณด์ ํํ์ CMDP๋ก ๋ชจ๋ธ๋งํ๊ณ , ํ๋ผ์โ๋์ผ PPO์ **์ก์ ์ค๋(action shield)**๋ฅผ ๊ฒฐํฉํด ํ์ตยท๋ฐฐํฌ ์ ์ฆ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฅํ๋ค. ์ด๋ ์ค์๊ฐ ์ ์ฝ์ ๋ช ์์ ์ผ๋ก ๊ณ ๋ คํ ์ต์ด์ HITLโRLยทSemCom ํตํฉ ์ฌ๋ก ์ค ํ๋์ด๋ฉฐ, ์ ํธ ๊ธฐ๋ฐ ํ์ต๊ณผ ๊ตฌํ ๊ฐ๋ฅํ ํ์ด๋ฐ ์ ์ด๋ฅผ ์ฐ๊ฒฐํ๋ค. ์ฃผ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ง์ฐ ์ธ์ CMDP: ์ธ๊ฐโ์ ๋ ฌ ์๋ฏธ ํจ์ฉ์ NearโRT RIC ์์ฐ ๋ฐ ์ฌ์ฉ์๋ณ ๋ง๊ฐ๊ณผ ๊ฒฐํฉํด, ์ง์ฐ ๋ณด์ฅ์ ์ ์ ๋ก ํ ์๋ฏธ ๋ธ๋ก๋์บ์คํ ์ ์ํ ์ค์ฉ์ ์ธ CMDP ์ถ์ํ๋ฅผ ์ ๊ณตํ๋ค.
- TCโPPO with Shielding: ๋น์ฉ ๋นํ๊ฐ, ์ ์ํ ๋ผ๊ทธ๋์ฃผ ์น์, ์ก์ ์ค๋๋ฅผ ํฌํจํ ํ๋ผ์โ๋์ผ PPO ๋ณํ์ ์ ์ํด ํ๊ท ยท์ฆ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๋์์ ๋ง์กฑํ๋ค.
- ๊ตฌํ ๋ฐ ์ค์ฆ: NRโ์ ์ฌ ์ฌ๋กฏ ๊ตฌ์กฐ์ ๋งคํํ๊ณ , JSCCโ๊ธฐ๋ฐ ์ ์ก์ ํตํด ์คํ์ ์ํํ๋ค.
1. ์์คํ ๋ชจ๋ธ
์ฐ๋ฆฌ๋ AIโ๊ตฌ๋ ์ฐจ์ธ๋ RAN์ ๊ฐ์ ํ๋ค. ์๋ฏธโ์ธ์ gNB๊ฐ ์ง์ฐ ์ด์ง์ฑ์ ๊ฐ์ง UE ์งํฉ (\mathcal{N}={1,\dots,N})์ ๊ณต์ ๋ค์ด๋งํฌ๋ฅผ ์ ๊ณตํ๋ค. ๊ทธ๋ฆผโฏ1๊ณผ ๊ฐ์ด OpenโฏRAN ๊ธฐ๋ฅ ๋ถํ [2],[15]์ ๋ฐ๋ฅด๋ฉฐ, NearโRT RIC์ HITLโRL ์์ด์ ํธ๊ฐ ์์ฃผํ๊ณ , Distributed Unit(DU)ยทRadio Unit(RU)์ด ๋ฌผ๋ฆฌ ๊ณ์ธต ์ฐ๊ฒฐ์ ๋ด๋นํ๋ค. ์๋ฏธ ๋ชจ๋ธ์ ์ธ์ฝ๋โ๋์ฝ๋ ์์ผ๋ก ๋์ํ๊ณ , ์ธ์ฝ๋๋ gNB์, ๋์ฝ๋๋ ๊ฐ UE์ ๋ฐฐ์น๋๋ค. ์ธ๊ฐ ์ด์์๋ ๋ณต์๋ ์๋ฏธ๋ฅผ ํ๊ฐํ๊ณ ํผ๋๋ฐฑ์ RIC์ ์ ์กํ๋ค. RIC๋ ์ด๋ฅผ ์ตํฉยท๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๊ณ , ์๊ฒฉํ ํ์ด๋ฐ ์์ฐ ํ์ ๊ตฌ์ฑ ๋ณ๊ฒฝ์ ์ ํํ๋ค.
์ ์ด ๋ฃจํ๋ ํ๋ ์ ์ธ๋ฑ์ค (t\in{0,1,\dots}) ๋ก ์ด์ฐํ๋๋ฉฐ, ๊ฐ ํ๋ ์์ ์ฌ๋กฏ ํ ๋น(NR ๋ฏธ๋โ์ฌ๋กฏ์ ํด๋น)์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ฏธ ์ ์์ ๋์ ์ผ๋ก ํ ๋น๋๋ค. ๊ฐ UE (i)๋ ์๋น์ค ํด๋์ค (k(i))์ ์ํ๊ณ , ๋ง๊ฐ ($d_i$)๋ ์๋ฏธ ์ ํ๋ฅผ ๊ฐ์งํ๊ณ ๋์ฝ๋๋ฅผ ์ฌ๋ฐฐํฌํ๊ธฐ๊น์ง ํ์ฉ๋๋ ์ต๋ ์๊ฐ์ด๋ค.
ํ๋ ์ (t)์์ gNB๋ ์์ค ํน์ง (\mathbf{x}_t\in\mathbb{R}^{$n_s$})์ ๊ณผ๊ฑฐ ์ปจํ ์คํธ (\mathbf{m}_t)๋ฅผ ์ ๋ ฅ๋ฐ๋๋ค. ์ธ์ฝ๋ ํ๋ผ๋ฏธํฐ (\ph$i_t$)๋ ์ ์ฌ ์๋ฒ ๋ฉ (\mathbf{z}_t)๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๋ณต์์ ์ฌ๋ณผ ๋ธ๋ก (\mathbf{s}_t=E(\mathbf{z}_t)\in\mathbb{C}^{$n_c$}) ๋ก ๋งคํํ๋ค. ์ ์ก ์ ํ์ ์ ์ฝ (|\mathbf{s}_t|2^2\le $n_c$P{\max}) ๋ฅผ ๋ง์กฑํ๋ค. RU๋ ๋ธ๋กโํ์ด๋ฉ MIMO ์ฑ๋์ ํตํด (\mathbf{s}_t) ๋ฅผ ์ ์กํ๋ค.
[ \mathbf{y}{i,t}= \mathbf{H}{i,t}\mathbf{s}t + \mathbf{n}{i,t},\qquad \mathbf{n}_{i,t}\sim\mathcal{CN}(\mathbf{0},\sigm$a_i$^2\mathbf{I}) ]
๊ฐ UE๋ ๊ฐ์ธํ ๋์ฝ๋ (\psi_{i,t}) ์ ๋ก์ปฌ ์ฌ์ด๋ ์ ๋ณด (\mathbf{c}_{i,t}) (์: ์๋น์ค ์ปจํ ์คํธ, ์ผ์ ์ค๋ ์ท)๋ฅผ ์ด์ฉํด ๋ณต์ํ๋ค.
[ \hat{\mathbf{x}}{i,t}= g{\psi_{i,t}}(\mathbf{y}{i,t},\mathbf{c}{i,t}) ]
๋ณต์ ํ์ง์ ์์ ์์ค (\el$l_i$(\hat{\mathbf{x}}_{i,t},\mathbf{x}t)) ๋ก ์ธก์ ๋๋ฉฐ, ๋ณด์กฐ์ ์ธ ํ์ง ์ ์ (q{i,t}=1-\el$l_i$(\cdot)) ๋ก ํํ๋๋ค. ์ด ์ ์๋ NearโRT RIC ์ผ๋ก ๋ณด๊ณ ๋๋ค.
UEโ์ธก ์ธ๊ฐ ํ๊ฐ์๋ ์ค์นผ๋ผ ํน์ ๋ฒกํฐ ํผ๋๋ฐฑ (\mathbf{F}_{i,t}) ๋ฅผ uplink ์ ์ดยท๋ฐ์ดํฐ ๋ฒ ์ด๋ฌ๋ฅผ ํตํด ์ ์กํ๋ค. ์ฌ์ฉ๋ PHY ์ฑ๋์ ๊ตฌํ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฏ๋ก ๋ณธ ์ฐ๊ตฌ์์๋ ์ถ์ํํ๋ค. ํต์ฌ์ NearโRT RIC ๊ฐ ํผ๋๋ฐฑ์ ์์งยท์ง๊ณยทํ์ฉ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. OpenโฏRAN ํ๋ ์์ํฌ ๋ด์์ SMOยทNearโRT RIC ๋ชจ๋์ ํผ๋๋ฐฑ์ ์ ๊ทํ๋ ์ ํธ ์ ์ (\tilde{U}_i) ๋ก ๋ณํํ๋ค.
[ \tilde{U}i = \et$a_i$,$U_i$(\mathbf{p}{i,t}) + (1-\et$a_i$),H_{\text{pref}}(\mathbf{F}_{i,t}),\qquad \et$a_i$\in[0,1] ]
์ฌ๊ธฐ์ ($U_i$) ๋ ๊ฐ๊ด์ KPI(์: ํ์ง ์ ํ๋) ๋ฅผ, (H_{\text{pref}}) ๋ ์ฃผ๊ด์ ๋ง์กฑ๋๋ฅผ ์ธ์ฝ๋ฉํ๋ค. NearโRT RIC ๋ ์ง์ ๊ฐ์ค ์ด๋ ํ๊ท ์ ์ ์งํ๋ค.
[ \bar{U}{i,t+1}= (1-\alph$a_i$)\bar{U}{i,t} + \alph$a_i$\tilde{U}_{i,t},\qquad \alph$a_i$\in(0,1] ]
(\bar{U}_{i,t}) ๋ RL ์ํ์ ์ผ๋ถ๊ฐ ๋๋ฉฐ ์ฅ๊ธฐ ์๋ฏธ ์ ๋ ฌ์ ๋ณด์กฐํ๋ค.
2. ์ ์ ์ก์ ๋ฐ ์ง์ฐ ๋ชจ๋ธ
์์ด์ ํธ๋ ์ ์ ์ก์ ($a_t$\in\mathcal{U}) ๋ฅผ ์ ํํ๋ค. ์ก์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ๋ค.
| ์ก์ | ์ค๋ช |
|---|---|
| LIGHTADAPT | ๋์ฝ๋ ํต๊ณ ํน์ ์ด๋ํฐ๋ฅผ ์ต์ํ์ผ๋ก ๊ฐฑ์ (์ง์ฐ ์ต์) |
| FEATREFINE | ์ค๊ฐ ๊ท๋ชจ ํ์ธโํ๋ (์: LoRA ๋ ์ด์ด) |
| FULLRETRAIN | ์ ์ฒด ์ง์ ๊ธฐ๋ฐ ์ ๋ฐ์ดํธ (๊ณ ๋น์ฉ) |
| DEPLOYโCACHED | ์บ์๋ ์์ ๋ชจ๋ธ์ ๋กค๋ฐฑยท์ฌ๋ฐฐํฌ |
| NOOP | ์๋ฌด ๋ณํ๋ ์์ |
์ก์ ์ํ ์ ์ ์ฒด ์ง์ฐ์ ๋ค์๊ณผ ๊ฐ์ด ๋ชจ๋ธ๋งํ๋ค.
[ C^{\text{total}}{i,t}= C^{\text{fb}}{i,t}+ C^{\text{RIC}}{i,t}+ C^{\text{tx}}{i,t}+ C^{\text{reconf}}_{i,t} ]
- (C^{\text{fb}}_{i,t}): ์ธ๊ฐ ํผ๋๋ฐฑ ํ๋ ๋ฐ uplink ์ ์ก ์ง์ฐ
- (C^{\text{RIC}}_{i,t}): NearโRT RIC ๋ด ๋ถ์ยท๊ฒฐ์ (ํ์ ํฌํจ) ์ง์ฐ
- (C^{\text{tx}}_{i,t}): ํ๋ก ํธโํ/๋ฐฑํ์ ํตํ ํ๋ผ๋ฏธํฐ ์ ํ ์ง์ฐ
- (C^{\text{reconf}}_{i,t}): UEโ์ธก ๋์ฝ๋ ๋ฐฐํฌยท์๋ฐโ์คํํธ ์ง์ฐ
๊ฐ ์๋น์ค ํด๋์ค (k\in\mathcal{K}) ์๋ 3GPP 5QI ๊ธฐ์ค์ ๋ง์ถ ์์ฐ (B^{\text{RIC}}k) ์ ๋ง๊ฐ ($d_i$) ๊ฐ ํ ๋น๋๋ค. RIC ์ ํ์ฌ ์์ฌ ์ฌ์ (\Delta^{\text{RIC}}{t}) ์ ์ ๊ทํ๋ ๋ง๊ฐ ๋ถ์ฑ (\delta_{i,t}= \bigl[ -\Delta_{i,t}\bigr]^+/$d_i$) ๋ฅผ ์์ด์ ํธ์ ์ ๊ณตํ๋ค.
3. ์๊ฐโ์ ํ CMDP ์ ์
CMDP (M=(\mathcal{S},\mathcal{A},P,r,c,\gamma)) ์ ๊ตฌ์ฑ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ํ (\mathcal{S}): ํ๋ ์ ์์ ์ NearโRT RIC ์ด ๊ด์ฐฐํ๋ ๋ฒกํฐ
[ $s_t$ = \bigl[,\mathbf{q}_t,;\bar{\mathbf{U}}_t,;\Delta^{\text{RIC}}_t,;\boldsymbol{\delta}_t,;\mathbf{H}_t,;T^{\text{avail}}_t,\bigr] ]
-
(\mathbf{q}t=[q{1,t},\dots,q_{N,t}]^\top): UE ๋ณ ์ฆ์ ์๋ฏธ ํ์ง
-
(\bar{\mathbf{U}}t=[\bar{U}{1,t},\dots,\bar{U}_{N,t}]^\top): ์ธ๊ฐ ์ ๋ ฌ ํจ์ฉ ์ถ์ ์น
-
(\Delta^{\text{RIC}}_t): RIC ์ฒ๋ฆฌ ์์ฐ ์์ฌ๋
-
(\boldsymbol{\delta}_t): UE ๋ณ ์ ๊ทํ ๋ง๊ฐ ๋ถ์ฑ
-
(\mathbf{H}_t): ํ์ฌ ์ฑ๋ ํ๋ ฌ ์งํฉ
-
(T^{\text{avail}}_t): ์๋ฏธ ์ฌ๋ผ์ด์ค์ ํ ๋น๋ ๋ฏธ๋โ์ฌ๋กฏ ์์ฐ
-
์ก์ (\mathcal{A}): ๋ณตํฉ ์ก์ ($a_t$=($u_t$,\mathbf{b}_t)) ๋ก ๊ตฌ์ฑ
- ($u_t$\in\mathcal{U}) : ์ ํ์ ์ ์๋ ์ ์ ์์(primitives)
- (\mathbf{b}t=[b{1,t},\dots,b_{N,t}]^\top\in{0,1}^N) : ํด๋น ํ๋ ์์ ์ ์์ ์ํํ UE ์ ํ
์คํ ๊ฐ๋ฅ ์์ญ
[ \mathcal{A}^{\text{feas}}($s_t$)=\Bigl{(u,\mathbf{b});\big|; C^{\text{RIC}}_t(\mathbf{b})\le \Delta^{\text{RIC}}t,; \forall i:; $b_i$=1\Rightarrow C^{\text{total}}{i,t}(u)\le $d_i$\Bigr} ]
-
์ ์ด ์ปค๋ (P): (s_{t+1}\sim P(\cdot|$s_t$,$a_t$)) ์ (i) JSCC ์ฌ๊ตฌ์ฑ, (ii) ์ธ๊ฐ ํผ๋๋ฐฑ ์ตํฉ, (iii) ์ง์ฐ ๋ถํด๋ฅผ ํฌํจํ๋ค.
-
๋ณด์ (r): ์๋ฏธ ํฅ์๊ณผ ์ฐ์ฐ ๋น์ฉ์ ๊ท ํ ์๊ฒ ๋ฐ์
[ $r_t$ = \sum_{i=1}^{N} $w_i$\Bigl[,\bar{U}{i,t+1} - \beta{\delta},\delta_{i,t+1}\Bigr] - \chi($u_t$),\beta_{u} ]
-
($w_i$): ์๋น์ค ์ฐ์ ์์ ๊ฐ์ค์น
-
(\chi($u_t$)): ์ ํ๋ ์์์ ์ฐ์ฐ ๋น์ฉ (์: FLOPs)
-
(\beta_{\delta},\beta_{u}\ge0): ์๋ฏธ ์ด๋ vs. ๋ง๊ฐ ์คํธ๋ ์ค ํธ๋ ์ด๋โ์คํ ํ๋ผ๋ฏธํฐ
-
์ ์ฝ ๋น์ฉ (c): ๋ ๊ฐ์ ํ๊ท ์ ์ฝ
- RIC ์ฒ๋ฆฌ ์์ฐ
[ c^{(1)}_t = C^{\text{RIC}}_t(\mathbf{b}_t) ]
- ๋ง๊ฐ ์ด๊ณผ
[ c^{(2)}t = \sum{i=1}^{N} \bigl[\delta_{i,t}\bigr]^+ ]
-
ํ ์ธ์จ (\gamma\in(0,1))
4. ํ๋ผ์โ๋์ผ PPO with Shield (TCโPPO)
์ ์ฑ (\pi_{\theta}(a|s)) ์ ํ ์ธ์จ (\gamma) ๋ฅผ ๊ฐ๋ ์ ์์ ์ฑ ์ ์ต์ ํํ๋ค. ๋ชฉํ๋
[ \max_{\pi_{\theta}} ; \mathbb{E}\Bigl[\sum_{t=0}^{\infty}\gamma^{t} $r_t$\Bigr] \quad\text{s.t.}\quad \mathbb{E}[c^{(j)}]\le d^{(j)},; j=1,2 ]
์ฌ๊ธฐ์ (d^{(1)} = \mathbb{E}[T^{\text{avail}}_t]) (RIC ํ๊ท ์์ฐ)์ด๋ฉฐ, (d^{(2)}=0) ์ ํ๊ท ๋ง๊ฐ ์๋ฐ์ ๊ธ์งํ๋ค(ํ์ฉ ์๋ฐ ํ๋ฅ ์ ํ์ฉํ๋ ค๋ฉด (d^{(2)}>0) ๋ก ์ค์ ๊ฐ๋ฅ).
4.1 ๋ผ๊ทธ๋์ฃผ ๋์ผํ
๋ ์ ์ฝ์ ๋ํ ๋ผ๊ทธ๋์ฃผ ์น์ (\lambda=[\lambda_1,\lambda_2]^\top\ge0) ๋ฅผ ๋์ ํ๋ค.
[ \mathcal{L}(\theta,\lambda)=\mathbb{E}\Bigl[\sum_{t}\gamma^{t}\bigl($r_t$ - \lambda^\top $c_t$\bigr)\Bigr] + \lambda^\top d ]
4.2 PPO ์ํ๋ผ์ด์ฆ์ ํด๋ฆฌํ
ํด๋ฆฌํ ๋น์จ (\epsilon) ์ ์ค์๋ ๋น์จ (\rh$o_t$ = \frac{\pi_{\theta}($a_t$|$s_t$)}{\pi_{\theta_{\text{old}}}($a_t$|$s_t$)}) ๋ฅผ ์ฌ์ฉํด ํด๋ฆฌํ ์ํ๋ผ์ด์ฆ๋ฅผ ์ ์ํ๋ค.
[ L^{\text{CLIP}}_t(\theta)=\min\Bigl(\rh$o_t$ \hat{A}_t,; \text{clip}(\rh$o_t$,1-\epsilon,1+\epsilon)\hat{A}_t\Bigr) ]
์ฌ๊ธฐ์ (\hat{A}_t) ๋ Generalized Advantage Estimate (GAE) ๋ก ๊ณ์ฐํ๋ค.
4.3 ๋น์ฉ ๋นํ๊ฐ์ ๋์ผ ์ ๋ฐ์ดํธ
๊ฐ ์ ์ฝ (j) ์ ๋ํด ๋น์ฉ ๋นํ๊ฐ (V^{c}_{j,\n$u_j$}(s)) ๋ฅผ ํ์ตํ๋ค. ๋น์ฉ ์ด๋๋ฐดํฐ์ง๋ ๋์ผํ GAE ๋ฐฉ์์ ์ ์ฉํ๋ค. ๋์ผ ๋ณ์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ฒฝ์ฌ ์์นํ๋ค.
[ \lambd$a_j$ \leftarrow \bigl[\lambd$a_j$ + \alpha_{\lambda}\bigl(\hat{c}^{(j)}t - d^{(j)}\bigr)\bigr]+ ]
(\alpha_{\lambda}) ๋ ํ์ต๋ฅ ์ด๋ฉฐ, ์ง์ ์ด๋ ํ๊ท (EMA) ๋ก ์ก์์ด ์ํ๋๋ค.
4.4 ์ก์ ์ค๋ (Shield)
ํ๊ท ์ ์ฝ๋ง์ผ๋ก๋ ํ๋ ์โ๋จ์ ์์ ์ ๋ณด์ฅํ ์ ์์ผ๋ฏ๋ก, ์ก์ ์ค๋๋ฅผ ๋์ ํ๋ค. ํ๋ณด ์ ์ฑ (\pi_{\theta}) ๊ฐ ์ถ๋ ฅํ ((u,\mathbf{b})) ๋ฅผ ์คํ ๊ฐ๋ฅ ์งํฉ (\mathcal{A}^{\text{feas}}($s_t$)) ๋ก ํฌ์ฌํ๋ค.
- ์์ (u) ๊ฐ ํ์ฌ ์์ฌ ์์ฐ์ ์ด๊ณผํ๋ฉด ๊ฐ๋ฒผ์ด ์์(LIGHTADAPT โ FEATREFINE โ FULLRETRAIN ์) ๋ก ์์ฐจ์ ์ผ๋ก ๋ค์ด๊ทธ๋ ์ด๋ํ๋ค.
- ์์๊ฐ ๊ณ ์ ๋ ๊ฒฝ์ฐ, ์ค์ผ์ค๋ง ๋ง์คํฌ (\mathbf{b}) ๋ฅผ ๊ทธ๋ฆฌ๋ํ๊ฒ ์์ฌ ์ฌ๋ (\Delta^{\text{RIC}}t) ์ ๊ฐ UE ๋ง๊ฐ ๋ถ์ฑ (\delta{i,t}) ๋ฅผ ๊ณ ๋ คํด ์ฐจ๊ฐํ๋ค.
- ์ด๋ ๊ฒฝ์ฐ์๋ ์คํ ๊ฐ๋ฅ ์กฐํฉ์ด ์์ผ๋ฉด NOOP ๋ก ๊ฐ์ ํ๋ค.
์ด ์ค๋๋ ํ์ต ๋จ๊ณ์ ์ค์ ๋ฐฐํฌ ๋ชจ๋์์ ์ ์ฉ๋๋ฉฐ, ํ๋ ์๋น ์ค์๊ฐ ์์ ์ฑ์ ๋ณด์ฅํ๋ค.
4.5 ์๊ณ ๋ฆฌ์ฆ ์์ฝ (Algorithmโฏ1)
- ํ์ฌ ์ ์ฑ (\pi_{\theta}) ์ ์ค๋ (\mathcal{A}^{\text{feas}}) ๋ก Lโํ๋ ์ ๋กค์์์ ์์งํ๋ค.
- ์์ง๋ ํธ๋์ง์ ์ผ๋ก ๋ณด์ยท๋น์ฉ ์ด๋๋ฐดํฐ์ง์ ๋ฆฌํด์ ๊ณ์ฐํ๋ค.
- ๋ณด์ยท๋น์ฉ ๋นํ๊ฐ๋ฅผ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ผ๋ก ์ ๋ฐ์ดํธํ๋ค.
- ํด๋ฆฌํ ์ํ๋ผ์ด์ฆ์ ๋์ผ ์์ค์ ์ด์ฉํด ์ ์ฑ ํ๋ผ๋ฏธํฐ (\theta) ๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
- ๋์ผ ๋ณ์ (\lambda) ๋ฅผ ๊ฒฝ์ฌ ์์น ํ EMA ๋ก ํํํ๋ค.
- ์ง์ฐ ์์ธก๊ธฐ๋ฅผ ์ต์ ๊ด์ธก์น๋ก ๊ฐฑ์ ํ๋ค.
- ์ ๊ณผ์ ์ ์ง์ ๋ ์ํฌํฌ ์๋งํผ ๋ฐ๋ณตํ๊ณ , ์ต์ข ์ ์ฑ ์ ์จ๋ผ์ธ ์ค๋์ ํจ๊ป ๋ฐฐํฌํ๋ค.
5. ์๋ฎฌ๋ ์ด์ ๋ฐ ํ๊ฐ
5.1 ์คํ ์ค์
- ์๋๋ฆฌ์ค: ๋จ์ผ ์๋ฏธโ์ธ์ gNB ๊ฐ (N\in{8,16}) UE ๋ฅผ ์๋น์คํ๋ค. UE๋ง๋ค ์ด์ง์ ์ธ ๋ง๊ฐ ($d_i$) ์ ๋ฐฑ๋ก๊ทธ๊ฐ ์กด์ฌํ๋ค.
- ์์น: ๊ฐ 10โฏms ํ๋ ์์ ์์น (\mu\in{0,1,2}) ๋ฅผ ๋ฌด์์๋ก ์ ํํด ์ฌ๋กฏยท์ฌ๋ณผ ๊ธธ์ด๋ฅผ ๊ฒฐ์ ํ๋ค. ๋ฏธ๋โ์ฌ๋กฏ ํ ๋น (n^{\text{sym}}_{t}\in{2,4,7}) ๋ก ๋์ ์ ๊ณตํ๋ค.
- ํ๋ผ๋ฏธํฐ: ๋ผ๋์คยท์ง์ฐยทํ์ต ํ์ดํผํ๋ผ๋ฏธํฐ๋ TableโฏI ์ ์ ๋ฆฌํ์ผ๋ฉฐ, ์ฝ๋์ ์ค์ ํ์ผ์ ๊ณต๊ฐ ์ ์ฅ์์ ํจ๊ป ์ ๊ณตํ๋ค.
5.2 ๋น๊ต ๋์
- Unconstrained PPO: ๋ผ๊ทธ๋์ฃผ ์น์๋ฅผ ๋นํ์ฑํํ PPO.
- Discreteโaction DQN: ์ฌ๋ยท๋ฐฑ๋ก๊ทธ ํต๊ณ ๊ธฐ๋ฐ์ผ๋ก ์์โ๋ง์คํฌ ํ ํ๋ฆฟ์ ์ ํํ๋ DQN ์ค์ผ์ค๋ฌ.
- Random Feasible Scheduler: ๊ฐ๋ฅํ ์ก์ ์ค ๋ฌด์์ ์ ํ (์ค๋ ์ ์ฉ).
DQN ์ ์ต์ ์๋น์ค ์์ค์ ์ ์งํ๋๋ก ์ธ๋โ์ ํธ๋ฆฌ์ ์ด์ ํจ๋ํฐ๋ฅผ ์ถ๊ฐํด, ๋ชจ๋ ์์ด์ ํธ๊ฐ ๋น์ทํ ์ต์ QoS ๋ฅผ ์ ๊ณตํ๋๋ก ๋ณด์ฅํ๋ค.
5.3 ํ์ต ์๋ ด (Fig.โฏ2)
- (N=8)ยท(N=16) ์ ๋ํด 5๊ฐ์ ์๋ ํ๊ท ๋ณด์์ด ํ์๋๋ค.
- Unconstrained PPO์ TCโPPO ๋ชจ๋ ์ฝ 200โฏiteration ๋ด์ ์๋ ดํ๋ฉฐ, ๊ฐ์ฅ ๋์ ์๋ฏธ ํจ์ฉ์ ๋ฌ์ฑํ๋ค.
- DQN ์ ์ฌ์ ์ ์๋ ํ ํ๋ฆฟ๋ง ์ ํํ๋ฏ๋ก PPO ๊ณ์ด๋ณด๋ค ๋ฎ์ ๋ณด์์ ๊ธฐ๋กํ๋ค.
- Random ์ ์ ๋ฐ์ ์ผ๋ก ๋ฎ์ ๋ณด์์ ๋ณด์ธ๋ค.
5.4 ์์ ์ฌ์ฉ (Fig.โฏ3)
- Airโinterface overhead ((C^{\text{fb}}+C^{\text{tx}})) ์ RIC ์ฒ๋ฆฌ ์๊ฐ (C^{\text{RIC}}) ๋ฅผ ํ์ํ๋ค.
- (N=8) ์ผ ๋ PPO/TCโPPO ๋ ์ฌ๋์ด ํ์ฉ๋ ๊ฒฝ์ฐ FULLRETRAIN ๊ณผ LIGHTADAPT ์ ๋ฒ๊ฐ์ ์ฌ์ฉํด ๋์ ๋ณด์์ ์ป์ง๋ง, ์ค๋ฒํค๋ ๋ณ๋์ฑ์ด ํฌ๋ค.
- (N=16) ์ผ ๋๋ ๋ฌด๊ฑฐ์ด ์ ๋ฐ์ดํธ๊ฐ ์ง์๋์ด ์ค๋ฒํค๋๊ฐ ์์ ํ๋๋ค.
- DQN ์ ์ด์ฉ๋ฅ ํจ๋ํฐ ๋๋ฌธ์ PPO ์์ค์ ํต์ ์๊ฐ์ ์ฌ์ฉํ์ง๋ง ๋ณด์์ ๋ฎ๋ค.
- TCโPPO ๋ ํ๊ท RIC ์ฌ์ฉ๋์ PPO ์ ๋น์ทํ๊ฒ ์ ์งํ๋ฉด์, ๋ณ๋ ํญ์ด ๋ ์์ ์ง์ฐ ์ ์ด๊ฐ ๊ฐํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
5.5 ๋ฐฐํฌ ์์ ์ฑ (Fig.โฏ4)
- ํ์ต ํ 30โฏepisode ์ ๋ํ ํ๊ท ๋ณด์ยท์ค๋ฒํค๋ยท๋ง๊ฐ ์ถฉ์กฑ๋ฅ ์ ๋ณด๊ณ ํ๋ค.
- TCโPPO ๋ PPO ์ ๋๋ฑํ ๋ณด์์ ์ ์งํ๋ฉด์, ์ค๋ฒํค๋ ๋ถ์ฐ์ด ์๊ณ ๋ชจ๋ ์ํผ์๋์์ ๋ง๊ฐ ์ถฉ์กฑ๋ฅ = 1 ์ ๋ฌ์ฑํ๋ค.
- DQN ๊ณผ Random ์ ๋ณด์์ด ๋ฎ์ผ๋ฉฐ, DQN ์ ์ต์ ์๋น์ค ํจ๋ํฐ ๋๋ฌธ์ ์์ ์ฌ์ฉ๋์ด TCโPPO ์ ๋น์ทํ์ง๋ง ํจ์ฉ์ด ๋จ์ด์ง๋ค.
5.6 Ablation Study (Fig.โฏ5)
๋ค์ ๋ค ๊ฐ์ง ์์๋ฅผ ๊ฐ๊ฐ ๋นํ์ฑํํ๊ณ ์ฑ๋ฅ์ ํ๊ฐํ๋ค.
| ์คํ | ๋นํ์ฑํ ์์ | ์ฃผ์ ๋ณํ |
|---|---|---|
| (i) | Safety Shield | ํ๊ท ์ค๋ฒํค๋ ๊ฐ์ํ์ง๋ง ๋ณด์ ๊ธ๊ฐ (๊ณต๊ฒฉ์ ์ธ ์ ๋ฐ์ดํธ๋ก ๋ง๊ฐ ์๋ฐ ๋ฐ์) |
| (ii) | Cost Critics (penaltyโonly) | ๋ณด์ ์๋ ด์ ๊ฐ๋ฅํ์ง๋ง ์์ ๋ณ๋์ด ์ปค์ง |
| (iii) | Dual Multipliers ๊ณ ์ | ์ ์ฑ ์ด ๊ณผ๋ํ๊ฒ ๋ณด์์ ์ด ๋์ด ๋ณด์ยท์ค๋ฒํค๋ ๋ชจ๋ ๊ฐ์ |
| (iv) | Shield Fallback Order (LightโFeatโFull) | ๊ฒฝ๋ ์ ๋ฐ์ดํธ๋ฅผ ์ฐ์ ํด ์ค๋ฒํค๋ ๊ฐ์, ๋ณด์์ ๋ค์ ๊ฐ์ |
๊ฒฐ๊ณผ๋ ํ๊ท ์ ์ฝ๊ณผ ์ฆ์ ์คํ ๊ฐ๋ฅ์ฑ์ด ์ํธ ๋ณด์์ ์์ ๋ณด์ฌ์ค๋ค.
6. ๋ ผ์ ๋ฐ ๊ฒฐ๋ก
๋ณธ ์ฐ๊ตฌ๋ ์๊ฐโ์ ํ HITLโRL ์ด ์๋ฏธ ์ ์์ ํ๊ท ยทํ๋ ์โ๋จ์ ์ง์ฐ ์ ์ฝ์ ๋์์ ๋ง์กฑํ๋ฉด์๋ ๋์ ์๋ฏธ ํจ์ฉ์ ๋ฌ์ฑํ ์ ์์์ ์ ์ฆํ๋ค. ๋ค๋ง ๋ช ๊ฐ์ง ๊ฐ์ ยท์ ํ์ด ๋จ์ ์๋ค.
- ํผ๋๋ฐฑ ์ ์ก: ํ์ฌ๋ ์ ๋ขฐ์ฑยท์ ์ง์ฐ uplink ํผ๋๋ฐฑ์ ์ ์ ํ์ผ๋ฉฐ, ์ค์ ํผ์ก ํ๊ฒฝ์์๋ ์ฐ์ ์์ ๋ฒ ์ด๋ฌ, ๊ฒฝ๋ ์์ถ, ์ง์ฐโ์ธ์ ๋ฒํผ๋ง์ด ํ์ํ๋ค.
- ๋จ์ผ ์ : ๋ค์ค ์ ยทํ์ ์ฃ์ง ์๋๋ฆฌ์ค์์ RIC ๊ฐ ์ํธ์์ฉยท๊ณต์ ํ๋ก ํธโํ ์ ํ์ ๊ณ ๋ คํ ํ์ฅ์ด ํ์ํ๋ค.
- ํผ๋๋ฐฑ ์ฐจ์: ํ์ฌ๋ ์ค์นผ๋ผ ์ ํธ๋ง ์ฌ์ฉํ์ง๋ง, ์ ๋ขฐ๋ยท๋ค์ค ์ฐจ์ ํผ๋๋ฐฑ์ ํฌํจํ๋ฉด CMDP ์ํ๊ฐ ๋์ฑ ํ๋ถํด์ง ์ ์๋ค.
ํฅํ ์ฐ๊ตฌ๋ NR ํ ์คํธ๋ฒ ๋์์ ํ๋์จ์ดโ์ธโ๋ฃจํ ๊ฒ์ฆ, ๋ฉํฐโ์ ํ์ ๋ฐ ๋ค์ฐจ์ ์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ์ ๋ชฉํ๋ก ํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ์๊ฐโ์ ํ HITLโRL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ์๋ฏธ ๋ธ๋ก๋์บ์คํ ์ CMDP ๋ก ๋ชจ๋ธ๋งํ ๋ค ํ๋ผ์โ๋์ผ PPO + ์ก์ ์ค๋ ๋ก ํด๊ฒฐํ์๋ค. ์คํ ๊ฒฐ๊ณผ๋ PPO ์์ค์ ๋ณด์์ ์ ์งํ๋ฉด์ ์์ ์ฌ์ฉ์ ๋ณ๋์ฑ์ ํฌ๊ฒ ๊ฐ์์์ผฐ์ผ๋ฉฐ, Ablation ์ ํตํด ๊ฐ ๊ตฌ์ฑ ์์์ ๊ธฐ์ฌ๋๋ฅผ ํ์ธํ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์์น์ ์ธ CMDP ์ ์ด๊ฐ ๋ฐฐํฌ ๊ฐ๋ฅํ, ์ง์ฐโ์ธ์ ์๋ฏธ ํต์ ์ ๊ตฌํํ๋ ์ ๋งํ ๊ฒฝ๋ก์์ ์์ฌํ๋ค.